Kaggle Competities: hoe en waar te beginnen?

Inleiding

heb ik de nodige vaardigheden om deel te nemen aan Kaggle-Competities?

stond u ooit voor deze vraag? Dat deed ik tenminste, als tweedejaars, toen ik Kaggle vreesde alleen maar door de moeilijkheidsgraad te overwegen die het biedt. Deze angst was vergelijkbaar met mijn angst voor water. Mijn angst voor water zou me niet toestaan om zwemlessen te nemen. Maar later leerde ik: “tot het moment dat je niet in het water stapt, kun je niet zien hoe diep het is”. Dezelfde filosofie geldt voor Kaggle. Niet afsluiten totdat je het probeert!

Kaggle, de thuisbasis van data science, biedt een wereldwijd platform voor wedstrijden, klantoplossingen en job board. Hier is de Kaggle vangst, deze wedstrijden niet alleen je denken out of the box, maar biedt ook een mooi prijzengeld.

toch aarzelen mensen om aan deze vergelijkende onderzoeken deel te nemen. Hier zijn enkele belangrijke redenen:

  1. ze kleineren hun niveau van vaardigheden, kennis en technieken die ze hebben verworven.
  2. ongeacht hun niveau van vaardigheden, kiezen zij het probleem met het hoogste prijzengeld.
  3. hun vaardigheidsniveau wordt niet bepaald door de moeilijkheidsgraad van het probleem.

ik denk dat dit probleem uitgaat naar Kaggle zelf. Kaggle.com biedt geen informatie die mensen kan helpen om de meest geschikte probleem matching met hun vaardigheden te kiezen. Als gevolg daarvan is het voor beginners/tussenpersonen een zware taak geworden om te beslissen of een geschikt probleem moet beginnen.

wat leert u in dit artikel?

In dit artikel hebben we de impasse van het kiezen van de juiste Kaggle probleem op basis van uw set van vaardigheden, tools & technieken geopend. Hier hebben we elk kaggle probleem geïllustreerd met de moeilijkheidsgraad en het niveau van de vaardigheden die nodig zijn om het op te lossen.

in het laatste deel hebben we de juiste aanpak gedefinieerd om een kaggle probleem aan te pakken voor de volgende gevallen:

geval 1 : Ik heb een achtergrond van coderen, maar nieuw in machine learning.

zaak 2 : Ik heb in google analytics-Industrie voor meer dan 2 jaar, maar niet comfortabel op R/Python

punt 3 : ik ben goed met codering en machine learning, moet er iets een uitdaging om te werken op

Case 4 : ik ben een newbie op beide machine learning of codering taal, maar ik wil om te leren

Lijst van Kaggle Problemen

Titanic : Machine Learning van ramp

Doel: Een klassieke populaire probleem om uw reis te beginnen met machine learning. Je krijgt een aantal kenmerken van passagiers aan boord en je moet voorspellen wie zou hebben overleefd nadat het schip gezonken.

moeilijkheidsgraad

a) Machine Learning Skills – Easy

b) Coding skills – Easy

c) Acquiring Domain Skills-Easy

d) Tutorials beschikbaar – Very comprehensive

2. Eerste stap met Julia

doelstelling: Dit is een probleem om tekens op Google Street view picture te identificeren met behulp van een aankomende tool Julia.

moeilijkheidsgraad op elk van de attributen :

a) Machine Learning Skills – Easy

b) Coding skills – Medium

c) Acquiring Domain Skills-Easy

d) Tutorial available – Comprehensive

Digit Recognizer

doelstelling: u krijgt een data met pixels op handgeschreven cijfers en u moet met zekerheid zeggen welk cijfer het is. Dit is een klassiek probleem voor Latent Markov model.

moeilijkheidsgraad op elk van de attributen :

a) Machine Learning – Medium

b) codeervaardigheden – Medium

c) verwerven van Domeinvaardigheden-gemakkelijk

d) Tutorial beschikbaar – beschikbaar maar geen hand vasthouden

zak woorden ontmoet zak Popcorn

doelstelling: u krijgt een reeks filmrecensies, en u moet het sentiment vinden dat in deze verklaring verborgen is. Het doel van deze probleemverklaring is om u kennis te laten maken met Google Package – Word2Vec.

het is een fantastisch pakket dat u helpt woorden om te zetten in een eindige dimensie ruimte. Op deze manier kunnen we analogieën bouwen die alleen naar de vector kijken. Een heel eenvoudig voorbeeld is dat uw algoritme analogieën zoals kan brengen: koning-man + vrouw geeft u Koningin.

moeilijkheidsgraad voor elk van de attributen:

a) Machine Learning Skills – Difficult

b) codering skills – Medium

c) verwerven domein Skills-Easy

d) Tutorial beschikbaar – beschikbaar maar geen hand vasthouden

5. Het verwijderen van vuile documenten

doelstelling: u kent mogelijk een technologie die bekend staat als OCR. Het zet eenvoudig handgeschreven documenten om naar digitale documenten. Het is echter niet perfect. Jouw taak hier is om machine learning te gebruiken om het perfect te maken.

moeilijkheidsgraad voor elk van de attributen :

A) Machine Learning Skills – Difficult

b) Coding skills – Difficult

c) Acquiring Domain Skills-Difficult

d) Tutorial beschikbaar – No

San Francisco Crime Classification

doelstelling: voorspel de categorie misdaden die zich in de stad bij de baai hebben voorgedaan.

moeilijkheidsgraad voor elk van de attributen :

A) Machine Learning Skills – Very Difficult

b) coding skills – Very Difficult

c) Acquiring Domain Skills-Difficult

d) Tutorial beschikbaar – No

Taxitraject voorspelling tijd / locatie

doelstelling: er zijn twee problemen op basis van dezelfde datasets. Je krijgt de controller van een taxi, en je wordt verondersteld om te voorspellen waar de taxi naar toe gaat of de tijd die het zal duren om de reis te voltooien.

moeilijkheidsgraad voor elk van de attributen:

a) Machine Learning Skills – Easy

b) codering skills – Difficult

c) Acquiring Domain Skills-Medium

d) Tutorial Beschikbaar – enkele benchmarkcodes beschikbaar

Facebook Recruiting – Human or bot

doelstelling: als u een zeur hebt om een nieuw domein te begrijpen, moet u dit oplossen. U krijgt de biedgegevens en wordt verwacht dat u de bieder classificeert aan bot of Mens. Dit heeft de rijkste gegevensbron beschikbaar uit alle problemen op Kaggle.

moeilijkheidsgraad voor elk van de attributen:

A) Machine Learning Skills – Medium

b) codering skills – Medium

c) Acquiring Domain Skills-Medium

d) Tutorial beschikbaar – Geen ondersteuning beschikbaar omdat het een wervingswedstrijd is

opmerking: Ik heb de Kaggle wedstrijden die prijzengeld aanbieden in dit artikel niet behandeld omdat ze allemaal gerelateerd zijn aan een specifiek domein. Laat me weten uw mening over hen in de commentaar hieronder.

we zullen nu kijken naar de juiste aanpak voor mensen met verschillende vaardigheden in verschillende stadia van het leven om hun Kaggle reis te beginnen!

Case 1: Ik heb een achtergrond van coderen, maar nieuw voor machine learning.

Stap 1: het eerste kaggle probleem dat u moet aanpakken is: Taxitrajectvoorspelling. Reden is dat het probleem een complexe dataset heeft die een JSON-indeling bevat in een van de kolommen die de set coördinaten aangeeft die de taxi heeft bezocht. Als u in staat bent om dit af te breken, het krijgen van een eerste schatting op doelbestemming of tijd niet een machine learning nodig. Vandaar, kunt u uw codering kracht gebruiken om uw waarde in deze industrie te vinden.

Stap 2: uw volgende stap zou moeten zijn: Titanic. Reden is dat je nu al begrijpt hoe je complexe datasets moet verwerken. Vandaar, nu is de perfecte tijd om een schot op pure machine learning problemen te nemen. Met een overvloed aan oplossingen / scripts beschikbaar, zult u in staat om een goede oplossing te bouwen.

Stap 3: U bent nu klaar voor iets groots. Probeer Facebook Recruiting. Dit zal u helpen waarderen hoe understanding domain u kan helpen het beste uit machine learning te halen.

zodra je al deze stukken op hun plaats hebt, ben je goed om elk probleem op Kaggle te proberen.

Case 2: Ik zit al meer dan 2 jaar in de analytics industrie, maar ik voel me niet op mijn gemak bij R / Python

Stap 1: Je moet beginnen met het nemen van een shot op Titanic. Reden is dat je al begrijpt hoe je een voorspellend algoritme kunt bouwen. Je moet er nu naar streven om talen zoals R en Python te leren. Met een overvloed aan oplossingen / scripts beschikbaar, zult u in staat om verschillende soorten modellen op zowel R en Python te bouwen. Dit probleem zal u ook helpen begrijpen een paar geavanceerde machine learning algoritmen.

Stap 2: De volgende stap zou Facebook-werving moeten zijn. Reden is, gezien de eenvoud van de gegevensstructuur en de rijkdom van de inhoud, zult u in staat zijn om de juiste tabellen aan te sluiten en een voorspellend algoritme op deze te maken. Dit zal u ook helpen waarderen hoe understanding domain u kan helpen het beste uit machine learning te halen.

suggesties: Je bent nu klaar voor iets heel anders dan je comfortzone. Lees problemen zoals diabetische retinopathie detectie, Avinto Context advertentie klikken, misdaad classificatie en vind het domein van uw interesse. Probeer nu toe te passen wat je tot nu toe hebt geleerd.

nu is het tijd om iets complexer te coderen. Probeer Taxi Trajectvoorspelling of het Denoiseren van vuile documenten. Zodra je al deze stukken op hun plaats hebt, kun je nu elk probleem op Kaggle proberen.

Case 3: Ik ben goed met coderen en machine learning, heb iets uitdagends nodig om aan

te werken Stap 1: Je hebt veel opties op Kaggle. De eerste optie is het beheersen van een nieuwe taal als Julia. Je kunt beginnen met de eerste stap met Julia. Reden is, dit geeft u een extra blootstelling aan wat Julia kan doen in aanvulling op Python of R.

Stap 2: tweede optie is om vaardigheden te ontwikkelen met een extra domein. Je kunt Avito Context , Zoekrelevantie of Facebook – Human vs. Bot proberen.

Case 4: Ik ben een beginner in zowel machine learning als coding taal, maar Ik wil

leren stap 1: Je moet je Kaggle reis beginnen met Titanic. Reden is, de eerste stap voor u is om talen te leren zoals R en Python. Met een overvloed aan oplossingen / scripts beschikbaar, zult u in staat om verschillende soorten modellen op zowel R en Python te bouwen. Dit probleem zal u ook helpen begrijpen een paar machine learning algoritmen.

Stap 2: U moet dan beginnen met: Facebook Recruiting. Reden is, gezien de eenvoud van de gegevensstructuur en de rijkdom van de inhoud, zult u in staat zijn om de juiste tabellen aan te sluiten en een voorspellend algoritme op deze te maken. Dit zal u ook helpen waarderen hoe understanding domain u kan helpen het beste uit machine learning te halen.

zodra u klaar bent met deze, kunt u vervolgens problemen opnemen volgens uw interesse.

weinig hacks om een eerlijke wedstrijd te zijn op Kaggle

Dit is geen uitgebreide lijst van hacks, maar bedoeld om u een goede start te geven. Uitgebreide lijst verdient een nieuwe post op zichzelf:

  1. zorg ervoor dat u een oplossing (zelfs de sample indiening zal dit werk doen) voor de laatste inschrijfdatum, als u wilt deelnemen aan de wedstrijd in de toekomst.
  2. begrijp het domein voordat u naar de gegevens gaat. Bijvoorbeeld in de bot vs. mens, je nodig hebt om te begrijpen hoe online bieden platform werkt voordat u de reis met gegevens te beginnen.
  3. maak uw eigen evaluatiealgoritme dat de Kaggle – testscore kan nabootsen. Een eenvoudige kruisvalidatie 10-voudig werkt over het algemeen prima.
  4. probeer zoveel mogelijk functies uit de treingegevens te halen – feature engineering is meestal het deel dat je van top 40 percentiel naar top 10 percentiel duwt.
  5. met een enkel model kom je over het algemeen niet in de top 10. Je moet vele vele modellen te maken en ensemble ze samen. Dit kan meerdere modellen met verschillende algoritmen of verschillende set van variabelen zijn.

End Notes

er zijn meerdere voordelen die ik heb gerealiseerd na het werken aan Kaggle problemen. Ik heb R / Python op de vlieg geleerd. Ik geloof dat dat de beste manier is om hetzelfde te leren. Ook interactie met mensen van discussieforum over verschillende problemen zal u helpen een diepere primeur in machine learning en domein te krijgen.

In dit artikel hebben we verschillende Kaggle problemen geïllustreerd en hun essentiële attributen gecategoriseerd in de moeilijkheidsgraad. We namen ook verschillende real life cases en we lokten de juiste aanpak om deel te nemen aan Kaggle.

hebt u deelgenomen aan een Kaggle-probleem? Zag je significante voordelen door hetzelfde te doen? Laat ons weten wat uw gedachten over deze gids in de commentaren hieronder.

als je het leuk vindt wat je net hebt gelezen & wil je verder leren met analytics, abonneer je op onze e-mails, volg ons op twitter of vind onze facebook-pagina leuk.

u kunt dit artikel ook lezen op onze mobiele APP

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.