Kaggle konkurrencer: hvordan og hvor skal man begynde?

introduktion

har jeg de nødvendige færdigheder til at deltage i Kaggle konkurrencer?

har du nogensinde konfronteret dette spørgsmål? I det mindste gjorde jeg det, som sophomore, da jeg plejede at frygte Kaggle bare ved at forestille mig det vanskelighedsniveau, det tilbyder. Denne frygt lignede min frygt for vand. Min frygt for vand ville ikke tillade mig at tage op svømning klasser. Men senere lærte jeg, “indtil det øjeblik du ikke træder i vand, kan du ikke finde ud af, hvor dybt det er”. Lignende filosofi gælder for Kaggle. Afslut ikke, før du prøver!

Kaggle, hjemsted for datavidenskab, giver en global platform for konkurrencer, kundeløsninger og jobbræt. Her er Kaggle-fangsten, disse konkurrencer får dig ikke kun til at tænke ud af kassen, men tilbyder også en smuk præmiepenge.

endnu tøver folk med at deltage i disse konkurrencer. Her er nogle vigtige grunde:

  1. de forringer deres niveau af færdigheder, viden og teknikker erhvervet.
  2. uanset deres niveau af færdigheder, de vælger det problem, der tilbyder højeste præmiepenge.
  3. de undlader at tvetydige deres færdighedsniveau med problemets sværhedsgrad.

jeg regner med, dette problem stammer fra Kaggle selv. Kaggle.com giver ikke nogen oplysninger, der kan hjælpe folk med at vælge det mest passende problem, der matcher deres færdighedssæt. Som et resultat er det blevet en vanskelig opgave for begyndere/mellemprodukter at beslutte, om et passende problem skal begynde.

Hvad vil du lære i denne artikel?

i denne artikel har vi åbnet dødvandet for at vælge det passende kaggle-problem i henhold til dit sæt færdigheder, værktøjer & teknikker. Her har vi illustreret hvert kaggle-problem med sværhedsgrad og niveauet af færdigheder, der kræves for at løse det.

i sidstnævnte del har vi defineret den korrekte tilgang til at tage et kaggle-problem op i følgende tilfælde:

sag 1 : Jeg har en baggrund for kodning, men ny til maskinindlæring.

sag 2 : Jeg har været i analyseindustrien i mere end 2 år, men ikke behagelig på R/Python

sag 3 : Jeg er god med kodning og maskinindlæring, har brug for noget udfordrende at arbejde på

sag 4 : Jeg er nybegynder til både maskinindlæring eller kodningssprog, men jeg vil lære

liste over Kaggle-problemer

Titanic : maskinindlæring fra katastrofe

mål: et klassisk populært problem for at starte din rejse med maskinindlæring. Du får et sæt attributter af passagerer ombord, og du skal forudsige, hvem der ville have overlevet efter skibet sanked.

sværhedsgrad

a) Maskinindlæringsevner – let

b) kodningsfærdigheder – let

c) erhvervelse af Domænefærdigheder-let

d) Tutorials tilgængelige – meget omfattende

2. Første skridt med Julia

formål: Dette er et problem at identificere tegn på Google Gadevisningsbillede ved hjælp af et kommende værktøj Julia.

sværhedsgrad på hver af attributterne :

a) machine Learning Skills – Easy

b) Coding skills – Medium

c) erhvervelse domæne færdigheder-Easy

d) Tutorial tilgængelig – omfattende

Digit genkendelse

formål: Du får en data med billedpunkter på håndskrevne cifre, og du skal endegyldigt sige, hvad ciffer er det. Dette er et klassisk problem for Latent Markov model.

sværhedsgrad på hver af attributterne :

a) Machine Learning Skills – Medium

b) Coding skills – Medium

c) erhvervelse af Domænefærdigheder-let

d) Tutorial Tilgængelig – Tilgængelig, men ingen håndhold

taske med ord Mød taske med Popcorn

mål: Du får et sæt filmanmeldelser, og du er nødt til at finde den skjulte følelse i denne erklæring. Formålet med denne problemstilling er at introducere dig til Google pakke – Ord2vec.

det er en fantastisk pakke, som hjælper dig med at konvertere ord til en endelig dimension plads. På denne måde kan vi bygge analogier, der kun ser på vektoren. Et meget simpelt eksempel er, at din algoritme kan frembringe analogier som : King – Male + Female vil give dig Dronning.

sværhedsgrad på hver af attributterne:

a) Maskinindlæringsevner – vanskeligt

b) kodningsfærdigheder – Medium

c) erhvervelse af Domænefærdigheder-let

d) Tutorial Tilgængelig – Tilgængelig, men ingen håndhold

5. Denoising beskidte dokumenter

formål: du ved måske om en teknologi kendt som OCR. Det konverterer simpelthen håndskrevne dokumenter til digitale dokumenter. Det er dog ikke perfekt. Dit job her er at bruge maskinlæring for at gøre det perfekt.

sværhedsgrad på hver af attributterne:

a) Maskinindlæringsevner – vanskeligt

b) kodningsfærdigheder – vanskeligt

c) erhvervelse af Domænefærdigheder-vanskeligt

d) Tutorial tilgængelig – Nej

San Francisco Kriminalitetsklassificering

mål: Forudsig den kategori af forbrydelser, der opstod i byen ved bugten.

sværhedsgrad på hver af attributterne :

a) Maskinindlæringsevner – meget vanskeligt

b) kodningsfærdigheder – meget vanskeligt

c) erhvervelse af Domænefærdigheder-vanskeligt

d) Tutorial tilgængelig – Nej

kørebane Forudsigelsestid / placering

mål: der er to problemer baseret på de samme datasæt, der er. Du får styringen af en bil, og du skal forudsige, hvor bilen skal hen, eller den tid det tager at gennemføre rejsen.

sværhedsgrad på hver af attributterne :

a) Maskinlæringsevner – let

b) kodningsfærdigheder – vanskeligt

c) erhvervelse af Domænefærdigheder-Medium

d) Tutorial tilgængelig – et par benchmarkkoder tilgængelige

Facebook rekruttering – menneske eller bot

mål: hvis du har en nag til at forstå en ny domæne, du er nødt til at løse denne. Du får buddata og forventes at klassificere budgiveren til bot eller human. Dette har den rigeste datakilde til rådighed ud af alle problemer på Kaggle.

sværhedsgrad på hver af attributterne :

a) Machine Learning Skills – Medium

b) Coding skills – Medium

c) erhvervelse af Domænefærdigheder-Medium

d) Tutorial tilgængelig – ingen support tilgængelig, da det er en rekrutteringskonkurrence

Bemærk: Jeg har ikke dækket Kaggle-konkurrencerne, der tilbyder præmiepenge i denne artikel, da de alle er relateret til en bestemt konkurrence, der er Domæne. Lad mig vide din tage på dem i kommentarfeltet nedenfor.

vi vil nu se den rigtige tilgang til folk, der har forskellige sæt færdigheder på forskellige stadier af livet for at starte deres Kaggle-rejse!

sag 1: Jeg har en baggrund for kodning, men ny til maskinindlæring.

Trin 1: det første kaggle-problem, du skal tage op, er: forudsigelse af kørebane. Årsagen er, at problemet har et komplekst datasæt, der inkluderer et JSON-format i en af kolonnerne, der fortæller det sæt koordinater, som vognen har besøgt. Hvis du er i stand til at nedbryde dette, behøver det ikke en maskinindlæring at få et indledende skøn over måldestinationen eller tiden. Derfor kan du bruge din kodningsstyrke til at finde din værdi i denne branche.

Trin 2: Dit næste skridt skal være at tage op: Titanic. Årsagen er, at du nu allerede forstår, hvordan du håndterer komplekse datasæt. Derfor er det nu det perfekte tidspunkt at tage et skud på rene maskinindlæringsproblemer. Med overflod af løsninger / scripts til rådighed, vil du være i stand til at opbygge en god løsning.

Trin 3: Du er nu klar til noget stort. Prøv Facebook Rekruttering. Dette vil hjælpe dig med at forstå, hvordan forståelse af domæne kan hjælpe dig med at få det bedste ud af maskinlæring.

når du har alle disse stykker på plads, er du god til at prøve ethvert problem på Kaggle.

sag 2: Jeg har været i analyseindustrien i mere end 2 år, men ikke behagelig på R / Python

Trin 1: Du skal begynde med at tage et skud på Titanic. Årsag er, du allerede forstår, hvordan man opbygger prædiktiv algoritme. Du bør nu stræbe efter at lære sprog som R og Python. Med overflod af løsninger / scripts til rådighed, vil du være i stand til at bygge forskellige slags modeller på både R og Python. Dette problem vil også hjælpe dig med at forstå et par avancerede maskinlæringsalgoritmer.

Trin 2: Næste trin skal være Facebook rekruttering. Årsagen er, i betragtning af enkelheden i datastrukturen og indholdets rigdom, vil du være i stand til at deltage i rigtige tabeller og lave en forudsigelig algoritme på denne. Dette vil også hjælpe dig med at forstå, hvordan forståelse af domæne kan hjælpe dig med at få det bedste ud af maskinlæring.

forslag: Du er nu klar til noget helt andet end dit komfortområde. Læs problemer som diabetisk retinopati detektion, Avinto kontekst annonce klik, kriminalitet klassificering og find domænet af din interesse. Prøv nu at anvende det, du har lært indtil videre.

nu er det tid til at prøve noget mere komplekst at kode. Prøv forudsigelse af bane eller Denoising beskidte dokumenter. Når du har alle disse stykker på plads, kan du nu prøve ethvert problem på Kaggle.

Case 3: Jeg er god med kodning og maskinindlæring, har brug for noget udfordrende at arbejde på

Trin 1: Du har mange muligheder på Kaggle. Første mulighed er at mestre et nyt sprog som Julia. Du kan starte med første skridt med Julia. Årsagen er, dette vil give dig en ekstra eksponering for, hvad Julia kan gøre ud over Python eller R.

Trin 2: anden mulighed er at udvikle færdigheder med et ekstra domæne. Du kan prøve Avito-kontekst, Søgerelevans eller Facebook – Human vs. Bot.

sag 4: Jeg er nybegynder til både maskinindlæring eller kodningssprog, men jeg vil lære

Trin 1: Du skal begynde din kaggle-rejse med Titanic. Årsagen er, at det første skridt for dig er at lære sprog som R og Python. Med overflod af løsninger / scripts til rådighed, vil du være i stand til at bygge forskellige slags modeller på både R og Python. Dette problem vil også hjælpe dig med at forstå et par maskinlæringsalgoritmer.

Trin 2: Du skal derefter tage op: Facebook rekruttering. Årsagen er, i betragtning af enkelheden i datastrukturen og indholdets rigdom, vil du være i stand til at deltage i rigtige tabeller og lave en forudsigelig algoritme på denne. Dette vil også hjælpe dig med at forstå, hvordan forståelse af domæne kan hjælpe dig med at få det bedste ud af maskinlæring.

når du er færdig med disse, kan du derefter tage op problemer som pr din interesse.

få hacks til at være en fair konkurrence på Kaggle

dette er ikke en omfattende liste over hacks, men beregnet til at give dig en god start. Omfattende liste fortjener et nyt indlæg af sig selv:

  1. sørg for at indsende en løsning (selv prøveindsendelsen vil gøre dette job) inden den sidste indgangsdato, hvis du ønsker at deltage i konkurrencen i fremtiden.
  2. forstå domænet, før du går videre til dataene. For eksempel i bot vs. menneske, skal du forstå, hvordan online budplatform fungerer, før du starter rejsen med data.
  3. Lav din egen evaluering algoritme, som kan efterligne Kaggle test score. En simpel krydsvalidering 10 gange fungerer generelt fint.
  4. prøv at skære så mange funktioner som muligt ud af togdataene – funktionsteknik er normalt den del, der skubber dig fra top 40 percentil til top 10 percentil.
  5. en enkelt model får dig generelt ikke i top 10. Du skal lave mange mange modeller og ensemble dem sammen. Dette kan være flere modeller med forskellige algoritmer eller forskellige sæt variabler.

slutnoter

der er flere fordele, jeg har indset efter at have arbejdet med Kaggle-problemer. Jeg har lært R / Python i farten. Jeg tror, det er den bedste måde at lære det samme på. Også interagere med folk i diskussionsforum om forskellige problemer vil hjælpe dig med at få en dybere scoop i machine learning og domæne.

i denne artikel illustrerede vi forskellige Kaggle-problemer og kategoriserede deres væsentlige egenskaber i sværhedsgraden. Vi tog også forskellige virkelige sager op og fremkaldte den rigtige tilgang til at deltage i Kaggle.

har du deltaget i noget Kaggle problem? Så du nogen væsentlige fordele ved at gøre det samme? Lad os vide dine tanker om denne vejledning i kommentarfeltet nedenfor.

hvis du kan lide det, du lige har læst & vil fortsætte din analytics-læring, abonnere på vores e-mails, Følg os på kvidre eller lide vores facebook-side.

du kan også læse denne artikel på vores mobilapp

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.