Kaggle Konkurranser: Hvordan og hvor du skal begynne?

Innledning

har jeg de nødvendige ferdighetene til å delta i Kaggle-Konkurranser?

har du noen gang møtt dette spørsmålet? I det minste gjorde jeg, som en sophomore, da jeg pleide å frykte Kaggle bare ved å se for seg vanskelighetsgraden det tilbyr. Denne frykten var lik min frykt for vann. Min frykt for vann ville ikke tillate meg å ta opp svømmekurs. Selv om jeg senere lærte, «Til det øyeblikket du ikke går inn i vannet, kan du ikke finne ut hvor dypt det er». Lignende filosofi gjelder For Kaggle. Ikke avslutt før du prøver!

kaggle, hjemmet til datavitenskap, gir en global plattform for konkurranser, kundeløsninger og jobbbrett. Her Er Kaggle-fangsten, disse konkurransene får deg ikke bare til å tenke ut av boksen, men tilbyr også en kjekk premiepenger.

likevel nøler folk med å delta i disse konkurransene. Her er noen viktige grunner:

  1. de bagatelliserer deres nivå av ferdigheter, kunnskap og teknikker ervervet.
  2. uavhengig av deres ferdighetsnivå, velger de problemet som tilbyr høyeste premiepenger.
  3. de klarer ikke å likestille deres ferdighetsnivå med problemets vanskelighetsgrad.

jeg regner med at dette problemet utgår For Kaggle selv. Kaggle.com gir ikke noen informasjon som kan hjelpe folk til å velge den mest passende problem matching med sine ferdigheter. Som et resultat har det blitt en vanskelig oppgave for nybegynnere / mellomprodukter å bestemme seg for passende problem å begynne.

Hva vil du lære i denne artikkelen?

i denne artikkelen har vi åpnet vranglås for å velge riktig kaggle problem i henhold til ditt sett av ferdigheter, verktøy & teknikker . Her har vi illustrert hvert kaggle-problem med vanskelighetsgrad og nivået på ferdigheter som kreves for å løse det.

i siste del har vi definert riktig tilnærming til å ta opp et kaggle-problem for følgende tilfeller:

Sak 1: jeg har En Bakgrunn Av Koding, men ny for maskinlæring.

Tilfelle 2 : Jeg har vært i analyseindustrien i mer enn 2 år, men ikke komfortabel På R/Python

Sak 3 : jeg er god med koding Og maskinlæring, trenger noe utfordrende å jobbe med

Sak 4 : jeg er nybegynner til både maskinlæring eller kodespråk, men jeg vil lære

Liste Over Kaggle-Problemer

Titanic : Maskinlæring fra katastrofe

mål: et klassisk Populært problem for å starte reisen med maskinlæring. Du får et sett med attributter av passasjerer ombord, og du må forutsi hvem som ville ha overlevd etter at skipet sank.

Vanskelighetsgrad

a) Maskinlæring Ferdigheter-Lett

b) Koding ferdigheter-Lett

c) Anskaffe Domene Ferdigheter-Lett

d) Tutorials tilgjengelig – svært omfattende

2. Første Trinn Med Julia

Mål: Dette er et problem å identifisere tegn På Google Street view-bilde ved hjelp av et kommende verktøy Julia.

Vanskelighetsgrad på hver av attributtene :

a) Maskinlæring Ferdigheter-Lett

b) Koding ferdigheter-Medium

c) Anskaffe Domene Ferdigheter-Lett

d) Tutorial tilgjengelig-Omfattende

Digit Recognizer

Mål: du får en data med piksler på håndskrevne sifre, og du må endelig si hva siffer er det. Dette er et klassisk problem For Latent Markov-modell.

Vanskelighetsgrad på hver av attributtene :

a) Maskinlæring Ferdigheter – Medium

b) Koding ferdigheter – Medium

c) Anskaffe Domene Ferdigheter-Lett

d) Tutorial tilgjengelig-Tilgjengelig, Men ingen hånd holder

Pose Med Ord møte Pose Med Popcorn

Mål: du får et sett med filmanmeldelser, og Du må finne følelser skjult i denne uttalelsen. Målet med denne problemstillingen er å introdusere Deg Til Google Package-Word2Vec.

Det er en fantastisk pakke som hjelper deg konvertere ord til en endelig dimensjon plass. På denne måten kan vi bygge analogier bare se på vektoren. Et veldig enkelt eksempel er at algoritmen din kan bringe ut analogier som: King-Male + Female vil gi Deg Queen.

Vanskelighetsgrad på hver av attributtene:

a) Maskinlæringsferdigheter-Vanskelig

b) Koding ferdigheter-Medium

c) Anskaffelse Domene Ferdigheter-Lett

d) Tutorial tilgjengelig – Tilgjengelig, Men ingen hånd holder

5. Denoising Skitne Dokumenter

Mål: Du vet kanskje om en teknologi som kalles OCR. Den konverterer bare håndskrevne dokumenter til digitale dokumenter. Det er imidlertid ikke perfekt. Din jobb her er å bruke maskinlæring for å gjøre det perfekt.

Vanskelighetsgrad på hver av attributtene:

a) Maskinlæring Ferdigheter-Vanskelig

b) Koding ferdigheter-Vanskelig

c) Anskaffe Domene Ferdigheter-Vanskelig

d) Tutorial tilgjengelig – Nei

San Francisco Kriminalitet Klassifisering

Mål: Forutsi kategorien av forbrytelser som skjedde i byen ved bukten.

Vanskelighetsgrad på hver av attributtene:

a) Maskinlæringsferdigheter-Veldig Vanskelig

b) Koding ferdigheter-Veldig Vanskelig

c) Anskaffe Domene Ferdigheter-Vanskelig

d) Tutorial tilgjengelig-Nei

Taxi Bane Prediksjon Tid / Sted

Mål: det er to problem basert på de samme datasettene. Du får kontrolleren til en taxi, og du skal forutsi hvor drosjen skal eller tiden det tar å fullføre reisen.

Vanskelighetsgrad på hver av attributtene :

a) Maskinlæringsferdigheter – Lett

b) Koding ferdigheter – Vanskelig

c) Anskaffelse Domene Ferdigheter-Medium

d) Tutorial tilgjengelig – noen benchmark koder tilgjengelig

Facebook Rekruttering – Menneske eller bot

Mål: Hvis du har en maser å forstå en ny Domene, du må løse denne. Du får buddata og forventes å klassifisere budgiver til bot eller menneske. Dette har den rikeste datakilden tilgjengelig ut av alle problemer På Kaggle.

Vanskelighetsgrad på hver av attributtene :

a) Machine Learning Skills – Medium

b) Koding ferdigheter – Medium

c) Anskaffe Domene Ferdigheter-Medium

d) Tutorial tilgjengelig – ingen støtte tilgjengelig som det er en rekrutteringskonkurranse

Merk: Jeg har ikke dekket kaggle konkurranser som tilbyr premiepenger i denne artikkelen som de er alle relatert til en bestemt Domene. Gi meg beskjed om å ta på dem i kommentarfeltet nedenfor.

Vi vil nå se den riktige tilnærmingen for folk som har forskjellig sett med ferdigheter på ulike stadier av livet for å starte Sin kaggle-reise!

Sak 1: jeg har En Bakgrunn Av Koding, men ny til maskinlæring.

Trinn 1: det første kaggle-problemet du bør ta opp er: Taxi Trajectory Prediction. Årsaken er at problemet har et komplekst datasett som inneholder ET json-format i en av kolonnene som forteller settet med koordinater taxi har besøkt. Hvis du er i stand til å bryte dette ned, trenger du ikke en maskinlæring å få noe innledende estimat på måldestinasjon eller tid. Derfor kan du bruke kodestyrken din til å finne verdien din i denne bransjen.

Trinn 2: ditt neste skritt bør være Å ta Opp: Titanic. Årsaken er at du nå allerede forstår hvordan du håndterer komplekse datasett. Derfor er nå den perfekte tiden til å ta et skudd på rene maskinlæringsproblemer. Med overflod av løsninger / skript tilgjengelig, vil du kunne bygge en god løsning.

Trinn 3: Du er nå klar for noe stort. Prøv Facebook Rekruttering. Dette vil hjelpe deg å sette pris på hvordan forstå domene kan hjelpe deg med å få det beste ut av maskinlæring.

når du har alle disse brikkene på plass, er du god til å prøve noe problem På Kaggle.

Sak 2: jeg har vært i analysebransjen i mer enn 2 år, men ikke komfortabel På R / Python

Trinn 1: Du bør begynne med Å ta et skudd På Titanic. Årsaken er at du allerede forstår hvordan du bygger prediktiv algoritme. Du bør nå strebe etter å lære språk Som R og Python. Med overflod av løsninger / skript tilgjengelig, vil du kunne bygge forskjellige typer modeller på Både R og Python. Dette problemet vil også hjelpe deg å forstå noen avanserte maskinlæringsalgoritmer.

Trinn 2: Neste trinn bør Være Facebook Rekruttering. Årsaken er, gitt enkelheten i datastrukturen og innholdets rikdom, vil du kunne bli med i riktige tabeller og lage en prediktiv algoritme på denne. Dette vil også hjelpe deg å sette pris på hvordan forstå domene kan hjelpe deg med å få det beste ut av maskinlæring.

Forslag: Du er nå klar for noe helt annet enn din komfortsone. Les problemer Som Diabetisk Retinopati Deteksjon, Avinto Kontekst Annonseklikk, Kriminalitet Klassifisering og finne domenet av interesse. Prøv nå å bruke det du har lært så langt.

nå er det på tide å prøve noe mer komplisert å kode. Prøv Taxi Bane prediksjon eller Denoising Skitne Dokumenter. Når du har alle disse brikkene på plass, kan du nå prøve noe problem På Kaggle.

Sak 3: jeg er god med koding og maskinlæring, trenger noe utfordrende å jobbe med

Trinn 1: Du har mange alternativer på Kaggle. Første alternativet er å mestre et nytt språk som Julia. Du kan starte Med Første skritt Med Julia. Årsaken er at dette vil gi deg en ekstra eksponering for Hva Kan Julia gjøre i Tillegg Til Python eller R.

Trinn 2: Andre alternativet er å utvikle ferdigheter med et ekstra domene. Du kan prøve Avito Kontekst, Søk Relevans Eller Facebook-Human vs. Bot.

Sak 4: jeg er nybegynner til både maskinlæring eller kodespråk, men jeg vil lære

Trinn 1: Du bør begynne din kaggle-reise Med Titanic. Årsaken er at det første trinnet for deg er å lære språk Som R og Python. Med overflod av løsninger / skript tilgjengelig, vil du kunne bygge forskjellige typer modeller på Både R og Python. Dette problemet vil også hjelpe deg å forstå noen maskinlæringsalgoritmer.

Trinn 2: Du bør da ta opp: Facebook Rekruttering. Årsaken er, gitt enkelheten i datastrukturen og innholdets rikdom, vil du kunne bli med i riktige tabeller og lage en prediktiv algoritme på denne. Dette vil også hjelpe deg å sette pris på hvordan forstå domene kan hjelpe deg med å få det beste ut av maskinlæring.

Når du Er ferdig med disse, kan du deretter ta opp problemer som per din interesse.

Få hack å være en rettferdig konkurranse På Kaggle

Dette Er ikke en omfattende liste over hack, men ment å gi deg en god start. Omfattende liste fortjener et nytt innlegg av seg selv:

  1. Sørg for at du sender inn en løsning (selv prøveinnsendelsen vil gjøre denne jobben) før siste påmeldingsdato, hvis du ønsker å delta i konkurransen i fremtiden.
  2. Forstå domenet før du går videre til dataene. For eksempel i bot vs menneske, må du forstå hvordan online budgivningsplattform fungerer før du starter reisen med data.
  3. Lag din egen evalueringsalgoritme som kan etterligne kaggle testresultatet. En enkel kryssvalidering 10 ganger fungerer generelt bra.
  4. Prøv å skjære ut så mange funksjoner som mulig fra toget data-funksjonen engineering er vanligvis den delen som skyver deg fra topp 40 persentil til topp 10 persentil.
  5. en enkelt modell får vanligvis ikke deg i topp 10. Du må lage mange mange modeller og ensemble dem sammen. Dette kan være flere modeller med forskjellige algoritmer eller forskjellige sett med variabler.

Sluttnotater

Det er flere fordeler jeg har innsett etter å ha jobbet med kaggle-problemer. Jeg har lært R / Python på fluen. Jeg tror det er den beste måten å lære det samme. Også samspill med folk i diskusjonsforum på ulike problemer vil hjelpe deg å få en dypere scoop i maskinlæring og domene.

i denne artikkelen illustrerte vi ulike kaggle-problemer og kategoriserte deres essensielle egenskaper i vanskelighetsgraden. Vi tok også opp ulike virkelige saker og fremkalte riktig tilnærming til å delta I Kaggle.

har du deltatt i Noen kaggle problem? Så du noen betydelige fordeler ved å gjøre det samme? Gi oss beskjed om dine tanker om denne veiledningen i kommentarfeltet nedenfor.

hvis du liker det du nettopp har lest & vil du fortsette analyselæringen din, abonnere på e-postene våre, følg oss på twitter eller lik vår facebook-side.

du kan også lese denne artikkelen på Vår Mobile APP

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.