Kaggle tävlingar: hur och var man ska börja?

Inledning

har jag de kunskaper som krävs för att delta i Kaggle tävlingar?

har du någonsin mött den här frågan? Åtminstone gjorde jag, som en sophomore, när jag brukade frukta Kaggle bara genom att förutse svårighetsgraden den erbjuder. Denna rädsla liknade min rädsla för vatten. Min rädsla för vatten skulle inte tillåta mig att ta upp simlektioner. Men senare lärde jag mig, ”Till det ögonblick du inte går i vatten, kan du inte ta reda på hur djupt det är”. Liknande filosofi gäller Kaggle. Sluta inte förrän du försöker!

Kaggle, hem för datavetenskap, ger en global plattform för tävlingar, kundlösningar och jobb ombord. Här är Kaggle-fångsten, dessa tävlingar får dig inte bara att tänka ur lådan utan erbjuder också en stilig prispengar.

ändå tvekar folk att delta i dessa tävlingar. Här är några viktiga skäl:

  1. de förminskar sin nivå av färdigheter, kunskaper och tekniker som förvärvats.
  2. oavsett deras nivå av färdigheter väljer de problemet som erbjuder högsta prispengar.
  3. de misslyckas med att jämföra sin kompetensnivå med problemets svårighetsgrad.

jag tror, denna fråga utgår för Kaggle själv. Kaggle.com ger inte någon information som kan hjälpa människor att välja den mest lämpliga problemmatchning med sin kompetens. Som ett resultat har det blivit en svår uppgift för nybörjare/intermediärer att bestämma för lämpligt problem att börja.

vad du kommer att lära dig i den här artikeln?

i den här artikeln har vi öppnat dödläget för att välja lämpligt kaggle-problem enligt din uppsättning färdigheter, verktyg & tekniker. Här har vi illustrerat varje kaggle problem med svårighetsgrad och den nivå av kompetens som krävs för att lösa det.

i den senare delen har vi definierat rätt tillvägagångssätt för att ta upp ett kaggle-problem för följande fall:

fall 1 : Jag har en bakgrund av kodning men ny för maskininlärning.

Fall 2 : Jag har varit i analysbranschen i mer än 2 år, men inte bekväm på R/Python

fall 3 : Jag är bra med kodning och maskininlärning, behöver något utmanande att arbeta med

Fall 4 : Jag är nybörjare till både maskininlärning eller kodningsspråk, men jag vill lära mig

lista över Kaggle-problem

Titanic : maskininlärning från katastrof

mål: ett klassiskt populärt problem för att starta din resa med maskininlärning. Du får en uppsättning attribut av passagerare ombord och du måste förutsäga vem som skulle ha överlevt efter fartyget sanked.

svårighetsgrad

a) maskininlärning färdigheter – lätt

b) kodning färdigheter – lätt

c) förvärva domän färdigheter-lätt

d) Tutorials tillgängliga – mycket omfattande

2. Första steget med Julia

mål: Detta är ett problem att identifiera tecken på Google Street view-bild med ett kommande verktyg Julia.

svårighetsgrad på var och en av attributen :

a) Maskininlärningsförmåga – lätt

b) kodningsförmåga – Medium

c) förvärva Domänfärdigheter-lätt

d) handledning tillgänglig – omfattande

Digit Recognizer

mål: du får en data med pixlar på handskrivna siffror och du måste slutgiltigt säga vilken siffra det är. Detta är ett klassiskt problem för Latent Markov modell.

svårighetsgrad på var och en av attributen :

a) Maskininlärningsförmåga – Medium

b) kodningsförmåga – Medium

c) förvärva Domänfärdigheter-lätt

d) handledning tillgänglig – tillgänglig men ingen handhållning

säck med ord möter säck med Popcorn

mål: du får en uppsättning filmrecensioner, och du måste hitta känslan dold i detta uttalande. Syftet med detta problem uttalande är att introducera dig till Google paket – Word2Vec.

det är ett fantastiskt paket som hjälper dig att konvertera ord till en ändlig dimension utrymme. På så sätt kan vi bygga analogier bara titta på vektorn. Ett mycket enkelt exempel är att din algoritm kan ta fram analogier som : King-Male + Female ger dig Drottning.

svårighetsgrad på var och en av attributen :

a) Maskininlärningsförmåga – svårt

b) kodningsförmåga – Medium

c) förvärva Domänfärdigheter-lätt

d) handledning tillgänglig – tillgänglig men ingen handhållning

5. Denoising Smutsiga dokument

mål: du kanske vet om en teknik som kallas OCR. Det konverterar helt enkelt handskrivna dokument till digitala dokument. Det är dock inte perfekt. Ditt jobb här är att använda maskininlärning för att göra det perfekt.

svårighetsgrad på var och en av attributen :

a) Maskininlärningsförmåga – svårt

b) kodningsförmåga – svårt

c) förvärva Domänfärdigheter-svårt

d) handledning tillgänglig – Nej

San Francisco Brottsklassificering

mål: förutsäga kategorin brott som inträffade i staden vid bukten.

svårighetsgrad på var och en av attributen :

a) Maskininlärningsförmåga – mycket svårt

b) kodning färdigheter – mycket svårt

c) förvärva domän färdigheter-svårt

d) handledning tillgänglig – Nej

Taxi bana förutsägelse tid / plats

mål: det finns två problem baserat på samma datamängder. Du får kontrollen av en taxi, och du ska förutsäga var taxin går till eller den tid det tar att slutföra resan.

svårighetsgrad på var och en av attributen :

a) Maskininlärningsförmåga – lätt

b) kodningsförmåga – svårt

c) förvärva Domänfärdigheter-Medium

d) handledning tillgänglig – några benchmarkkoder tillgängliga

Facebook – rekrytering-människa eller bot

mål: om du har en nag för att förstå ett nytt sätt att lära sig domän, du måste lösa den här. Du får budgivningsdata och förväntas klassificera budgivaren till bot eller human. Detta har den rikaste datakällan tillgänglig av alla problem på Kaggle.

svårighetsgrad på var och en av attributen :

a) Maskininlärningsförmåga – Medium

b) kodningsförmåga – Medium

c) förvärva Domänfärdigheter-Medium

d) handledning tillgänglig – inget stöd tillgängligt eftersom det är en rekryteringskonkurrens

OBS: Jag har inte täckt Kaggle-tävlingarna som erbjuder prispengar i den här artikeln eftersom de alla är relaterade till en specifik tävling domän. Låt mig veta din syn på dem i kommentarfältet nedan.

vi kommer nu att se rätt tillvägagångssätt för människor som har olika färdigheter i olika stadier av livet för att starta sin Kaggle-resa!

fall 1: Jag har en bakgrund av kodning men ny för maskininlärning.

Steg 1: den första kaggle problem du bör ta upp är: Taxi bana förutsägelse. Anledningen är att problemet har en komplex dataset som innehåller ett JSON-format i en av kolumnerna som berättar den uppsättning koordinater som taxi har besökt. Om du har möjlighet att bryta ner detta, att få några första uppskattning på målet destination eller tid behöver inte en maskininlärning. Därför kan du använda din kodningsstyrka för att hitta ditt värde i denna bransch.

steg 2: Ditt nästa steg bör vara att ta upp: Titanic. Anledningen är att du nu redan förstår hur man hanterar komplexa dataset. Därför är det nu den perfekta tiden att ta ett skott på rena maskininlärningsproblem. Med överflöd av lösningar / skript tillgängliga kommer du att kunna bygga en bra lösning.

steg 3: Du är nu redo för något stort. Försök Att Rekrytera Facebook. Detta hjälper dig att uppskatta hur understanding domain kan hjälpa dig att få ut det bästa av maskininlärning.

när du har alla dessa bitar på plats är du bra att prova något problem på Kaggle.

Fall 2: Jag har varit i analysindustrin i mer än 2 år, men inte bekväm på R / Python

Steg 1: Du bör börja med att ta ett skott på Titanic. Anledningen är att du redan förstår hur man bygger prediktiv algoritm. Du bör nu sträva efter att lära dig språk som R och Python. Med överflöd av lösningar / skript tillgängliga, kommer du att kunna bygga olika typer av modeller på både R och Python. Detta problem hjälper dig också att förstå några avancerade maskininlärningsalgoritmer.

steg 2: nästa steg bör vara Facebook rekrytering. Anledningen är, med tanke på enkelheten i datastrukturen och innehållets rikedom, kommer du att kunna gå med i rätt tabeller och göra en prediktiv algoritm på den här. Detta hjälper dig också att uppskatta hur understanding domain kan hjälpa dig att få ut det bästa av maskininlärning.

förslag: Du är nu redo för något helt annat än din komfortzon. Läs problem som diabetesretinopati upptäckt, Avinto sammanhang Ad klick, Brottsklassificering och hitta domänen av ditt intresse. Försök nu tillämpa vad du har lärt dig hittills.

nu är det dags att prova något mer komplext att koda. Försök taxi bana förutsägelse eller Denoising Smutsiga dokument. När du har alla dessa bitar på plats kan du nu prova något problem på Kaggle.

fall 3: Jag är bra med kodning och maskininlärning, behöver något utmanande att arbeta med

Steg 1: Du har många alternativ på Kaggle. Första alternativet är behärska ett nytt språk som Julia. Du kan börja med första steget med Julia. Anledningen är att detta ger dig ytterligare exponering för vad Julia kan göra förutom Python eller R.

steg 2: andra alternativet är att utveckla färdigheter med en ytterligare domän. Du kan prova Avito – sammanhang , Sökrelevans eller Facebook-Human vs. Bot.

Fall 4: Jag är nybörjare på både maskininlärning eller kodningsspråk, men jag vill lära mig

Steg 1: Du bör börja din kaggle-resa med Titanic. Anledningen är att det första steget för dig är att lära dig språk som R och Python. Med överflöd av lösningar / skript tillgängliga, kommer du att kunna bygga olika typer av modeller på både R och Python. Detta problem hjälper dig också att förstå några maskininlärningsalgoritmer.

steg 2: Du bör sedan ta upp: Facebook rekrytering. Anledningen är, med tanke på enkelheten i datastrukturen och innehållets rikedom, kommer du att kunna gå med i rätt tabeller och göra en prediktiv algoritm på den här. Detta hjälper dig också att uppskatta hur understanding domain kan hjälpa dig att få ut det bästa av maskininlärning.

när du är klar med dessa kan du sedan ta upp problem enligt ditt intresse.

få hackar för att vara en rättvis konkurrens på Kaggle

Detta är inte en omfattande lista över hackar, men menade att ge dig en bra start. Omfattande lista förtjänar ett nytt inlägg av sig själv:

  1. se till att du skickar in en lösning (även provinlämningen kommer att göra det här jobbet) före det sista anmälningsdatumet, om du vill delta i tävlingen i framtiden.
  2. förstå domänen innan du går vidare till data. Till exempel i bot vs. människa, du måste förstå hur online budgivning plattform fungerar innan du börjar resan med data.
  3. gör din egen utvärderingsalgoritm som kan efterlikna Kaggle-testresultatet. En enkel korsvalidering 10-faldig fungerar i allmänhet bra.
  4. försök att skära ut så många funktioner som möjligt från tågdata – funktionsteknik är vanligtvis den del som driver dig från topp 40 percentilen till topp 10 percentilen.
  5. en enda modell får dig vanligtvis inte i topp 10. Du måste göra många många modeller och ensemble dem tillsammans. Detta kan vara flera modeller med olika algoritmer eller olika uppsättningar variabler.

Slutnoteringar

det finns flera fördelar jag har insett efter att ha arbetat med Kaggle-problem. Jag har lärt mig R / Python i farten. Jag tror att det är det bästa sättet att lära sig detsamma. Också interagera med människor i diskussionsforum om olika problem kommer att hjälpa dig att få en djupare scoop i maskininlärning och domän.

i den här artikeln illustrerade vi olika Kaggle-problem och kategoriserade deras väsentliga attribut i svårighetsgraden. Vi tog också upp olika verkliga fall och framkallade rätt sätt att delta i Kaggle.

har du deltagit i något Kaggle-problem? Såg du några betydande fördelar genom att göra detsamma? Låt oss veta dina tankar om den här guiden i kommentarfältet nedan.

om du gillar det du just läst & vill du fortsätta ditt analysinlärning, prenumerera på våra e-postmeddelanden, Följ oss på twitter eller gilla vår facebook-sida.

du kan också läsa den här artikeln på vår mobilapp

Lämna ett svar

Din e-postadress kommer inte publiceras.