competițiile Kaggle: cum și de unde să începem?

Introducere

am abilitățile necesare pentru a participa la competițiile Kaggle?

v-ați confruntat vreodată cu această întrebare? Cel puțin am făcut-o, ca un al doilea de studentie, atunci când am folosit să se teamă Kaggle doar prin având în vedere nivelul de dificultate pe care îl oferă. Această frică era similară cu frica mea de apă. Frica mea de apă nu mi-ar permite să iau cursuri de înot. Deși, mai târziu am învățat, „până în momentul în care nu pas în apă, nu se poate face din cât de adânc este”. O filozofie similară se aplică lui Kaggle. Nu încheia până nu încerci!

Kaggle, casa științei datelor, oferă o platformă globală pentru competiții, soluții pentru clienți și bord de locuri de muncă. Iată captura Kaggle, aceste competiții nu numai că te fac să gândești din cutie, dar oferă și un premiu frumos în bani.

cu toate acestea, oamenii ezită să participe la aceste competiții. Iată câteva motive majore:

  1. își diminuează nivelul de abilități, cunoștințe și tehnici dobândite.
  2. indiferent de nivelul lor de seturi de competențe, ei aleg problema oferind cel mai mare premiu în bani.
  3. nu reușesc să-și echivoce nivelul de calificare stabilit cu nivelul de dificultate al problemei.

recunosc, această problemă emană pentru Kaggle în sine. Kaggle.com nu oferă nici o informație care poate ajuta oamenii să aleagă problema cea mai potrivită de potrivire cu setul lor de calificare. Ca urmare, a devenit o sarcină dificilă pentru începători/intermediari să decidă pentru a începe o problemă adecvată.

ce veți învăța în acest articol?

în acest articol, am deschis impasul alegerii problemei Kaggle corespunzătoare în funcție de setul dvs. de abilități, instrumente & tehnici. Aici, am ilustrat fiecare problemă kaggle cu nivelul de dificultate și nivelul de abilități necesare pentru ao rezolva.

în ultima parte, am definit abordarea corectă pentru a aborda o problemă kaggle pentru următoarele cazuri:

cazul 1 : Am un fundal de codare, dar nou pentru învățarea automată.

Cazul 2 : Am fost în industria de analiză pentru mai mult de 2 ani, dar nu confortabil pe R/Python

Cazul 3 : sunt bun cu codificare și mașină de învățare, au nevoie de ceva provocator pentru a lucra la

Cazul 4 : sunt un începător atât de învățare mașină sau limbaj de codificare, dar vreau să învăț

lista problemelor Kaggle

Titanic : mașină de învățare de la dezastru

obiectiv: o problemă populară clasică pentru a începe călătoria cu învățarea automată. Vi se oferă un set de atribute ale pasagerilor la bord și aveți nevoie pentru a prezice cine ar fi supraviețuit după ce nava sanked.

nivel de dificultate

a) abilități de învățare automată – Ușor

b) Abilități de codificare – ușor

c) dobândirea abilităților de domeniu-ușor

d) tutoriale disponibile – foarte cuprinzătoare

2. Primul pas cu Julia

obiectiv: aceasta este o problemă pentru a identifica caractere pe Google Street view imagine folosind un instrument viitoare Julia.

nivel de dificultate pe fiecare dintre atributele :

a) Machine Learning Skills – Easy

b) Coding skills – Medium

c) dobândirea competențelor de domeniu-Easy

d) Tutorial disponibil – Comprehensive

Digit Recognizer

obiectiv: vi se oferă date cu pixeli pe cifre scrise de mână și trebuie să spuneți în mod concludent ce cifră este. Aceasta este o problemă clasică pentru modelul Markov Latent.

nivel de dificultate pe fiecare dintre atributele :

a) abilități de învățare automată – Mediu

b) Abilități de codificare – Mediu

c) dobândirea abilităților de domeniu-ușor

d) Tutorial disponibil – disponibil, dar fără mână

sac de cuvinte meet sac de Popcorn

obiectiv: vi se oferă un set de recenzii de filme și trebuie să găsiți sentimentul ascuns în aceste declarații. Obiectivul acestei declarații problemă este să vă prezint Pachetul Google-Word2Vec.

este un pachet fantastic care vă ajută să convertiți cuvintele într-un spațiu de dimensiuni finite. În acest fel putem construi analogii doar uitându-ne la vector. Un exemplu foarte simplu este că algoritmul dvs. poate scoate analogii precum: King – Male + Female vă va oferi Queen.

nivel de dificultate pe fiecare dintre atributele:

a) Machine Learning Skills – dificil

B) codificare skills – Mediu

c) dobândirea de competențe domeniu-ușor

d) Tutorial disponibil – disponibil, dar nici o mână exploatație

5. Denoising documente murdare

obiectiv: s-ar putea să știți despre o tehnologie cunoscută sub numele de OCR. Pur și simplu convertește documentele scrise de mână în documente digitale. Cu toate acestea, nu este perfect. Treaba ta aici este să folosești învățarea automată pentru a o face perfectă.

nivel de dificultate pe fiecare dintre atributele:

a) abilități de învățare mașină – dificil

B) Abilități de codificare – dificil

c) dobândirea de competențe domeniu-dificil

d) Tutorial disponibil – nu

San Francisco Clasificarea criminalității

obiectiv: prezice categoria de infracțiuni care au avut loc în oraș de golf.

nivel de dificultate pe fiecare dintre atributele:

a) abilități de învățare mașină – foarte dificil

B) Abilități de codificare – foarte dificil

c) dobândirea de competențe domeniu-dificil

d) Tutorial disponibil – nu

taxi traiectorie predicție timp / locație

obiectiv: există două probleme bazate pe aceleași seturi de date. Vi se oferă controlorul unui taxi și ar trebui să preziceți unde merge taxiul sau timpul necesar pentru a finaliza călătoria.

nivel de dificultate pe fiecare dintre atributele :

a) abilități de învățare mașină – ușor

B) Abilități de codificare – dificil

c) dobândirea de competențe domeniu-Mediu

d) Tutorial disponibil – câteva coduri de referință disponibile

Facebook recrutare – umane sau bot

obiectiv: dacă aveți un nag pentru a înțelege o nouă Domain, trebuie să rezolvi asta. Vi se oferă datele de licitare și se așteaptă să clasificați ofertantul la bot sau la om. Aceasta are cea mai bogată sursă de date disponibilă din toate problemele de pe Kaggle.

nivel de dificultate pe fiecare dintre atributele :

a) Machine Learning Skills – Medium

B) Coding skills – Medium

c) dobândirea de competențe de domeniu-Medium

d) Tutorial disponibil – nici un suport disponibil, deoarece este un concurs de recrutare

notă: nu am acoperit concursurile Kaggle care oferă premii în bani în acest articol, deoarece toate sunt legate de domeniu specific. Spuneți-mi părerea dvs. despre ele în secțiunea de comentarii de mai jos.

vom căuta acum abordarea corectă pentru persoanele care au un set diferit de abilități în diferite etape ale vieții pentru a-și începe călătoria Kaggle!

cazul 1: Am un fundal de codificare, dar nou pentru învățarea automată.

Pasul 1: prima problemă kaggle pe care ar trebui să o abordați este: predicția traiectoriei taxiului. Motivul fiind, problema are un set de date complex, care include un format JSON într-una din coloanele care spune setul de coordonate taxi a vizitat. Dacă sunteți în măsură să rupă acest jos, obtinerea unor estimări inițiale pe destinație țintă sau timp nu are nevoie de o mașină de învățare. Prin urmare, vă puteți folosi puterea de codificare pentru a vă găsi valoarea în această industrie.

Pasul 2: Următorul pas ar trebui să fie să luați în sus: Titanic. Motivul fiind, acum ați înțelege deja cum să gestionați seturi de date complexe. Prin urmare, acum este momentul perfect pentru a face o lovitură asupra problemelor pure de învățare automată. Cu abundența de soluții / script-uri disponibile, va fi capabil de a construi o soluție bună.

Pasul 3: Acum sunteți gata pentru ceva mare. Încercați Recrutarea Pe Facebook. Acest lucru vă va ajuta să apreciați modul în care înțelegerea domeniului vă poate ajuta să obțineți cele mai bune rezultate din învățarea automată.

odată ce aveți toate aceste piese la locul lor, sunteți bine să încercați orice problemă pe Kaggle.

Cazul 2: am fost în industria de analiză pentru mai mult de 2 ani, dar nu confortabil pe R / Python

Pasul 1: ar trebui să înceapă cu a lua o lovitură pe Titanic. Motivul fiind, ați înțeles deja cum să construiască algoritm predictiv. Acum ar trebui să vă străduiți să învățați limbi precum R și Python. Cu abundența de soluții / script-uri disponibile, va fi capabil de a construi diferite tipuri de modele pe ambele R și Python. Această problemă vă va ajuta, de asemenea, să înțelegeți câțiva algoritmi avansați de învățare automată.

Pasul 2: următorul pas ar trebui să fie recrutarea pe Facebook. Motivul fiind, având în vedere simplitatea structurii datelor și bogăția conținutului, veți putea să vă alăturați tabelelor potrivite și să faceți un algoritm predictiv pe acesta. Acest lucru vă va ajuta, de asemenea, să apreciați modul în care înțelegerea domeniului vă poate ajuta să obțineți cele mai bune rezultate din învățarea automată.

sugestii: Acum sunteți gata pentru ceva foarte diferit de zona dvs. de confort. Citiți probleme cum ar fi detectarea retinopatiei diabetice, clicurile anunțurilor de Context Avinto, Clasificarea criminalității și găsiți domeniul de interes. Acum încercați să aplicați tot ce ați învățat până acum.

acum este momentul să încercați ceva mai complex de codat. Încercați predicția traiectoriei taxiului sau Denoising documente murdare. Odată ce aveți toate aceste piese în loc, puteți încerca acum orice problemă pe Kaggle.

Cazul 3: sunt bun cu codificare și mașină de învățare, nevoie de ceva provocator pentru a lucra la

Pasul 1: Aveți mai multe opțiuni pe Kaggle. Prima opțiune este să stăpânești o limbă nouă precum Julia. Puteți începe cu primul pas cu Julia. Motivul fiind, acest lucru vă va oferi o expunere suplimentară la ceea ce poate face Julia în plus față de Python sau R.

Pasul 2: a doua opțiune este de a dezvolta abilități cu un domeniu suplimentar. Puteți încerca contextul Avito, relevanța căutării sau Facebook – Human vs.Bot.

Cazul 4: sunt un începător atât în învățarea automată, cât și în limbajul de codare, dar vreau să învăț

Pasul 1: ar trebui să începeți călătoria kaggle cu Titanic. Motivul fiind, primul pas pentru tine este să înveți limbi precum R și Python. Cu abundența de soluții / script-uri disponibile, va fi capabil de a construi diferite tipuri de modele pe ambele R și Python. Această problemă vă va ajuta, de asemenea, să înțelegeți câțiva algoritmi de învățare automată.

Pasul 2: ar trebui apoi să luați în sus: Facebook recrutare. Motivul fiind, având în vedere simplitatea structurii datelor și bogăția conținutului, veți putea să vă alăturați tabelelor potrivite și să faceți un algoritm predictiv pe acesta. Acest lucru vă va ajuta, de asemenea, să apreciați modul în care înțelegerea domeniului vă poate ajuta să obțineți cele mai bune rezultate din învățarea automată.

odată ce ați terminat cu acestea, puteți lua apoi probleme ca pe interesul dumneavoastră.

câteva hacks pentru a fi o concurență loială pe Kaggle

aceasta nu este o listă cuprinzătoare de hacks, dar menit să vă ofere un început bun. Lista completă merită un nou post de la sine:

  1. asigurați-vă că trimiteți o soluție (chiar și depunerea eșantionului va face acest lucru) înainte de ultima dată de înscriere, dacă doriți să participați la concurs în viitor.
  2. înțelegeți domeniul înainte de a ajunge la date. De exemplu, în bot vs. human, trebuie să înțelegeți cum funcționează platforma de licitare online înainte de a începe călătoria cu date.
  3. creează-ți propriul algoritm de evaluare care poate imita scorul testului Kaggle. O simplă validare încrucișată de 10 ori funcționează în general bine.
  4. încercați să sculpteze cât mai multe caracteristici posibil de date tren – inginerie caracteristică este, de obicei, partea care te împinge de la Top 40 percentila la Top 10 percentila.
  5. un singur model, în general, nu te în top 10. Trebuie să faceți multe modele și să le asamblați împreună. Acestea pot fi mai multe modele cu algoritmi diferiți sau un set diferit de variabile.

note finale

există mai multe beneficii pe care le-am realizat după ce am lucrat la problemele Kaggle. Am învățat R / Python pe zbor. Cred că este cel mai bun mod de a învăța același lucru. De asemenea, interacțiunea cu oamenii de pe forumul de discuții cu privire la diverse probleme vă va ajuta să obțineți o lingură mai profundă în învățarea automată și domeniu.

în acest articol, am ilustrat diverse probleme Kaggle și le-am clasificat atributele esențiale în nivelul de dificultate. De asemenea, am preluat diverse cazuri din viața reală și am determinat abordarea corectă pentru a participa la Kaggle.

ați participat la vreo problemă Kaggle? Ați văzut vreun beneficiu semnificativ făcând același lucru? Spuneți-ne gândurile dvs. despre acest ghid în secțiunea de comentarii de mai jos.

dacă vă place ceea ce tocmai ați citit & doriți să continuați învățarea analitică, abonați-vă la e-mailurile noastre, Urmați-ne pe twitter sau apreciați pagina noastră de facebook.

puteți citi acest articol și în aplicația noastră mobilă

Lasă un răspuns

Adresa ta de email nu va fi publicată.