Kaggle versenyek: hogyan és hol kezdjem?

Bevezetés

Rendelkezem-e a Kaggle versenyeken való részvételhez szükséges készségekkel?

szembesült valaha ezzel a kérdéssel? Legalábbis másodévesként, amikor féltem a Kaggle-től, csak azzal, hogy elképzeltem az általa kínált nehézségi szintet. Ez a félelem hasonló volt a víztől való félelmemhez. A víztől való félelmem nem engedte, hogy úszóórákra járjak. Bár később megtanultam, “amíg nem lépsz be a vízbe,nem tudod megállapítani, milyen mély”. Hasonló filozófia vonatkozik Kaggle-re is. Ne zárja be, amíg meg nem próbálja!

a Kaggle, az Adattudomány otthona, globális platformot biztosít a versenyek, az ügyfélmegoldások és az álláshirdetések számára. Itt van a Kaggle fogás, ezek a versenyek nemcsak a dobozból gondolkodnak, hanem szép nyereményt is kínálnak.

az emberek mégis haboznak részt venni ezeken a versenyeken. Íme néhány fő ok:

  1. alábecsülik a megszerzett készségek, ismeretek és technikák szintjét.
  2. függetlenül attól, hogy milyen szintű készségeik vannak, a legmagasabb nyereményt kínáló problémát választják.
  3. nem tudják félreérteni a készségüket a probléma nehézségi szintjével.

azt hiszem, ez a kérdés árad a Kaggle magát. Kaggle.com nem nyújt olyan információt, amely segíthet az embereknek kiválasztani a legmegfelelőbb problémát, amely megfelel a készségeiknek. Ennek eredményeként a kezdők/intermedierek számára nehéz feladat lett eldönteni a megfelelő probléma megkezdését.

mit fog tanulni ebben a cikkben?

ebben a cikkben megnyitottuk a holtpontot a megfelelő kaggle probléma kiválasztásában a készségek, eszközök & technikák szerint. Itt bemutattunk minden kaggle problémát a nehézségi szinttel és a megoldáshoz szükséges készségek szintjével.

az utóbbi részben meghatároztuk a helyes megközelítést a kaggle probléma felvetésére a következő esetekben:

1.eset : van kódolási hátterem, de új a gépi tanulásban.

2. eset : Több mint 2 éve vagyok az elemzési iparban, de nem kényelmes az R/Python

3.eset : jó vagyok a kódolásban és a gépi tanulásban, szükségem van valami kihívásra a

4. eset : kezdő vagyok mind a gépi tanulásban, mind a kódolási nyelvben, de szeretnék tanulni

a Kaggle problémák listája

Titanic : gépi tanulás katasztrófából

célkitűzés: klasszikus népszerű probléma az utazás gépi tanulással történő megkezdéséhez. Ön kap egy sor attribútumok az utasok a fedélzeten, és meg kell megjósolni, aki túlélte volna, miután a hajó sanked.

nehézségi szint

a) gépi tanulási készségek – könnyű

b) kódolási készségek – könnyű

c) Domain készségek megszerzése-könnyű

d) oktatóanyagok állnak rendelkezésre – nagyon átfogó

2. Első lépés Julia

célkitűzés: ez a probléma, hogy azonosítsa a karaktereket a Google Street view képet egy közelgő eszköz Julia.

nehézségi szint az egyes attribútumok :

a) gépi tanulási készségek – könnyű

b) kódolási készségek – közepes

c) Domain készségek elsajátítása-könnyű

d) oktatóanyag áll rendelkezésre – átfogó

Digit Recognizer

célkitűzés: Ön kap egy adat Pixel kézzel írott számjegy, és meg kell meggyőzően mondani, hogy mi számjegy ez. Ez egy klasszikus probléma látens Markov modell.

nehézségi szint az egyes attribútumokon :

a) gépi tanulási készségek – közepes

b) kódolási készségek – közepes

c) Domain készségek elsajátítása-könnyű

d) bemutató elérhető – elérhető, de nincs kézen fogva

zsák szavak megfelelnek zsák pattogatott kukorica

célkitűzés: kapsz egy sor film véleménye, és meg kell találni a hangulat rejtett ebben a nyilatkozatban. Ennek a problémamegállapításnak az a célja, hogy megismertesse Önt a Google csomaggal – Word2Vec.

ez egy fantasztikus csomag, amely segít átalakítani szavakat egy véges dimenzió tér. Így analógiákat építhetünk csak a vektorra nézve. Egy nagyon egyszerű példa az, hogy az algoritmus olyan analógiákat hozhat ki, mint például: király-Férfi + Nő kapsz királynőt.

nehézségi szint az egyes attribútumok:

a) gépi tanulási készségek – nehéz

b) kódolási készségek – közepes

c) megszerzése Domain készségek-könnyű

d) bemutató elérhető – elérhető, de nem kézen fogva

5. Piszkos dokumentumok Denoising

célkitűzés: lehet, hogy ismeri az OCR néven ismert technológiát. Egyszerűen átalakítja a kézzel írt dokumentumokat digitális dokumentumokká. Ez azonban nem tökéletes. Az Ön feladata itt a gépi tanulás használata, hogy tökéletes legyen.

nehézségi szint az egyes attribútumok:

a) gépi tanulási készségek – nehéz

b) kódolási készségek – nehéz

c) megszerzése Domain készségek-nehéz

d) bemutató elérhető – nem

San Francisco Crime Classification

célkitűzés: megjósolni a kategória bűncselekmények történt a városban az öbölben.

nehézségi szint az egyes attribútumok:

a) gépi tanulási készségek – nagyon nehéz

b) kódolási készségek – nagyon nehéz

c) megszerzése Domain készségek-nehéz

d) bemutató elérhető – nem

Taxi pálya előrejelzési idő / hely

célkitűzés: két probléma alapján ugyanazon adatkészletek. Kapsz egy taxi vezérlőjét, és meg kell jósolnod, hogy hová megy a taxi, vagy mennyi időbe telik az utazás befejezése.

nehézségi szint az egyes attribútumok :

a) gépi tanulási készségek – könnyű

b) kódolási készségek – nehéz

c) megszerzése Domain készségek-közepes

d) bemutató elérhető – néhány benchmark kódok elérhető

Facebook toborzás – emberi vagy bot

célkitűzés: ha van egy nag, hogy megértsék egy új domain, ezt meg kell oldanod. Megkapja az ajánlattételi adatokat,és várhatóan az ajánlattevőt bot vagy ember kategóriába sorolja. Ez a leggazdagabb adatforrás elérhető az összes probléma Kaggle.

nehézségi szint az egyes attribútumok :

a) gépi tanulási készségek – közepes

b) kódolási készségek – közepes

c) megszerzése Domain készségek-közepes

d) Tutorial elérhető – nem áll rendelkezésre támogatás, mivel ez egy toborzó verseny

megjegyzés: nem terjed ki a Kaggle versenyek kínál pénzdíj ebben a cikkben, mivel ezek mind kapcsolódnak egy adott tartomány. Az alábbi megjegyzés részben tudassa velem a velük kapcsolatos véleményét.

most megnézzük a helyes megközelítést az emberek számára, akik különböző készségekkel rendelkeznek az élet különböző szakaszaiban, hogy elkezdjék a Kaggle utazást!

1. eset: van egy kódolási hátterem, de új vagyok a gépi tanulásban.

1.lépés: az első kaggle probléma, amelyet fel kell vennie: Taxi pálya előrejelzése. Ennek oka, hogy a probléma összetett adatkészlettel rendelkezik, amely az egyik oszlopban tartalmaz egy JSON formátumot, amely megmondja a taxi által meglátogatott koordináták halmazát. Ha ezt le tudja bontani, akkor a célállomásra vagy az időre vonatkozó kezdeti becslés megszerzéséhez nincs szükség gépi tanulásra. Ezért használhatja kódolási erejét, hogy megtalálja értékét ebben az iparágban.

2.lépés: a következő lépés a felszállás: Titanic. Ennek oka, hogy most már megértené, hogyan kell kezelni az összetett adatkészleteket. Ezért most van a tökéletes alkalom, hogy egy lövés a tiszta gépi tanulási problémák. A rengeteg megoldások / szkriptek elérhető, akkor képes lesz arra, hogy építsenek egy jó megoldás.

3.lépés: Most már készen állsz valami nagy dologra. Próbálja Ki A Facebook Toborzását. Ez segít értékelni, hogy a domain megértése hogyan segíthet abban, hogy a lehető legtöbbet hozza ki a gépi tanulásból.

miután ezeket a darabokat a helyére tette, jó, ha bármilyen problémát kipróbál a Kaggle-n.

2. eset: több mint 2 éve vagyok az elemző iparban, de nem vagyok kényelmes az R / Python

1.lépés: kezdje azzal, hogy lövést készít a Titanicon. Ennek oka, hogy már megérti, hogyan kell felépíteni a prediktív algoritmust. Most arra kell törekednie, hogy megtanuljon olyan nyelveket, mint az R és a Python. A rengeteg megoldás / szkript áll rendelkezésre, akkor képes lesz arra, hogy építsenek a különböző típusú modellek mind R és Python. Ez a probléma segít megérteni néhány fejlett gépi tanulási algoritmust is.

2.lépés: a következő lépés a Facebook toborzása. Ennek oka, hogy az adatstruktúra egyszerűsége és a tartalom gazdagsága miatt a megfelelő táblázatokhoz csatlakozhat, és prediktív algoritmust készíthet erre. Ez segít abban is, hogy értékelje, hogy a domain megértése hogyan segíthet abban, hogy a lehető legtöbbet hozza ki a gépi tanulásból.

javaslatok: Most már készen állsz valami nagyon másra, mint a komfortzónád. Olvassa el az olyan problémákat, mint a diabéteszes retinopátia észlelése, az Avinto kontextus hirdetési kattintásai, a bűnözés besorolása és az érdeklődésre számot tartó domain megtalálása. Most próbálja meg alkalmazni mindazt, amit eddig megtanult.

itt az ideje, hogy valami bonyolultabbat próbáljunk ki a kódoláshoz. Próbálja ki a Taxi pálya előrejelzését vagy a piszkos dokumentumok megsemmisítését. Miután ezeket a darabokat a helyén, akkor most megpróbál minden probléma Kaggle.

3. eset: jó vagyok a kódolásban és a gépi tanulásban, szükségem van valami kihívást jelentő munkára

1. lépés: Van sok lehetőség Kaggle. Az első lehetőség az új nyelv elsajátítása, mint Julia. Meg lehet kezdeni az első lépés Julia. Ennek oka, hogy ez további kitettséget nyújt arra, hogy mit tehet Julia a Python vagy az R mellett.

2.lépés: a második lehetőség a készségek fejlesztése egy további domainnel. Kipróbálhatja az Avito kontextust, a keresési relevanciát vagy a Facebook – Human vs.botot.

4. eset: kezdő vagyok mind a gépi tanulásban, mind a kódolási nyelvben, de meg akarom tanulni

1.lépés: meg kell kezdenie a Kaggle útját a Titanic-szal. Ennek az az oka, hogy az első lépés az Ön számára az R és a Python nyelvek megtanulása. A rengeteg megoldás / szkript áll rendelkezésre, akkor képes lesz arra, hogy építsenek a különböző típusú modellek mind R és Python. Ez a probléma segít megérteni néhány gépi tanulási algoritmust is.

2.lépés: akkor vegye fel: Facebook toborzás. Ennek oka, hogy az adatstruktúra egyszerűsége és a tartalom gazdagsága miatt a megfelelő táblázatokhoz csatlakozhat, és prediktív algoritmust készíthet erre. Ez segít abban is, hogy értékelje, hogy a domain megértése hogyan segíthet abban, hogy a lehető legtöbbet hozza ki a gépi tanulásból.

miután végzett ezekkel, akkor majd vegye fel a problémákat, mint egy érdeklődését.

néhány hack, hogy egy tisztességes verseny Kaggle

ez nem egy átfogó listát a hack, de azt jelentette, hogy az Ön számára egy jó kezdet. Az átfogó lista önmagában új bejegyzést érdemel:

  1. győződjön meg róla, hogy az utolsó nevezési dátum előtt benyújtja a megoldást (még a minta benyújtása is elvégzi ezt a munkát), ha a jövőben részt kíván venni a versenyen.
  2. értse meg a tartományt, mielőtt az adatokhoz jutna. Például a bot vs. emberi, meg kell értened, hogyan működik az online ajánlattételi platform, mielőtt elkezdené az utazást adatokkal.
  3. készítse el saját értékelési algoritmusát, amely utánozhatja a Kaggle teszt pontszámát. Egy egyszerű, 10-szeres keresztellenőrzés általában jól működik.
  4. próbálja faragni annyi funkciót, mint lehetséges a vonat adatok – feature engineering általában az a rész, amely kitolja a felső 40 percentilis a felső 10 percentilis.
  5. egyetlen modell általában nem jut be a top 10-be. Be kell, hogy sok-sok modell és együttes őket. Ez lehet több modell különböző algoritmusokkal vagy különböző változók halmazával.

végjegyzetek

számos előnye van rájöttem munka után Kaggle problémákat. Megtanultam R / Python menet közben. Úgy gondolom, hogy ez a legjobb módja annak, hogy ugyanezt megtanuljuk. Szintén kölcsönhatásban áll az emberek a vitafórum különböző problémák segít abban, hogy egy mélyebb gombóc a gépi tanulás és a domain.

ebben a cikkben különböző Kaggle problémákat mutattunk be, és alapvető tulajdonságaikat a nehézségi szintbe soroltuk. Különböző valós eseteket is felvettünk, és a Kaggle-ben való részvételhez megfelelő megközelítést váltottunk ki.

részt vett bármilyen Kaggle problémában? Látott-e jelentős előnyöket azzal, hogy ugyanezt tette? Ossza meg velünk gondolatait erről az útmutatóról az alábbi megjegyzések részben.

Ha tetszik, amit most olvasott & folytatni szeretné az analitikai tanulást, iratkozzon fel e-mailjeinkre, kövessen minket a Twitteren vagy lájkolja a facebook oldalunkat.

azt is olvassa el ezt a cikket a mobil APP

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.