soutěže Kaggle: jak a kde začít?

Úvod

mám potřebné dovednosti k účasti v soutěžích Kaggle?

čelili jste někdy této otázce? Alespoň jsem to udělal, jako druhák, když jsem se bál Kaggle jen tím, že jsem si představoval úroveň obtížnosti, kterou nabízí. Tento strach byl podobný mému strachu z vody. Můj strach z vody by mi nedovolil chodit na hodiny plavání. Ačkoli, později jsem se dozvěděl, „dokud nevstoupíš do vody, nedokážeš zjistit, jak je hluboká“. Podobná filozofie platí pro Kaggle. Neuzavírejte, dokud to nezkusíte!

Kaggle, domov datové vědy, poskytuje globální platformu pro soutěže, zákaznická řešení a pracovní desku. Tady je úlovek Kaggle, tyto soutěže vás nejen přemýšlejí po vybalení z krabice, ale také nabízí hezký prize money.

přesto lidé váhají účastnit se těchto soutěží. Zde jsou některé hlavní důvody:

  1. snižují úroveň svých dovedností, znalostí a získaných technik.
  2. bez ohledu na úroveň svých dovedností si vybírají problém, který nabízí nejvyšší prize money.
  3. nepodaří se jim objasnit jejich úroveň dovedností s úrovní obtížnosti problému.

domnívám se, že tento problém vychází z Kaggle sám. Kaggle.com neposkytuje žádné informace, které mohou lidem pomoci vybrat si nejvhodnější problém s jejich sadou dovedností. V důsledku toho se pro začátečníky/středně pokročilé stalo náročným úkolem rozhodnout se pro začátek vhodného problému.

co se dozvíte v tomto článku?

v tomto článku jsme otevřeli zablokování výběru vhodného problému kaggle podle vaší sady dovedností, nástrojů & technik. Zde jsme ilustrovali každý problém kaggle s úrovní obtížnosti a úrovní dovedností potřebných k jeho vyřešení.

v druhé části jsme definovali správný přístup k řešení problému kaggle pro následující případy:

případ 1: Mám pozadí kódování, ale nové pro strojové učení.

Případ 2 : Byl jsem v analytickém průmyslu více než 2 roky, ale není pohodlné na R/Python

případ 3 : Jsem dobrý s kódováním A strojovým učením, potřebuji něco náročného pro práci na

případ 4 : jsem nováček v strojovém učení nebo kódovacím jazyce, ale chci se naučit

seznam problémů Kaggle

Titanic: strojové učení z katastrofy

cíl: klasický populární problém začít svou cestu se strojem učení. Dostanete sadu atributů cestujících na palubě a musíte předpovědět, kdo by přežil po potopení lodi.

obtížnost

a) dovednosti strojového učení-snadné

b) kódovací dovednosti-Snadné

c) získání doménových dovedností-Snadné

d) dostupné výukové programy-velmi komplexní

2. První krok s Julií

cíl: Jedná se o problém identifikovat znaky na obrázku Google Street view pomocí nadcházejícího nástroje Julia.

úroveň obtížnosti na každém z atributů :

a) dovednosti strojového učení – snadné

b) kódovací dovednosti – Střední

c) získání doménových dovedností-Snadné

d) výukový program k dispozici – komplexní

číselný Rozpoznávač

cíl: dostanete data s pixely na ručně psaných číslicích a musíte přesvědčivě říci, o jakou číslici jde. Jedná se o klasický problém latentního modelu Markov.

úroveň obtížnosti na každém z atributů :

a) dovednosti strojového učení-Střední

b) kódovací dovednosti-Střední

c) získání doménových dovedností-Snadné

d) výukový program k dispozici-k dispozici, ale bez držení ruky

pytel slov seznamte se s taškou popcornu

cíl: dostanete sadu filmových recenzí a musíte najít sentiment skrytý v tomto prohlášení. Cílem tohoto Prohlášení o problému je představit vám balíček Google-Word2Vec.

je to fantastický balíček, který vám pomůže převést slova do prostoru s konečnou dimenzí. Tímto způsobem můžeme vytvářet analogie pouze při pohledu na vektor. Jedním z velmi jednoduchých příkladů je, že váš algoritmus může přinést analogie jako: král-Muž + Žena vám dá královnu.

úroveň obtížnosti na každém z atributů:

a) dovednosti strojového učení-obtížné

b) kódovací dovednosti-Střední

c) získání doménových dovedností-Snadné

d) výukový program k dispozici-k dispozici, ale ne držení ruky

5. Denoising špinavé dokumenty

cíl: možná víte o technologii známé jako OCR. Jednoduše převádí ručně psané dokumenty na digitální dokumenty. Není to však dokonalé. Vaším úkolem je používat strojové učení, aby bylo dokonalé.

obtížnost na každém z atributů :

a) dovednosti strojového učení – obtížné

b) kódovací dovednosti – obtížné

c) získání doménových dovedností-obtížné

d) výukový program k dispozici-Ne

San Francisco Crime Classification

cíl: předpovědět kategorii trestných činů, ke kterým došlo ve městě u zálivu.

úroveň obtížnosti na každém z atributů:

a) dovednosti strojového učení-velmi obtížné

b) kódovací dovednosti-velmi obtížné

c) získání doménových dovedností-obtížné

d) výukový program k dispozici-Ne

Taxi trajektorie predikce čas / umístění

cíl: existují dva problémy založené na stejných datových sadách. Ty jsou uvedeny Správce taxi, a vy jste měl předpovědět, kde je taxi jít nebo čas to bude trvat k dokončení cesty.

úroveň obtížnosti na každém z atributů:

a) dovednosti strojového učení-snadné

b) kódování dovednosti-obtížné

c) získání doménových dovedností-Střední

d) výukový program k dispozici – několik benchmarkových kódů k dispozici

Facebook nábor-člověk nebo bot

cíl: pokud máte nag pochopit novou doménu, musíte to vyřešit. Dostanete údaje o nabídkách a očekává se, že uchazeče klasifikujete jako robota nebo člověka. To má nejbohatší zdroj dat k dispozici ze všech problémů na Kaggle.

úroveň obtížnosti na každém z atributů:

a) dovednosti strojového učení-Střední

b) dovednosti kódování-Střední

c) získání dovedností domény-Střední

d) výukový program k dispozici-žádná podpora k dispozici, protože se jedná o náborovou soutěž

poznámka: v tomto článku jsem nepokryl soutěže Kaggle nabízející prize money, protože všechny souvisejí s konkrétní doménou. Dejte mi vědět svůj názor na ně v sekci komentářů níže.

nyní budeme hledat správný přístup pro lidi, kteří mají různé dovednosti v různých fázích života, aby mohli začít svou cestu Kaggle!

případ 1: mám pozadí kódování, ale nové pro strojové učení.

Krok 1: první problém kaggle byste měli přijmout je: Taxi trajektorie predikce. Důvodem je, že problém má komplexní datovou sadu, která obsahuje formát JSON v jednom ze sloupců, který říká sadu souřadnic, které taxi navštívilo. Pokud to dokážete rozebrat, získání počátečního odhadu cílového cíle nebo času nepotřebuje strojové učení. Proto můžete použít sílu kódování k nalezení své hodnoty v tomto odvětví.

Krok 2: Dalším krokem by mělo být převzetí: Titanic. Důvodem je, že byste nyní již pochopili, jak zacházet se složitými datovými soubory. Proto, nyní je ideální čas, aby se záběr na čistě strojového učení problémy. S množstvím dostupných řešení / skriptů budete moci vytvořit dobré řešení.

Krok 3: Nyní jste připraveni na něco velkého. Zkuste Facebook Nábor. To vám pomůže ocenit, jak porozumění doméně vám může pomoci získat to nejlepší ze strojového učení.

jakmile budete mít všechny tyto kousky na svém místě, je dobré vyzkoušet jakýkoli problém na Kaggle.

Případ 2: Byl jsem v analytickém průmyslu více než 2 roky, ale ne pohodlné na R / Python

Krok 1: Měli byste začít s výstřelem na Titanic. Důvodem je, že už chápete, jak vytvořit prediktivní algoritmus. Nyní byste se měli snažit učit se jazyky jako R a Python. S množstvím dostupných řešení / skriptů budete moci vytvářet různé druhy modelů na R I Pythonu. Tento problém vám také pomůže pochopit několik pokročilých algoritmů strojového učení.

Krok 2: Dalším krokem by měl být nábor na Facebook. Důvodem je, že vzhledem k jednoduchosti datové struktury a bohatosti obsahu se budete moci připojit k pravým tabulkám a vytvořit prediktivní algoritmus. To vám také pomůže ocenit, jak porozumění doméně vám může pomoci získat to nejlepší ze strojového učení.

návrhy: Nyní jste připraveni na něco velmi odlišného od vaší komfortní zóny. Přečtěte si problémy, jako je detekce diabetické retinopatie, kliknutí na kontextové reklamy Avinto, klasifikace kriminality a najděte doménu, která vás zajímá. Nyní zkuste použít vše, co jste se dosud naučili.

nyní je čas vyzkoušet něco složitějšího kódu. Zkuste Taxi trajektorie predikce nebo Denoising špinavé dokumenty. Jakmile budete mít všechny tyto kousky na svém místě, nyní můžete vyzkoušet jakýkoli problém na Kaggle.

případ 3: Jsem dobrý s kódováním a strojovým učením, potřebuji něco náročného pro práci na

Krok 1: Máte mnoho možností na Kaggle. První možností je zvládnout nový jazyk, jako je Julia. Můžete začít s prvním krokem s Julií. Důvodem je, že vám to poskytne další expozici tomu, co může Julia dělat kromě Pythonu nebo R.

Krok 2: Druhou možností je rozvíjet dovednosti s další doménou. Můžete zkusit Avito kontext, vyhledávání nebo Facebook-Člověk vs. bot.

případ 4: jsem nováček strojového učení nebo kódovacího jazyka, ale chci se naučit

Krok 1: Měli byste začít svou cestu Kaggle s Titanicem. Důvodem je, že prvním krokem pro vás je naučit se jazyky jako R a Python. S množstvím dostupných řešení / skriptů budete moci vytvářet různé druhy modelů na R I Pythonu. Tento problém vám také pomůže pochopit několik algoritmů strojového učení.

Krok 2: pak byste měli začít: Facebook nábor. Důvodem je, že vzhledem k jednoduchosti datové struktury a bohatosti obsahu se budete moci připojit k pravým tabulkám a vytvořit prediktivní algoritmus. To vám také pomůže ocenit, jak porozumění doméně vám může pomoci získat to nejlepší ze strojového učení.

jakmile budete hotovi s těmito, pak můžete přijmout problémy podle vašeho zájmu.

několik hacků, které mají být spravedlivou konkurencí na Kaggle

Toto není úplný seznam hacků, ale má vám poskytnout dobrý začátek. Komplexní seznam si zaslouží nový příspěvek sám o sobě:

  1. pokud se chcete v budoucnu zúčastnit soutěže, ujistěte se, že jste předložili řešení (i vzorové podání bude dělat tuto práci) před posledním datem vstupu.
  2. než se dostanete k datům, pochopte doménu. Například v bot vs. člověk, musíte pochopit, jak funguje Online nabídková platforma, než začnete cestu s daty.
  3. Vytvořte si vlastní algoritmus hodnocení, který může napodobovat skóre testu Kaggle. Jednoduchá křížová validace 10krát obecně funguje dobře.
  4. pokuste se vybojovat co nejvíce funkcí z dat vlaku-funkce inženýrství je obvykle část, která vás tlačí z top 40 percentilu na top 10 percentil.
  5. jediný model vás obecně nedostane do top 10. Musíte vytvořit mnoho modelů a spojit je dohromady. Může to být více modelů s různými algoritmy nebo jinou sadou proměnných.

koncové poznámky

existuje několik výhod, které jsem si uvědomil po práci na problémech Kaggle. Naučil jsem se R / Python za běhu. Věřím, že je to nejlepší způsob, jak se naučit totéž. Také interakce s lidmi diskusního fóra o různých problémech vám pomůže získat hlubší kopeček do strojového učení a domény.

v tomto článku jsme ilustrovali různé problémy Kaggle a kategorizovali jejich základní atributy do úrovně obtížnosti. Také jsme se zabývali různými skutečnými případy a vyvolali správný přístup k účasti na Kaggle.

podíleli jste se na nějakém problému Kaggle? Viděli jste nějaké významné výhody tím, že děláte totéž? Dejte nám vědět své myšlenky o této příručce v sekci komentářů níže.

pokud se vám líbí to, co jste právě četli & chcete pokračovat v učení analytics, přihlaste se k odběru našich e-mailů, Sledujte nás na Twitteru nebo se vám líbí naše stránka facebook.

tento článek si také můžete přečíst v naší mobilní aplikaci

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.