Kaggle-kilpailut: miten ja mistä aloittaa?

Johdanto

onko minulla tarvittavat taidot Kaggle-kilpailuihin osallistumiseen?

Oletko koskaan kohdannut tätä kysymystä? Ainakin tein, kuten toisen vuoden opiskelija, kun käytin pelätä Kaggle vain kuvitella vaikeustaso se tarjoaa. Tämä pelko oli samanlainen kuin vesipelkoni. Vesipelkoni ei sallinut uimakouluihin ryhtymistä. Tosin myöhemmin opin, että ennen kuin veteen astuu, siitä ei saa selvää, kuinka syvä se on. Samanlainen filosofia pätee Kaggleen. Älä lopeta ennen kuin yrität!

datatieteen koti Kaggle tarjoaa globaalin Alustan kilpailuille, asiakasratkaisuille ja job Boardille. Tässä on Kaggle saalis, nämä kilpailut ei vain tehdä ajatella ulos laatikosta, mutta tarjoaa myös komea palkintorahaa.

silti ihmiset epäröivät osallistua näihin kilpailuihin. Tässä tärkeimmät syyt:

  1. he vähättelevät hankkimiaan taitoja, tietoja ja tekniikoita.
  2. taitotasosta riippumatta he valitsevat eniten palkintorahoja tarjoavan ongelman.
  3. he eivät pysty kiistämään taitotasoaan ongelman vaikeustason kanssa.

luulen, että tämä kysymys on Kaggle itse. Kaggle.com ei tarjoa mitään tietoja, jotka voivat auttaa ihmisiä valitsemaan sopivimman ongelman sovittamisen heidän taitojensa kanssa. Tämän seurauksena, se on tullut vaivalloinen tehtävä aloittelijoille / välituotteiden päättää sopiva ongelma alkaa.

mitä opit tästä artikkelista?

tässä artikkelissa olemme avanneet umpikujan valita sopiva kaggle-ongelma taitojesi mukaan, työkalut & tekniikat. Tässä, olemme kuvanneet kunkin kaggle ongelma vaikeustaso ja taitotasoa tarvitaan ratkaisemaan se.

loppuosassa on määritelty oikea lähestymistapa kaggle-ongelmaan:

tapaus 1: minulla on Koodaustausta, mutta uutta koneoppimisessa.

Tapaus 2 : Olen ollut analytiikkateollisuudessa yli 2 vuotta, mutta ei mukava R/Python

Case 3 : Olen hyvä koodaamisessa ja koneoppimisessa, tarvitsen jotain haastavaa työstääkseni

Case 4 : olen aloittelija sekä koneoppimisessa että koodauskielessä, mutta haluan oppia

lista Kaggle-ongelmista

Titanic : Koneoppiminen katastrofista

tavoite: klassinen suosittu ongelma aloittaa matkasi koneoppimisen avulla. Sinulle annetaan joukko ominaisuuksia matkustajien aluksella ja sinun täytyy ennustaa, kuka olisi selvinnyt jälkeen aluksen sokki.

vaikeustaso

a) koneoppimisen taidot – helppo

b) Koodaustaidot – helppo

c) domainin taitojen hankkiminen-helppo

d) Tutorials saatavilla – erittäin kattava

2. First Step with Julia

Objective: tämä on ongelma tunnistaa merkkejä Google Street view picture käyttäen tulevaa työkalua Julia.

vaikeustaso kullekin attribuutille :

a) Koneoppimistaidot – helppo

b) Koodaustaidot – Medium

c) verkkotunnuksen hankkiminen-helppo

d) Tutorial available – kattava

Numerotunnistin

tavoite: sinulle annetaan tieto, jossa on pikseleitä käsinkirjoitetuissa numeroissa, ja sinun täytyy lopullisesti sanoa, mikä numero se on. Tämä on klassinen ongelma piilevä Markovin malli.

vaikeustaso kullakin määritteellä :

a) Koneoppimistaidot – Medium

b) Koodaustaidot – Medium

c) getting Domain Skills-Easy

d) Tutorial available – Available but no hand holding

Sanapussi meet Bag of Popcorn

Objective: you are given a set of movie reviews, and you need to find the sentimental näissä lausunnoissa. Tämän ongelmalausunnon tavoitteena on esitellä sinulle Google-paketti-Word2Vec.

se on fantastinen paketti, jonka avulla sanoja voi muuntaa äärelliseksi ulottuvuusavaruudeksi. Näin voimme rakentaa analogioita vain vektorista. Yksi hyvin yksinkertainen esimerkki on, että algoritmi voi tuoda esiin analogioita, kuten: kuningas-mies + nainen antaa sinulle kuningatar.

vaikeustaso kunkin ominaisuuden osalta:

a) Koneoppimistaidot – vaikeat

b) Koodaustaidot – keskitaso

c) toimialueen taitojen hankkiminen-helppo

d) opetusohjelma saatavilla – saatavilla, mutta ei kädensijaa

5. Denoising Dirty Documents

Objective: saatat tietää tekniikasta nimeltä OCR. Se yksinkertaisesti muuntaa käsin kirjoitetut asiakirjat digitaalisiksi asiakirjoiksi. Se ei kuitenkaan ole täydellinen. Sinun tehtäväsi täällä on käyttää koneoppimista tehdäksesi siitä täydellisen.

vaikeustaso kunkin ominaisuuden osalta :

a) Koneoppimistaidot – vaikeat

b) Koodaustaidot – vaikeat

c) Verkkotunnustaitojen hankkiminen-vaikeat

d) Tutorial available – No

San Franciscon Rikosluokitus

Objective: Predict the category of crimes that happened in the city by the bay.

vaikeustaso kunkin ominaisuuden osalta :

a) Koneoppimistaidot – hyvin vaikeaa

b) Koodaustaidot – hyvin vaikeaa

c) toimialueen taitojen hankkiminen-vaikeaa

d) Tutorial available – No

Taxi Trade Prediction Time / Location

Objective: on kaksi ongelmaa, jotka perustuvat samoihin aineistoihin. Sinulle annetaan taksin ohjain,ja sinun on tarkoitus ennustaa, minne taksi menee tai kuinka kauan se vie matkan loppuun.

vaikeustaso jokaisella attribuutilla :

a) Koneoppimistaidot – helppo

b) Koodaustaidot – vaikea

c) verkkotunnuksen hankkiminen-keskitaso

d) Tutorial available – a few benchmark codes available

Facebook Recruiting – Human or bot

Objective: If you have a nag to understand a new domain, sinun täytyy ratkaista tämä. Sinulle annetaan tarjoustiedot, ja sinun odotetaan luokittelevan tarjoajan bottiksi tai ihmiseksi. Tämä on rikkain tietolähde saatavilla kaikista ongelmista Kaggle.

vaikeustaso kullakin attribuutilla :

a) Koneoppimistaidot – Medium

b) Koodaustaidot – Medium

c) Acquising Domain Skills-Medium

d) Tutorial available – no support available as it is a recruiting contest

Note: I have not covered the Kaggle competitions offering prize money in this article as they are all related to a specific domain. Kerro oma näkemyksesi niistä alla olevassa kommenttiosiossa.

nyt etsitään oikea lähestymistapa ihmisille, joilla on erilaiset taidot eri elämänvaiheissa aloittaa Kaggle-matka!

tapaus 1: Minulla on Koodaustausta, mutta uutta koneoppimisessa.

Vaihe 1: ensimmäinen kaggle-ongelma, johon kannattaa tarttua, on: taksin lentoradan ennustaminen. Syy on, ongelma on monimutkainen tietojoukko, joka sisältää JSON muodossa yhdessä sarakkeet, joka kertoo joukon koordinaatteja taksi on vieraillut. Jos tämän pystyy purkamaan, jonkin alustavan arvion saaminen kohdekohteesta tai ajasta ei tarvitse koneoppimista. Siksi, voit käyttää koodaus vahvuus löytää oman arvon tällä alalla.

Vaihe 2: seuraava askel olisi tarttua: Titanic. Syy on, että nyt jo ymmärtää, miten käsitellä monimutkaisia aineistoja. Siksi nyt on täydellinen aika tarttua puhtaisiin koneoppimisongelmiin. Runsaasti ratkaisuja / skriptejä saatavilla, voit rakentaa hyvä ratkaisu.

Vaihe 3: Olet nyt valmis johonkin suureen. Kokeile Facebook-Rekrytointia. Tämä auttaa sinua ymmärtämään, miten domainin ymmärtäminen voi auttaa sinua saamaan parhaan irti koneoppimisesta.

kun kaikki nämä palaset ovat kohdallaan, on hyvä kokeilla mitä tahansa ongelmaa Kaggella.

Tapaus 2: olen ollut analytiikkateollisuudessa yli 2 vuotta, mutta ei mukava R / Python

Vaihe 1: kannattaa aloittaa ampumalla Titanicilla. Sinä ymmärrät jo, miten ennakoiva algoritmi rakennetaan. Sinun pitäisi nyt pyrkiä oppimaan kieliä, kuten R ja Python. Runsaasti ratkaisuja / skriptejä saatavilla, voit rakentaa erilaisia malleja sekä R ja Python. Tämä ongelma auttaa myös ymmärtämään muutamia kehittyneitä koneoppimisalgoritmeja.

Vaihe 2: seuraava askel olisi Facebook-rekrytointi. Reason being, koska yksinkertaisuus tietorakenteen ja rikkaus sisällön, voit liittyä oikea taulukoita ja tehdä ennakoiva algoritmi tässä. Tämä auttaa myös sinua ymmärtämään, miten domainin ymmärtäminen voi auttaa sinua saamaan parhaan irti koneoppimisesta.

ehdotuksia: Olet nyt valmis johonkin hyvin erilaiseen kuin mukavuusalueellasi. Lue ongelmia, kuten diabeettisen retinopatian havaitseminen, Avinto yhteydessä mainosten klikkaukset, Rikosluokitus ja löytää verkkotunnus kiinnostaa. Yritä nyt soveltaa sitä, mitä olet oppinut tähän mennessä.

nyt on aika kokeilla jotain monimutkaisempaa koodattavaa. Kokeile taksin lentoradan ennustamista tai likaisten asiakirjojen kieltämistä. Kun olet kaikki nämä palaset paikallaan, voit nyt kokeilla mitään ongelmaa Kaggle.

tapaus 3: Olen hyvä koodaamisessa ja koneoppimisessa, tarvitsen jotain haastavaa työstettäväkseni

Vaihe 1: Sinulla on monia vaihtoehtoja Kaggle. Ensimmäinen vaihtoehto on hallita uusi kieli kuten Julia. Voit aloittaa ensimmäisestä askeleesta Julian kanssa. Tämä antaa sinulle lisävalotuksen siihen, mitä Julia voi tehdä Pythonin tai R: n lisäksi.

Vaihe 2: Toinen vaihtoehto on kehittää taitoja lisätoimialalla. Voit kokeilla Avito Context, haku relevanssi tai Facebook-ihminen vs. Bot.

tapaus 4: olen aloittelija sekä koneoppimisessa että koodauskielessä, mutta haluan oppia

Vaihe 1: kannattaa aloittaa Kaggle-matka Titanicin kanssa. Syy on, ensimmäinen askel sinulle on oppia kieliä, kuten R ja Python. Runsaasti ratkaisuja / skriptejä saatavilla, voit rakentaa erilaisia malleja sekä R ja Python. Tämä ongelma auttaa myös ymmärtämään muutamia koneoppimisen algoritmeja.

Vaihe 2: sitten kannattaa ryhtyä: Facebook-rekrytointiin. Reason being, koska yksinkertaisuus tietorakenteen ja rikkaus sisällön, voit liittyä oikea taulukoita ja tehdä ennakoiva algoritmi tässä. Tämä auttaa myös sinua ymmärtämään, miten domainin ymmärtäminen voi auttaa sinua saamaan parhaan irti koneoppimisesta.

kun olet saanut nämä hoidettua, voit sitten tarttua ongelmiin oman kiinnostuksesi mukaan.

harva hacks on reilu kilpailu Kaggle

tämä ei ole kattava lista hackeista, mutta tarkoitus on antaa hyvä alku. Kattava lista ansaitsee uuden viran itsestään:

  1. varmista, että lähetät ratkaisun (vaikka näytelähetys tekee tämän työn) ennen viimeistä ilmoittautumispäivää, jos haluat osallistua kilpailuun tulevaisuudessa.
  2. ymmärrä verkkotunnus ennen kuin pääset tietoihin käsiksi. Esimerkiksi botti vs. human, sinun täytyy ymmärtää, miten verkossa tarjousalusta toimii ennen kuin aloitat matkan tietojen kanssa.
  3. Tee oma arviointialgoritmi, joka voi matkia Kaggle-testin pistemäärää. Yksinkertainen 10-kertainen ristiintarkistus toimii yleensä hyvin.
  4. yritä saada mahdollisimman paljon ominaisuuksia junan datasta – ominaisuus tekniikka on yleensä se osa, joka työntää sinut 40 prosentista 10 prosenttiin.
  5. yhdellä mallilla ei yleensä päästä top 10: een. Sinun täytyy tehdä monia monia malleja ja ensemble ne yhdessä. Tämä voi olla useita malleja eri algoritmeja tai eri joukko muuttujia.

Loppuhuomautukset

on olemassa useita etuja, jotka olen tajunnut työskenneltyäni Kaggle-ongelmien parissa. Olen oppinut R / Python lennossa. Uskon, että se on paras tapa oppia sama. Myös vuorovaikutus ihmisten keskustelufoorumin eri ongelmia auttaa sinua saamaan syvemmän kauhanäytteen koneoppimiseen ja domain.

tässä artikkelissa kuvasimme erilaisia Kaggle-ongelmia ja luokittelimme niiden olennaiset ominaisuudet vaikeustasoon. Tartuimme myös erilaisiin tosielämän tapauksiin ja päädyimme oikeaan lähestymistapaan Osallistuaksemme Kaggle-tapahtumaan.

oletko osallistunut mihinkään Kaggle-ongelmaan? Näitkö mitään merkittävää hyötyä siitä, että teit samoin? Kerro meille ajatuksesi tästä oppaasta alla olevassa kommenttiosiossa.

Jos pidät juuri lukemastasi & haluat jatkaa analytiikan oppimista, tilaa sähköpostimme, Seuraa meitä Twitterissä tai tykkää facebook-sivustamme.

voit lukea tämän jutun myös Mobiilisovelluksestamme

Vastaa

Sähköpostiosoitettasi ei julkaista.