Kaggle競技:どのように、どこから始めるのですか?

はじめに

私はKaggleの大会に参加するために必要なスキルを持っていますか?

あなたはこの質問に直面したことがありますか? 少なくとも私は、2年生として、それが提供する難易度のレベルを想像するだけでKaggleを恐れていました。 この恐怖は私の水の恐怖に似ていました。 水の私の恐れは私が水泳のクラスを取ることを可能にしない。 しかし、後で私は学んだ、”あなたが水に足を踏み入れない瞬間まで、あなたはそれがどれほど深いかを知ることはできません”。 同様の哲学がKaggleにも当てはまります。 あなたがしようとするまで締結しないでください!

データサイエンスの本拠地であるKaggleは、競技会、顧客ソリューション、ジョブボードのためのグローバルなプラット これらの大会は、あなたが箱から出して考えるだけでなく、ハンサムな賞金を提供するだけでなく、Kaggle catchです。

しかし、人々はこれらの大会に参加することを躊躇している。 いくつかの主な理由は次のとおりです:

  1. 彼らは、取得したスキル、知識、技術のレベルを軽視しています。
  2. スキルセットのレベルにかかわらず、彼らは最高の賞金を提供する問題を選択します。
  3. 彼らはスキルセットのレベルと問題の難易度を混同することができません。

私は数える、この問題はKaggle自体のために発せられる。 Kaggle.com 人々が彼らの技術セットと一致する最も適切な問題を選ぶのを助けることができる情報を提供しない。 その結果、初心者/中間体が適切な問題を開始するかどうかを決定するのは困難な作業となっています。

あなたはこの記事で何を学びますか?

この記事では、あなたのスキル、ツール&テクニックに応じて適切なカグル問題を選択するデッドロックを開きました。 ここでは、各kaggleの問題を難易度とそれを解決するために必要なスキルのレベルで説明しました。

後半では、次のケースに対してkaggle問題を取り上げる正しいアプローチを定義しました。

ケース1:私はコーディングの背景がありますが、機械学習には新しいです。

ケース2 : 私は2年以上分析業界にいましたが、R/Pythonでは快適ではありません

ケース3:コーディングと機械学習が得意で、

ケース4:機械学習とコーディング言語の両方6487>目的:機械学習であなたの旅を開始するための古典的な人気のある問題。 あなたは、オンボードの乗客の属性のセットを与えられ、あなたは船が沈没した後に生き残ったであろう人を予測する必要があります。

難易度

a)機械学習スキル–簡単

b)コーディングスキル–簡単

c)ドメインスキルの取得-簡単

d)利用可能なチュートリアル–非常に包括的な

2. Julia

の最初のステップ目的:これは、今後のツールJuliaを使用してGoogleストリートビューの画像上の文字を識別するための問題です。

各属性の難易度 :

a)機械学習スキル–Easy

b)コーディングスキル–Medium

c)ドメインスキルの取得-Easy

d)チュートリアル利用可能–Comprehensive

Digit Recognizer

目的:手書きの数字にピクセルを持つデータが与えられ、それが何であるかを決定的に言う必要があります。 これは潜在マルコフモデルの古典的な問題である。<9142><6216>各属性の難易度 :

a)機械学習スキル–中

b)コーディングスキル–中

c)ドメインスキルの取得-簡単

d)チュートリアル利用可能–利用可能ですが、手を保持していません

言葉の袋ポップコーンの袋

目的:あなたは映画レビューのセットを与えられており、あなたは映画のレビューを見つける必要があります。これらの声明に隠された感情。 この問題に関する声明の目的は、Google Package–Word2Vecを紹介することです。

単語を有限次元空間に変換するのに役立つ素晴らしいパッケージです。 このようにして、ベクトルだけを見て類推を構築することができます。 非常に簡単な例の1つは、あなたのアルゴリズムが次のような類推を引き出すことができるということです:King–Male+FemaleはあなたにQueenを与えます。

各属性の難易度:

a)機械学習スキル–難しい

b)コーディングスキル–中

c)ドメインスキルの取得-簡単

d)チュートリアルが利用可能–利用可能ですが、手を保持していない

5。 汚れた文書のノイズ除去

目的:OCRとして知られている技術について知っているかもしれません。 手書きの文書をデジタル文書に変換するだけです。 しかし、それは完璧ではありません。 ここでのあなたの仕事は、それを完璧にするために機械学習を使用することです。

各属性の難易度:

a)機械学習スキル–難しい

b)コーディングスキル–難しい

c)ドメインスキルの取得-難しい

d)チュートリアル利用可能–いいえ

サンフ

各属性の難易度:

a)機械学習スキル–非常に困難な

b)コーディングスキル–非常に困難な

c)ドメインスキルの取得-困難な

d)チュートリアル利用可–なし

タクシー軌道予測時間/場所

目的:同じデータセットに基づいて二つの問題がある。 あなたはタクシーのコントローラを与えられ、あなたはタクシーがどこに行くのか、それが旅を完了するのにかかる時間を予測することになっています。

各属性の難易度:

a)機械学習スキル–簡単な

b)コーディングスキル–難しい

c)ドメインスキルの取得-中

d)チュートリアル–いくつかのベンチマークコードが利用可

Facebookの募集–人間またはボット

目的:新しいドメインを理解するためにナグを持っている場合あなたはこれを解決しなければなりません。 あなたは入札データを与えられ、入札者をボットまたは人間に分類することが期待されます。 これは、Kaggleのすべての問題の中で利用可能な最も豊富なデータソースを持っています。

各属性の難易度:

a)機械学習スキル–中

b)コーディングスキル–中

c)ドメインスキルの取得-中

d)チュートリアル利用可能–募集コンテストであるたドメイン。 私は下のコメント欄でそれらにあなたのテイクを知ってみましょう。

私たちは今、彼らのKaggleの旅を開始するために、人生のさまざまな段階でスキルの異なるセットを持つ人々のための正しいアプローチを見ていきます!

ケース1:私はコーディングの背景を持っていますが、機械学習には新しいです。

ステップ1:あなたが取るべき最初のカグル問題は:タクシー軌道予測です。 その理由は、この問題には、タクシーが訪問した座標のセットを伝える列の1つにJSON形式を含む複雑なデータセットがあります。 これを分解することができれば、目標の目的地または時間に関する初期推定値を取得しても、機械学習は必要ありません。 したがって、あなたはこの業界であなたの価値を見つけるためにあなたのコーディングの強さを使用することができます。

ステップ2:あなたの次のステップは取るべきである:タイタニック。 その理由は、複雑なデータセットを処理する方法をすでに理解しているからです。 したがって、今は純粋な機械学習の問題に取り組むのに最適な時期です。 利用可能なソリューション/スクリプトの豊富さを使用すると、良い解決策を構築することができるようになります。

ステップ3:あなたは今、大きな何かの準備ができています。 Facebookの募集を試してみてください。 これは、ドメインを理解することが機械学習を最大限に活用するのにどのように役立つかを理解するのに役立ちます。

これらの作品をすべて準備したら、Kaggleで問題を試してみるのが良いでしょう。

ケース2:私は2年以上分析業界にいましたが、R/Python

では快適ではありませんステップ1:Titanicで撮影することから始める必要があります。 理由は、あなたはすでに予測アルゴリズムを構築する方法を理解しています。 これで、RやPythonのような言語を学ぶように努力する必要があります。 豊富なソリューション/スクリプトが利用可能で、RとPythonの両方で異なる種類のモデルを構築することができます。 この問題は、いくつかの高度な機械学習アルゴリズムを理解するのにも役立ちます。

ステップ2:次のステップはFacebookの募集でなければなりません。 その理由は、データ構造のシンプルさとコンテンツの豊富さを考えると、正しいテーブルを結合して、このテーブルで予測アルゴリズムを作成することがで これは、ドメインを理解することが機械学習を最大限に活用するのにどのように役立つかを理解するのにも役立ちます。

: あなたは今、あなたの快適ゾーンとは非常に異なる何かの準備ができています。 糖尿病性網膜症の検出、Avintoコンテキスト広告のクリック数、犯罪分類のような問題を読んで、あなたの興味のあるドメインを見つけます。 今、あなたがこれまでに学んだものは何でも適用してみてください。

今こそ、より複雑なコードを試す時です。 タクシーの軌道予測や汚れた文書をノイズ除去してみてください。 これらのすべての部分を準備したら、Kaggleで問題を試すことができます。

ケース3:私はコーディングと機械学習に優れています、

ステップ1で作業するには挑戦的な何かが必要です: Kaggleには多くのオプションがあります。 最初の選択肢は、Juliaのような新しい言語を習得することです。 あなたはJuliaとの最初のステップから始めることができます。 理由は、これはあなたにPythonやRに加えてJuliaができることに追加の露出を与えるでしょう。

ステップ2:第二の選択肢は、追加のドメインでスキルを開発す あなたはAvito Context、検索関連性、またはFacebook–Human vs.Botを試すことができます。

ケース4:私は機械学習とコーディング言語の両方の初心者ですが、

を学びたいステップ1:あなたはタイタニックであなたのkaggleの旅を始めるべきです。 その理由は、あなたのための最初のステップは、RやPythonのような言語を学ぶことです。 豊富なソリューション/スクリプトが利用可能で、RとPythonの両方で異なる種類のモデルを構築することができます。 この問題は、いくつかの機械学習アルゴリズムを理解するのにも役立ちます。

ステップ2:あなたはそれから取るべきです:Facebookの募集。 その理由は、データ構造のシンプルさとコンテンツの豊富さを考えると、正しいテーブルを結合して、このテーブルで予測アルゴリズムを作成することがで これは、ドメインを理解することが機械学習を最大限に活用するのにどのように役立つかを理解するのにも役立ちます。

これらの操作が完了したら、興味に応じて問題を取り上げることができます。

kaggleの公正な競争であるためにいくつかのハック

これはハックの包括的なリストではありませんが、あなたに良いスタートを提供するためのものです。 総合的なリストは、それ自体で新しいポストに値する:

  1. あなたが将来的に競争に参加したい場合は、最終エントリー日前にソリューションを提出してください(サンプルの提出でもこの仕事をします)。
  2. データに乗る前にドメインを理解してください。 例えば、ボット対人間では、データを使用して旅を開始する前に、オンライン入札プラットフォームがどのように機能するかを理解する必要があります。
  3. Kaggleテストのスコアを模倣することができ、独自の評価アルゴリズムを作成します。 10倍の単純な交差検証は、一般的に正常に動作します。
  4. 列車データからできるだけ多くの特徴を彫るようにしてください–特徴工学は、通常、上の40百分位から上の10百分位にあなたをプッシュする部分です。
  5. 単一のモデルは、一般的にトップ10にあなたを取得しません。 あなたは多くの多くのモデルを作り、それらを一緒にアンサンブルする必要があります。 これは、異なるアルゴリズムまたは変数の異なるセットを持つ複数のモデルにすることができます。

エンドノート

Kaggleの問題に取り組んだ後、私が実現した複数の利点があります。 私はその場でR/Pythonを学びました。 私はそれが同じことを学ぶための最良の方法だと信じています。 また、様々な問題に関する議論フォーラムの人々との対話は、機械学習とドメインに深いスクープを得るのに役立ちます。

この記事では、様々なKaggleの問題を説明し、それらの本質的な属性を難易度に分類しました。 また、様々な実生活のケースを取り上げ、Kaggleに参加するための適切なアプローチを引き出しました。

Kaggleの問題に参加しましたか? 同じことをすることによって重要な利点を見たか。 私たちは、以下のコメント欄に、このガイドについてのあなたの考えを知ってみましょうか。

あなたが読んだものが好きなら&あなたの分析の学習を継続したい、私たちの電子メールを購読する、twitterで私たちに従うか、私たちのfacebookページのように。

また、私たちのモバイルアプリでこの記事を読むことができます

コメントを残す

メールアドレスが公開されることはありません。