캐글 경쟁:어떻게 그리고 어디서 시작해야합니까?

소개

카글 대회에 참가하는 데 필요한 기술이 있습니까?

이 질문에 직면 한 적이 있습니까? 적어도 내가 그랬어,학년으로,난 그냥 제공하는 어려움의 수준을 구상하여 카글 두려워했을 때. 이 두려움은 물 공포와 비슷했습니다. 물 내 두려움은 내가 수영 수업을 할 수 없습니다. 하지만,나중에 내가 배운,”순간까지 당신은 물 속으로 단계하지 않습니다,당신은 얼마나 깊은 밖으로 만들 수 없습니다”. 비슷한 철학이 카글에도 적용됩니다. 시도 할 때까지 결론을 내리지 마십시오!

데이터 과학의 본거지인 카글은 경쟁,고객 솔루션 및 직무 위원회를 위한 글로벌 플랫폼을 제공합니다. 여기에 카글 캐치,이 대회는 당신이 상자 밖으로 생각하게뿐만 아니라,잘 생긴 상금을 제공하지 않습니다.

그러나 사람들은이 대회에 참여하는 것을 주저합니다. 여기에 몇 가지 주요 이유는 다음과 같습니다:

  1. 그들은 획득 한 기술,지식 및 기술 수준을 과소 평가합니다.
  2. 기술 수준에 관계없이 가장 높은 상금을 제공하는 문제를 선택합니다.
  3. 그들은 문제의 난이도와 설정된 기술 수준을 모호하게하지 못합니다.

나는 생각한다,이 문제는 카글 자체에 대한 발산. Kaggle.com 사람들이 자신의 기술 세트와 일치하는 가장 적절한 문제를 선택하는 데 도움이 될 수있는 정보를 제공하지 않습니다. 그 결과,초보자/중간체가 적절한 문제를 시작하기로 결정하는 힘든 작업이되었습니다.

이 기사에서 무엇을 배울 것인가?

이 기사에서는 기술 세트 인 도구&기술에 따라 적절한 카글 문제를 선택하는 교착 상태를 열었습니다. 여기에,우리는 어려움의 수준과 그것을 해결하는 데 필요한 기술의 수준과 각 카글 문제를 설명했습니다.

사례 1:코딩 배경이 있지만 기계 학습은 처음입니다.

사례 2 : 사례 3:저는 코딩과 기계 학습에 능숙하며,

에 대해 작업하기 어려운 것이 필요합니다 사례 4:저는 기계 학습이나 코딩 언어에 대한 초보자이지만,

카글 문제 목록

타이타닉:재해로부터의 기계 학습

난이도

ㅏ)기계 학습 기술–쉬운

비)코딩 기술–쉬운

다)도메인 기술 습득-쉬운

디)자습서 사용 가능–매우 포괄적 인

2. 줄리아와 첫 번째 단계

목적:이 곧 줄리아의 도구를 사용하여 구글 스트리트 뷰 사진에 문자를 식별하는 문제입니다.

각 속성에 대한 난이도 :

가)기계 학습 기술–쉬운

나)코딩 기술–중간

다)도메인 기술 습득-쉬운

라)튜토리얼 사용 가능–포괄적 인

숫자 인식기

목적:손으로 쓴 숫자에 픽셀이있는 데이터가 주어지며 어떤 숫자인지 결정적으로 말해야합니다. 이 잠재 마르코프 모델에 대한 고전적인 문제입니다.

각 속성의 난이도 :

가)기계 학습 기술–중간

나)코딩 기술–중간

다)도메인 기술 습득-쉬운

라)튜토리얼 사용 가능–사용할 수 있지만 손을 잡고

단어의 가방 팝콘의 가방을 충족

목적:당신은 영화 리뷰의 집합을 제공하고,당신은 숨겨진 감정을 찾을 필요가있다 이 문장에서. 이 문제 문장의 목적은 구글 패키지 워드 2 벡을 소개하는 것입니다.

그것은 당신이 유한 차원 공간으로 단어를 변환하는 데 도움이 환상적인 패키지입니다. 이 방법으로 우리는 벡터를 보는 유추를 구축 할 수 있습니다. 하나의 매우 간단한 예는 알고리즘이 다음과 같은 유추를 가져올 수 있다는 것입니다:왕–남성+여성은 당신에게 여왕을 줄 것입니다.

각 속성에 대한 난이도:

에이)기계 학습 기술–어려운

나)코딩 기술–중간

다)도메인 기술 습득-쉬운

라)튜토리얼 사용 가능–사용 가능하지만 손을 잡지 않음

5. 더티 문서 노이즈 제거

목적:다음과 같은 기술에 대해 알 수 있습니다. 그것은 단순히 디지털 문서에 손으로 쓴 문서를 변환합니다. 그러나,그것은 완벽하지 않습니다. 여기서 당신의 임무는 기계 학습을 사용하여 완벽하게 만드는 것입니다.

각 속성에 대한 난이도:

에이)기계 학습 기술–어려운

나)코딩 기술–어려운

다)도메인 기술 습득-어려운

라)튜토리얼 사용 가능–없음

샌프란시스코 범죄 분류

목적:베이에 의해 도시에서 발생한 범죄의 범주를 예측하고있다.

각 속성에 대한 난이도:

가)기계 학습 기술–매우 어려운

나)코딩 기술–매우 어려운

다)도메인 기술 습득-어려운

라)튜토리얼 사용 가능–없음

택시 궤도 예측 시간/위치

목적:동일한 데이터 세트를 기반으로 두 가지 문제가 있습니다. 당신은 택시의 컨트롤러를 제공하고,당신은 택시가가는 곳이나 여행을 완료하는 데 걸리는 시간을 예측하기로되어있다.

각 속성에 대한 난이도:

에이)기계 학습 기술–쉬운

나)코딩 기술–어려운

다)도메인 기술 습득-중간

라)튜토리얼 사용 가능–몇 가지 벤치 마크 코드를 사용할 수

페이스 북 모집–인간 또는 봇

목표:n 도메인,이 하나를 해결 해야 합니다. 당신은 입찰 데이터를 제공하고 봇 또는 인간에 입찰자를 분류 할 것으로 예상된다. 전체 평가는 별 5(5)개입니다-1 리뷰에 기반함.이 파일은 실행가능한 파일입니다.

각 속성에 대한 난이도:

가)기계 학습 기술–중간

나)코딩 기술–중간

다)도메인 기술 습득-중간

라)튜토리얼 사용 가능–모집 경연 대회이기 때문에 지원 없음

참고:이 기사에서 상금을 제공하는 카글 콘테스트는 모두 특정 기술과 관련이 있으므로 다루지 않았습니다.도메인. 나를 아래의 코멘트 섹션에서 그들에 걸릴 알려.

우리는 이제 삶의 여러 단계에서 서로 다른 기술을 가진 사람들이 카글 여행을 시작하는 올바른 접근법을 살펴볼 것입니다!

사례 1:코딩에 대한 배경이 있지만 기계 학습에 새로운 배경이 있습니다.

1 단계:첫 번째 카글 문제는 택시 궤도 예측입니다. 이 응용 프로그램은 택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시,택시 당신이 이것을 무너 뜨릴 수 있다면,목표 목적지 또는 시간에 대한 초기 추정치를 얻는 것은 기계 학습을 필요로하지 않습니다. 따라서,이 업계에서 당신의 가치를 찾기 위해 코딩 강도를 사용할 수 있습니다.

2 단계:다음 단계는 타이타닉. 이유는 복잡한 데이터 세트를 처리하는 방법을 이미 이해했기 때문입니다. 따라서 지금은 순수한 기계 학습 문제를 해결할 수있는 완벽한 시간입니다. 가능한 솔루션/스크립트의 풍부한,당신은 좋은 솔루션을 구축 할 수있을 것입니다.

3 단계:이제 큰 일에 대한 준비가 되었습니다. 페이스 북 모집을 시도.. 이것은 당신이 이해 도메인은 기계 학습에서 최선을 얻을 수있는 방법을 주셔서 감사합니다 도움이 될 것입니다.

일단 당신이 장소에 모든 조각을 가지고,당신은 카글에 어떤 문제를 시도하는 것이 좋다.

사례 2:저는 2 년 이상 애널리틱스 산업에 종사해 왔지만,파이썬

1 단계:타이타닉에서 촬영한 것으로 시작해야 합니다. 이유는 이미 예측 알고리즘을 구축하는 방법을 이해하고 있습니다. 이제 아르 자형 과 파이썬 같은 언어를 배우기 위해 노력해야합니다. 솔루션의 풍부한/사용 가능한 스크립트,당신은 연구와 파이썬 모두에서 모델의 다른 종류를 구축 할 수있을 것입니다. 이 문제는 또한 몇 가지 고급 기계 학습 알고리즘을 이해하는 데 도움이됩니다.

2 단계:다음 단계는 페이스 북 모집해야한다.. 이유는 데이터 구조의 단순성과 콘텐츠의 풍부함을 감안할 때 올바른 테이블을 조인하고 이에 대한 예측 알고리즘을 만들 수 있습니다. 이것은 또한 당신이 이해 도메인은 기계 학습에서 최선을 얻을 수 있도록하는 방법을 주셔서 감사합니다 도움이 될 것입니다.

제안: 당신은 지금 당신의 안락 지역에서 아주 다른 무언가를 위해 준비되어 있다. 당뇨병 성 망막증 탐지,아빈토 컨텍스트 광고 클릭,범죄 분류와 같은 문제를 읽고 관심있는 도메인을 찾으십시오. 이제 지금까지 배운 것을 적용 해보십시오.

이제 코드에 더 복잡한 것을 시도 할 때입니다. 택시 궤적 예측 또는 더러운 문서 노이즈 제거를 시도하십시오. 당신이 장소에 모든 조각을 일단,당신은 지금 카글에 어떤 문제를 시도 할 수 있습니다.

사례 3:나는 코딩 및 기계 학습에 능숙하며

1 단계에서 작업하기 어려운 것이 필요합니다.: 당신은 카글에 많은 옵션이 있습니다. 첫 번째 옵션은 줄리아와 같은 새로운 언어를 마스터하는 것입니다. 당신은 줄리아와 함께 첫 번째 단계로 시작할 수 있습니다. 2 단계:두 번째 옵션은 추가 도메인으로 기술을 개발하는 것입니다. 당신은 아비 토 컨텍스트,검색 관련성 또는 페이스 북-인간 대 봇을 시도 할 수 있습니다..

사례 4:저는 기계 학습이나 코딩 언어 모두에 초보자이지만

를 배우고 싶습니다. 이유는,당신을 위해 첫 번째 단계는 아르 자형 과 파이썬 같은 언어를 배우는 것입니다. 솔루션의 풍부한/사용 가능한 스크립트,당신은 연구와 파이썬 모두에서 모델의 다른 종류를 구축 할 수있을 것입니다. 이 문제는 또한 몇 가지 기계 학습 알고리즘을 이해하는 데 도움이됩니다.

2 단계:Facebook 이유는 데이터 구조의 단순성과 콘텐츠의 풍부함을 감안할 때 올바른 테이블을 조인하고 이에 대한 예측 알고리즘을 만들 수 있습니다. 이것은 또한 당신이 이해 도메인은 기계 학습에서 최선을 얻을 수 있도록하는 방법을 주셔서 감사합니다 도움이 될 것입니다.

이 작업을 완료하면,당신은 당신의 관심에 따라 문제를 취할 수 있습니다.

몇 해킹 캐글에 공정한 경쟁이 될

이 해킹의 포괄적 인 목록이 아닙니다,하지만 당신에게 좋은 시작을 제공하기위한. 포괄적 인 목록은 그 자체로 새로운 게시물을 가치가있다:

  1. 너가 앞으로는 경쟁안에 참가한것을 바라면,너가 마지막 입국 날짜의 앞에 해결책을 복종시킨것을 확인하십시요(조차 견본 제출은 이 일을 할 것이다).
  2. 데이터에 도달하기 전에 도메인을 이해합니다. 예를 들어 봇 대 인간의 경우 데이터로 여행을 시작하기 전에 온라인 입찰 플랫폼이 어떻게 작동하는지 이해해야합니다.
  3. 카글 시험 점수를 모방 할 수있는 자신의 평가 알고리즘을 확인합니다. 간단한 교차 유효성 검사 10 배는 일반적으로 잘 작동합니다.
  4. 기차 데이터에서 가능한 한 많은 기능을 개척하십시오-기능 엔지니어링은 일반적으로 상위 40 백분위수에서 상위 10 백분위수로 밀어 넣는 부분입니다.
  5. 단일 모델은 일반적으로 상위 10 에 당신을 얻을하지 않습니다. 당신은 많은 많은 모델을 만들고 그들을 함께 앙상블해야합니다. 이것은 다른 알고리즘 또는 다른 변수 세트를 가진 여러 모델 일 수 있습니다.

끝 노트

카글 문제를 연구한 후 깨달은 여러 가지 이점이 있습니다. 나는 즉시 파이썬을 배웠다. 나는 그것이 똑같은 것을 배우는 가장 좋은 방법이라고 생각한다. 또한 다양한 문제에 대한 토론 포럼의 사람들과 상호 작용하는 것은 기계 학습 및 도메인에 깊은 특종을 얻을 도움이 될 것입니다.

이 기사에서는 다양한 카글 문제를 설명하고 그 핵심 속성을 난이도로 분류했습니다. 우리는 또한 다양한 실제 사례를 채택하여 카글에 참여할 수있는 올바른 접근 방식을 이끌어 냈습니다.

당신은 어떤 카글 문제에 참여 했습니까? 당신은 동일을 해서 어떤 뜻깊은 이득을 보았는가? 우리는 아래의 코멘트 섹션에서이 가이드에 대한 의견을 알려 마십시오.

방금 읽은 내용이 마음에 들면,분석 학습을 계속하고,이메일을 구독하고,트위터나 페이스북 페이지를 팔로우..

당신은 또한 우리의 모바일 앱에서이 문서를 읽을 수 있습니다

답글 남기기

이메일 주소는 공개되지 않습니다.