competições Kaggle: como e por onde começar?

Introdução

eu tenho as habilidades necessárias para participar de Kaggle Competições?

você já enfrentou essa pergunta? Pelo menos eu fiz, como um estudante do segundo ano, quando eu costumava temer Kaggle apenas imaginando o nível de dificuldade que oferece. Esse medo era semelhante ao meu medo da água. Meu medo da água não me permitiria fazer aulas de natação. No entanto, mais tarde eu aprendi: “até o momento em que você não entra na água, você não consegue entender o quão profundo é”. Filosofia semelhante se aplica ao Kaggle. Não conclua até tentar!

Kaggle, a casa da ciência de dados, fornece uma plataforma global para competições, soluções para clientes e quadro de empregos. Aqui está o Kaggle catch, essas competições não só fazem você pensar fora da caixa, mas também oferece um belo prêmio em dinheiro.

no entanto, as pessoas hesitam em participar dessas competições. Aqui estão algumas razões principais:

  1. eles menosprezam seu nível de habilidades, conhecimentos e técnicas adquiridas.
  2. independentemente do seu nível de conjuntos de habilidades, eles escolhem o problema oferecendo maior prêmio em dinheiro.
  3. eles não conseguem equivocar seu nível de habilidade definido com o nível de dificuldade do problema.

acho que esse problema emana para o próprio Kaggle. Kaggle.com não fornece nenhuma informação que possa ajudar as pessoas a escolher o problema mais apropriado que combina com seu conjunto de habilidades. Como resultado, tornou-se uma tarefa árdua para iniciantes/intermediários para decidir para o problema adequado para começar.

o que você vai aprender neste artigo?

neste artigo, abrimos o impasse de escolher o problema Kaggle apropriado de acordo com seu conjunto de habilidades, ferramentas & técnicas. Aqui, ilustramos cada problema de kaggle com o nível de dificuldade e o nível de habilidades necessárias para resolvê-lo.

na última parte, definimos a abordagem correta para resolver um problema de kaggle para os seguintes casos:

Caso 1 : Tenho um histórico de codificação, mas novo no aprendizado de máquina.

Processo 2 : Eu tenho sido na Indústria do analytics há mais de 2 anos, mas não se sente confortável no R/Python

Caso 3 : eu sou bom com codificação e aprendizado de máquina, precisa de algo desafiador para trabalhar em

Caso 4 : eu sou um novato para tanto aprendizado de máquina ou a linguagem de codificação, mas eu quero aprender

Lista de Kaggle Problemas

Titanic : Aprendizado de Máquina de desastres

> Objectivo: Um clássico popular problema para iniciar a sua viagem com o aprendizado de máquina. Você recebe um conjunto de atributos de passageiros a bordo e precisa prever quem teria sobrevivido após o navio afundado.

nível de Dificuldade

uma) Máquina de Habilidades de Aprendizagem – Fácil

b) habilidades de Codificação – Fácil

c) a Aquisição de Domínio de Habilidades Fácil

d) os Tutoriais disponíveis – Muito abrangente

2. Primeiro passo com Julia

objetivo: este é um problema para identificar caracteres na imagem do Google Street view usando uma próxima ferramenta Julia.

nível de dificuldade em cada um dos atributos :

uma) Máquina de Habilidades de Aprendizagem – Fácil

b) habilidades de Codificação e de Médio

c) a Aquisição de Domínio de Habilidades Fácil

d) Tutorial disponível Abrangente

Reconhecedor de Dígitos

> Objectivo: Você é dado um com pixels no manuscrito dígitos e você precisa dizer de forma conclusiva que o dígito é isso. Este é um problema clássico para o modelo latente de Markov.

nível de dificuldade em cada um dos atributos :

uma) Máquina de Habilidades de Aprendizagem – Médio

b) habilidades de Codificação e de Médio

c) a Aquisição de Domínio de Habilidades Fácil

d) Tutorial disponível – Disponível, mas sem mão segurando

Saco de Palavras atender Saco de Pipoca

> Objectivo: Você é dado um conjunto de críticas de filmes, e você precisa encontrar o sentimento oculto nestes instrução. O objetivo desta Declaração de problema é apresentá – lo ao pacote do Google-Word2Vec.

é um pacote fantástico que ajuda a converter palavras em um espaço de dimensão finita. Dessa forma, podemos construir analogias apenas olhando para o vetor. Um exemplo muito simples é que seu algoritmo pode trazer analogias como: Rei-macho + fêmea lhe dará Rainha.

nível de Dificuldade em cada um dos atributos :

uma) Máquina de Habilidades de Aprendizagem – Difícil

b) habilidades de Codificação e de Médio

c) a Aquisição de Domínio de Habilidades Fácil

d) Tutorial disponível – Disponível, mas sem mão segurando

5. Denoising documentos Sujos

objetivo: você pode saber sobre uma tecnologia conhecida como OCR. Ele simplesmente converte documentos manuscritos em documentos digitais. No entanto, não é perfeito. Seu trabalho aqui é usar o aprendizado de máquina para torná-lo perfeito.

nível de Dificuldade em cada um dos atributos :

uma) Máquina de Habilidades de Aprendizagem – Difícil

b) habilidades de Codificação – Difícil

c) a Aquisição de Domínio de Habilidades Difícil

d) Tutorial disponível – Não

San Francisco Crime de Classificação

> Objectivo: Prever a categoria de crimes que ocorreram na cidade pela baía.

nível de Dificuldade em cada um dos atributos :

uma) Máquina de Habilidades de Aprendizagem – é Muito Difícil

b) habilidades de Codificação – é Muito Difícil

c) a Aquisição de Domínio de Habilidades Difícil

d) Tutorial disponível – Não

Táxi Trajetória de Previsão de Tempo / Local

> Objectivo: Existem dois problemas com base no mesmo conjunto de dados. Você é dado o controlador de um táxi, e você é suposto prever onde é o táxi vai ou o tempo que vai demorar para completar a viagem.

nível de Dificuldade em cada um dos atributos :

uma) Máquina de Habilidades de Aprendizagem – Fácil

b) habilidades de Codificação – Difícil

c) a Aquisição de Domínio de Habilidades Médio

d) Tutorial disponíveis – alguns códigos de referência disponível

Facebook Recrutamento – Humanos ou bot

> Objectivo: Se você tem uma nag para entender um novo domínio, você tem que resolvê-lo. Você recebe os dados de lances e espera-se que classifique o licitante para bot ou humano. Isso tem a fonte de dados mais rica disponível de todos os problemas no Kaggle.

nível de Dificuldade em cada um dos atributos :

uma) Máquina de Habilidades de Aprendizagem – Médio

b) habilidades de Codificação e de Médio

c) a Aquisição de Domínio de Habilidades Médio

d) Tutorial disponível – Não disponível suporte, como é um concurso de recrutamento

Nota: Eu não tiver coberto o Kaggle concursos de oferecer um prêmio em dinheiro neste artigo como eles estão todos relacionados a um domínio específico. Deixe-me saber sua opinião sobre eles na seção de comentários abaixo.

vamos agora olhar a abordagem correta para as pessoas que têm diferentes conjunto de habilidades em diferentes estágios da vida para começar sua jornada Kaggle!

Caso 1: Tenho um histórico de codificação, mas sou novo no aprendizado de máquina.Etapa 1: o primeiro problema do kaggle que você deve enfrentar é: previsão da trajetória do táxi. Por exemplo, o problema tem um conjunto de dados complexo que inclui um formato JSON em uma das colunas que informa o conjunto de coordenadas que o táxi visitou. Se você for capaz de quebrar isso, obter alguma estimativa inicial sobre o destino ou o tempo alvo não precisa de um aprendizado de máquina. Portanto, você pode usar sua força de codificação para encontrar seu valor neste setor.Passo 2: seu próximo passo deve ser assumir: Titanic. Por exemplo, agora você já entenderia como lidar com conjuntos de dados complexos. Portanto, agora é o momento perfeito para tomar um tiro em problemas de aprendizagem de máquina pura. Com abundância de soluções / scripts disponíveis, você será capaz de construir uma boa solução.Passo 3: Agora você está pronto para algo grande. Experimente O Recrutamento Do Facebook. Isso ajudará você a entender como o understanding domain pode ajudá-lo a tirar o melhor proveito do aprendizado de máquina.

depois de ter todas essas peças no lugar, você é bom para tentar qualquer problema no Kaggle.

caso 2: Estou na indústria de análise há mais de 2 anos, mas não me sinto confortável em R / Python

Etapa 1: você deve começar com uma foto no Titanic. Razão sendo, você já entende como construir algoritmo preditivo. Agora você deve se esforçar para aprender idiomas como R e Python. Com abundância de soluções / scripts disponíveis, você será capaz de construir diferentes tipos de modelos em R e Python. Esse problema também o ajudará a entender alguns algoritmos avançados de aprendizado de máquina.Etapa 2: O próximo passo deve ser o Recrutamento do Facebook. Razão sendo, dada a simplicidade da estrutura de dados e a riqueza do conteúdo, você poderá juntar tabelas corretas e fazer um algoritmo preditivo neste. Isso também ajudará você a entender como o understanding domain pode ajudá-lo a tirar o melhor proveito do aprendizado de máquina.

sugestões: Agora você está pronto para algo muito diferente da sua zona de conforto. Leia problemas como Detecção de Retinopatia Diabética, cliques em Anúncios de contexto Avinto, classificação de crimes e encontre o domínio de seu interesse. Agora tente aplicar o que você aprendeu até agora.

agora é a hora de tentar algo mais complexo para codificar. Tente Previsão trajetória táxi ou Denoising documentos Sujos. Depois de ter todas essas peças no lugar, agora você pode tentar qualquer problema no Kaggle.

caso 3: Eu sou bom com codificação e aprendizado de máquina, preciso de algo desafiador para trabalhar em

Passo 1: Você tem muitas opções no Kaggle. A primeira opção é dominar uma nova linguagem como Julia. Você pode começar com o primeiro passo com Julia. Por exemplo, isso lhe dará uma exposição adicional ao que Julia pode fazer além de Python ou R.

Etapa 2: segunda opção é desenvolver habilidades com um domínio adicional. Você pode tentar o contexto do Avito, a relevância da pesquisa ou o Facebook-Human vs. Bot.

caso 4: Eu sou um novato em aprendizado de máquina ou linguagem de codificação, mas quero aprender

Passo 1: você deve começar sua jornada de kaggle com Titanic. Por exemplo, o primeiro passo para você é aprender linguagens como R e Python. Com abundância de soluções / scripts disponíveis, você será capaz de construir diferentes tipos de modelos em R e Python. Esse problema também o ajudará a entender alguns algoritmos de aprendizado de máquina.Passo 2: você deve então assumir: Recrutamento do Facebook. Razão sendo, dada a simplicidade da estrutura de dados e a riqueza do conteúdo, você poderá juntar tabelas corretas e fazer um algoritmo preditivo neste. Isso também ajudará você a entender como o understanding domain pode ajudá-lo a tirar o melhor proveito do aprendizado de máquina.

uma vez que você é feito com estes, você pode então assumir problemas de acordo com o seu interesse.

alguns hacks para ser uma competição justa no Kaggle

esta não é uma lista abrangente de hacks, mas destina-se a fornecer-lhe um bom começo. Lista abrangente merece um novo post por si só:

  1. certifique-se de enviar uma solução (até mesmo o envio de amostra fará este trabalho) antes da última data de inscrição, se você quiser participar da competição no futuro.
  2. entenda o domínio antes de acessar os dados. Por exemplo, no bot vs. human, você precisa entender como a plataforma de lances on-line funciona antes de iniciar a jornada com dados.
  3. Faça seu próprio algoritmo de avaliação que pode imitar a pontuação do teste Kaggle. Uma validação cruzada simples de 10 vezes geralmente funciona bem.
  4. tente esculpir o máximo de recursos possível a partir dos dados do trem – a engenharia de recursos geralmente é a parte que o empurra do percentil 40 ao percentil 10 superior.
  5. um único modelo geralmente não o coloca no top 10. Você precisa fazer muitos modelos e ensemble-los juntos. Isso pode ser vários modelos com diferentes algoritmos ou diferentes conjuntos de variáveis.

notas finais

existem vários benefícios que percebi depois de trabalhar nos problemas do Kaggle. Eu aprendi R / Python em tempo real. Eu acredito que essa é a melhor maneira de aprender o mesmo. Também interagir com pessoas do fórum de discussão sobre vários problemas irá ajudá-lo a obter uma colher mais profunda em aprendizado de máquina e domínio.Neste artigo, ilustramos vários problemas de Kaggle e categorizamos seus atributos essenciais no nível de dificuldade. Também pegamos vários casos da vida real e provocamos a abordagem certa para participar do Kaggle.

você já participou de algum problema de Kaggle? Você viu algum benefício significativo fazendo o mesmo? Deixe-nos saber seus pensamentos sobre este guia na seção de comentários abaixo.

se você gosta do que acabou de ler & deseja continuar seu aprendizado de análise, Inscreva-se em nossos E-mails, Siga-nos no twitter ou curta nossa página no facebook.

você também pode ler este artigo em nosso aplicativo móvel

Deixe uma resposta

O seu endereço de email não será publicado.