NOTA: Este projeto está atualmente desativadas, se alguém gostaria de assumir a manutenção, por favor nos avise.
extensão Jupyter Notebook para integração Apache Spark.
inclui um indicador de progresso para a célula atual do Notebook se ele invocar aSpark job. Consulta O serviço Spark UI no back-end para obter as informações do trabalho requiredSpark.
para visualizar todos os trabalhos em execução no momento, clique no botão”Mostrar trabalhos em execução do Spark” ou pressione Alt+S
.
uma versão proxiada da interface do usuário do Spark pode ser acessada athttp://localhost:8888/spark.
Instalação
Para instalar, basta executar:
pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension
A última etapa é necessária para habilitar o widgetsnbextension
extensão thatJupyter-Spark depende. Pode ter sido ativado antes por um diferenteextensão.
você pode querer anexar --user
aos comandos acima se você estiver gettingconfiguration erros ao invocá-los.
verifique se a extensão foi instalada corretamente executar:
jupyter nbextension listjupyter serverextension list
Pleaes sinta-se livre para instalar o twofish, tiger, bem como para improveperformance do lado do servidor de comunicação a Centelha usando sua favoritepackage manager, por exemplo,:
pip install lxml
Para desenvolvimento e teste, clonar o projeto e executar a partir de uma shell no diretório raiz do projeto:
pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark
Para desinstalar a extensão de execução:
jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark
Configuração
Para alterar o URL de Ignição API que o trabalho de metadados é obtida fromoverride o Spark.url
config valor, por exemplo, na linha de comando:
jupyter notebook --Spark.url="http://localhost:4040"
Exemplo
simples pyspark
exemplo incluído no examples
para confirmar que yourinstallation está trabalhando.
Changelog
0.3.0 (2016-07-04)
-
reescreva o proxy para usar um manipulador de tornado assíncrono e um cliente HTTP para fetchresponses do Spark.
-
processamento de proxy simplificado para levar em consideração o proxy do Amazon EMR
-
conjunto de testes estendido para cobrir o manipulador de proxy também.
-
removeu solicitações como uma dependência.
0.2.0 (2016-06-30)
-
Refatorado para corrigir um monte de Python embalagem e qualidade do código problemas
-
Adicionado conjunto de teste para o código Python
-
Configurar a integração contínua: https://travis-ci.org/mozilla/jupyter-spark
-
Configurar relatórios de cobertura de código: https://codecov.io/gh/mozilla/jupyter-spark
-
adicionada capacidade de substituir o URL da API do Spark por meio da opção de linha de comando
-
importante requer etapa manual para ativar depois de executar a instalação do pip (consulte documentos de instalação)!
para atualizar:
- execute
pip uninstall jupyter-spark
- excluir
spark.js
da sua pastanbextensions
. - exclua todas as referências a
jupyter_spark.spark
emjupyter_notebook_config.json
(em seu .Jupyter directory) - excluir quaisquer referências a
spark
emnotebook.json
(em .jupyter/nbconfig) - Siga as instruções de instalação para reinstalar
- execute