NOTA: Este proyecto no se mantiene actualmente, si alguien desea hacerse cargo del mantenimiento, háganoslo saber.
Extensión Jupyter Notebook para integración con Apache Spark.
Incluye un indicador de progreso para la celda del cuaderno actual si invoca el trabajo aSpark. Consulta el servicio de interfaz de usuario de Spark en el backend para obtener la información del trabajo requiredSpark.
Para ver todos los trabajos en ejecución, haga clic en el botón «mostrar trabajos de Spark en ejecución» o pulse Alt+S
.
Se puede acceder a una versión proxy de la interfaz de usuario de Spark en el servidor local: / / localhost: 8888 / spark.
Instalación
Para instalar, simplemente ejecute:
pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension
El último paso es necesario para habilitar la extensión widgetsnbextension
de la que depende Jupyter-Spark. Puede haber sido habilitado antes por una extensión diferente.
Es posible que desee agregar --user
a los comandos anteriores si está obteniendo errores de configuración al invocarlos.
Para verificar si la extensión se instaló correctamente, ejecute:
jupyter nbextension listjupyter serverextension list
Por favor, siéntase libre de instalar lxml también para mejorar el rendimiento de la comunicación del lado del servidor a Spark usando su administrador de paquetes favoritos, p. ej.:
pip install lxml
Para el desarrollo y las pruebas, clona el proyecto y ejecútalo desde un shell en el directorio raíz del proyecto:
pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark
Para desinstalar la extensión, ejecute:
jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark
Configuración
Para cambiar la URL de la API de Spark de la que se obtienen los metadatos del trabajo sobre el valor de configuración Spark.url
, por ejemplo, en la línea de comandos:
jupyter notebook --Spark.url="http://localhost:4040"
Ejemplo
Hay un ejemplo simple pyspark
incluido en examples
para confirmar que su instalación está funcionando.
Registro de cambios
0.3.0 (2016-07-04)
-
Proxy reescrito para usar un controlador Tornado asincrónico y un cliente HTTP para obtener respuestas de Spark.
-
Procesamiento de proxy simplificado para tener en cuenta el proxy de Amazon EMR
-
Suite de pruebas extendida para cubrir también el manejador de proxy.
-
Se han eliminado las solicitudes como dependencia.
0.2.0 (2016-06-30)
-
Refactorizado para solucionar un montón de problemas de empaquetado y calidad de código de Python
-
Suite de pruebas agregada para código Python
-
Configurar la integración continua: https://travis-ci.org/mozilla/jupyter-spark
-
Configurar informes de cobertura de código: https://codecov.io/gh/mozilla/jupyter-spark
-
Se agregó la capacidad de anular la URL de la API de Spark a través de la opción de línea de comandos
-
IMPORTANTE Requiere un paso manual para habilitar después de ejecutar la instalación de imágenes incrustadas (consulte los documentos de instalación).
Para actualizar:
- Ejecute
pip uninstall jupyter-spark
- Elimine
spark.js
de su carpetanbextensions
. - Elimine cualquier referencia a
jupyter_spark.spark
enjupyter_notebook_config.json
(en su .directorio jupyter) - Eliminar cualquier referencia a
spark
ennotebook.json
(en .jupyter / nbconfig) - Siga las instrucciones de instalación para reinstalar
- Ejecute