mozilla / jupyter-spark Archivado

 Sin mantenimiento previsto  Estado de compilación  codecov

NOTA: Este proyecto no se mantiene actualmente, si alguien desea hacerse cargo del mantenimiento, háganoslo saber.

Extensión Jupyter Notebook para integración con Apache Spark.

Incluye un indicador de progreso para la celda del cuaderno actual si invoca el trabajo aSpark. Consulta el servicio de interfaz de usuario de Spark en el backend para obtener la información del trabajo requiredSpark.

 Texto alternativo

Para ver todos los trabajos en ejecución, haga clic en el botón «mostrar trabajos de Spark en ejecución» o pulse Alt+S.

 Texto alternativo

Texto alternativo

Se puede acceder a una versión proxy de la interfaz de usuario de Spark en el servidor local: / / localhost: 8888 / spark.

Instalación

Para instalar, simplemente ejecute:

pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension

El último paso es necesario para habilitar la extensión widgetsnbextension de la que depende Jupyter-Spark. Puede haber sido habilitado antes por una extensión diferente.

Es posible que desee agregar --user a los comandos anteriores si está obteniendo errores de configuración al invocarlos.

Para verificar si la extensión se instaló correctamente, ejecute:

jupyter nbextension listjupyter serverextension list

Por favor, siéntase libre de instalar lxml también para mejorar el rendimiento de la comunicación del lado del servidor a Spark usando su administrador de paquetes favoritos, p. ej.:

pip install lxml

Para el desarrollo y las pruebas, clona el proyecto y ejecútalo desde un shell en el directorio raíz del proyecto:

pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark

Para desinstalar la extensión, ejecute:

jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark

Configuración

Para cambiar la URL de la API de Spark de la que se obtienen los metadatos del trabajo sobre el valor de configuración Spark.url, por ejemplo, en la línea de comandos:

jupyter notebook --Spark.url="http://localhost:4040"

Ejemplo

Hay un ejemplo simple pyspark incluido en examples para confirmar que su instalación está funcionando.

Registro de cambios

0.3.0 (2016-07-04)

  • Proxy reescrito para usar un controlador Tornado asincrónico y un cliente HTTP para obtener respuestas de Spark.

  • Procesamiento de proxy simplificado para tener en cuenta el proxy de Amazon EMR

  • Suite de pruebas extendida para cubrir también el manejador de proxy.

  • Se han eliminado las solicitudes como dependencia.

0.2.0 (2016-06-30)

  • Refactorizado para solucionar un montón de problemas de empaquetado y calidad de código de Python

  • Suite de pruebas agregada para código Python

  • Configurar la integración continua: https://travis-ci.org/mozilla/jupyter-spark

  • Configurar informes de cobertura de código: https://codecov.io/gh/mozilla/jupyter-spark

  • Se agregó la capacidad de anular la URL de la API de Spark a través de la opción de línea de comandos

  • IMPORTANTE Requiere un paso manual para habilitar después de ejecutar la instalación de imágenes incrustadas (consulte los documentos de instalación).

    Para actualizar:

    1. Ejecute pip uninstall jupyter-spark
    2. Elimine spark.js de su carpeta nbextensions.
    3. Elimine cualquier referencia a jupyter_spark.spark enjupyter_notebook_config.json (en su .directorio jupyter)
    4. Eliminar cualquier referencia a sparken notebook.json (en .jupyter / nbconfig)
    5. Siga las instrucciones de instalación para reinstalar

Deja una respuesta

Tu dirección de correo electrónico no será publicada.