NOTA: Questo progetto è attualmente non mantenuto, se qualcuno vuole prendere in consegna la manutenzione fatecelo sapere.
Estensione Jupyter Notebook per l’integrazione di Apache Spark.
Include un indicatore di avanzamento per la cella del Notebook corrente se richiama il lavoro aSpark. Interroga il servizio Spark UI sul back-end per ottenere le informazioni sul lavoro requiredSpark.
Per visualizzare tutti i lavori attualmente in esecuzione, fare clic sul pulsante “Mostra i lavori Spark in esecuzione”oppure premere Alt+S
.
È possibile accedere a una versione proxy dell’interfaccia utente Spark attp://localhost:8888/spark.
Installazione
Per installare, è sufficiente eseguire:
pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension
L’ultimo passaggio è necessario per abilitare l’estensione widgetsnbextension
da cui dipendejupyter-Spark. Potrebbe essere stato abilitato prima da un differentextension.
Potresti voler aggiungere --user
ai comandi sopra se stai ricevendo errori di configurazione dopo averli richiamati.
Per controllare se l’estensione è stata installata correttamente, eseguire:
jupyter nbextension listjupyter serverextension list
Pleaes sentitevi liberi di installare lxml e per improveperformance del lato server di comunicazione per la Scintilla utilizzando il favoritepackage manager, ad es.:
pip install lxml
Per lo sviluppo e il test di clonare il progetto ed eseguito da una shell nella directory di root del progetto:
pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark
Per disinstallare l’estensione eseguire:
jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark
Configurazione
Per modificare l’URL della Scintilla API che il lavoro metadati vengono recuperati fromoverride il Spark.url
valore di configurazione, ad esempio, la riga di comando:
jupyter notebook --Spark.url="http://localhost:4040"
Esempio
C’è un semplice pyspark
esempio incluso in examples
per confermare che yourinstallation sta lavorando.
Changelog
0.3.0 (2016-07-04)
-
Riscritto proxy per utilizzare un gestore Tornado asincrono e client HTTP per recuperare le risposte da Spark.
-
Elaborazione proxy semplificata per tenere conto del proxy Amazon EMR
-
Suite di test estesa per coprire anche il gestore proxy.
-
Richieste rimosse come dipendenza.
0.2.0 (2016-06-30)
-
Refactoring per risolvere un mucchio di Python confezione e codice di problemi di qualità
-
Aggiunto suite di test per il codice Python
-
Impostare la continuous integration: https://travis-ci.org/mozilla/jupyter-spark
-
Impostare la copertura del codice report: https://codecov.io/gh/mozilla/jupyter-spark
-
Aggiunta la possibilità di sovrascrivere l’URL dell’API Spark tramite l’opzione della riga di comando
-
IMPORTANTE Richiede passo manuale per abilitare dopo l’esecuzione pip install (vedere documenti di installazione)!
Da aggiornare:
- Esegui
pip uninstall jupyter-spark
- Elimina
spark.js
dalla cartellanbextensions
. - Eliminare qualsiasi riferimento a
jupyter_spark.spark
injupyter_notebook_config.json
(nella tua .jupyter directory) - Elimina qualsiasi riferimento a
spark
innotebook.json
(in .jupyter/nbconfig) - Seguire le istruzioni di installazione per reinstallare
- Esegui