Notă: Acest proiect este în prezent neîntreținut, dacă cineva ar dori să preia întreținere vă rugăm să ne anunțați.
Jupyter Notebook extension pentru integrarea Apache Spark.
include un indicator de progres pentru celula Notebook curent în cazul în care invocă aSpark job. Interogări serviciul Spark UI pe backend pentru a obține informațiile de locuri de muncă requiredSpark.
pentru a vizualiza toate lucrările care rulează în prezent, Faceți clic pe butonul „Afișați lucrările Spark care rulează”sau apăsați Alt+S
.
o versiune proxy a UI Spark poate fi accesată lattp://localhost:8888/spark.
instalare
pentru a instala, pur și simplu executați:
pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension
ultimul pas este necesar pentru a activa extensia widgetsnbextension
de care depinde jupyter-Spark. Este posibil să fi fost activat înainte de un altulextensie.
poate doriți să adăugați --user
la comenzile de mai sus dacă primiți erori de configurare la invocarea acestora.
pentru a verifica dacă extensia a fost instalată corect run:
jupyter nbextension listjupyter serverextension list
vă rugăm să nu ezitați să instalați și lxml pentru a îmbunătăți performanța comunicării din partea serverului pentru a declanșa utilizarea managerului dvs. de pachete favorite, de ex.:
pip install lxml
pentru dezvoltare și testare, clona proiectul și a alerga de la un shell în directorul rădăcină theproject lui:
pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark
pentru a dezinstala extensia run:
jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark
configurare
pentru a modifica URL-ul API-ului Spark din care sunt preluate metadatele jobului suprascrie valoarea de configurare Spark.url
, de ex. pe linia de comandă:
jupyter notebook --Spark.url="http://localhost:4040"
exemplu
există un exemplu simplu pyspark
inclus în examples
pentru a confirma că instalarea dvs. funcționează.
Changelog
0.3.0 (2016-07-04)
-
Proxy rescris pentru a utiliza un handler asincron Tornado și client HTTP la fetchresponses de la Spark.
-
procesare proxy simplificată pentru a lua în considerare proxy-ul Amazon EMR
-
suită de testare extinsă pentru a acoperi handler proxy, de asemenea.
-
cererile eliminate ca dependență.
0.2.0 (2016-06-30)
-
Refactored pentru a remedia o grămadă de probleme de ambalare și de calitate a Codului Python
-
adăugat suita de testare pentru codul Python
-
configurați integrarea continuă: https://travis-ci.org/mozilla/jupyter-spark
-
configurați rapoarte de acoperire a codului: https://codecov.io/gh/mozilla/jupyter-spark
-
Adăugat capacitatea de a suprascrie Spark API URL prin opțiunea de linie de comandă
-
IMPORTANT necesită pas manual pentru a activa după rularea Pip instala (a se vedea documente de instalare)!
pentru a actualiza:
- rulați
pip uninstall jupyter-spark
- ștergeți
spark.js
din folderulnbextensions
. - ștergeți orice referințe la
jupyter_spark.spark
înjupyter_notebook_config.json
(în dumneavoastră .jupyter directory) - ștergeți orice referințe la
spark
înnotebook.json
(în .jupyter/nbconfig) - Urmați instrucțiunile de instalare pentru a reinstala
- rulați