MERK: dette prosjektet er for tiden ikke vedlikeholdt, hvis noen ønsker å overta vedlikehold, vennligst gi oss beskjed.
Jupyter Notebook-utvidelse for Apache Spark-integrasjon.
Inkluderer en fremdriftsindikator for Gjeldende Notatblokkcelle hvis den aktiverer aSpark-jobben. Spør Spark UI-tjenesten på backend for å få nødvendig jobbinformasjon.
Hvis du vil vise alle jobber som kjører, klikker du på»vis Jobber Som Kjører Spark» – knappen eller trykker Alt+S
.
en proxied versjon Av Spark UI kan nås athttp: / / localhost: 8888 / spark.
Installasjon
for å installere, bare kjør:
pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension
det siste trinnet er nødvendig for å aktivere utvidelsen widgetsnbextension
somjupyter-Spark avhenger av. Det kan ha blitt aktivert før av en annenutvidelse.
du vil kanskje legge til --user
til kommandoene ovenfor hvis du får konfigurasjonsfeil ved å påkalle dem.
for å dobbeltsjekke om utvidelsen var riktig installert, kjør:
jupyter nbextension listjupyter serverextension list
Du er velkommen til å installere lxml også for å forbedreytelse av serversidekommunikasjonen Til Gnist ved hjelp av din favoritepackage manager, f. eks.:
pip install lxml
for utvikling og testing, klone prosjektet og kjøre fra et skall i theprojects rotkatalog:
pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark
for å avinstallere utvidelsen kjør:
jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark
Konfigurasjon
for å endre URL-ADRESSEN Til Spark API som jobbmetadataene hentes fraoverride Spark.url
config-verdien, for eksempel på kommandolinjen:
jupyter notebook --Spark.url="http://localhost:4040"
Eksempel
det er et enkelt pyspark
eksempel inkludert i examples
for å bekrefte at dininstallasjon fungerer.
Changelog
0.3.0 (2016-07-04)
-
Omskrev proxy for å bruke en Async Tornado handler og HTTP-klient til fetchresponses Fra Spark.
-
Forenklet proxy-behandling for Å ta Hensyn Til Amazon EMR-proxying
-
Utvidet test suite for å dekke proxy handler, også.
-
Fjernet forespørsler som en avhengighet.
0.2.0 (2016-06-30)
-
Refactored å fikse en haug Med Python emballasje og kode kvalitet problemer
-
Lagt test suite For Python-kode
-
Sett opp kontinuerlig integrasjon: https://travis-ci.org/mozilla/jupyter-spark
-
Sett opp kodedekningsrapporter: https://codecov.io/gh/mozilla/jupyter-spark
-
Lagt evne til å overstyre Spark API URL via kommandolinje alternativ
-
VIKTIG Krever manuell trinn for å aktivere etter å ha kjørt pip install (se installasjons docs)!
for å oppdatere:
- Kjør
pip uninstall jupyter-spark
- Slett
spark.js
fra mappennbextensions
. - Slett eventuelle referanser til
jupyter_spark.spark
ijupyter_notebook_config.json
(i din .jupyter directory) - Slett eventuelle referanser til
spark
inotebook.json
(in .jupyter / nbconfig) - Følg installasjonsinstruksjonene for å installere på nytt
- Kjør