Jupyter Notebook-udvidelse til Apache Spark integration

ingen vedligeholdelse beregnet Byg Status codecov

BEMÆRK: Dette projekt er i øjeblikket ikke vedligeholdt, hvis nogen gerne vil overtage vedligeholdelse, så lad os ved det.

Jupyter Notebook udvidelse til Apache Spark integration.

indeholder en statusindikator for den aktuelle Notebook-celle, hvis den påberåber aSpark job. Forespørgsler på Spark UI-tjenesten på backend for at få de påkrævede joboplysninger.

alternativ tekst

for at se alle aktuelt kørende job skal du klikke på knappen “Vis løbende Spark-job”eller trykke på Alt+S.

Alt tekst

en fuldmægtig version af Spark UI kan tilgås athttp://localhost:8888/spark.

Installation
konfiguration
eksempel
Changelog
0.3.0 (2016-07-04)
0.2.0 (2016-06-30)

Installation

for at installere skal du blot køre:

pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension

det sidste trin er nødvendigt for at aktivere widgetsnbextension udvidelsen, somjupyter-Spark afhænger af. Det kan have været aktiveret før af en andenforlængelse.

du vil måske tilføje --user til kommandoerne ovenfor, hvis du får konfigurationsfejl ved at påberåbe dem.

for at dobbelttjekke, om udvidelsen var korrekt installeret køre:

jupyter nbextension listjupyter serverextension list

Pleaes er også velkommen til at installere for at forbedre serverens sidekommunikation til Spark ved hjælp af din favoritepackage manager, f. eks.:

pip install lxml

til udvikling og test, klone projektet og køre fra en shell i theproject rodmappe:

pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark

for at afinstallere udvidelsen køre:

jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark

konfiguration

for at ændre URL ‘en til Spark API’ en, som jobmetadataene hentes fraoverride Spark.url config-værdien, f. eks. på kommandolinjen:

jupyter notebook --Spark.url="http://localhost:4040"

eksempel

der er et simpelt pyspark eksempel inkluderet i examples for at bekræfte, at dininstallation fungerer.

Changelog

0.3.0 (2016-07-04)

omskrev fuldmagt til at bruge en async Tornado handler og HTTP-klient til at hente svar fra Spark.
forenklet fuldmægtigbehandling for at tage hensyn til EMR-fuldmægtig
udvidet test suite til at dække fuldmægtig handler, også.
fjernet anmodninger som en afhængighed.

0.2.0 (2016-06-30)

Refactored at fastsætte en flok Python emballage og kode kvalitetsproblemer
tilføjet test suite til Python kode
Opret kontinuerlig integration: https://travis-ci.org/mozilla/jupyter-spark
Opsæt kodedækningsrapporter: https://codecov.io/gh/mozilla/jupyter-spark
Tilføjet evne til at tilsidesætte Spark API URL via kommandolinje option
vigtigt kræver manuel trin for at aktivere efter at have kørt pip install (se installationsdokumenter)!

at opdatere:
1. Kør pip uninstall jupyter-spark
2. Slet spark.js fra din nbextensions mappe.
3. slet eventuelle henvisninger tiljupyter_spark.spark i jupyter_notebook_config.json (i din .jupyter directory)
4. Slet alle henvisninger til spark i notebook.json(i .jupyter / nbconfig)
5. Følg installationsvejledningen for at geninstallere

jupyter-spark arkiveret