HINWEIS: Dieses Projekt wird derzeit nicht gewartet.
Jupyter Notebook-Erweiterung für die Apache Spark-Integration.
Enthält eine Fortschrittsanzeige für die aktuelle Notizbuchzelle, wenn sie als Job aufgerufen wird. Fragt den Spark UI-Dienst im Backend ab, um die requiredSpark-Jobinformationen abzurufen.
Um alle aktuell ausgeführten Jobs anzuzeigen, klicken Sie auf die Schaltfläche „Laufende Spark-Jobs anzeigen“ oder drücken Sie Alt+S
.
Auf eine Proxy-Version der Spark-Benutzeroberfläche kann unter zugegriffen werdenhttp://localhost:8888/spark.
Installation
Um zu installieren, führen Sie einfach:
pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension
Der letzte Schritt ist erforderlich, um die Erweiterung widgetsnbextension
zu aktivieren, von der Jupyter-Spark abhängt. Möglicherweise wurde es zuvor von einer anderen Erweiterung aktiviert.
Sie können --user
an die obigen Befehle anhängen, wenn Sie beim Aufrufen Konfigurationsfehler erhalten.
Um zu überprüfen, ob die Erweiterung korrekt installiert wurde, führen Sie:
jupyter nbextension listjupyter serverextension list
Bitte installieren Sie auch lxml, um die Leistung der serverseitigen Kommunikation mit Spark mithilfe Ihres bevorzugten Paketmanagers zu verbessern, z.:
pip install lxml
Klonen Sie das Projekt zum Entwickeln und Testen und führen Sie es aus einer Shell im Stammverzeichnis des Projekts aus:
pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark
Um die Erweiterung zu deinstallieren, führen Sie:
jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark
Konfiguration
So ändern Sie die URL der Spark-API, von der die Jobmetadaten abgerufen werdenüberfahren Sie den Spark.url
-Konfigurationswert, z. B. in der Befehlszeile:
jupyter notebook --Spark.url="http://localhost:4040"
Beispiel
In examples
ist ein einfaches pyspark
-Beispiel enthalten, um zu bestätigen, dass Ihre Installation funktioniert.
Änderungsprotokoll
0.3.0 (2016-07-04)
-
Proxy neu geschrieben, um einen asynchronen Tornado-Handler und einen HTTP-Client zum Abrufen von Antworten von Spark zu verwenden.
-
Vereinfachte Proxy-Verarbeitung zur Berücksichtigung von Amazon EMR-Proxying
-
Erweiterte Testsuite, um auch Proxy-Handler abzudecken.
-
Anforderungen als Abhängigkeit entfernt.
0.2.0 (2016-06-30)
-
Umgestaltet, um eine Reihe von Python-Paketierungs- und Codequalitätsproblemen zu beheben
-
Testsuite für Python-Code hinzugefügt
-
Kontinuierliche Integration einrichten: https://travis-ci.org/mozilla/jupyter-spark
-
Erstellen von Code Coverage Reports: https://codecov.io/gh/mozilla/jupyter-spark
-
Möglichkeit zum Überschreiben der Spark-API-URL über die Befehlszeilenoption hinzugefügt
-
WICHTIG Erfordert einen manuellen Schritt zum Aktivieren nach dem Ausführen von pip install (siehe Installationsdokumente)!
Zu aktualisieren:
- Führen Sie
pip uninstall jupyter-spark
- Delete
spark.js
aus Ihrem Ordnernbextensions
aus. - Löschen Sie alle Verweise auf
jupyter_spark.spark
injupyter_notebook_config.json
(in Ihrem .jupyter-Verzeichnis) - Löschen Sie alle Verweise auf
spark
innotebook.json
(in .jupyter / nbconfig) - Befolgen Sie die Installationsanweisungen, um sie neu zu installieren
- Führen Sie