mozilla / jupyter-spark Archiviert

Keine Wartung vorgesehenBuild Statuscodecov

HINWEIS: Dieses Projekt wird derzeit nicht gewartet.

Jupyter Notebook-Erweiterung für die Apache Spark-Integration.

Enthält eine Fortschrittsanzeige für die aktuelle Notizbuchzelle, wenn sie als Job aufgerufen wird. Fragt den Spark UI-Dienst im Backend ab, um die requiredSpark-Jobinformationen abzurufen.

Alternativtext

Um alle aktuell ausgeführten Jobs anzuzeigen, klicken Sie auf die Schaltfläche „Laufende Spark-Jobs anzeigen“ oder drücken Sie Alt+S.

Alternativer Text

 Alternativtext

Auf eine Proxy-Version der Spark-Benutzeroberfläche kann unter zugegriffen werdenhttp://localhost:8888/spark.

Installation

Um zu installieren, führen Sie einfach:

pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension

Der letzte Schritt ist erforderlich, um die Erweiterung widgetsnbextension zu aktivieren, von der Jupyter-Spark abhängt. Möglicherweise wurde es zuvor von einer anderen Erweiterung aktiviert.

Sie können --user an die obigen Befehle anhängen, wenn Sie beim Aufrufen Konfigurationsfehler erhalten.

Um zu überprüfen, ob die Erweiterung korrekt installiert wurde, führen Sie:

jupyter nbextension listjupyter serverextension list

Bitte installieren Sie auch lxml, um die Leistung der serverseitigen Kommunikation mit Spark mithilfe Ihres bevorzugten Paketmanagers zu verbessern, z.:

pip install lxml

Klonen Sie das Projekt zum Entwickeln und Testen und führen Sie es aus einer Shell im Stammverzeichnis des Projekts aus:

pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark

Um die Erweiterung zu deinstallieren, führen Sie:

jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark

Konfiguration

So ändern Sie die URL der Spark-API, von der die Jobmetadaten abgerufen werdenüberfahren Sie den Spark.url -Konfigurationswert, z. B. in der Befehlszeile:

jupyter notebook --Spark.url="http://localhost:4040"

Beispiel

In examples ist ein einfaches pyspark -Beispiel enthalten, um zu bestätigen, dass Ihre Installation funktioniert.

Änderungsprotokoll

0.3.0 (2016-07-04)

  • Proxy neu geschrieben, um einen asynchronen Tornado-Handler und einen HTTP-Client zum Abrufen von Antworten von Spark zu verwenden.

  • Vereinfachte Proxy-Verarbeitung zur Berücksichtigung von Amazon EMR-Proxying

  • Erweiterte Testsuite, um auch Proxy-Handler abzudecken.

  • Anforderungen als Abhängigkeit entfernt.

0.2.0 (2016-06-30)

  • Umgestaltet, um eine Reihe von Python-Paketierungs- und Codequalitätsproblemen zu beheben

  • Testsuite für Python-Code hinzugefügt

  • Kontinuierliche Integration einrichten: https://travis-ci.org/mozilla/jupyter-spark

  • Erstellen von Code Coverage Reports: https://codecov.io/gh/mozilla/jupyter-spark

  • Möglichkeit zum Überschreiben der Spark-API-URL über die Befehlszeilenoption hinzugefügt

  • WICHTIG Erfordert einen manuellen Schritt zum Aktivieren nach dem Ausführen von pip install (siehe Installationsdokumente)!

    Zu aktualisieren:

    1. Führen Sie pip uninstall jupyter-spark
    2. Delete spark.js aus Ihrem Ordner nbextensions aus.
    3. Löschen Sie alle Verweise auf jupyter_spark.spark injupyter_notebook_config.json (in Ihrem .jupyter-Verzeichnis)
    4. Löschen Sie alle Verweise auf spark in notebook.json(in .jupyter / nbconfig)
    5. Befolgen Sie die Installationsanweisungen, um sie neu zu installieren

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.