Opmerking: Dit project is momenteel niet onderhouden, als iemand het onderhoud zou willen overnemen, laat het ons weten.
Jupyter notebook extensie voor Apache Spark integratie.
bevat een voortgangsindicator voor de huidige Notebookcel als deze aSpark-taak aanroept. Vraagt de Spark UI-service op de backend om de requiredSpark-taakinformatie te krijgen.
om alle lopende taken te bekijken, klikt u op de knop”Vonk-taken tonen” of drukt u op Alt+S
.
een proxied versie van de Spark UI is toegankelijk via: http://localhost: 8888/spark.
installatie
om te installeren, voer je gewoon uit:
pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension
de laatste stap is nodig om de widgetsnbextension
extensie te activeren waarvan Jupyter-Spark afhankelijk is. Het kan eerder zijn ingeschakeld door een anderextension.
u kunt --user
aan bovenstaande commando ‘ s toevoegen als u configuratiefouten krijgt bij het aanroepen ervan.
om te controleren of de extensie correct is geïnstalleerd, uitvoeren:
jupyter nbextension listjupyter serverextension list
Pleaes voel je vrij om ook lxml te installeren om de prestaties van de communicatie aan de serverzijde te verbeteren met behulp van je favoritepackage manager, bijv.:
pip install lxml
voor het ontwikkelen en testen, clone het project en uitvoeren van een shell in de root directory van het project:
pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark
de extensie verwijderen uitvoeren:
jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark
configuratie
om de URL van de Spark API te wijzigen dat de taakmetadata wordt opgehaald vanover de Spark.url
config waarde, bijvoorbeeld op de opdrachtregel:
jupyter notebook --Spark.url="http://localhost:4040"
voorbeeld
er is een eenvoudig pyspark
voorbeeld opgenomen in examples
om te bevestigen dat uw installatie werkt.
Changelog
0.3.0 (2016-07-04)
-
herschreef proxy om een Async Tornado handler en HTTP client te gebruiken om fetchresponses van Spark.
-
vereenvoudigde proxy verwerking om Amazon EMR proxy rekening te houden
-
uitgebreide test suite om proxy handler te dekken, ook.
-
verwijderde aanvragen als een afhankelijkheid.
0.2.0 (2016-06-30)
-
Refactored om een bos van Python verpakking en code kwaliteit problemen op te lossen
-
toegevoegd test suite voor Python code
-
opzetten van continue integratie: https://travis-ci.org/mozilla/jupyter-spark
-
code coverage reports instellen: https://codecov.io/gh/mozilla/jupyter-spark
-
Toegevoegd mogelijkheid om Spark API URL overschrijven via command line optie
-
belangrijk vereist handmatige stap om in te schakelen na het uitvoeren van pip installeren (zie installatie docs)!
bij te werken:
- Run
pip uninstall jupyter-spark
- Verwijder
spark.js
uit uwnbextensions
map. - verwijzingen naar
jupyter_spark.spark
injupyter_notebook_config.json
(in uw .jupyter directory) - verwijzingen naar
spark
innotebook.json
(in .jupyter / nbconfig) - volg de installatie-instructies om opnieuw te installeren
- Run