REMARQUE: Ce projet n’est actuellement pas maintenu, si quelqu’un souhaite prendre en charge la maintenance, veuillez nous le faire savoir.
Extension de notebook Jupyter pour l’intégration d’Apache Spark.
Inclut un indicateur de progression pour la cellule de bloc-notes en cours si elle appelle une tâche aSpark. Interroge le service d’interface utilisateur Spark sur le backend pour obtenir les informations de tâche requiredSpark.
Pour afficher toutes les tâches en cours d’exécution, cliquez sur le bouton » Afficher les tâches Spark en cours d’exécution » ou appuyez sur Alt+S
.
Une version mandatée de l’interface utilisateur Spark est accessible àhttp://localhost:8888/spark.
Installation
Pour installer, exécutez simplement:
pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension
La dernière étape est nécessaire pour activer l’extension widgetsnbextension
dont Dépendjupyter-Spark. Il peut avoir été activé auparavant par une extension différenteextension.
Vous pouvez ajouter --user
aux commandes ci-dessus si vous obtenez des erreurs de configuration lors de leur appel.
Pour vérifier si l’extension a été correctement installée, exécutez:
jupyter nbextension listjupyter serverextension list
N’hésitez pas à installer lxml pour améliorer les performances de la communication côté serveur à Spark en utilisant votre gestionnaire de paquets préféré, par exemple:
pip install lxml
Pour le développement et les tests, clonez le projet et exécutez-le à partir d’un shell dans le répertoire racine du projet:
pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark
Pour désinstaller l’extension exécuter:
jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark
Configuration
Pour modifier l’URL de l’API Spark à partir de laquelle les métadonnées du travail sont extraites en chevauchant la valeur de configuration Spark.url
, par exemple sur la ligne de commande:
jupyter notebook --Spark.url="http://localhost:4040"
Exemple
Il existe un exemple simple pyspark
inclus dans examples
pour confirmer que votre installation fonctionne.
Journal des modifications
0.3.0 (2016-07-04)
-
Réécrit le proxy pour utiliser un gestionnaire de tornade asynchrone et un client HTTP pour récupérer les réponses de Spark.
-
Traitement proxy simplifié pour prendre en compte le proxy Amazon EMR
-
Suite de tests étendue pour couvrir également le gestionnaire de proxy.
-
Requêtes supprimées en tant que dépendance.
0.2.0 (2016-06-30)
-
Refactorisé pour résoudre un tas de problèmes d’emballage et de qualité du code Python
-
Ajout d’une suite de tests pour le code Python
-
Configurer l’intégration continue: https://travis-ci.org/mozilla/jupyter-spark
-
Configurer des rapports de couverture de code: https://codecov.io/gh/mozilla/jupyter-spark
-
Ajout de la possibilité de remplacer l’URL de l’API Spark via l’option de ligne de commande
-
IMPORTANT Nécessite une étape manuelle pour activer après l’exécution de pip install (voir les documents d’installation)!
À mettre à jour:
- Exécutez
pip uninstall jupyter-spark
- Supprimez
spark.js
de votre dossiernbextensions
. - Supprimez toute référence à
jupyter_spark.spark
dansjupyter_notebook_config.json
(dans votre.répertoire jupyter) - Supprimer toute référence à
spark
dansnotebook.json
(dans.jupyter/nbconfig) - Suivez les instructions d’installation pour réinstaller
- Exécutez