mozilla/jupyter-spark Archivée

 Aucune maintenance prévue  État de construction  codecov

REMARQUE: Ce projet n’est actuellement pas maintenu, si quelqu’un souhaite prendre en charge la maintenance, veuillez nous le faire savoir.

Extension de notebook Jupyter pour l’intégration d’Apache Spark.

Inclut un indicateur de progression pour la cellule de bloc-notes en cours si elle appelle une tâche aSpark. Interroge le service d’interface utilisateur Spark sur le backend pour obtenir les informations de tâche requiredSpark.

 Texte alternatif

Pour afficher toutes les tâches en cours d’exécution, cliquez sur le bouton  » Afficher les tâches Spark en cours d’exécution  » ou appuyez sur Alt+S.

 Texte alternatif

 Texte alternatif

Une version mandatée de l’interface utilisateur Spark est accessible àhttp://localhost:8888/spark.

Installation

Pour installer, exécutez simplement:

pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension

La dernière étape est nécessaire pour activer l’extension widgetsnbextension dont Dépendjupyter-Spark. Il peut avoir été activé auparavant par une extension différenteextension.

Vous pouvez ajouter --user aux commandes ci-dessus si vous obtenez des erreurs de configuration lors de leur appel.

Pour vérifier si l’extension a été correctement installée, exécutez:

jupyter nbextension listjupyter serverextension list

N’hésitez pas à installer lxml pour améliorer les performances de la communication côté serveur à Spark en utilisant votre gestionnaire de paquets préféré, par exemple:

pip install lxml

Pour le développement et les tests, clonez le projet et exécutez-le à partir d’un shell dans le répertoire racine du projet:

pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark

Pour désinstaller l’extension exécuter:

jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark

Configuration

Pour modifier l’URL de l’API Spark à partir de laquelle les métadonnées du travail sont extraites en chevauchant la valeur de configuration Spark.url, par exemple sur la ligne de commande:

jupyter notebook --Spark.url="http://localhost:4040"

Exemple

Il existe un exemple simple pyspark inclus dans examples pour confirmer que votre installation fonctionne.

Journal des modifications

0.3.0 (2016-07-04)

  • Réécrit le proxy pour utiliser un gestionnaire de tornade asynchrone et un client HTTP pour récupérer les réponses de Spark.

  • Traitement proxy simplifié pour prendre en compte le proxy Amazon EMR

  • Suite de tests étendue pour couvrir également le gestionnaire de proxy.

  • Requêtes supprimées en tant que dépendance.

0.2.0 (2016-06-30)

  • Refactorisé pour résoudre un tas de problèmes d’emballage et de qualité du code Python

  • Ajout d’une suite de tests pour le code Python

  • Configurer l’intégration continue: https://travis-ci.org/mozilla/jupyter-spark

  • Configurer des rapports de couverture de code: https://codecov.io/gh/mozilla/jupyter-spark

  • Ajout de la possibilité de remplacer l’URL de l’API Spark via l’option de ligne de commande

  • IMPORTANT Nécessite une étape manuelle pour activer après l’exécution de pip install (voir les documents d’installation)!

    À mettre à jour:

    1. Exécutez pip uninstall jupyter-spark
    2. Supprimez spark.js de votre dossier nbextensions.
    3. Supprimez toute référence à jupyter_spark.spark dans jupyter_notebook_config.json (dans votre.répertoire jupyter)
    4. Supprimer toute référence à spark dans notebook.json (dans.jupyter/nbconfig)
    5. Suivez les instructions d’installation pour réinstaller

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.