注意:このプロジェクトは現在メンテナンスされていません。メンテナンスを引き継ぎたい方はお知らせください。
Apache Spark統合のためのJupyter Notebook拡張。
は、aSparkジョブを呼び出す場合、現在のノートブックセルの進行状況インジケータを含みます。 バックエンドのSpark UIサービスにクエリを実行して、requiredSparkジョブ情報を取得します。
現在実行中のすべてのジョブを表示するには、”show running Spark jobs”ボタンをクリックするか、Alt+S
を押します。
Spark UIのプロキシされたバージョンには、http://localhost:8888/sparkでアクセスできます。
インストール
インストールするには、単に実行します:
pip install jupyter-sparkjupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_sparkjupyter nbextension enable --py widgetsnbextension
最後のステップは、jupyter-Sparkが依存するwidgetsnbextension
拡張を有効にするために必要です。 以前は別の拡張によって有効になっていた可能性があります。
呼び出し時に設定エラーが発生する場合は、上記のコマンドに--user
を追加することができます。
拡張機能が正しくインストールされているかどうかを再確認するには、次を実行します:
jupyter nbextension listjupyter serverextension list
Pleaesは、あなたのfavoritepackage managerを使用してSparkへのサーバー側通信のパフォーマンスを向上させるために、lxmlをインストールすることも自由に感じます。:
pip install lxml
開発とテストのために、プロジェクトのクローンを作成し、プロジェクトのルートディレクトリにあるシェルから実行します:
pip install -e .jupyter serverextension enable --py jupyter_sparkjupyter nbextension install --py jupyter_sparkjupyter nbextension enable --py jupyter_spark
拡張機能をアンインストールするには:
jupyter serverextension disable --py jupyter_sparkjupyter nbextension disable --py jupyter_sparkjupyter nbextension uninstall --py jupyter_sparkpip uninstall jupyter-spark
設定
ジョブメタデータがフェッチされるSpark APIのURLを変更するには、コマンドラインなどでSpark.url
設定値をオーバーライドします:
jupyter notebook --Spark.url="http://localhost:4040"
例
インストールが機能していることを確認するために、examples
に含まれている簡単なpyspark
の例があります。
変更履歴
0.3.0 (2016-07-04)
-
非同期TornadoハンドラーとHTTPクライアントを使用してSparkからresponsesを取得するようにプロキシを書き直しました。
-
Amazon EMRプロキシを考慮に入れるためのプロキシ処理の簡素化
-
プロキシハンドラーをカバーするための拡張テストスイートも。
-
依存関係として要求を削除しました。
0.2.0 (2016-06-30)
-
Pythonのパッケージ化とコード品質の問題の束を修正するためにリファクタリングされました
-
Pythonコード用のテストスイートを追加しました
-
継続的統合のセットアップ: https://travis-ci.org/mozilla/jupyter-spark
-
コードカバレッジレポートの設定: https://codecov.io/gh/mozilla/jupyter-spark
-
コマンドラインオプションを使用してSpark API URLを上書きする機能を追加しました
-
重要pip installを実行した後に有効にするには、手動の手順が必要です(インストールドキュメントを参照)!
を更新する:
pip uninstall jupyter-spark
- を実行して
nbextensions
フォルダからspark.js
を削除します。 jupyter_notebook_config.json
内のjupyter_spark.spark
への参照を削除します(あなたの中で。jupyterディレクトリ)notebook.json
内のspark
への参照を削除します(in.jupyter/nbconfig)- インストール手順に従って再インストールします