Jupyter notebookでScalaとSparkを実行する方法

jupyter notebookは、データサイエンスプロジェクトで最も使用されるツールの1つです。 これは、pythonでソフトウェアを開発するための素晴らしいツールであり、そのための偉大なサポートを持っています。 また、spylon-kernelを使用したscala開発にも使用できます。 これは、別途インストールする必要がある追加のカーネルです。

Step1:パッケージをインストールする

pip install spylon-kernel

Step2:カーネル仕様を作成する

これにより、ノートブックでscalaカーネルを選択することができます。

python -m spylon_kernel install

ステップ3: jupyter notebook

ipython notebook

を起動し、ノートブックでNew -> spylon-kernelを選択します。 これにより、scalaカーネルが起動します。

ステップ4:ノートブックのテスト

いくつかのscalaコードを書いてみましょう:

val x = 2
val y = 3x+y

出力は、左の画像の結果と同様のものにする必要があります。 あなたが見ることができるように、それはまた、sparkコンポーネントを開始します。 このためには、SPARK_HOMEが設定されていることを確認してください。

今はsparkを使うこともできます。 データセットを作成してテストしましょう:

val data = Seq((1,2,3), (4,5,6), (6,7,8), (9,19,10))
val ds = spark.createDataset(data)
ds.show()

これは単純なdataframeを出力する必要があります:

そして、このカーネルでpythonを使用することもできます。%python :

%%python
x=2
print(x)

詳細については、spylon-kernel githubページをご覧ください。 上記のコードを含むノートブックはここで入手できます。

コメントを残す

メールアドレスが公開されることはありません。