Comment exécuter Scala et Spark dans le notebook Jupyter

Le notebook Jupyter est l’un des outils les plus utilisés dans les projets de science des données. C’est un excellent outil pour développer des logiciels en python et a un excellent support pour cela. Il peut également être utilisé pour le développement de scala avec le noyau spylon. Il s’agit d’un noyau supplémentaire qui doit être installé séparément.

Step1: installez le paquet

pip install spylon-kernel

Step2: créez une spécification de noyau

Cela nous permettra de sélectionner le noyau scala dans le bloc-notes.

python -m spylon_kernel install

Étape3: démarrez le bloc-notes jupyter

ipython notebook

Et dans le bloc-notes, nous sélectionnons New -> spylon-kernel. Cela va démarrer notre noyau scala.

Étape 4: test du bloc-notes

Écrivons du code scala:

val x = 2
val y = 3x+y

La sortie doit être quelque chose de similaire avec le résultat dans l’image de gauche. Comme vous pouvez le voir, il démarre également les composants spark. Pour cela, assurez-vous d’avoir configuré SPARK_HOME.

Maintenant, nous pouvons même utiliser spark. Testons-le en créant un jeu de données:

val data = Seq((1,2,3), (4,5,6), (6,7,8), (9,19,10))
val ds = spark.createDataset(data)
ds.show()

Cela devrait générer une trame de données simple:

Et nous pouvons même utiliser python dans ce noyau en utilisant la commande %python :

%%python
x=2
print(x)

Pour plus d’informations, vous pouvez visiter la page github du noyau spylon. Le cahier avec le code ci-dessus est disponible ici.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.