Come eseguire Scala e Spark nel notebook Jupyter

Il notebook Jupyter è uno degli strumenti più utilizzati nei progetti di data science. È un ottimo strumento per lo sviluppo di software in python e ha un grande supporto per questo. Può anche essere usato per lo sviluppo di scala con il kernel spylon. Questo è un kernel aggiuntivo che deve essere installato separatamente.

Step1: installa il pacchetto

pip install spylon-kernel

Step2: crea una specifica del kernel

Questo ci permetterà di selezionare il kernel scala nel notebook.

python -m spylon_kernel install

Step3: avvia il notebook jupyter

ipython notebook

E nel notebook selezioniamo New -> spylon-kernel. Questo avvierà il nostro kernel scala.

Fase 4: verifica del notebook

scrivere del codice scala:

val x = 2
val y = 3x+y

L’output dovrebbe essere qualcosa di simile con il risultato nell’immagine a sinistra. Come puoi vedere avvia anche i componenti spark. Per questo si prega di assicurarsi di avere SPARK_HOME impostato.

Ora possiamo anche usare spark. Testiamolo creando un set di dati:

val data = Seq((1,2,3), (4,5,6), (6,7,8), (9,19,10))
val ds = spark.createDataset(data)
ds.show()

Questo dovrebbe produrre in output un semplice dataframe:

E possiamo anche usare python in questo kernel con il comando %python :

%%python
x=2
print(x)

Per maggiori informazioni è possibile visitare il spylon-kernel pagina di github. Il notebook con il codice sopra è disponibile qui.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.