Scala en Spark draaien in de Jupyter notebook

de Jupyter notebook is een van de meest gebruikte tools in data science projecten. Het is een geweldig hulpmiddel voor het ontwikkelen van software in python en heeft grote ondersteuning voor dat. Het kan ook worden gebruikt voor scala ontwikkeling met de spylon-kernel. Dit is een extra kernel die apart geïnstalleerd moet worden.

Step1: installeer het pakket

pip install spylon-kernel

Step2: Maak een kernel spec

Hiermee kunnen we de scala kernel in de notebook selecteren.

python -m spylon_kernel install

Step3: start de jupyter notebook

ipython notebook

en in de notebook selecteren we New -> spylon-kernel . Dit zal onze scala kernel starten.

Step4: het notebook testen

laten we wat scala-code schrijven:

val x = 2
val y = 3x+y

de uitvoer moet iets dergelijks met het resultaat in de linker afbeelding. Zoals je kunt zien begint het ook de vonk componenten. Zorg hiervoor dat u SPARK_HOME hebt ingesteld.

nu kunnen we zelfs spark gebruiken. Laten we het testen door een dataset te maken:

val data = Seq((1,2,3), (4,5,6), (6,7,8), (9,19,10))
val ds = spark.createDataset(data)
ds.show()

dit moet een eenvoudig datafram geven:

en we kunnen zelfs python in deze kernel gebruiken met het commando %python :

%%python
x=2
print(x)

voor meer informatie kun je de spylon-kernel GitHub pagina bezoeken. De notebook met bovenstaande code is hier beschikbaar.

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.