hur man kör Scala och Spark i Jupyter notebook

Jupyter notebook är ett av de mest använda verktygen i datavetenskapsprojekt. Det är ett bra verktyg för att utveckla programvara i python och har stort stöd för det. Den kan också användas för scala-utveckling med spylon-kärnan. Detta är en extra kärna som måste installeras separat.

Step1: installera paketet

pip install spylon-kernel

Step2: skapa en kärnspecifikation

detta gör att vi kan välja scala-kärnan i anteckningsboken.

python -m spylon_kernel install

Step3: starta Jupyter-anteckningsboken

ipython notebook

och i anteckningsboken väljer vi New -> spylon-kernel. Detta kommer att starta vår scala-kärna.

Step4: testa anteckningsboken

Låt oss skriva lite scala-kod:

val x = 2
val y = 3x+y

utgången ska vara något liknande med resultatet i den vänstra bilden. Som du kan se startar det också gnistkomponenterna. För detta se till att du har SPARK_HOME ställa in.

nu kan vi även använda spark. Låt oss testa det genom att skapa en dataset:

val data = Seq((1,2,3), (4,5,6), (6,7,8), (9,19,10))
val ds = spark.createDataset(data)
ds.show()

detta bör mata ut en enkel dataframe:

och vi kan till och med använda python i den här kärnan med kommandot %python :

%%python
x=2
print(x)

för mer info kan du besöka spylon-kernel github sida. Anteckningsboken med koden ovan finns här.

Lämna ett svar

Din e-postadress kommer inte publiceras.