jak uruchomić Scala i Spark w notebooku Jupyter

Notebook Jupyter jest jednym z najczęściej używanych narzędzi w projektach data science. Jest to świetne narzędzie do tworzenia oprogramowania w Pythonie i ma świetne wsparcie dla tego. Może być również używany do rozwoju Scali z jądrem spylon. Jest to dodatkowe jądro, które musi być zainstalowane oddzielnie.

Krok 1: Zainstaluj pakiet

pip install spylon-kernel

Krok 2: Utwórz specyfikację jądra

to pozwoli nam wybrać jądro scala w notebooku.

python -m spylon_kernel install

Krok 3: Uruchom Notatnik jupyter

ipython notebook

i w notatniku wybieramy New -> spylon-kernel. To uruchomi nasze jądro scala.

Krok 4: testowanie notebooka

napiszmy trochę kodu Scali:

val x = 2
val y = 3x+y

wyjście powinno być podobne do wyniku w lewym obrazie. Jak widać, uruchamia również komponenty iskrowe. W tym celu upewnij się, że masz skonfigurowaną SPARK_HOME.

teraz możemy nawet użyć spark. Przetestujmy go, tworząc zestaw danych:

val data = Seq((1,2,3), (4,5,6), (6,7,8), (9,19,10))
val ds = spark.createDataset(data)
ds.show()

to powinno wypisać prostą ramkę danych:

i możemy nawet użyć Pythona w tym jądrze używając komendy %python :

%%python
x=2
print(x)

aby uzyskać więcej informacji, możesz odwiedzić stronę spylon-kernel github. Notatnik z powyższym kodem jest dostępny tutaj.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.