como executar Scala e Spark no notebook Jupyter

o notebook Jupyter é uma das ferramentas mais usadas em projetos de ciência de dados. É uma ótima ferramenta para desenvolver software em python e tem um ótimo suporte para isso. Ele também pode ser usado para o desenvolvimento scala com o spylon-kernel. Este é um kernel adicional que deve ser instalado separadamente.

Step1: instale o pacote

pip install spylon-kernel

Step2: crie uma especificação do kernel

isso nos permitirá selecionar o kernel scala no notebook.

python -m spylon_kernel install

Step3: Inicie o notebook jupyter

ipython notebook

e no notebook selecionamos New -> spylon-kernel. Isso iniciará nosso kernel scala.

Passo 4: testar o notebook

Vamos escrever algum código scala:

val x = 2
val y = 3x+y

A saída deve ser algo semelhante com o resultado na imagem à esquerda. Como você pode ver, ele também inicia os componentes do spark. Para isso, certifique-se de ter SPARK_HOME configurado.

agora podemos até usar o spark. Vamos testá-lo criando um conjunto de dados:

val data = Seq((1,2,3), (4,5,6), (6,7,8), (9,19,10))
val ds = spark.createDataset(data)
ds.show()

Este deve de saída de um simples dataframe:

E podemos até mesmo usar python neste kernel usando o comando %python :

%%python
x=2
print(x)

Para mais informações você pode visitar o spylon-kernel github página. O caderno com o código acima está disponível aqui.

Deixe uma resposta

O seu endereço de email não será publicado.