Cómo ejecutar Scala y Spark en Jupyter notebook

Jupyter notebook es una de las herramientas más utilizadas en proyectos de ciencia de datos. Es una gran herramienta para desarrollar software en python y tiene un gran soporte para eso. También se puede utilizar para el desarrollo de scala con el núcleo de espilón. Este es un núcleo adicional que debe instalarse por separado.

Paso 1: instalar el paquete

pip install spylon-kernel

Paso 2: crear una especificación del núcleo

Esto nos permitirá seleccionar el núcleo scala en el cuaderno.

python -m spylon_kernel install

Step3: inicie el cuaderno jupyter

ipython notebook

Y en el cuaderno seleccionamos New -> spylon-kernel . Esto iniciará nuestro núcleo scala.

Paso 4: prueba de la notebook

Vamos a escribir algo de código scala:

val x = 2
val y = 3x+y

La salida debe ser algo similar con el resultado en la imagen de la izquierda. Como puede ver, también inicia los componentes spark. Para esto, asegúrese de tener SPARK_HOME configurado.

Ahora incluso podemos usar spark. Probémoslo creando un conjunto de datos:

val data = Seq((1,2,3), (4,5,6), (6,7,8), (9,19,10))
val ds = spark.createDataset(data)
ds.show()

Esto debería generar un marco de datos simple:

E incluso podemos usar python en este núcleo usando el comando %python :

%%python
x=2
print(x)

Para obtener más información, puede visitar la página de github de spylon-kernel. El cuaderno con el código anterior está disponible aquí.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.