Instalación de Apache Spark en Ubuntu 17.10

Apache Spark es una herramienta de análisis de datos que se puede utilizar para procesar datos de HDFS, S3 u otras fuentes de datos en memoria. En este post, instalaremos Apache Spark en una máquina Ubuntu 17.10.

 Versión de Ubuntu

Versión de Ubuntu

Para esta guía, usaremos la versión 17.10 de Ubuntu(GNU / Linux 4.13.0-38-generic x86_64).

Apache Spark es parte del ecosistema Hadoop para Big Data. Pruebe a instalar Apache Hadoop y haga una aplicación de ejemplo con ella.

Actualización de paquetes existentes

Para iniciar la instalación de Spark, es necesario que actualicemos nuestra máquina con los últimos paquetes de software disponibles. Podemos hacer esto con:

sudo apt-get update && sudo apt-get-y dist-upgrade

Como Spark está basado en Java, necesitamos instalar en nuestro equipo. Podemos usar cualquier versión de Java por encima de Java 6. Aquí, usaremos Java 8:

sudo apt-get-y install openjdk-8-jdk-headless

Descargando archivos Spark

Todos los paquetes necesarios ahora existen en nuestra máquina. Estamos listos para descargar los archivos TAR de Spark necesarios para que podamos comenzar a configurarlos y ejecutar un programa de muestra con Spark también.

En esta guía, instalaremos Spark v2.3. 0 disponible aquí:

Página de descarga de Spark

Página de descarga de Spark

Descargue los archivos correspondientes con este comando:

wget http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

Dependiendo de la velocidad de la red, esto puede tardar hasta unos minutos, ya que el archivo es de gran tamaño:

Descargando Apache Spark

Descargando Apache Spark

Ahora que tenemos el archivo TAR descargado, podemos extraer en el directorio actual:

tar xvzf spark-2.3.0-bin-hadoop2. 7.tgz

Esto tardará unos segundos en completarse debido al gran tamaño del archivo:

 Archivos no archivados en Spark

Archivos no archivados en Spark

Cuando se trata de actualizar Apache Spark en el futuro, puede crear problemas debido a las actualizaciones de rutas. Estos problemas se pueden evitar creando un enlace suave a Spark. Ejecute este comando para crear un enlace suave:

ln – s spark-2.3.0-bin-hadoop2.7 spark

Agregar Spark a la ruta

Para ejecutar scripts de Spark, lo agregaremos a la ruta ahora. Para hacer esto, abra el archivo bashrc:

vi ~/.bashrc

Agregue estas líneas al final de la .archivo bashrc para que esa ruta pueda contener la ruta del archivo ejecutable Spark:

SPARK_HOME= / LinuxHint / spark
export PATH = SPARK SPARK_HOME / bin:PATH PATH

Ahora, el archivo se ve como:

Agregar Spark a la RUTA

Agregar Spark a la RUTA

Para activar estos cambios, ejecute el siguiente comando para el archivo bashrc:

fuente ~/.bashrc

Iniciando Shell de Spark

Ahora que estamos justo fuera del directorio de spark, ejecute el siguiente comando para abrir el shell de apark:

./ spark / bin / spark-shell

Veremos que Spark shell está abierto ahora:

Lanzamiento de Spark shell

Lanzamiento de Spark shell

Podemos ver en la consola que Spark también ha abierto una consola Web en el puerto 404. Démosle una visita:

Consola Web Apache Spark

Consola Web Apache Spark

Aunque operaremos en la propia consola, el entorno web es un lugar importante al que debe prestar atención cuando ejecuta trabajos pesados de Spark para que sepa lo que está sucediendo en cada trabajo de Spark que ejecuta.

Compruebe la versión de shell de Spark con un simple comando:

sc.versión

Recuperaremos algo como:

res0: Cadena = 2.3.0

Crear una aplicación Spark de ejemplo con Scala

Ahora, haremos una aplicación de contador de palabras de ejemplo con Apache Spark. Para hacer esto, primero cargue un archivo de texto en el contexto de Spark en el shell de Spark:

scala> var Data = sc. textFile («/root/LinuxHint/spark/README.md»)
Data: org.apache.chispa.rdd.RDD = / root / LinuxHint/spark / README.md MapPartitionsRDD en el archivo de texto en :24
scala>

Ahora, el texto presente en el archivo debe dividirse en tokens que Spark pueda administrar:

scala> tokens var = Datos.Mapa plano (s = > s. split (» «))
tokens: org.apache.chispa.rdd.RDD = MapPartitionsRDD en Mapa plano en: 25
scala>

Ahora, inicialice el recuento de cada palabra para 1:

scala> var tokens_1 = tokens . map (s = > (s,1))
tokens_1: org.apache.chispa.rdd.RDD = cartografíasrdd en el mapa en: 25
scala>

Finalmente, calcule la frecuencia de cada palabra del archivo:

var sum_each = tokens_1.reduceByKey ((a, b) = > a + b)

Es hora de mirar la salida del programa. Recoge las fichas y sus respectivos recuentos:

scala> sum_each.collect ()
res1: Array = Array ((paquete,1), (Para,3), (Programas,1), (procesamiento.,1), (Porque, 1), (El, 1), (página] (http://spark.apache.org/documentation.html)., 1), (grupo.,1), (su,1), ([ejecutar,1), (de,1), (Api,1), (han,1), (Pruebe,1), (computación,1), (a través de,1), (varios,1), (Este,2), (gráfico 1), (Colmena,2), (almacenamiento,1), ([«Especificar,1), (A,2), («hilo»,1), (una Vez,1), ([«Útil,1), (prefiere,1), (SparkPi,2), (motor,1), (versión 1), (archivo,1), (documentación,1), (procesamiento,1), (el,24), (son,1), (sistemas.,1), (params,1), (no,1), (diferentes,1), (consulte,2), (Interactivo,2), (R,1), (dada.,1), (if, 4), (build, 4), (when, 1), (be, 2), (Tests, 1), (Apache, 1), (thread, 1), (programs,, 1), (including, 4), (./ bin / run-ejemplo, 2), (Spark., 1), (paquete.,1), (1000).count(),1), (Versiones,1), (HDFS,1), (D…
scala>

Excelente! Pudimos ejecutar un ejemplo de Contador de palabras simple usando el lenguaje de programación Scala con un archivo de texto ya presente en el sistema.

Conclusión

En esta lección, vimos cómo podemos instalar y comenzar a usar Apache Spark en la máquina Ubuntu 17.10 y ejecutar una aplicación de ejemplo en ella también.

Lea más publicaciones basadas en Ubuntu aquí.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.