Instalando o Apache Spark no Ubuntu 17.10

o Apache Spark é uma ferramenta de análise de dados que pode ser usada para processar dados de HDFS, S3 ou outras fontes de dados na memória. Neste post, vamos instalar o Apache Spark em uma máquina Ubuntu 17.10.

versão do Ubuntu

versão do Ubuntu

para este guia, usaremos a versão 17.10 do Ubuntu (GNU/Linux 4.13.0-38-generic x86_64).O Apache Spark faz parte do ecossistema Hadoop para Big Data. Tente instalar o Apache Hadoop e faça um aplicativo de amostra com ele.

Atualizando pacotes existentes

para iniciar a instalação do Spark, é necessário atualizar nossa máquina com os pacotes de software mais recentes disponíveis. Podemos fazer isso com o:

sudo apt-get update && sudo apt-get-y dist-upgrade

Como Faísca é baseado em Java, precisamos instalá-lo em nossa máquina. Podemos usar qualquer versão Java acima do Java 6. Aqui, vamos usar o Java 8:

sudo apt-get – y install openjdk-8-jdk-headless

baixando arquivos Spark

todos os pacotes necessários agora existem em nossa máquina. Estamos prontos para baixar os arquivos Spark TAR necessários para que possamos começar a configurá-los e executar um programa de exemplo com o Spark também.

neste guia, vamos instalar Faísca v2.3.0 disponível aqui:

Faísca página de download

Faísca página de download

Baixar os arquivos correspondentes com este comando:

wget http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

Dependendo da velocidade da rede, isso pode demorar alguns minutos, pois o arquivo é grande em tamanho:

Download Apache Faísca

Download Apache Faísca

Agora que temos o arquivo TAR baixado, podemos extrair no diretório atual:

tar xvzf faísca-2.3.0-bin-hadoop2.7.tgz

isso levará alguns segundos para ser concluído devido ao grande tamanho do arquivo:

arquivos não arquivados no Spark

arquivos não arquivados no Spark

quando se trata de atualizar o Apache Spark no futuro, ele pode criar problemas devido a atualizações de caminho. Esses problemas podem ser evitados criando um softlink para o Spark. Execute este comando para fazer um softlink:

Ln-S spark-2.3.0-bin-hadoop2.7 spark

adicionando Spark ao caminho

para executar scripts Spark, estaremos adicionando-o ao caminho agora. Para fazer isso, abra o arquivo bashrc:

vi ~/.bashrc

adicione essas linhas ao final do .bashrc arquivo, para que o caminho pode conter a Faísca caminho do ficheiro executável:

SPARK_HOME=/LinuxHint/faísca
export PATH=$SPARK_HOME/bin:$PATH

Agora, o arquivo se parece com:

Adicionar Faísca CAMINHO

Adicionar brilho ao CAMINHO

Para ativar essas alterações, execute o seguinte comando para o arquivo bashrc:

fonte ~/.bashrc

iniciando o Spark Shell

agora, quando estivermos fora do diretório spark, execute o seguinte comando para abrir o apark shell:

./faísca/bin/spark-shell

Vamos ver que estimulam a shell é openend agora:

Lançamento Faísca shell

Lançamento Faísca shell

podemos ver no console que tem uma Centelha também abriu um Console da Web na porta 404. Vamos dar uma visita:

Apache Spark Web Console

Apache Spark Web Console

embora estejamos operando no próprio console, o ambiente da web é um lugar importante a ser observado quando você executa trabalhos pesados do Spark para saber o que está acontecendo em cada trabalho do Spark executado.

Verifique a versão do Spark shell com um comando simples:

sc.versão

Vamos receber de volta algo como:

res0: String = 2.3.0

Fazendo um exemplo de Ignição Aplicativo com Scala

Agora, vamos fazer um exemplo de Contador de palavras de aplicações com Apache Faísca. Para fazer isso, primeiro carregue um arquivo de texto no contexto do Spark no Spark shell:

se você estiver procurando por um arquivo de texto, clique em”/root/LinuxHint/spark/README.md”.Apache.faisca.rdd.Como criar um arquivo de texto em um arquivo de texto em um arquivo de texto em um arquivo de texto em um arquivo de texto em um arquivo de texto em um arquivo de texto em um arquivo de texto em um arquivo de texto em um arquivo de texto em um arquivo de texto em um arquivo de texto. :24
scala>

agora, o texto presente no arquivo deve ser dividido em tokens que o Spark pode gerenciar:

Scala > var tokens = dados.como baixar e instalar Minecraft no minecraft 1.1.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2.2Apache.faisca.rdd.RDD = MapPartitionsRDD em flatMap em :25
scala>

Agora, iniciar a contagem para cada palavra, para 1:

scala> var tokens_1 = tokens.map(s => (s,1))
tokens_1: org.Apache.faisca.rdd.RDD = MapPartitionsRDD no mapa em: 25
scala>

por fim, calcule a frequência de cada palavra do arquivo:

var sum_each = tokens_1.reduceByKey ((a, b) = > a + b)

hora de olhar para a saída do programa. Colete os tokens e suas respectivas contagens:

scala > sum_each.coletar ()
res1: Array = Array ((pacote, 1), (Para, 3), (Programas, 1), (processamento.,1), (porque, 1), (o, 1), (página] (http://spark.apache.org/documentation.html)., 1), (cluster.,1), (a sua,1), ([executar,1), (de,1), (APIs,1), (ter,1), (Tentar,1), (computação,1), (através,1), (vários,1), (Este,2), (gráfico 1), (Seção 2), (armazenamento,1), ([“Especificando,1), (A,2), (“fio”,1), (uma Vez que,1), ([“Útil,1), (preferir,1), (SparkPi,2), (motor,1), (versão 1), (arquivo,1), (documentação,1), (processamento,,1), (a,24), (e,1), (sistemas.,1), (params,1), (não,1), (diferente,1), (consulte,2), (interativo, 2), (R,, 1), (dado.,1), (if, 4), (build, 4), (when, 1), (be, 2), (Tests, 1), (Apache, 1), (thread, 1), (programs,, 1), (including, 4), (./ bin / run-exemplo, 2), (faísca., 1), (pacote.,1), (1000).contagem (), 1), (versões,1), (HDFS, 1), (D…
scala>

excelente! Conseguimos executar um exemplo simples de contador de palavras usando a linguagem de programação Scala com um arquivo de texto já presente no sistema.

conclusão

nesta lição, analisamos como podemos instalar e começar a usar o Apache Spark na máquina Ubuntu 17.10 e executar um aplicativo de amostra nele também.

leia mais postagens baseadas no Ubuntu aqui.

Deixe uma resposta

O seu endereço de email não será publicado.