installation af Apache Spark på Ubuntu 17.10

Apache Spark er et dataanalyseværktøj, der kan bruges til at behandle data fra HDFS, S3 eller andre datakilder i hukommelsen. I dette indlæg installerer vi Apache Spark på en Ubuntu 17.10-maskine.

Ubuntu Version

Ubuntu Version

til denne vejledning bruger vi Ubuntu version 17.10 (GNU/Linuk 4.13.0-38-generisk 86_64).

Apache Spark er en del af Hadoop-økosystemet for Big Data. Prøv at installere Apache Hadoop og lav en prøveapplikation med den.

opdatering af eksisterende pakker

for at starte installationen til Spark er det nødvendigt, at vi opdaterer vores maskine med de nyeste programpakker til rådighed. Vi kan gøre dette med:

sudo apt-get update && sudo apt-get-y dist-upgrade

da Spark er baseret på Java, skal vi installere det på vores maskine. Vi kan bruge enhver Java-version over Java 6. Her bruger vi Java 8:

sudo apt-get-y install OpenJDK-8-jdk-headless

hentning af Spark-filer

alle de nødvendige pakker findes nu på vores maskine. Vi er klar til at hente de nødvendige Spark TAR filer, så vi kan begynde at sætte dem op og køre en prøve program med Spark samt.

i denne vejledning installerer vi Spark v2.3. 0 tilgængelig her:

Spark Hent side

Spark Hent side

Hent de tilsvarende filer med denne kommando:

v http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

afhængigt af netværkshastigheden kan dette tage op til et par minutter, da filen er stor i størrelse:

henter Apache Spark

henter Apache Spark

nu hvor vi har hentet TAR-filen, kan vi udtrække i den aktuelle mappe:

spark-2.3.0-bin-hadoop2. 7.TG

dette vil tage et par sekunder at gennemføre på grund af arkivets store filstørrelse:

ikke-arkiverede filer i Spark

ikke-arkiverede filer i Spark

når det kommer til opgradering af Apache Spark i fremtiden, kan det skabe problemer på grund af Stiopdateringer. Disse problemer kan undgås ved at oprette et softlink til Spark. Kør denne kommando for at oprette et softlink:

ln – s spark-2.3.0-bin-hadoop2.7 spark

tilføjelse af Spark til Path

for at udføre Spark scripts, vil vi tilføje det til stien nu. For at gøre dette skal du åbne bashrc-filen:

vi ~/.bashrc

tilføj disse linjer til slutningen af .bashrc-fil, så stien kan indeholde den eksekverbare Spark – filsti:

SPARK_HOME = / spark
eksport sti=$SPARK_HOME/bin:$sti

nu ser filen ud:

tilføjelse af gnist til STI

tilføjelse af gnist til STI

for at aktivere disse ændringer skal du køre følgende kommando for bashrc-fil:

kilde ~/.bashrc

lancering af Spark Shell

nu når vi er lige uden for spark directory, skal du køre følgende kommando for at åbne apark shell:

./ spark / bin / spark-shell

vi vil se, at Spark shell er openend nu:

lancering af Spark shell

lancering af Spark shell

vi kan se i konsollen, at Spark også har åbnet en Netkonsol på port 404. Lad os give det et besøg:

Apache Spark-konsol

Apache Spark-konsol

selvom vi vil operere på selve konsollen, er internetmiljøet et vigtigt sted at se på, når du udfører tunge Spark-job, så du ved, hvad der sker i hvert Spark-Job, du udfører.

kontroller Gnistskalversionen med en simpel kommando:

sc.version

vi vil komme tilbage noget lignende:

res0: streng = 2.3.0

gør en prøve Spark ansøgning med Scala

nu vil vi lave en prøve ord tæller ansøgning med Apache Spark. For at gøre dette skal du først indlæse en tekstfil i Gnistkontekst på Spark shell:

scala> var Data = sc. tekstfil (“/root/link/spark / readme.md”)
Data: org.apache.gnist.rdd.RDD = /rod/link/spark/readme. md MapPartitionsRDD på tekstfil på :24
scala>

nu skal teksten til stede i filen opdeles i tokens, som Spark kan klare:

scala> var tokens = Data.flatMap (s => s.split (” “))
tokens: org.apache.gnist.rdd.RDD = MapPartitionsRDD at flatMap at: 25
scala>

nu Initialiser optællingen for hvert ord til 1:

scala> var tokens_1 = tokens.kort (s => (s,1))
tokens_1: org.apache.gnist.rdd.RDD = MapPartitionsRDD på kort på: 25
scala>

endelig beregne frekvensen af hvert ord i filen:

var sum_each = tokens_1.reduceByKey ((a, b) => a + b)

tid til at se på output for programmet. Indsamle tokens og deres respektive tæller:

scala> sum_hver.indsamle ()
res1: Array = Array ((pakke,1), (til,3), (programmer,1), (behandling., 1), (fordi, 1), (den, 1), (side](http://spark.apache.org/documentation.html)., 1), (klynge.,1), (dens,1), ([Kør,1), (end,1), (API ‘ er,1), (har,1), (Prøv,1), (beregning,1), (gennem,1), (Flere,1), (Dette,2), (graf,1), (Hive,2), (opbevaring,1), ([“specificering,1), (til,2), (“garn”,1), (En gang,1), ([“nyttigt,1), (foretrækker,1), (sparkpi,2), (motor,1), (version,1), (fil,1), (dokumentation,,1), (behandling,,1), (den,24), (er,1), (systemer., 1), (params, 1), (IKKE, 1), (Forskellige, 1), (henvise, 2), (interaktiv, 2), (R,, 1), (givet.,1), (Hvis,4), (build,4), (når,1), (være,2), (Tests,1), (Apache,1), (tråd, 1), (programmer,, 1), (inklusive, 4), (./ bin / run-eksempel, 2), (gnist., 1), (pakke.,1), (1000).count (), 1), (versioner, 1), (HDFS, 1), (D…
scala>

fremragende! Vi var i stand til at køre et simpelt Ordtællereksempel ved hjælp af Scala programmeringssprog med en tekstfil, der allerede findes i systemet.

konklusion

i denne lektion kiggede vi på, hvordan vi kan installere og begynde at bruge Apache Spark på Ubuntu 17.10 maskine og køre en prøveapplikation på den også.

Læs flere Ubuntu-baserede indlæg her.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.