Apache Spark er et dataanalyseværktøj, der kan bruges til at behandle data fra HDFS, S3 eller andre datakilder i hukommelsen. I dette indlæg installerer vi Apache Spark på en Ubuntu 17.10-maskine.
Ubuntu Version
til denne vejledning bruger vi Ubuntu version 17.10 (GNU/Linuk 4.13.0-38-generisk 86_64).
Apache Spark er en del af Hadoop-økosystemet for Big Data. Prøv at installere Apache Hadoop og lav en prøveapplikation med den.
opdatering af eksisterende pakker
for at starte installationen til Spark er det nødvendigt, at vi opdaterer vores maskine med de nyeste programpakker til rådighed. Vi kan gøre dette med:
da Spark er baseret på Java, skal vi installere det på vores maskine. Vi kan bruge enhver Java-version over Java 6. Her bruger vi Java 8:
hentning af Spark-filer
alle de nødvendige pakker findes nu på vores maskine. Vi er klar til at hente de nødvendige Spark TAR filer, så vi kan begynde at sætte dem op og køre en prøve program med Spark samt.
i denne vejledning installerer vi Spark v2.3. 0 tilgængelig her:
Spark Hent side
Hent de tilsvarende filer med denne kommando:
afhængigt af netværkshastigheden kan dette tage op til et par minutter, da filen er stor i størrelse:
henter Apache Spark
nu hvor vi har hentet TAR-filen, kan vi udtrække i den aktuelle mappe:
dette vil tage et par sekunder at gennemføre på grund af arkivets store filstørrelse:
ikke-arkiverede filer i Spark
når det kommer til opgradering af Apache Spark i fremtiden, kan det skabe problemer på grund af Stiopdateringer. Disse problemer kan undgås ved at oprette et softlink til Spark. Kør denne kommando for at oprette et softlink:
tilføjelse af Spark til Path
for at udføre Spark scripts, vil vi tilføje det til stien nu. For at gøre dette skal du åbne bashrc-filen:
tilføj disse linjer til slutningen af .bashrc-fil, så stien kan indeholde den eksekverbare Spark – filsti:
eksport sti=$SPARK_HOME/bin:$sti
nu ser filen ud:
tilføjelse af gnist til STI
for at aktivere disse ændringer skal du køre følgende kommando for bashrc-fil:
lancering af Spark Shell
nu når vi er lige uden for spark directory, skal du køre følgende kommando for at åbne apark shell:
vi vil se, at Spark shell er openend nu:
lancering af Spark shell
vi kan se i konsollen, at Spark også har åbnet en Netkonsol på port 404. Lad os give det et besøg:
Apache Spark-konsol
selvom vi vil operere på selve konsollen, er internetmiljøet et vigtigt sted at se på, når du udfører tunge Spark-job, så du ved, hvad der sker i hvert Spark-Job, du udfører.
kontroller Gnistskalversionen med en simpel kommando:
vi vil komme tilbage noget lignende:
gør en prøve Spark ansøgning med Scala
nu vil vi lave en prøve ord tæller ansøgning med Apache Spark. For at gøre dette skal du først indlæse en tekstfil i Gnistkontekst på Spark shell:
Data: org.apache.gnist.rdd.RDD = /rod/link/spark/readme. md MapPartitionsRDD på tekstfil på :24
scala>
nu skal teksten til stede i filen opdeles i tokens, som Spark kan klare:
tokens: org.apache.gnist.rdd.RDD = MapPartitionsRDD at flatMap at: 25
scala>
nu Initialiser optællingen for hvert ord til 1:
tokens_1: org.apache.gnist.rdd.RDD = MapPartitionsRDD på kort på: 25
scala>
endelig beregne frekvensen af hvert ord i filen:
tid til at se på output for programmet. Indsamle tokens og deres respektive tæller:
res1: Array = Array ((pakke,1), (til,3), (programmer,1), (behandling., 1), (fordi, 1), (den, 1), (side](http://spark.apache.org/documentation.html)., 1), (klynge.,1), (dens,1), ([Kør,1), (end,1), (API ‘ er,1), (har,1), (Prøv,1), (beregning,1), (gennem,1), (Flere,1), (Dette,2), (graf,1), (Hive,2), (opbevaring,1), ([“specificering,1), (til,2), (“garn”,1), (En gang,1), ([“nyttigt,1), (foretrækker,1), (sparkpi,2), (motor,1), (version,1), (fil,1), (dokumentation,,1), (behandling,,1), (den,24), (er,1), (systemer., 1), (params, 1), (IKKE, 1), (Forskellige, 1), (henvise, 2), (interaktiv, 2), (R,, 1), (givet.,1), (Hvis,4), (build,4), (når,1), (være,2), (Tests,1), (Apache,1), (tråd, 1), (programmer,, 1), (inklusive, 4), (./ bin / run-eksempel, 2), (gnist., 1), (pakke.,1), (1000).count (), 1), (versioner, 1), (HDFS, 1), (D…
scala>
fremragende! Vi var i stand til at køre et simpelt Ordtællereksempel ved hjælp af Scala programmeringssprog med en tekstfil, der allerede findes i systemet.
konklusion
i denne lektion kiggede vi på, hvordan vi kan installere og begynde at bruge Apache Spark på Ubuntu 17.10 maskine og køre en prøveapplikation på den også.
Læs flere Ubuntu-baserede indlæg her.