Apache Spark-ohjelman asentaminen Ubuntu 17.10 – Linux Hint

Apache Spark on data-analytiikkatyökalu, jolla voidaan käsitellä HDFS: n, S3: n tai muiden tietolähteiden tietoja muistissa. Tässä viestissä asennamme Apache Sparkin Ubuntu 17.10-koneeseen.

Ubuntun versio

tässä oppaassa käytetään Ubuntun versiota 17.10 (GNU/Linux 4.13.0-38-generic x86_64).

Apache Spark on osa Hadoop-ekosysteemiä Big datalle. Kokeile asentaa Apache Hadoop ja tehdä näyte sovellus sen kanssa.

olemassa olevien pakettien päivittäminen
lataamalla kipinä-tiedostoja
lisäämällä Spark polulle
Launching Spark Shell
tehden sample Spark-sovelluksen Scala
johtopäätös

olemassa olevien pakettien päivittäminen

Spark-asennuksen käynnistämiseksi on välttämätöntä, että päivitämme koneemme uusimmilla saatavilla olevilla ohjelmistopaketeilla. Voimme tehdä tämän:

sudo apt-get update && sudo apt-get-y dist-upgrade

koska Spark perustuu Javaan, se on asennettava koneeseemme. Voimme käyttää mitä tahansa Java-versiota Java 6: n yläpuolella. Täällä, käytämme Java 8:

sudo apt-get-y install openjdk-8-JDK-headless

lataamalla kipinä-tiedostoja

kaikki tarvittavat paketit ovat nyt koneellamme. Olemme valmiita lataamaan tarvittavat Spark TAR-tiedostot, jotta voimme aloittaa niiden perustamisen ja ajaa näytteen ohjelman Spark samoin.

tässä oppaassa asennetaan Spark v2. 3. 0 saatavilla täältä:

Spark download page

Lataa vastaavat tiedostot tällä komennolla:

wget http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

riippuen verkon nopeus, tämä voi kestää jopa muutaman minuutin, koska tiedosto on suuri kooltaan:

Ladataan Apache Spark

nyt kun TAR-tiedosto on ladattu, voimme purkaa sen nykyisestä hakemistosta:

tar xvzf spark-2.3.0-bin-hadoop2. 7.tgz

tämän valmistumiseen menee muutama sekunti johtuen arkiston suuresta tiedostokoosta:

Arkistoimattomat tiedostot Sparkissa

Kun Apache Sparkia on tarkoitus päivittää tulevaisuudessa, se voi aiheuttaa ongelmia Polkupäivitysten vuoksi. Nämä ongelmat voidaan välttää luomalla softlink Sparkiin. Suorita tämä komento tehdäksesi softlinkin:

ln-s spark-2.3.0-bin-hadoop2.7 spark

lisäämällä Spark polulle

Spark-skriptien toteuttamiseksi, lisäämme sen polulle nyt. Voit tehdä tämän avaamalla bashrc-tiedoston:

vi ~/.bashrc

lisää nämä rivit loppuun .bashrc-tiedosto, jotta polku voi sisältää Spark-suoritettavan tiedoston polun:

SPARK_HOME= / LinuxHint / spark
export PATH = $SPARK_HOME/bin:$PATH

nyt tiedosto näyttää:

kipinä polkuun

aktivoidaksesi nämä muutokset, suorita seuraava komento bashrc-tiedostolle:

lähde ~/.bashrc

Launching Spark Shell

Now when we are right outside the spark directory, run the following command to open apark shell:

./spark/bin / spark-shell

näemme, että Spark shell on nyt auki:

Launching Spark shell

konsolista näkyy, että Spark on avannut myös web-konsolin porttiin 404. Käydään siellä.:

Apache Spark Web Console

vaikka toimimme itse konsolilla, web-ympäristö on tärkeä paikka tarkastella, kun suoritat raskaita Spark-töitä, jotta tiedät, mitä jokaisessa Suorittamassasi Spark-työssä tapahtuu.

Tarkista Spark shell-versio yksinkertaisella komennolla:

sc.versio

saamme takaisin jotain:

res0: merkkijono = 2.3.0

tehden sample Spark-sovelluksen Scala

nyt teemme sample Word Counter-sovelluksen Apache Sparkilla. Voit tehdä tämän lataamalla ensin tekstitiedoston Spark-kontekstiin Spark Shellissä:

scala> var Data = sc. textFile (”/root/LinuxHint/spark/README.md”)
Data: org.apassit.kipinä.rdd.RDD = / root / LinuxHint/spark/README. md MapPartitionsRDD tekstitiedostossa osoitteessa :24
scala>

nyt, Teksti läsnä tiedostossa on jaettava poletteihin, jotka Spark voi hallita:

scala> var tokens = Data.flatMap (s => s.split (” ”))
tokens: org.apassit.kipinä.rdd.RDD = MapPartitionsRDD flatmapissa: 25
scala>

nyt, alustaa määrä kunkin sanan 1:

scala> var tokens_1 = tokens.kartta (s => (s,1))
tokens_1: org.apassit.kipinä.rdd.RDD = MapPartitionsRDD kartalla osoitteessa: 25
scala>

lopuksi lasketaan tiedoston jokaisen sanan taajuus:

var sum_each = tokens_1.reduceByKey ((a, b) = > a + b)

aika katsoa ohjelman tuotosta. Kerää kuponkien ja niiden määrä:

scala> sum_each.collect ()
res1: Array = Array ((Paketti,1), (varten,3), (ohjelmat,1), (käsittely., 1), (Koska, 1), (, 1), (sivu] (http://spark.apache.org/documentation.html)., 1), (klusteri.,1), (its,1), ([run,1), (than,1), (API,1), (have,1), (Try,1), (computation,1), (through,1), (several,1), (This,2), (graph,1), (Hive,2), (storage,1), ([”Specifying,1), (To,2), (”Lanka”,1), (Once,1), ([”hyödyllinen,1), (prefer,1), (sparkpi,2), (Moottori,1), (versio,1), (tiedosto,1), (dokumentaatio,,1), (käsittely,,1), (, 24), (ovat,1), (järjestelmät.,1), (params,1), (not,1), (different,1), (refer,2), (Interactive,2), (R,,1), (given.,1), (Jos, 4), (rakentaa, 4), (Kun, 1), (be, 2), (testit, 1), (Apache, 1), (säie, 1), (ohjelmat,, 1), (mukaan lukien, 4), (./ bin / run-esimerkki,2), (kipinä., 1), (paketti.,1), (1000).lukumäärä (), 1), (versiot, 1), (HDFS, 1), (D…
scala>

loistavaa! Pystyimme ajamaan yksinkertaisen Sanalaskurin esimerkin käyttämällä Scala – ohjelmointikieltä, jossa oli jo järjestelmässä oleva tekstitiedosto.

johtopäätös

tällä oppitunnilla tarkastelimme, miten voimme asentaa ja aloittaa Apache Sparkin käytön Ubuntu 17.10-koneessa ja ajaa näytesovelluksen myös siihen.

Lue lisää Ubuntu – pohjaisia julkaisuja täältä.

Apache Spark-ohjelman asentaminen Ubuntu 17.10: een