Apache Spark-ohjelman asentaminen Ubuntu 17.10: een

Apache Spark on data-analytiikkatyökalu, jolla voidaan käsitellä HDFS: n, S3: n tai muiden tietolähteiden tietoja muistissa. Tässä viestissä asennamme Apache Sparkin Ubuntu 17.10-koneeseen.

Ubuntun versio

Ubuntun versio

tässä oppaassa käytetään Ubuntun versiota 17.10 (GNU/Linux 4.13.0-38-generic x86_64).

Apache Spark on osa Hadoop-ekosysteemiä Big datalle. Kokeile asentaa Apache Hadoop ja tehdä näyte sovellus sen kanssa.

olemassa olevien pakettien päivittäminen

Spark-asennuksen käynnistämiseksi on välttämätöntä, että päivitämme koneemme uusimmilla saatavilla olevilla ohjelmistopaketeilla. Voimme tehdä tämän:

sudo apt-get update && sudo apt-get-y dist-upgrade

koska Spark perustuu Javaan, se on asennettava koneeseemme. Voimme käyttää mitä tahansa Java-versiota Java 6: n yläpuolella. Täällä, käytämme Java 8:

sudo apt-get-y install openjdk-8-JDK-headless

lataamalla kipinä-tiedostoja

kaikki tarvittavat paketit ovat nyt koneellamme. Olemme valmiita lataamaan tarvittavat Spark TAR-tiedostot, jotta voimme aloittaa niiden perustamisen ja ajaa näytteen ohjelman Spark samoin.

tässä oppaassa asennetaan Spark v2. 3. 0 saatavilla täältä:

Spark download page

Spark download page

Lataa vastaavat tiedostot tällä komennolla:

wget http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

riippuen verkon nopeus, tämä voi kestää jopa muutaman minuutin, koska tiedosto on suuri kooltaan:

Ladataan Apache Spark

Ladataan Apache Spark

nyt kun TAR-tiedosto on ladattu, voimme purkaa sen nykyisestä hakemistosta:

tar xvzf spark-2.3.0-bin-hadoop2. 7.tgz

tämän valmistumiseen menee muutama sekunti johtuen arkiston suuresta tiedostokoosta:

Arkistoimattomat tiedostot Sparkissa

Arkistoimattomat tiedostot Sparkissa

Kun Apache Sparkia on tarkoitus päivittää tulevaisuudessa, se voi aiheuttaa ongelmia Polkupäivitysten vuoksi. Nämä ongelmat voidaan välttää luomalla softlink Sparkiin. Suorita tämä komento tehdäksesi softlinkin:

ln-s spark-2.3.0-bin-hadoop2.7 spark

lisäämällä Spark polulle

Spark-skriptien toteuttamiseksi, lisäämme sen polulle nyt. Voit tehdä tämän avaamalla bashrc-tiedoston:

vi ~/.bashrc

lisää nämä rivit loppuun .bashrc-tiedosto, jotta polku voi sisältää Spark-suoritettavan tiedoston polun:

SPARK_HOME= / LinuxHint / spark
export PATH = $SPARK_HOME/bin:$PATH

nyt tiedosto näyttää:

lisätään kipinä polkuun

kipinä polkuun

aktivoidaksesi nämä muutokset, suorita seuraava komento bashrc-tiedostolle:

lähde ~/.bashrc

Launching Spark Shell

Now when we are right outside the spark directory, run the following command to open apark shell:

./spark/bin / spark-shell

näemme, että Spark shell on nyt auki:

Launching Spark shell

Launching Spark shell

konsolista näkyy, että Spark on avannut myös web-konsolin porttiin 404. Käydään siellä.:

 Apache Spark Web Console

Apache Spark Web Console

vaikka toimimme itse konsolilla, web-ympäristö on tärkeä paikka tarkastella, kun suoritat raskaita Spark-töitä, jotta tiedät, mitä jokaisessa Suorittamassasi Spark-työssä tapahtuu.

Tarkista Spark shell-versio yksinkertaisella komennolla:

sc.versio

saamme takaisin jotain:

res0: merkkijono = 2.3.0

tehden sample Spark-sovelluksen Scala

nyt teemme sample Word Counter-sovelluksen Apache Sparkilla. Voit tehdä tämän lataamalla ensin tekstitiedoston Spark-kontekstiin Spark Shellissä:

scala> var Data = sc. textFile (”/root/LinuxHint/spark/README.md”)
Data: org.apassit.kipinä.rdd.RDD = / root / LinuxHint/spark/README. md MapPartitionsRDD tekstitiedostossa osoitteessa :24
scala>

nyt, Teksti läsnä tiedostossa on jaettava poletteihin, jotka Spark voi hallita:

scala> var tokens = Data.flatMap (s => s.split (” ”))
tokens: org.apassit.kipinä.rdd.RDD = MapPartitionsRDD flatmapissa: 25
scala>

nyt, alustaa määrä kunkin sanan 1:

scala> var tokens_1 = tokens.kartta (s => (s,1))
tokens_1: org.apassit.kipinä.rdd.RDD = MapPartitionsRDD kartalla osoitteessa: 25
scala>

lopuksi lasketaan tiedoston jokaisen sanan taajuus:

var sum_each = tokens_1.reduceByKey ((a, b) = > a + b)

aika katsoa ohjelman tuotosta. Kerää kuponkien ja niiden määrä:

scala> sum_each.collect ()
res1: Array = Array ((Paketti,1), (varten,3), (ohjelmat,1), (käsittely., 1), (Koska, 1), (, 1), (sivu] (http://spark.apache.org/documentation.html)., 1), (klusteri.,1), (its,1), ([run,1), (than,1), (API,1), (have,1), (Try,1), (computation,1), (through,1), (several,1), (This,2), (graph,1), (Hive,2), (storage,1), ([”Specifying,1), (To,2), (”Lanka”,1), (Once,1), ([”hyödyllinen,1), (prefer,1), (sparkpi,2), (Moottori,1), (versio,1), (tiedosto,1), (dokumentaatio,,1), (käsittely,,1), (, 24), (ovat,1), (järjestelmät.,1), (params,1), (not,1), (different,1), (refer,2), (Interactive,2), (R,,1), (given.,1), (Jos, 4), (rakentaa, 4), (Kun, 1), (be, 2), (testit, 1), (Apache, 1), (säie, 1), (ohjelmat,, 1), (mukaan lukien, 4), (./ bin / run-esimerkki,2), (kipinä., 1), (paketti.,1), (1000).lukumäärä (), 1), (versiot, 1), (HDFS, 1), (D…
scala>

loistavaa! Pystyimme ajamaan yksinkertaisen Sanalaskurin esimerkin käyttämällä Scala – ohjelmointikieltä, jossa oli jo järjestelmässä oleva tekstitiedosto.

johtopäätös

tällä oppitunnilla tarkastelimme, miten voimme asentaa ja aloittaa Apache Sparkin käytön Ubuntu 17.10-koneessa ja ajaa näytesovelluksen myös siihen.

Lue lisää Ubuntu – pohjaisia julkaisuja täältä.

Vastaa

Sähköpostiosoitettasi ei julkaista.