az Apache Spark telepítése Ubuntu 17.10-re

az Apache Spark egy adatelemző eszköz, amely HDFS, S3 vagy más adatforrásokból származó adatok feldolgozására használható a memóriában. Ebben a bejegyzésben az Apache Sparkot telepítjük egy Ubuntu 17.10 gépre.

Ubuntu Verzió

Ubuntu Verzió

ebben az útmutatóban az Ubuntu 17.10 verzióját fogjuk használni (GNU/Linux 4.13.0-38-generic x86_64).

az Apache Spark a Hadoop ökoszisztéma része a Big Data számára. Próbálja meg telepíteni az Apache Hadoop-ot, és készítsen vele egy mintaalkalmazást.

meglévő csomagok frissítése

a Spark telepítésének megkezdéséhez szükséges, hogy frissítsük gépünket a rendelkezésre álló legújabb szoftvercsomagokkal. Ezt megtehetjük:

sudo apt-get update &&sudo apt-get-y dist-upgrade

mivel a Spark Java alapú, telepítenünk kell a gépünkre. Bármely Java verziót használhatunk a Java 6 felett. Itt a Java 8-at fogjuk használni:

sudo apt-get-y install openjdk-8-jdk-headless

Spark fájlok letöltése

minden szükséges csomag már létezik a gépünkön. Készen állunk a szükséges Spark tar fájlok letöltésére, hogy elkezdhessük a beállításukat, és egy mintaprogramot is futtathassunk a Spark segítségével.

ebben az útmutatóban, mi lesz telepítése Spark v2.3.0 elérhető itt:

Spark letöltési oldal

Spark letöltési oldal

töltse le a megfelelő fájlokat ezzel a paranccsal:

wget http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

a hálózati sebességtől függően ez akár néhány percet is igénybe vehet, mivel a fájl nagy méretű:

Apache Spark letöltése

Apache Spark letöltése

most, hogy letöltöttük a TAR fájlt, kibonthatjuk az aktuális könyvtárban:

tar xvzf szikra-2.3.0-bin-hadoop2.7.tgz

ez néhány másodpercet vesz igénybe az archívum nagy fájlmérete miatt:

Archiválatlan fájlok a Spark-ban

Archiválatlan fájlok a Spark-ban

amikor az Apache Spark jövőbeli frissítéséről van szó, problémákat okozhat az elérési út frissítései miatt. Ezeket a problémákat el lehet kerülni egy softlink to Spark létrehozásával. Futtassa ezt a parancsot softlink létrehozásához:

ln-s spark-2.3.0-bin-hadoop2.7 spark

Spark hozzáadása az elérési úthoz

a Spark szkriptek végrehajtásához most hozzáadjuk az elérési úthoz. Ehhez nyissa meg a bashrc fájlt:

vi ~/.bashrc

Add ezeket a sorokat, hogy a végén a .bashrc Fájl, hogy az elérési út tartalmazhassa a Spark futtatható fájl elérési útját:

SPARK_HOME= / LinuxHint / spark
export elérési út=$SPARK_HOME/kuka:$elérési út

most a fájl úgy néz ki, mint:

Spark hozzáadása a

elérési úthoz a Spark hozzáadása a

elérési úthoz a módosítások aktiválásához futtassa a következő parancsot a bashrc fájlhoz:

forrás ~/.bashrc

A Spark Shell elindítása

Most, amikor a spark könyvtáron kívül vagyunk, futtassa a következő parancsot az apark shell megnyitásához:

./ spark / bin / spark-shell

látni fogjuk, hogy a Spark shell most nyitva van:

Spark shell indítása

Spark shell indítása

a konzolon láthatjuk, hogy a Spark egy webes konzolt is megnyitott a 404-es porton. Nézzük, hogy egy látogatás:

Apache Spark Web Console

Apache Spark Web Console

bár mi fog működni a konzol maga, webes környezet fontos hely, hogy nézd meg, ha végre nehéz Spark feladatokat, hogy tudja, mi történik minden Spark munkát hajt végre.

ellenőrizze a Spark shell verzióját egy egyszerű paranccsal:

sc.változat

mi lesz vissza valami hasonló:

res0: karakterlánc = 2.3.0

így egy minta Spark alkalmazás Scala

most, mi lesz, hogy egy minta szót számláló alkalmazás Apache Spark. Ehhez először töltsön be egy szöveges fájlt a Spark környezetbe a Spark shell-en:

scala> var Data = sc. textFile (“/root/LinuxHint/spark / README.md”)
adatok: org.apacs.szikra.rdd.RDD = / root / LinuxHint / spark / README. md Mappapartitionsrdd a textFile címen :24
scala>

most a fájlban lévő szöveget tokenekre kell bontani, amelyeket a Spark képes kezelni:

scala> var tokenek = adatok.flatMap (s => s.split (” “))
tokenek: org.apacs.szikra.rdd.RDD = Mapppartitionsrdd at flatMap at: 25
scala>

most inicializálja az egyes szavak számát 1:

scala> var tokens_1 = tokenek.térkép (s = > (s,1))
tokens_1: org.apacs.szikra.rdd.RDD = Térképpartitionsrdd at map at: 25
scala>

végül számítsa ki a fájl minden szavának gyakoriságát:

var sum_each = tokens_1.reduceByKey ((a, b) = > a + b)

ideje megnézni a program kimenetét. Gyűjtsd össze a tokeneket és azok számát:

scala> sum_each.collect ()
res1: Array = Array ((csomag,1), (For,3), (Programok,1), (feldolgozás.,1), (mert, 1), (Az, 1), (oldal](http://spark.apache.org/documentation.html)., 1), (klaszter.,1), (its,1), ([run,1), (mint,1), (API-k,1), (van,1), (Try,1), (számítás,1), (keresztül,1), (Több,1), (Ez,2), (grafikon,1), (Kaptár,2), (tárolás,1), ([“meghatározása,1), (nak nek,2), (“fonal”,1), (egyszer,1), ([“Hasznos,1), (inkább,1), (sparkpi,2), (motor,1), (változat,1), (fájl,1), (dokumentáció,,1), (feldolgozás,,1), (az,24), (vannak,1), (rendszerek.,1), (params, 1), (nem, 1), (Különböző, 1), (refer, 2), (interaktív, 2), (R,, 1), (adott.,1), (ha, 4), (build, 4), (Amikor, 1), (be, 2), (tesztek, 1), (Apache, 1), (szál, 1), (programok,, 1), (beleértve, 4), (./ bin / run-példa,2), (szikra.,1), (csomag.,1), (1000).count(),1), (változatok, 1), (HDFS, 1), (D…
scala>

kitűnő! Egy egyszerű Word Counter példát tudtunk futtatni a Scala programozási nyelv használatával, a rendszerben már jelen lévő szöveges fájllal.

következtetés

ebben a leckében azt vizsgáltuk, hogyan telepíthetjük és kezdhetjük el használni az Apache Sparkot Ubuntu 17.10 gépen, és futtathatunk rajta egy mintaalkalmazást is.

további Ubuntu alapú Hozzászólások itt.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.