Az Apache Spark telepítése Ubuntu 17.10 - re-Linux tipp

az Apache Spark egy adatelemző eszköz, amely HDFS, S3 vagy más adatforrásokból származó adatok feldolgozására használható a memóriában. Ebben a bejegyzésben az Apache Sparkot telepítjük egy Ubuntu 17.10 gépre.

Ubuntu Verzió

ebben az útmutatóban az Ubuntu 17.10 verzióját fogjuk használni (GNU/Linux 4.13.0-38-generic x86_64).

az Apache Spark a Hadoop ökoszisztéma része a Big Data számára. Próbálja meg telepíteni az Apache Hadoop-ot, és készítsen vele egy mintaalkalmazást.

meglévő csomagok frissítése
Spark fájlok letöltése
Spark hozzáadása az elérési úthoz
A Spark Shell elindítása
így egy minta Spark alkalmazás Scala
következtetés

meglévő csomagok frissítése

a Spark telepítésének megkezdéséhez szükséges, hogy frissítsük gépünket a rendelkezésre álló legújabb szoftvercsomagokkal. Ezt megtehetjük:

sudo apt-get update &&sudo apt-get-y dist-upgrade

mivel a Spark Java alapú, telepítenünk kell a gépünkre. Bármely Java verziót használhatunk a Java 6 felett. Itt a Java 8-at fogjuk használni:

sudo apt-get-y install openjdk-8-jdk-headless

Spark fájlok letöltése

minden szükséges csomag már létezik a gépünkön. Készen állunk a szükséges Spark tar fájlok letöltésére, hogy elkezdhessük a beállításukat, és egy mintaprogramot is futtathassunk a Spark segítségével.

ebben az útmutatóban, mi lesz telepítése Spark v2.3.0 elérhető itt:

Spark letöltési oldal

töltse le a megfelelő fájlokat ezzel a paranccsal:

wget http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

a hálózati sebességtől függően ez akár néhány percet is igénybe vehet, mivel a fájl nagy méretű:

Apache Spark letöltése

most, hogy letöltöttük a TAR fájlt, kibonthatjuk az aktuális könyvtárban:

tar xvzf szikra-2.3.0-bin-hadoop2.7.tgz

ez néhány másodpercet vesz igénybe az archívum nagy fájlmérete miatt:

Archiválatlan fájlok a Spark-ban

amikor az Apache Spark jövőbeli frissítéséről van szó, problémákat okozhat az elérési út frissítései miatt. Ezeket a problémákat el lehet kerülni egy softlink to Spark létrehozásával. Futtassa ezt a parancsot softlink létrehozásához:

ln-s spark-2.3.0-bin-hadoop2.7 spark

Spark hozzáadása az elérési úthoz

a Spark szkriptek végrehajtásához most hozzáadjuk az elérési úthoz. Ehhez nyissa meg a bashrc fájlt:

vi ~/.bashrc

Add ezeket a sorokat, hogy a végén a .bashrc Fájl, hogy az elérési út tartalmazhassa a Spark futtatható fájl elérési útját:

SPARK_HOME= / LinuxHint / spark
export elérési út=$SPARK_HOME/kuka:$elérési út

most a fájl úgy néz ki, mint:

elérési úthoz a Spark hozzáadása a

elérési úthoz a módosítások aktiválásához futtassa a következő parancsot a bashrc fájlhoz:

forrás ~/.bashrc

A Spark Shell elindítása

Most, amikor a spark könyvtáron kívül vagyunk, futtassa a következő parancsot az apark shell megnyitásához:

./ spark / bin / spark-shell

látni fogjuk, hogy a Spark shell most nyitva van:

Spark shell indítása

a konzolon láthatjuk, hogy a Spark egy webes konzolt is megnyitott a 404-es porton. Nézzük, hogy egy látogatás:

Apache Spark Web Console

bár mi fog működni a konzol maga, webes környezet fontos hely, hogy nézd meg, ha végre nehéz Spark feladatokat, hogy tudja, mi történik minden Spark munkát hajt végre.

ellenőrizze a Spark shell verzióját egy egyszerű paranccsal:

sc.változat

mi lesz vissza valami hasonló:

res0: karakterlánc = 2.3.0

így egy minta Spark alkalmazás Scala

most, mi lesz, hogy egy minta szót számláló alkalmazás Apache Spark. Ehhez először töltsön be egy szöveges fájlt a Spark környezetbe a Spark shell-en:

scala> var Data = sc. textFile (“/root/LinuxHint/spark / README.md”)
adatok: org.apacs.szikra.rdd.RDD = / root / LinuxHint / spark / README. md Mappapartitionsrdd a textFile címen :24
scala>

most a fájlban lévő szöveget tokenekre kell bontani, amelyeket a Spark képes kezelni:

scala> var tokenek = adatok.flatMap (s => s.split (” “))
tokenek: org.apacs.szikra.rdd.RDD = Mapppartitionsrdd at flatMap at: 25
scala>

most inicializálja az egyes szavak számát 1:

scala> var tokens_1 = tokenek.térkép (s = > (s,1))
tokens_1: org.apacs.szikra.rdd.RDD = Térképpartitionsrdd at map at: 25
scala>

végül számítsa ki a fájl minden szavának gyakoriságát:

var sum_each = tokens_1.reduceByKey ((a, b) = > a + b)

ideje megnézni a program kimenetét. Gyűjtsd össze a tokeneket és azok számát:

scala> sum_each.collect ()
res1: Array = Array ((csomag,1), (For,3), (Programok,1), (feldolgozás.,1), (mert, 1), (Az, 1), (oldal](http://spark.apache.org/documentation.html)., 1), (klaszter.,1), (its,1), ([run,1), (mint,1), (API-k,1), (van,1), (Try,1), (számítás,1), (keresztül,1), (Több,1), (Ez,2), (grafikon,1), (Kaptár,2), (tárolás,1), ([“meghatározása,1), (nak nek,2), (“fonal”,1), (egyszer,1), ([“Hasznos,1), (inkább,1), (sparkpi,2), (motor,1), (változat,1), (fájl,1), (dokumentáció,,1), (feldolgozás,,1), (az,24), (vannak,1), (rendszerek.,1), (params, 1), (nem, 1), (Különböző, 1), (refer, 2), (interaktív, 2), (R,, 1), (adott.,1), (ha, 4), (build, 4), (Amikor, 1), (be, 2), (tesztek, 1), (Apache, 1), (szál, 1), (programok,, 1), (beleértve, 4), (./ bin / run-példa,2), (szikra.,1), (csomag.,1), (1000).count(),1), (változatok, 1), (HDFS, 1), (D…
scala>

kitűnő! Egy egyszerű Word Counter példát tudtunk futtatni a Scala programozási nyelv használatával, a rendszerben már jelen lévő szöveges fájllal.

következtetés

ebben a leckében azt vizsgáltuk, hogyan telepíthetjük és kezdhetjük el használni az Apache Sparkot Ubuntu 17.10 gépen, és futtathatunk rajta egy mintaalkalmazást is.

további Ubuntu alapú Hozzászólások itt.

az Apache Spark telepítése Ubuntu 17.10-re