instalace Apache Spark na Ubuntu 17.10

Apache Spark je nástroj pro analýzu dat, který lze použít ke zpracování dat z HDFS, S3 nebo jiných zdrojů dat v paměti. V tomto příspěvku nainstalujeme Apache Spark na počítač Ubuntu 17.10.

 Ubuntu verze

Ubuntu verze

pro tuto příručku použijeme Ubuntu verze 17.10 (GNU / Linux 4.13.0-38-generic x86_64).

Apache Spark je součástí ekosystému Hadoop pro velká Data. Zkuste nainstalovat Apache Hadoop a vytvořte s ním ukázkovou aplikaci.

aktualizace stávajících balíčků

Chcete-li spustit instalaci pro Spark, je nutné aktualizovat náš stroj nejnovějšími dostupnými softwarovými balíčky. Můžeme to udělat s:

sudo apt-get update && sudo apt-get-y dist-upgrade

protože Spark je založen na Javě, musíme jej nainstalovat na náš počítač. Můžeme použít libovolnou verzi Java nad Java 6. Zde budeme používat Javu 8:

sudo apt-get-y install openjdk-8-jdk-headless

stahování souborů Spark

všechny potřebné balíčky nyní existují na našem počítači. Jsme připraveni stáhnout požadované soubory Spark TAR, abychom je mohli začít nastavovat a spustit ukázkový program také se Spark.

v této příručce Budeme instalovat Spark v2. 3. 0 k dispozici zde:

Stránka ke stažení Spark

Stránka ke stažení Spark

stáhněte odpovídající soubory tímto příkazem:

wget http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

v závislosti na rychlosti sítě To může trvat až několik minut, protože soubor je velký:

stahování Apache Spark

stahování Apache Spark

Nyní, když máme stažený soubor TAR, můžeme extrahovat v aktuálním adresáři:

tar xvzf spark-2.3.0-bin-hadoop2. 7.tgz

dokončení bude trvat několik sekund kvůli velké velikosti souboru archivu:

Unarchived files in Spark

Unarchived files in Spark

pokud jde o upgrade Apache Spark v budoucnu, může to způsobit problémy kvůli aktualizacím cesty. Tyto problémy lze vyhnout vytvořením softlink Spark. Spusťte tento příkaz a vytvořte softlink:

ln-S spark-2.3.0-bin-hadoop2. 7 spark

přidání Spark na cestu

Chcete-li spustit Spark skripty, přidáme ji do cesty nyní. Chcete-li to provést, otevřete soubor bashrc:

vi ~/.bashrc

přidejte tyto řádky na konec .bashrc soubor tak, aby cesta může obsahovat Spark spustitelný soubor cestu:

SPARK_HOME=/LinuxHint / spark
export PATH=$SPARK_HOME / bin:$PATH

nyní soubor vypadá:

přidání jiskry do cesty

přidání jiskry do cesty

Chcete-li tyto změny aktivovat, spusťte následující příkaz pro soubor bashrc:

zdroj ~/.Bashrc

spuštění Spark Shell

Nyní, když jsme přímo mimo adresář spark, spusťte následující příkaz k otevření apark shell:

./spark / bin / spark-shell

uvidíme, že Spark shell je nyní openend:

spuštění Spark shell

spuštění Spark shell

v konzole vidíme, že Spark také otevřel webovou konzoli na portu 404. Pojďme to navštívit:

Apache Spark Web Console

Apache Spark Web Console

ačkoli budeme pracovat na samotné konzoli, webové prostředí je důležitým místem, na které se můžete podívat, když provádíte těžké úlohy Spark, abyste věděli, co se děje v každé vykonávané úloze Spark.

Zkontrolujte verzi Spark shell jednoduchým příkazem:

sc.verze

dostaneme zpět něco jako:

res0: řetězec = 2.3.0

vytvoření ukázkové aplikace Spark s Scala

nyní vytvoříme ukázkovou aplikaci Word Counter s Apache Spark. Chcete-li to provést, nejprve načtěte textový soubor do kontextu Spark na Spark shell:

scala> var Data = sc. textFile („/root/LinuxHint/spark/README.md“)
Data: org.Apač.jiskra.rdd.RDD = / root/LinuxHint/spark / README.md MapPartitionsRDD at textový soubor at :24
scala>

nyní musí být text přítomný v souboru rozdělen na žetony, které Spark dokáže spravovat:

Scala> var tokeny = Data.flatMap (s => s. split (“ „))
tokeny: org.Apač.jiskra.rdd.RDD = MapPartitionsRDD at flatMap at: 25
scala>

nyní inicializujte Počet pro každé slovo 1:

scala> var tokens_1 = tokeny.map (s => (s,1))
tokens_1: org.Apač.jiskra.rdd.RDD = MapPartitionsRDD at mapa at: 25
scala>

nakonec Vypočítejte frekvenci každého slova souboru:

var sum_each = tokens_1.reduceByKey ((a, b) => a + b)

je čas podívat se na výstup programu. Sbírejte žetony a jejich příslušné počty:

scala> sum_each.collect ()
res1: Array = Array((balíček,1), (Pro,3), (Programy,1), (zpracování.,1), (protože, 1), (den, 1), (strana](http://spark.apache.org/documentation.html).,1), (cluster.,1), (its,1), ([běh,1), (než,1), (API,1), (mít,1), (Try,1), (výpočet,1), (přes,1), (Několik,1), (Toto,2), (graf,1), (úl,2), (skladování,1), ([„upřesnění,1), (na,2), („příze“,1), (jednou,1), ([„Užitečné,1), (přednost,1), (sparkpi,2), (motor,1), (Verze,1), (soubor,1), (dokumentace,,1), (zpracování,,1), (os,24), (jsou,1), (systémy.,1), (params, 1), (ne, 1), (odlišný, 1), (viz, 2), (Interaktivní, 2), (R,, 1), (daný.,1), (Pokud, 4), (stavět, 4), (Když, 1), (Být, 2), (testy,1), (Apache,1), (vlákno,1), (programy,,1), (počítaje v to,4), (./ bin / run-příklad, 2), (Spark.,1), (balíček.,1), (1000).počet (), 1), (Verze, 1), (HDFS, 1), (D…
scala>

výborně! Podařilo se nám spustit jednoduchý příklad čítače slov pomocí programovacího jazyka Scala s textovým souborem, který je již v systému přítomen.

závěr

v této lekci jsme se podívali na to, jak můžeme nainstalovat a začít používat Apache Spark na počítači Ubuntu 17.10 a spustit na něm také ukázkovou aplikaci.

Přečtěte si více příspěvků založených na Ubuntu zde.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.