instalacja Apache Spark na Ubuntu 17.10

Apache Spark to narzędzie do analizy danych, które może być używane do przetwarzania danych z HDFS, S3 lub innych źródeł danych w pamięci. W tym poście zainstalujemy Apache Spark na maszynie Ubuntu 17.10.

wersja Ubuntu

wersja Ubuntu

w tym przewodniku użyjemy wersji Ubuntu 17.10 (GNU/Linux 4.13.0-38-generic x86_64).

Apache Spark jest częścią ekosystemu Hadoop dla Big Data. Spróbuj zainstalować Apache Hadoop i stwórz z nim przykładową aplikację.

aktualizacja istniejących pakietów

aby rozpocząć instalację Dla Spark, konieczne jest zaktualizowanie naszej maszyny o najnowsze dostępne pakiety oprogramowania. Możemy to zrobić z:

sudo apt-get update && sudo apt-get-y dist-upgrade

ponieważ Spark jest oparty na Javie, musimy go zainstalować na naszym komputerze. Możemy użyć dowolnej wersji Javy powyżej Javy 6. Tutaj będziemy używać Javy 8:

sudo apt-get-y install openjdk-8-jdk-headless

pobieranie plików Spark

wszystkie niezbędne pakiety istnieją teraz na naszej maszynie. Jesteśmy gotowi pobrać wymagane pliki Spark TAR, abyśmy mogli zacząć je konfigurować i uruchomić przykładowy program z Spark.

w tym przewodniku zainstalujemy Spark v2. 3. 0 dostępny tutaj:

Strona pobierania Spark

Strona pobierania Spark

Pobierz odpowiednie pliki za pomocą tego polecenia:

wget http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

w zależności od szybkości sieci może to potrwać do kilku minut, ponieważ plik jest duży:

pobieranie Apache Spark

pobieranie Apache Spark

teraz, gdy mamy pobrany plik TAR, możemy wyodrębnić w bieżącym katalogu:

tar xvzf spark-2.3.0-bin-hadoop2. 7.tgz

to zajmie kilka sekund, aby zakończyć ze względu na Duży Rozmiar pliku archiwum:

Niezarchiwane pliki w Spark

Niezarchiwane pliki w Spark

jeśli chodzi o aktualizowanie Apache Spark w przyszłości, może to powodować problemy z powodu aktualizacji ścieżek. Problemów tych można uniknąć, tworząc łącze miękkie do Spark. Uruchom to polecenie, aby utworzyć łącze miękkie:

ln-s spark-2.3.0-bin-hadoop2. 7 spark

dodawanie Spark do ścieżki

aby wykonać Skrypty Spark, dodamy go teraz do ścieżki. Aby to zrobić, otwórz plik bashrc:

vi ~/.bashrc

dodaj te linie do końca .plik bashrc tak, że ścieżka może zawierać ścieżkę pliku wykonywalnego Spark:

SPARK_HOME = /LinuxHint / spark
export PATH = $SPARK_HOME / bin:$PATH

teraz plik wygląda następująco:

dodawanie Spark do ścieżki

dodawanie Spark do ścieżki

aby aktywować te zmiany, uruchom następujące polecenie dla pliku bashrc:

źródło ~/.bashrc

uruchamianie powłoki Spark

teraz, gdy znajdujemy się tuż poza katalogiem spark, uruchom następujące polecenie, aby otworzyć powłokę apark:

./spark / bin / spark-shell

zobaczymy, że Spark shell jest teraz openend:

uruchamianie Spark shell

uruchamianie Spark shell

w konsoli widać, że Spark również otworzył konsolę internetową na porcie 404. Odwiedźmy go.:

 Apache Spark Web Console

Apache Spark Web Console

chociaż będziemy działać na samej konsoli, środowisko internetowe jest ważnym miejscem, na które warto zwrócić uwagę podczas wykonywania ciężkich zadań Spark, aby wiedzieć, co dzieje się w każdym wykonywanym zadaniu Spark.

Sprawdź wersję powłoki Spark za pomocą prostego polecenia:

sc.wersja

odzyskamy coś w stylu:

res0: ciąg = 2.3.0

Tworzenie przykładowej aplikacji Spark za pomocą Scala

teraz zrobimy przykładową aplikację licznika słów za pomocą Apache Spark. Aby to zrobić, najpierw Załaduj plik tekstowy do kontekstu Spark na Spark shell:

scala> var Data = sc. textFile(„/root/LinuxHint/spark/README.MD”)
Data: org.Apacz.spark.rdd.RDD = /root/LinuxHint/spark / README.MD MapPartitionsRDD at textFile at :24
scala>

teraz tekst znajdujący się w pliku musi zostać podzielony na tokeny, którymi Spark może zarządzać:

scala> var tokens = Data.flatMap (s = > s. split ( „” ))
tokeny: org.Apacz.spark.rdd.RDD = MapPartitionsRDD at flatMap at: 25
scala>

teraz zainicjalizuj licznik dla każdego słowa na 1:

scala> var tokens_1 = tokens.map(s => (s,1))
tokens_1: org.Apacz.spark.rdd.RDD = MapPartitionsRDD at map at: 25
scala>

na koniec Oblicz częstotliwość każdego słowa pliku:

var sum_each = tokens_1.reduceByKey ((a, b) => a + b)

czas spojrzeć na dane wyjściowe programu. Zbieraj żetony i ich liczbę:

scala> sum_each.collect ()
res1: Array = Array ((Pakiet,1), (dla,3), (Programy,1), (przetwarzanie.,1), (Because,1), (The, 1), (page] (http://spark.apache.org/documentation.html)., 1), (klaster.,1), (its,1), ([run,1), (than,1), (API,1), (have,1), (Try,1), (computation,1), (through,1), (several,1), (This,2), (graph,1), (Hive,2), (storage,1), ([„Specificing,1), (To,2), („yarn”,1), (Once,1), ([„Useful,1), (prefer,1), (sparkpi,2), (engine,1), (version,1), (file,1), (documentation,,1), (processing,,1), (the,24), (are,1), (systems.,1), (params,1), (not,1), (different,1), (refer,2), (Interactive, 2), (R,, 1), (given.,1), (if,4), (build,4), (when,1), (be,2), (Tests,1), (Apache,1), (thread, 1), (programs,, 1), (including, 4), (./ bin / run-example, 2), (Spark., 1), (pakiet.,1), (1000).count (), 1), (Versions, 1), (HDFS, 1), (D…
scala>

doskonale! Udało nam się uruchomić prosty przykład licznika słów przy użyciu języka programowania Scala z plikiem tekstowym już obecnym w systemie.

podsumowanie

w tej lekcji przyjrzeliśmy się, jak możemy zainstalować i zacząć używać Apache Spark na komputerze Ubuntu 17.10 i uruchomić na nim przykładową aplikację.

Czytaj więcej postów opartych na Ubuntu tutaj.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.