Ubuntu17.10へのApache Sparkのインストール

Apache Sparkは、HDFS、S3、またはメモリ内の他のデータソースからのデータを処理するために使 この記事では、Ubuntu17.10マシンにApache Sparkをインストールします。このガイドでは、Ubuntuバージョン17.10(GNU/Linux4.13.0-38-generic x86_64)を使用します。

Apache SparkはビッグデータのためのHadoopエコシステムの一部です。 Apache Hadoopをインストールして、サンプルアプリケーションを作成してみてください。

既存のパッケージの更新

Sparkのインストールを開始するには、利用可能な最新のソフトウェアパッケージでマシンを更新する必要があります。 私たちはこれを行うことができます:

Sudo apt-get update&&sudo apt-get-y dist-upgrade

SparkはJavaに基づいているため、マシンにインストールする必要があります。 Java6より上の任意のJavaバージョンを使用できます。 ここでは、Java8を使用します:

sudo apt-get-y install openjdk-8-jdk-headless

Sparkファイルのダウンロード

必要なパッケージがすべてマシンに存在します。 必要なSpark TARファイルをダウンロードして、それらの設定を開始し、Sparkでサンプルプログラムを実行する準備が整いました。

このガイドでは、ここで利用可能なSpark v2.3.0をインストールします:

Sparkダウンロードページ

Sparkダウンロードページ

このコマンドで対応するファイルをダウンロードします:

http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

ネットワーク速度によっては、ファイルのサイズが大きいため、これには数分かかることがあります:

APACHE Sparkのダウンロード

Apache Sparkのダウンロード

TARファイルをダウンロードしたので、現在のディレクトリで抽出できます:

tar xvzf spark-2.3.0-bin-hadoop2.7.tgz

アーカイブのファイルサイズが大きいため、これは完了するまでに数秒かかります:

Sparkの未アーカイブファイル

Sparkの未アーカイブファイル

将来的にApache Sparkをアップグレードすると、パスの更新による問題が発生する可能性があ これらの問題は、Sparkへのソフトリンクを作成することで回避できます。 次のコマンドを実行してソフトリンクを作成します:

ln-s spark-2.3.0-bin-hadoop2.7Spark

パスにSparkを追加する

Sparkスクリプトを実行するために、今それをパスに追加します。 これを行うには、bashrcファイルを開きます:

vi~/.bashrc

これらの行を最後に追加します。pathにSpark実行可能ファイルのパスを含めることができるようにbashrcファイル:

spark_HOME=/LinuxHint/spark
export PATH=$SPARK_HOME/bin:PATH PATH

さて、ファイルは次のようになります:

パスへのSparkの追加

パスへのSparkの追加

これらの変更を有効にするには、bashrcファイルに対して次のコマンドを実行します:

ソース~/.bashrc

Sparkシェルの起動

sparkディレクトリのすぐ外にいるときは、次のコマンドを実行してaparkシェルを開きます:

./spark/bin/spark-shell

Sparkシェルがopenendであることがわかります:

spark shellの起動

Spark shellの起動

コンソールで、Sparkがポート404でWebコンソールも開いていることがわかります。 のは、それを訪問を与えてみましょう:

Apache Spark Web Console

Apache Spark Web Console

コンソール自体で動作しますが、web環境は、実行する各Sparkジョブで何が起こっているのかを知るために、重いSparkジョブを実行す

簡単なコマンドでSparkシェルのバージョンを確認します:

sc。バージョン

私たちは次のようなものを取り戻します:

res0:文字列= 2.3.0

ScalaでSparkアプリケーションのサンプルを作る

ここでは、Apache Sparkでワードカウンターアプリケーションのサンプルを作ることにします。 これを行うには、最初にSpark shellのspark Contextにテキストファイルをロードします:

scala>var Data=sc.textFile(“/root/LinuxHint/spark/README.md”)
Data:org.アパッチスパークrddだRDD=/root/LinuxHint/spark/README.md MapPartitionsRDD at textFile at :24
>

これで、ファイルに存在するテキストは、Sparkが管理できるトークンに分割する必要があります:

scala>var tokens=Data.flatMap(s=>s.split(“”))
トークン:org.アパッチスパークrddだRDD=MapPartitionsRDD at flatMap at:25
scala>

ここで、各単語のカウントを初期化して、次のようにします1:

scala>var tokens_1=トークン。map(s=>(s,1))
tokens_1:org.アパッチスパークrddだRDD=MapPartitionsRDD at map at:25
scala>

最後に、ファイルの各単語の頻度を計算します:

var sum_each=tokens_1.reduceByKey((a,b)=>a+b)

プログラムの出力を見る時間。 トークンとそれぞれのカウントを収集します:

scala>sum_each.collect()
res1:Array=Array((package,1),(For,3),(Programs,1),(processing.,1),(ため,1),(ザ,1),(ページ](http://spark.apache.org/documentation.html).,1),(クラスター.,1),(its,1),([run,1),(than,1),(Api,1),(have,1),(Try,1),(computation,1),(through,1),(several,1),(This,2),(graph,1),(Hive,2),(storage,1),([“指定,1),(To,2),(“yarn”,1),(Once,1),([“有用,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),(prefer,1),sparkpi,2),(エンジン,1),(バージョン,1),(ファイル,1),(ドキュメント,,1),(処理,,1),(ザ,24),(あります,1),(システム.,1),(params,1),(not,1),(different,1),(refer,2),(Interactive,2),(R,,1),(given.1)、(If,4)、(build,4)、(when,1)、(be,2)、(Tests,1)、(Apache,1)、(thread,1)、(programs,,1)、(including,4)、(./bin/run-例,2),(Spark.、1)、(パッケージ。,1), (1000).count(),1),(Versions,1),(HDFS,1),(D…
>

優れた! Scalaプログラミング言語を使用して、システムに既にテキストファイルが存在する簡単なWordカウンターの例を実行することができました。

結論

このレッスンでは、Ubuntu17.10マシンにApache Sparkをインストールして使用を開始し、その上でサンプルアプリケーションを実行する方法を見ました。

コメントを残す

メールアドレスが公開されることはありません。