우분투 17.10 에 아파치 스파크 설치

아파치 스파크는 데이터를 처리하는 데 사용할 수있는 데이터 분석 도구입니다. 이 게시물에서,우리는 우분투에 아파치 스파크를 설치합니다 17.10 기계.

우분투 버전

우분투 버전

이 가이드에서는 우분투 버전 17.10 을 사용합니다.

아파치 스파크는 빅 데이터를 위한 하둡 에코시스템의 일부이다. 아파치 하둡 설치를 시도하고 그것으로 샘플 응용 프로그램을 확인합니다.

기존 패키지 업데이트

스파크 설치를 시작하려면 최신 소프트웨어 패키지로 시스템을 업데이트해야 합니다. 우리는 이것을 할 수 있습니다:

스파크는 자바를 기반으로,우리는 우리의 컴퓨터에 설치해야합니다. 우리는 자바 위의 자바 버전을 사용할 수 있습니다 6. 여기서 우리는 자바 8 을 사용할 것입니다:

sudo apt-get-y 설치 openjdk-8-jdk-헤드리

다운로드 불꽃을 파

필요한 모든 패키지에 존재하는 우리의 기계입니다. 우리는 우리가 그들을 설정을 시작뿐만 아니라 스파크와 샘플 프로그램을 실행할 수 있도록 필요한 스파크 타르 파일을 다운로드 할 준비가 된 것입니다.

이 가이드에서,우리는 여기에 사용할 수 스파크 2.3.0 을 설치하는 것입니다:

스파크 다운로드 페이지

스파크 다운로드 페이지

이 명령으로 해당 파일 다운로드:

http://www-us.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz

네트워크 속도에 따라 파일 크기가 크므로 최대 몇 분 정도 걸릴 수 있습니다:

아파치 스파크 다운로드

아파치 스파크 다운로드

이제 우리는 타르 파일을 다운로드 한 것을,우리는 현재 디렉토리에서 추출 할 수 있습니다:

2.3.0-빈-하둡 2.7.아카이브의 큰 파일 크기로 인해 완료하는 데 몇 초가 걸립니다.:

스파크에 보관되지 않은 파일

스파크에 보관되지 않은 파일

향후 아파치 스파크를 업그레이드 할 때 경로 업데이트로 인해 문제가 발생할 수 있습니다. 이러한 문제는 스파크 소프트 링크를 생성하여 피할 수 있습니다. 이 명령을 실행하는 소프트 링크:

ln-s spark-2.3.0-bin-hadoop2.7spark

추가하기에 불꽃을 경로

실행 Spark 스크립트,우리는 것에 추가하는 경로가 지금입니다. 이렇게 하려면 다음을 수행합니다:

6~/.이 줄을 끝에 추가하십시오.해당 경로에 스파크 실행 파일 경로가 포함될 수 있습니다.:

이 경우 파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,파일 이름,:

경로에 스파크 추가

경로에 스파크 추가

이러한 변경 내용을 활성화하려면 다음 명령을 실행하십시오.:

출처~/.이제 우리는 바로 스파크 디렉토리 외부에있을 때,아파크 쉘을 열려면 다음 명령을 실행합니다:

./스파크/빈/스파크 쉘

스파크 쉘이 열려 있음을 알 수 있습니다.:

스파크 쉘 시작

스파크 쉘 시작

콘솔에서 스파크가 포트 404 에서 웹 콘솔을 열었다는 것을 알 수 있습니다. 의 그것을 방문을 제공 할 수 있습니다:

아파치 스파크 웹 콘솔

아파치 스파크 웹 콘솔

우리는 콘솔 자체에서 작동 할 것이지만,웹 환경은 당신이 실행하는 각 스파크 작업에서 무슨 일이 일어나고 있는지 알 수 있도록 무거운 스파크 작업을 실행할 때 볼 수있는 중요한 장소입니다.

간단한 명령으로 스파크 쉘 버전 확인:

사우스 캐롤라이나버전

우리는 다음과 같은 것을 다시 얻을 것입니다:

다시 0:문자열= 2.3.0

스칼라

와 샘플 스파크 응용 프로그램 만들기 이제,우리는 아파치 스파크와 샘플 워드 카운터 응용 프로그램을 만들 것입니다. 이렇게 하려면 먼저 텍스트 파일을 스파크 셸의 스파크 컨텍스트에 로드합니다:

2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일,2018 년 12 월 1 일아파치.스파크.루드디이 문제를 해결하려면 다음 단계를 수행하십시오. :24
스칼라>

이제 파일에 있는 텍스트는 스파크가 관리할 수 있는 토큰으로 구분되어야 합니다:

스칼라>바르 토큰=데이터.토큰은 다음과 같습니다.아파치.스파크.루드디다음 예제에서는 다음과 같이 설명합니다.>

이제 각 단어의 수를 다음과 같이 초기화하십시오 1:

스칼라>바 토큰 _1=토큰.지도(s=>(s,1))
tokens_1:org.아파치.스파크.루드디25
스칼라>

마지막으로 파일의 각 단어의 빈도를 계산하십시오:2015 년 11 월 1 일-2015 년 11 월 1 일-2015 년 11 월 1 일-2015 년 11 월 1 일-2015 년 11 월 1 일이 방법은 다음과 같습니다.)

프로그램에 대한 출력을 볼 시간입니다. 토큰 및 각각의 수를 수집:

스칼라>합계_각.배열의 배열은 배열의 배열에 의해 생성되며,배열의 배열은 배열의 배열에 의해 생성된다.1),(때문에,1),(이,1),(페이지](http://spark.apache.org/documentation.html).,1),(클러스터.(1),(1),(1),(1),(1),(1),(1),(1),(1),(1),(1),(1),(1),(1),(2),(그래프,1),(하이브,2),(저장,1),([“지정,1),(에,2),(“원사”,1),(한 번,1),([“유용,1),(선호,1),((스파크 피,2),(엔진,1),(버전,1),(파일,1),(문서,1),(처리,1),(그만큼,24),(아르,1),(시스템.이 경우 두 개의 매개 변수 중 하나를 사용할 수 있습니다.(1),(만약,4),(빌드,4),(언제,1),(수,2),(테스트,1),(아파치,1),(스레드,1),(프로그램,,1),(포함,4),(./빈/실행-예,2),(스파크.,1),(패키지.,1), (1000).1),1),(버전,1),(하드 디스크 디스크,1),(디…
스칼라>

훌륭한! 우리는 시스템에 이미 존재하는 텍스트 파일과 함께 스칼라 프로그래밍 언어를 사용하여 간단한 단어 카운터 예제를 실행할 수있었습니다.

결론

이 단원에서는 우분투 17.10 머신에 아파치 스파크를 설치하고 사용하는 방법을 살펴보았습니다.

여기에 우분투 기반의 게시물을 읽어보십시오.

답글 남기기

이메일 주소는 공개되지 않습니다.