카프카 하둡 통합|카프카와 하둡 통합

최신 기술 동향으로 업데이트 유지
전보에 데이터 플라이어에 가입하세요!!

하둡과 카프카 통합

오늘,이 카프카 하둡 튜토리얼에서,우리는 카프카 하둡 통합에 대해 설명합니다. 또한,우리는 하둡 도입이 튜토리얼을 시작합니다. 또한,우리는 하둡과 카프카 통합 하둡 프로듀서와 하둡 소비자를 볼 수 있습니다.
기본적으로,우리는 하둡을 사용하여 일괄 처리와 같은 다른 사용 사례를 해결하기 위해 하둡 기술과 카프카를 통합 할 수 있습니다. 그래서,이 문서에서,”카프카 하둡 통합”우리는 쉽고 효율적인 방법으로 카프카와 하둡을 통합하는 절차를 배울 것입니다. 그러나 카프카와 하둡을 통합하기 전에 하둡에 대한 간략한 소개를 배우는 것이 중요합니다.
그럼,카프카 하둡 통합을 시작합시다.

카프카-하둡 통합

카프카 하둡 통합

하둡이란?

많은 노드들 사이에서 데이터 처리를 병렬화하는 데 사용하고 또한 빅 데이터를 포함한 분산 컴퓨팅의 과제를 해결하는 대규모 분산 배치 처리 프레임워크는 우리가 하둡이라고 부르는 것이다.
기본적으로 구글이 도입한 맵리 듀스 프레임 워크의 원리에 따라 작동한다. 이것은 수학적으로 정확한 유형 계층구조인,강력한 타입을 정의합니다. 또한,그것은 우리가 하드 디스크(하둡 분산 파일 시스템)로 호출 자신의 분산 데이터 파일 시스템을 가지고있다. 이것은 프로그래밍 언어와 컴파일러를 내장합니다.. 또한 이러한 작은 데이터 조각의 복제를 생성하고 노드가 다운된 경우 다른 노드에서 데이터를 사용할 수 있도록 저장합니다.
다음은 다중 노드 하둡 클러스터의 상위 레벨 뷰를 보여주는 이미지입니다:

카프카-하둡 통합

하둡 멀티 노드 클러스터

.하둡의 주요 구성 요소

하둡 구성 요소는 다음과 같습니다:노드에 대한 상호 작용의 단일 지점은 우리가 네임 노드라고 부르는 것입니다. 그 작업으로,노드 사이에 분산 된 데이터의 작은 조각(블록)에 대한 정보를 유지합니다.

  • 보조 네임노드

네임노드에 장애가 발생한 경우 편집 로그를 저장하여 최신 업데이트 상태를 복원합니다.

  • 데이터 노드

네임 노드에서 배포한 실제 데이터를 블록으로 유지하고 다른 노드에서 복제된 데이터 복사본을 유지합니다.

  • 작업 추적기

작은 작업으로 맵리 듀스 작업을 분할하기 위해,작업 추적기가 도움이됩니다.

  • 작업 추적기

반면,작업 추적기에 의해 분할 된 작업의 실행을 위해 작업 추적기가 담당합니다.
작업 추적기와 데이터 노드가 동일한 시스템을 공유하는지 확인하십시오.하둡 통합

실시간 처리 또는 모니터링에 사용할 수 있는 파이프라인을 구축하고 오프라인 처리 및 보고를 위한 데이터 웨어하우징 시스템,특히 실시간 퍼블리시-구독 사용 사례에 데이터를 로드하기 위해 카프카를 사용합니다.

.하둡 프로듀서

하둡 클러스터의 데이터를 카프카에 게시하기 위해,하둡 프로듀서는 아래 이미지에서 볼 수있는 다리를 제공합니다:

카프카-하둡 통합

또한,카프카 주제는 카프카 프로듀서,우리스로 간주됩니다. 하지만,우리 리스는 특정 카프카 브로커에 연결하기 위해,아래에 지정되어 있습니다:
카프카://<카프카-브로커>/<카프카-주제>
음,하둡에서 데이터를 얻기 위해,하둡 프로듀서 코드는 두 가지 접근 방법을 제안,그들은 다음과 같습니다:

  • 돼지 스크립트를 사용하여 아브로 형식으로 메시지를 작성

기본적으로,이진 아브로 형식으로 데이터를 작성,카프카 생산자는이 방법에서,돼지 스크립트를 사용합니다. 여기서 각 행은 단일 메시지를 나타냅니다. 또한,이 클래스는 스키마를 첫 번째 인수로 선택한 다음 카프카 클러스터에 데이터를 푸시하기 위해 카프카 우리집에 연결합니다. 또한,우리는 쉽게 아 브로 카프 카스토리지 생산자를 사용하여,같은 돼지 스크립트 기반 작업에서 여러 주제와 브로커에 쓸 수 있습니다.

  • 작업에 대한 카프카 출력 형식 클래스 사용

이제 두 번째 방법에서는 카프카 클러스터에 데이터를 게시하기 위해 카프카 출력 형식 클래스(하둡의 출력 형식 클래스 확장)가 사용됩니다. 여기서는 하위 수준의 게시 방법을 사용하여 메시지를 바이트로 게시하고 출력을 제어할 수도 있습니다. 하둡 클러스터에 레코드(메시지)를 쓰기 위해 카프카 출력 형식 클래스는 카프카 레코드 작성기 클래스를 사용합니다.
또한,우리는 또한 카프카 생산자에 대한 작업의 구성에 따라 카프카 생산자 매개 변수 및 카프카 브로커 정보를 구성 할 수 있습니다.하둡 소비자

반면,카프카 브로커로부터 데이터를 끌어올리는 하둡 작업은 우리가 하둡 소비자라고 부르는 것이다. 하지만,아래 이미지에서,당신은 아키텍처 패턴에 카프카 소비자의 위치를 볼 수 있습니다:

카프카–하둡 통합

카프카 하둡 통합-하둡 소비자

프로세스로서,하둡 작업은 입력 디렉토리의 파일 수에 따라 달라지는 데이터를로드하기 위해 일부 매퍼도 카프카에서 병렬 로딩을 수행합니다. 또한 카프카 및 업데이트 된 주제 오프셋에서 나오는 데이터는 출력 디렉토리에 있습니다. 또한 맵 태스크가 끝날 때 개별 매퍼는 마지막으로 사용된 메시지의 오프셋을 씁니다. 그러나 각 매퍼는 작업이 실패하고 작업이 다시 시작되는 경우 단순히 오프셋에서 다시 시작됩니다.
그래서,이 모든 카프카 하둡 통합했다. 당신이 우리의 설명을 좋아 바랍니다.

결론:카프카 하둡 통합

답글 남기기

이메일 주소는 공개되지 않습니다.