Hold deg oppdatert med nyeste teknologi trender
Bli DataFlair På Telegram!!
Kafka Integrasjon Med Hadoop
I Dag, i Denne Kafka Hadoop Opplæringen, vil vi diskutere Kafka Hadoop Integrasjon. Videre vil vi starte denne opplæringen Med Hadoop Introduksjon. Vi vil også se Hadoop Producer Og Hadoop Consumer I Kafka Integrasjon Med Hadoop.
I Utgangspunktet kan Vi integrere Kafka med Hadoop-teknologien for å håndtere ulike brukssaker, for eksempel batchbehandling ved Hjelp Av Hadoop. Så, i denne artikkelen, «Kafka Hadoop integration» vil vi lære prosedyren for å integrere Hadoop Med Kafka på en enklere og effektiv måte. Men før du integrerer Kafka Med Hadoop, er det viktig å lære den korte introduksjonen Av Hadoop.
Så, la oss starte Kafka Hadoop Integrasjon.
Kafka Hadoop Integrasjon
Hva Er Hadoop?
En storskala distribuert batch prosessering rammeverk som bruker for å parallellisere databehandling blant mange noder og også løser utfordringene for distribuert databehandling, inkludert big data, er Det Vi kaller Hadoop.
I Utgangspunktet fungerer det på Prinsippet Om MapReduce-rammeverket som er introdusert Av Google. Det tilbyr et enkelt grensesnitt for parallellisering samt distribusjon av store beregninger. I tillegg har DEN sitt eget distribuerte datafilsystem som VI kaller SOM HDFS (Hadoop Distributed File System). FOR å forstå HDFS, deler den dataene i små biter (kalt blokker) og distribuerer den videre til alle noder i en typisk Hadoop-klynge. Videre skaper det replikering av disse små biter av data, så vel som det lagrer dem for å sikre at dataene er tilgjengelige fra en annen node hvis noen node er nede.
Nå er her et bilde som viser høynivåvisningen av En multi-node Hadoop-klynge:
Hadoop Multinode Cluster
A. Hovedkomponenter Av Hadoop
Følgende Er Hadoop Komponenter:
- Navnnode
et enkelt interaksjonspunkt for HDFS er Det Vi kaller Namenode. Som sin jobb, holder den informasjon om de små biter (blokker) av data som er fordelt mellom node.
- Sekundær Namenode
i tilfelle en navne node-feil, lagrer den redigeringsloggene for å gjenopprette DEN nyeste oppdaterte TILSTANDEN TIL HDFS.
- Data Node
den holder de faktiske dataene som distribueres av namenode i blokker, samt holder den replikerte kopien av data fra andre noder.
- Job Tracker
For å dele MapReduce jobber i mindre oppgaver, Hjelper Job Tracker.
- Oppgavesporing
mens oppgavesporeren er ansvarlig for utførelsen av oppgaver delt av jobbsporeren.
kontroller imidlertid at oppgavesporeren og datanoderne deler de samme maskinene.
Sjekk hvor mye Du vet Om Hadoop
Kafka Hadoop Integration
For å bygge en rørledning som er tilgjengelig for sanntidsbehandling eller overvåking, samt å laste dataene inn I Hadoop, NoSQL eller datavarehus systemer for offline behandling og rapportering, spesielt for sanntids publisere-abonnere bruk saker, bruker Vi Kafka.
A. Hadoop producer
for å publisere dataene Fra En Hadoop-Klynge til Kafka, tilbyr En Hadoop-produsent en bro du kan se i bildet nedenfor:
Videre Er Kafka emner betraktet Som Urier, For En Kafka produsent. Selv Om Urier er spesifisert nedenfor, for å koble til en bestemt Kafka megler:
kafka://< kafka-megler > / < kafka-emne >
Vel, For å få dataene Fra Hadoop, Foreslår Hadoop-produsentkoden to mulige tilnærminger, de er:
- Ved Å bruke pig-skriptet og skrive meldinger i avro-format
I Utgangspunktet, for å skrive data i et binært avro-format, Bruker Kafka-produsenter Grisskript, i denne tilnærmingen. Her refererer hver rad til en enkelt melding. Videre velger avrokafkastorage-klassen Avro-skjemaet som sitt første argument og kobler deretter Til Kafka URI for å skyve dataene inn i Kafka-klyngen. Videre kan vi enkelt skrive til flere emner og meglere i samme Pig script-basert jobb, ved Hjelp Av AvroKafkaStorage produsent.
- Ved Hjelp Av Kafka OutputFormat-klassen for jobber
Nå, i den andre metoden, for publisering av data Til Kafka-klyngen, Brukes Kafka OutputFormat-klassen (utvider Hadoops OutputFormat-klasse). Her, ved å bruke lavnivåmetoder for publisering, publiserer den meldinger som byte og gir også kontroll over utgangen. Selv om Kafka OutputFormat-klassen for å skrive en post (melding) til En Hadoop-klynge bruker KafkaRecordWriter-klassen.
i tillegg kan Vi også konfigurere Kafka Produsent parametere Og Kafka Megler informasjon under en jobb konfigurasjon, For Kafka Produsenter.
B. Hadoop Consumer
mens En Hadoop-jobb som trekker data fra Kafka-megleren og videre skyver den inn I HDFS, er det vi kaller En Hadoop-forbruker. Selv om, fra under bildet, kan du se posisjonen Til En Kafka-Forbruker i arkitekturmønsteret:
Som en prosess, Gjør En Hadoop jobb utføre parallell lasting Fra Kafka TIL HDFS også noen mappers for det formål å laste inn data som avhenger av antall filer i input katalogen. Videre er data som kommer fra Kafka og de oppdaterte emneforskyvningene i utdatakatalogen. Videre, på slutten av kartoppgaven, skriver individuelle mapper forskyvningen av den siste forbrukte meldingen TIL HDFS. Selv om hver mapper bare starter på nytt fra forskyvningene som er lagret I HDFS, hvis en jobb mislykkes og jobber blir startet på nytt.
så dette var alt i Kafka Hadoop-Integrasjon. Håper du liker vår forklaring.