Kafka Hadoop integraatio / Hadoopin integrointi Kafkaan

Pysy ajan tasalla uusimpien teknologiasuuntausten kanssa
liity Dataflairiin Telegramissa!!

Kafka-integraatio Hadoopin kanssa

tänään tässä Kafka Hadoop-tutoriaalissa keskustellaan Kafka Hadoop-integraatiosta. Lisäksi aloitamme tämän opetusohjelman Hadoop-esittelyllä. Lisäksi näemme Hadoop tuottaja ja Hadoop kuluttaja Kafka integraatio Hadoop.
periaatteessa Kafka voidaan integroida Hadoop-teknologiaan erilaisten käyttötapausten, kuten Hadoopia käyttävän eräkäsittelyn, käsittelemiseksi. Joten, tässä artikkelissa, ”Kafka Hadoop integraatio” opimme menettely integroida Hadoop Kafka helpommin ja tehokkaasti. Ennen Kafkan yhdistämistä Hadoopiin on kuitenkin tärkeää opetella Hadoopin lyhyt esittely.
niin, aloitetaan Kafka Hadoop-integraatio.

Kafka-Hadoop-integraatio

Kafka Hadoop-integraatio

mikä on Hadoop?

hadoopiksi kutsutaan laajamittaista hajautettua eräajokehystä, joka rinnastaa tietojenkäsittelyn monien solmujen kesken ja vastaa myös hajautetun laskennan, mukaan lukien big data, haasteisiin.
periaatteessa se toimii Googlen käyttöön ottaman MapReduce-kehyksen periaatteella. Se tarjoaa yksinkertaisen käyttöliittymän parallelization sekä jakelu suurten laskelmien. Lisäksi sillä on oma hajautettu tiedostojärjestelmä, jota kutsumme HDFS: ksi (Hadoop Distributed File System). HDFS: n ymmärtämiseksi se jakaa datan pieniin palasiin (joita kutsutaan lohkoiksi) ja jakaa sen edelleen kaikkiin tyypillisen Hadoop-klusterin solmuihin. Lisäksi se luo näiden pienten datapalojen replikaation sekä tallentaa ne varmistaakseen, että data on saatavilla toisesta solmusta, jos jokin solmu on alhaalla.
tässä on kuva, joka näyttää monisolmuisen Hadoop-klusterin korkean tason näkymän:

Kafka-Hadoop-integraatio

Hadoop Multinode Cluster

a. Hadoopin pääkomponentit

seuraavat ovat Hadoopin komponentit:

  • Nimisolmu

yksi HDFS: n vuorovaikutuspiste on niin sanottu Namenodi. Tehtävänään, se pitää tiedot pienistä palasista (palikoista), jotka jaetaan solmujen kesken.

  • toissijainen Nimisolmu

nimisolmun vikaantuessa se tallentaa MUOKKAUSLOKIT palauttaakseen HDFS: n viimeisimmän päivitetyn tilan.

  • Datasolmu

siinä säilytetään nimikoodin jakamat todelliset tiedot lohkoina sekä säilytetään toisinnetut kopiot muista solmukohdista.

  • Job Tracker

jotta Mapreduktiiviset työt voidaan jakaa pienempiin tehtäviin, Job Tracker auttaa.

  • Tehtäväseuraaja

kun taas tehtäväseurannan jakamien tehtävien suorittamisesta vastaa tehtäväseuraaja.
varmista kuitenkin, että tehtäväseuranta ja datasolmut jakavat samat koneet.

tarkista, kuinka paljon tiedät Hadoopista

Kafka Hadoop-integraatiosta

rakentaaksemme putken, joka on käytettävissä reaaliaikaiseen käsittelyyn tai seurantaan sekä ladataksemme tiedot Hadoop -, NoSQL-tai tietovarastointijärjestelmiin offline-käsittelyä ja raportointia varten, erityisesti reaaliaikaisissa julkaisutilauskäyttötapauksissa, käytämme Kafkaa.

a. Hadoop-tuottaja

jotta Hadoop-klusterin ja Kafkan tiedot voitaisiin julkaista, Hadoop-tuottaja tarjoaa sillan, jonka näet alla olevasta kuvasta:

Kafka - Hadoop-integraatio

lisäksi Kafka-aiheita pidetään Ureina, Kafkan tuottajalle. Vaikka urit on määritelty alla, yhteyden muodostamiseksi tiettyyn Kafka-välittäjään:
Kafka:/ / <kafka-välittäjä> / < Kafka-aihe>
No, tietojen saamiseksi Hadoopilta Hadoop-tuottajakoodi ehdottaa kahta mahdollista lähestymistapaa, ne ovat:

  • käyttämällä Pig-skriptiä ja kirjoittamalla viestejä Avro-muodossa

periaatteessa datan kirjoittamiseen binäärisessä Avro-muodossa Kafkan tuottajat käyttävät tässä lähestymistavassa Sig-skriptejä. Tässä jokainen rivi viittaa yhteen viestiin. Edelleen, AvroKafkaStorage Luokka poimii Avro skeema sen ensimmäinen argumentti ja sitten yhdistää Kafka URI, jotta työntää tiedot Kafka klusterin. Lisäksi avrokafkastorage-tuottajan avulla voimme helposti kirjoittaa useisiin aiheisiin ja välittäjiin samassa Sikakäsikirjoituspohjaisessa työssä.

  • käyttäen Kafka OutputFormat-luokkaa työpaikoille

nyt toisessa menetelmässä tietojen julkaisemiseen Kafka-klusteriin käytetään Kafka OutputFormat-luokkaa (laajentaa Hadoopin OutputFormat-luokkaa). Tässä se julkaisee matalan tason julkaisumenetelmiä käyttäen viestejä tavuina ja tarjoaa myös kontrollin ulostuloon. Tosin levyn (viestin) kirjoittamiseen Hadoop-klusterille Kafka OutputFormat-luokka käyttää KafkaRecordWriter-luokkaa.
lisäksi voimme määrittää Kafka-tuottajan parametrit ja Kafka-välittäjän tiedot työpaikan konfiguraation mukaisesti Kafka-tuottajille.

B. Hadoop kuluttaja

kun taas Hadoop työ, joka vetää dataa Kafka välittäjä ja edelleen työntää sitä HDFS, on mitä kutsumme Hadoop kuluttaja. Alla olevasta kuvasta näet kuitenkin Kafkan kuluttajan aseman arkkitehtuurikuviossa:

Kafka-Hadoop-integraatio

Kafka Hadoop – integraatio-Hadoop-kuluttaja

prosessina Hadoop-työ suorittaa rinnakkaista latausta Kafkasta HDFS: ään myös joitakin kartoittimia tietojen lataamista varten, joka riippuu syötehakemiston tiedostojen määrästä. Lisäksi kafkalta tulevat tiedot ja päivitetyt aihepoikkeamat ovat lähtöhakemistossa. Lisäksi karttatehtävän lopussa yksittäiset kartoittajat kirjoittavat HDFS: lle viimeisen kulutetun viestin offsetin. Jokainen kartoittaja kuitenkin yksinkertaisesti käynnistyy uudelleen HDFS: ään tallennetuista siirtymistä, jos työ epäonnistuu ja työt käynnistyvät uudelleen.
tämä kaikki tapahtui Kafka Hadoop-integraatiossa. Toivottavasti pidät selityksestämme.

johtopäätös: Kafka Hadoop-integraatio

Vastaa

Sähköpostiosoitettasi ei julkaista.