Kafka Hadoop integráció / a Hadoop integrálása a Kafka-val

Legyen naprakész a legújabb technológiai trendekkel
csatlakozzon a DataFlair-hez a Telegramon!!

Kafka integráció Hadoop

ma, ebben a Kafka Hadoop bemutató, megbeszéljük Kafka Hadoop integráció. Sőt, ezt az oktatóanyagot a Hadoop bevezetésével kezdjük. Ezenkívül látni fogjuk a Hadoop producert és a Hadoop Consumer-t a Kafka integrációjában a Hadoop-Tal.
alapvetően integrálhatjuk a Kafka-t a Hadoop technológiával annak érdekében, hogy különböző felhasználási eseteket kezeljünk, például a kötegelt feldolgozást a Hadoop segítségével. Tehát ebben a cikkben, a “Kafka Hadoop integráció” megtanuljuk az eljárást a Hadoop és a Kafka könnyebb és hatékonyabb integrálására. Mielőtt azonban integrálnánk a Kafkát a Hadoop – ba, fontos megtanulni a Hadoop rövid bevezetését.
Tehát kezdjük el a Kafka Hadoop integrációt.

Kafka - Hadoop integráció

Kafka Hadoop integráció

mi a Hadoop?

egy nagyszabású elosztott kötegelt feldolgozási keretrendszer, amely az adatfeldolgozás párhuzamosítását használja számos csomópont között, és foglalkozik az elosztott számítástechnika kihívásaival, beleértve a nagy adatokat is, az, amit Hadoopnak hívunk.
alapvetően a Google által bevezetett MapReduce keretrendszer elvén működik. Egyszerű felületet kínál a párhuzamosításhoz, valamint a nagyszabású számítások elosztásához. Ezenkívül saját elosztott adatfájlrendszerrel rendelkezik, amelyet HDFS-nek (Hadoop Distributed File System) hívunk. Ahhoz, hogy megértsük a HDFS-t, az adatokat apró darabokra (blokkokra) osztja, és tovább osztja az összes tipikus Hadoop-fürt összes csomópontjára. Ezenkívül létrehozza ezeknek a kis adatoknak a replikációját, valamint tárolja őket annak biztosítása érdekében, hogy az adatok egy másik csomópontról elérhetők legyenek, ha bármelyik csomópont le van állítva.
most itt van egy kép, amely egy több csomópontú Hadoop-fürt magas szintű nézetét mutatja:

Kafka-Hadoop integráció

Hadoop Multinode Cluster

a. fő összetevői Hadoop

következő a Hadoop alkatrészek:

  • név csomópont

a HDFS egyetlen interakciós pontja az, amit Namenode-nak hívunk. Mivel a feladata, hogy megtartja az információt a kis darab (blokkok) adatok, amelyek között elosztott csomópont.

  • másodlagos Namenode

névcsomópont meghibásodása esetén tárolja a szerkesztési naplókat, hogy visszaállítsa a HDFS legfrissebb állapotát.

  • Adatcsomópont

megtartja a namenode által blokkokban elosztott tényleges adatokat, valamint megőrzi a más csomópontokból származó adatok replikált másolatát.

  • Job Tracker

annak érdekében, hogy szét a MapReduce feladatok kisebb feladatok, Job Tracker segít.

  • Feladatkövető

míg a feladatkövető által megosztott feladatok végrehajtásáért a feladatkövető felelős.
ugyanakkor győződjön meg arról, hogy a feladatkövető és az adatcsomópontok ugyanazon gépeken osztoznak.

ellenőrizze, hogy mennyit tud Hadoop

Kafka Hadoop integráció

annak érdekében, hogy létrejöjjön egy csővezeték, amely elérhető a valós idejű feldolgozás vagy monitoring, valamint betölteni az adatokat Hadoop, NoSQL, vagy adattárház rendszerek offline feldolgozás és jelentéstétel, különösen a valós idejű közzététel-feliratkozás használati esetek, használjuk Kafka.

a. Hadoop producer

annak érdekében, hogy közzétegye az adatokat egy Hadoop klaszter Kafka, a Hadoop gyártó kínál híd látható az alábbi képen:

Kafka - Hadoop integráció

ezenkívül a Kafka témák Uri-nak minősülnek egy Kafka gyártó számára. Bár az URI-k az alábbiakban vannak meghatározva, hogy csatlakozzanak egy adott Kafka Brókerhez:
kafka: / / < kafka-broker> / < kafka-topic>
Nos, az adatok Hadoop-ból történő beszerzéséhez a Hadoop termelői kód két lehetséges megközelítést javasol, ezek a következők:

  • a Pig szkript használata és üzenetek írása Avro formátumban

alapvetően az adatok bináris Avro formátumban történő írásához a Kafka gyártói Pig szkripteket használnak, ebben a megközelítésben. Itt minden sor egyetlen üzenetre utal. Ezenkívül az AvroKafkaStorage osztály az Avro sémát választja első argumentumaként, majd csatlakozik a Kafka URI-hoz, hogy az adatokat a Kafka klaszterbe tolja. Sőt, mi könnyen írni, hogy több téma és brókerek ugyanabban a Pig script-alapú munkát, segítségével a AvroKafkaStorage producer.

  • a Kafka OutputFormat osztály használata

feladatokhoz most, a második módszerben, az adatok közzétételéhez a Kafka klaszterhez, a Kafka OutputFormat osztályt (kiterjeszti a Hadoop OutputFormat osztályát) használjuk. Itt az alacsony szintű közzétételi módszerek használatával bájtként teszi közzé az üzeneteket, és a kimenet ellenőrzését is biztosítja. Bár a rekord (üzenet) Hadoop-fürtbe írásához a Kafka OutputFormat osztály a KafkaRecordWriter osztályt használja.
ezen kívül beállíthatjuk a Kafka gyártó paramétereit és a Kafka bróker információit egy feladat konfigurációja alatt, a Kafka gyártók számára.

B. Hadoop Consumer

míg egy Hadoop feladat, amely adatokat húz a Kafka brókertől, és tovább tolja a HDFS-be, az, amit Hadoop fogyasztónak nevezünk. Bár, alulról kép, láthatja a Kafka fogyasztó helyzetét az építészeti mintában:

Kafka-Hadoop integráció

Kafka Hadoop integráció – Hadoop Consumer

ennek a folyamatnak, a Hadoop feladat nem végez párhuzamos betöltése Kafka HDFS is néhány leképezők betöltése céljából az adatokat, amely attól függ, hogy a fájlok száma a bemeneti könyvtárban. Ezenkívül a Kafka-tól érkező adatok és a frissített témakiosztások a kimeneti könyvtárban vannak. Ezenkívül a leképezési feladat végén az egyes leképezők az utoljára elfogyasztott üzenet eltolását írják a HDFS-be. Bár minden leképező egyszerűen újraindul a HDFS-ben tárolt eltolásokból, ha egy feladat sikertelen, és a feladatok újraindulnak.
tehát ez mind a Kafka Hadoop integrációban volt. Remélem tetszik a magyarázatunk.

következtetés: Kafka Hadoop integráció

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.