Legyen naprakész a legújabb technológiai trendekkel
csatlakozzon a DataFlair-hez a Telegramon!!
Kafka integráció Hadoop
ma, ebben a Kafka Hadoop bemutató, megbeszéljük Kafka Hadoop integráció. Sőt, ezt az oktatóanyagot a Hadoop bevezetésével kezdjük. Ezenkívül látni fogjuk a Hadoop producert és a Hadoop Consumer-t a Kafka integrációjában a Hadoop-Tal.
alapvetően integrálhatjuk a Kafka-t a Hadoop technológiával annak érdekében, hogy különböző felhasználási eseteket kezeljünk, például a kötegelt feldolgozást a Hadoop segítségével. Tehát ebben a cikkben, a “Kafka Hadoop integráció” megtanuljuk az eljárást a Hadoop és a Kafka könnyebb és hatékonyabb integrálására. Mielőtt azonban integrálnánk a Kafkát a Hadoop – ba, fontos megtanulni a Hadoop rövid bevezetését.
Tehát kezdjük el a Kafka Hadoop integrációt.
Kafka Hadoop integráció
mi a Hadoop?
egy nagyszabású elosztott kötegelt feldolgozási keretrendszer, amely az adatfeldolgozás párhuzamosítását használja számos csomópont között, és foglalkozik az elosztott számítástechnika kihívásaival, beleértve a nagy adatokat is, az, amit Hadoopnak hívunk.
alapvetően a Google által bevezetett MapReduce keretrendszer elvén működik. Egyszerű felületet kínál a párhuzamosításhoz, valamint a nagyszabású számítások elosztásához. Ezenkívül saját elosztott adatfájlrendszerrel rendelkezik, amelyet HDFS-nek (Hadoop Distributed File System) hívunk. Ahhoz, hogy megértsük a HDFS-t, az adatokat apró darabokra (blokkokra) osztja, és tovább osztja az összes tipikus Hadoop-fürt összes csomópontjára. Ezenkívül létrehozza ezeknek a kis adatoknak a replikációját, valamint tárolja őket annak biztosítása érdekében, hogy az adatok egy másik csomópontról elérhetők legyenek, ha bármelyik csomópont le van állítva.
most itt van egy kép, amely egy több csomópontú Hadoop-fürt magas szintű nézetét mutatja:
Hadoop Multinode Cluster
a. fő összetevői Hadoop
következő a Hadoop alkatrészek:
- név csomópont
a HDFS egyetlen interakciós pontja az, amit Namenode-nak hívunk. Mivel a feladata, hogy megtartja az információt a kis darab (blokkok) adatok, amelyek között elosztott csomópont.
- másodlagos Namenode
névcsomópont meghibásodása esetén tárolja a szerkesztési naplókat, hogy visszaállítsa a HDFS legfrissebb állapotát.
- Adatcsomópont
megtartja a namenode által blokkokban elosztott tényleges adatokat, valamint megőrzi a más csomópontokból származó adatok replikált másolatát.
- Job Tracker
annak érdekében, hogy szét a MapReduce feladatok kisebb feladatok, Job Tracker segít.
- Feladatkövető
míg a feladatkövető által megosztott feladatok végrehajtásáért a feladatkövető felelős.
ugyanakkor győződjön meg arról, hogy a feladatkövető és az adatcsomópontok ugyanazon gépeken osztoznak.
ellenőrizze, hogy mennyit tud Hadoop
Kafka Hadoop integráció
annak érdekében, hogy létrejöjjön egy csővezeték, amely elérhető a valós idejű feldolgozás vagy monitoring, valamint betölteni az adatokat Hadoop, NoSQL, vagy adattárház rendszerek offline feldolgozás és jelentéstétel, különösen a valós idejű közzététel-feliratkozás használati esetek, használjuk Kafka.
a. Hadoop producer
annak érdekében, hogy közzétegye az adatokat egy Hadoop klaszter Kafka, a Hadoop gyártó kínál híd látható az alábbi képen:
ezenkívül a Kafka témák Uri-nak minősülnek egy Kafka gyártó számára. Bár az URI-k az alábbiakban vannak meghatározva, hogy csatlakozzanak egy adott Kafka Brókerhez:
kafka: / / < kafka-broker> / < kafka-topic>
Nos, az adatok Hadoop-ból történő beszerzéséhez a Hadoop termelői kód két lehetséges megközelítést javasol, ezek a következők:
- a Pig szkript használata és üzenetek írása Avro formátumban
alapvetően az adatok bináris Avro formátumban történő írásához a Kafka gyártói Pig szkripteket használnak, ebben a megközelítésben. Itt minden sor egyetlen üzenetre utal. Ezenkívül az AvroKafkaStorage osztály az Avro sémát választja első argumentumaként, majd csatlakozik a Kafka URI-hoz, hogy az adatokat a Kafka klaszterbe tolja. Sőt, mi könnyen írni, hogy több téma és brókerek ugyanabban a Pig script-alapú munkát, segítségével a AvroKafkaStorage producer.
- a Kafka OutputFormat osztály használata
feladatokhoz most, a második módszerben, az adatok közzétételéhez a Kafka klaszterhez, a Kafka OutputFormat osztályt (kiterjeszti a Hadoop OutputFormat osztályát) használjuk. Itt az alacsony szintű közzétételi módszerek használatával bájtként teszi közzé az üzeneteket, és a kimenet ellenőrzését is biztosítja. Bár a rekord (üzenet) Hadoop-fürtbe írásához a Kafka OutputFormat osztály a KafkaRecordWriter osztályt használja.
ezen kívül beállíthatjuk a Kafka gyártó paramétereit és a Kafka bróker információit egy feladat konfigurációja alatt, a Kafka gyártók számára.
B. Hadoop Consumer
míg egy Hadoop feladat, amely adatokat húz a Kafka brókertől, és tovább tolja a HDFS-be, az, amit Hadoop fogyasztónak nevezünk. Bár, alulról kép, láthatja a Kafka fogyasztó helyzetét az építészeti mintában:
Kafka Hadoop integráció – Hadoop Consumer
ennek a folyamatnak, a Hadoop feladat nem végez párhuzamos betöltése Kafka HDFS is néhány leképezők betöltése céljából az adatokat, amely attól függ, hogy a fájlok száma a bemeneti könyvtárban. Ezenkívül a Kafka-tól érkező adatok és a frissített témakiosztások a kimeneti könyvtárban vannak. Ezenkívül a leképezési feladat végén az egyes leképezők az utoljára elfogyasztott üzenet eltolását írják a HDFS-be. Bár minden leképező egyszerűen újraindul a HDFS-ben tárolt eltolásokból, ha egy feladat sikertelen, és a feladatok újraindulnak.
tehát ez mind a Kafka Hadoop integrációban volt. Remélem tetszik a magyarázatunk.