Zůstaňte informováni o nejnovějších technologických trendech
Připojte se k DataFlair na telegramu!!
Kafka integrace s Hadoop
dnes, v tomto Kafka Hadoop Tutorial, budeme diskutovat Kafka Hadoop integrace. Kromě toho začneme tento tutoriál s Hadoop úvodem. Uvidíme také výrobce Hadoop a spotřebitele Hadoop v integraci Kafky s Hadoopem.
v zásadě můžeme integrovat Kafku s technologií Hadoop, abychom řešili různé případy použití, jako je dávkové zpracování pomocí Hadoop. Takže v tomto článku „Kafka Hadoop integration“ se naučíme postup integrace Hadoop s Kafkou jednodušším a efektivnějším způsobem. Před integrací Kafky s Hadoopem je však důležité naučit se Stručné představení Hadoopu.
začněme tedy Kafka Hadoop Integration.
Kafka Hadoop integrace
co je Hadoop?
rozsáhlý distribuovaný dávkový rámec pro zpracování, který slouží k paralelizaci zpracování dat mezi mnoha uzly a také řeší výzvy pro distribuované výpočty, včetně velkých dat, je to, čemu říkáme Hadoop.
v zásadě funguje na principu rámce MapReduce, který zavádí Google. Nabízí jednoduché rozhraní pro paralelizaci a distribuci rozsáhlých výpočtů. Kromě toho má svůj vlastní distribuovaný datový souborový systém, který nazýváme jako HDFS (Hadoop Distributed File System). Abychom porozuměli HDFS, rozdělí data na malé kousky (nazývané bloky) a dále je distribuuje do všech uzlů v jakémkoli typickém klastru Hadoop. Kromě toho vytváří replikaci těchto malých kusů dat a ukládá je, aby bylo zajištěno, že data jsou k dispozici z jiného uzlu, pokud je některý uzel nefunkční.
nyní je zde obrázek zobrazující pohled na vysokou úroveň clusteru Hadoop s více uzly:
Hadoop Multinode Cluster
a. hlavní komponenty Hadoop
Níže jsou uvedeny komponenty Hadoop:
- název uzlu
jediný bod interakce pro HDFS je to, čemu říkáme Namenode. Jako svou práci uchovává informace o malých kusech (blocích) dat, které jsou distribuovány mezi uzly.
- sekundární Namenode
v případě selhání uzlu název, ukládá editační protokoly, Obnovit nejnovější aktualizovaný stav HDFS.
- datový uzel
udržuje aktuální data, která jsou distribuována namenode v blocích, stejně jako udržuje replikovanou kopii dat z jiných uzlů.
- Job Tracker
aby bylo možné rozdělit úlohy MapReduce na menší úkoly, pomáhá Job Tracker.
- sledovač úloh
zatímco za provádění úkolů rozdělených sledovačem úloh je odpovědný sledovač úloh.
přesto se ujistěte, že sledovač úloh a datové uzly sdílejí stejné stroje.
Zkontrolujte, kolik toho víte o Hadoop
integrace Kafka Hadoop
abychom mohli vybudovat potrubí, které je k dispozici pro zpracování nebo monitorování v reálném čase, a také načíst data do systémů Hadoop, NoSQL nebo datových skladů pro offline zpracování a vykazování, zejména pro případy použití v reálném čase, používáme Kafku.
a. výrobce Hadoop
aby bylo možné publikovat data z klastru Hadoop Kafkovi, nabízí výrobce Hadoop most, který můžete vidět na obrázku níže:
Kafkova témata jsou navíc považována za URIs, pro Kafkovského producenta. Ačkoli, URI jsou uvedeny níže, pro připojení ke konkrétnímu zprostředkovateli Kafka:
kafka: / / <kafka-broker> / < kafka-topic>
no, pro získání dat z Hadoop, kód výrobce Hadoop navrhuje dva možné přístupy, jsou:
- použití skriptu Pig a psaní zpráv ve formátu Avro
v podstatě pro zápis dat v binárním formátu Avro používají producenti Kafka v tomto přístupu Pig skripty. Zde každý řádek odkazuje na jednu zprávu. Dále třída AvroKafkaStorage vybere schéma Avro jako svůj první argument a poté se připojí k Kafka URI, aby se data posunula do klastru Kafka. Kromě toho můžeme snadno psát na více témat a makléřů ve stejné práci Pig script-based, pomocí avrokafkastorage výrobce.
- použití třídy Kafka OutputFormat pro úlohy
nyní se ve druhé metodě pro publikování dat do klastru Kafka používá třída Kafka OutputFormat (rozšiřuje třídu OutputFormat Hadoop). Zde pomocí metod publikování na nízké úrovni publikuje zprávy jako bajty a také nabízí kontrolu nad výstupem. Ačkoli pro zápis záznamu (zprávy) do klastru Hadoop používá třída Kafka OutputFormat třídu KafkaRecordWriter.
kromě toho můžeme také konfigurovat parametry výrobce Kafka a informace o zprostředkovateli Kafka v konfiguraci zakázky pro výrobce Kafka.
b. Hadoop Consumer
zatímco Hadoop job, který stahuje data z makléře Kafka a dále je tlačí do HDFS, je to, čemu říkáme Hadoop consumer. Ačkoli, z obrázku níže, můžete vidět pozici konzumenta Kafky ve vzoru architektury:
Kafka Hadoop integrace-Hadoop Consumer
jako proces, Hadoop úloha dělá provádět paralelní načítání z Kafka do HDFS také některé mapovače za účelem načítání dat, která závisí na počtu souborů ve vstupním adresáři. Navíc data přicházející z Kafky a aktualizované offsety témat jsou ve výstupním adresáři. Dále na konci úlohy mapy zapisují jednotliví mapovači offset Poslední spotřebované zprávy do HDFS. Ačkoli, každý mapper se jednoduše restartuje z offsetů uložených v HDFS, pokud úloha selže a úlohy se restartují.
takže to bylo všechno v integraci Kafka Hadoop. Doufám, že se vám naše vysvětlení líbí.