Hold dig opdateret med nyeste teknologi tendenser
Deltag DataFlair på Telegram!!
Kafka Integration med Hadoop
i dag, i denne Kafka Hadoop Tutorial, vil vi diskutere Kafka Hadoop Integration. Desuden vil vi starte denne tutorial med Hadoop introduktion. Vi vil også se Hadoop producent og Hadoop forbruger i Kafka Integration med Hadoop.
grundlæggende kan vi integrere Kafka med Hadoop-teknologien for at løse forskellige brugssager, såsom batchbehandling ved hjælp af Hadoop. Så i denne artikel,” Kafka Hadoop integration ” lærer vi proceduren for at integrere Hadoop med Kafka på en lettere og effektiv måde. Før du integrerer Kafka med Hadoop, er det dog vigtigt at lære den korte introduktion af Hadoop.
så lad os starte Kafka Hadoop Integration.
Kafka Hadoop Integration
Hvad er Hadoop?
en storstilet distribueret batchbehandlingsramme, der bruger til at parallelisere databehandlingen blandt mange noder og også adresserer udfordringerne for distribueret computing, herunder big data, er det, vi kalder Hadoop.
grundlæggende fungerer det på princippet om MapReduce-rammen, som introduceres af Google. Det tilbyder en enkel grænseflade til parallelisering såvel som distribution af store beregninger. Derudover har det sit eget distribuerede datafilsystem, som vi kalder HDFS (Hadoop Distributed File System). For at forstå HDFS opdeler den dataene i små stykker (kaldet blokke) og distribuerer dem yderligere til alle knudepunkter i enhver typisk Hadoop-klynge. Desuden skaber det replikationen af disse små stykker data såvel som det gemmer dem for at sikre, at dataene er tilgængelige fra en anden node, hvis en node er nede.
nu er her et billede, der viser højniveauvisningen af en multi-node Hadoop-klynge:
Hadoop Multinode Cluster
a. hovedkomponenter i Hadoop
Følgende er Hadoop-komponenterne:
- Name Node
et enkelt interaktionspunkt for HDFS er det, vi kalder Namenode. Som sit job, det holder oplysninger om de små stykker (blokke) af data, som er fordelt blandt node.
- sekundær Namenode
i tilfælde af en navneknudefejl gemmer den redigeringsloggene for at gendanne den senest opdaterede tilstand af HDFS.
- Dataknude
det holder de faktiske data, som distribueres af namenode i blokke samt holder den replikerede kopi af data fra andre noder.
- Job Tracker
for at opdele MapReduce job i mindre opgaver, Job Tracker hjælper.
- Task Tracker
der henviser til, at opgavetrackeren er ansvarlig for udførelsen af opgaver, der er opdelt af jobtrackeren.
Sørg dog for, at task tracker og datanoderne deler de samme maskiner.
Kontroller, hvor meget du ved om Hadoop
Kafka Hadoop Integration
for at opbygge en pipeline, der er tilgængelig til realtidsbehandling eller overvågning samt at indlæse dataene i Hadoop, Noskl eller datalagringssystemer til offline behandling og rapportering, især i realtid publicere-abonner brugssager, bruger vi Kafka.
a. Hadoop-producent
for at offentliggøre dataene fra en Hadoop-klynge til Kafka tilbyder en Hadoop-producent en bro, du kan se på nedenstående billede:
desuden betragtes Kafka-emner som Uri ‘ er for en Kafka-producent. Selvom Uri ‘ er er specificeret nedenfor for at oprette forbindelse til en bestemt Kafka-mægler:
kafka: / / < kafka-mægler> / < kafka-emne>
nå, for at få dataene fra Hadoop, foreslår Hadoop-producentkoden to mulige tilgange, de er:
- brug af Grisskriptet og skrivning af meddelelser i Avro-format
grundlæggende bruger Kafka-producenter Grisskripter til at skrive data i et binært Avro-format i denne tilgang. Her henviser hver række til en enkelt besked. Endvidere vælger AvroKafkaStorage-klassen Avro-skemaet som sit første argument og opretter derefter forbindelse til Kafka URI for at skubbe dataene ind i Kafka-klyngen. Desuden kan vi nemt skrive til flere emner og mæglere i samme gris script-baserede job, ved hjælp af avrokafkastorage producent.
- brug af Kafka OutputFormat-klassen til job
nu, i den anden metode, til offentliggørelse af data til Kafka-klyngen, bruges Kafka OutputFormat-klassen (udvider Hadoops OutputFormat-klasse). Her offentliggør den ved hjælp af publiceringsmetoder på lavt niveau meddelelser som bytes og tilbyder også kontrol over output. Selvom Kafka OutputFormat-klassen bruger kafkarecordforfatter-klassen til at skrive en post (besked) til en Hadoop-klynge.
derudover kan vi også konfigurere Kafka Producer parametre og Kafka mægler oplysninger under et job konfiguration, for Kafka producenter.
b. Hadoop Consumer
mens et Hadoop-job, der trækker data fra Kafka-mægleren og yderligere skubber dem ind i HDFS, er det, vi kalder en Hadoop-forbruger. Selvom, nedenunder billede, du kan se placeringen af en Kafka-forbruger i arkitekturmønsteret:
Kafka Hadoop integration – Hadoop Consumer
som en proces udfører et Hadoop-job parallel indlæsning fra Kafka til HDFS også nogle kortlæggere med det formål at indlæse dataene, der afhænger af antallet af filer i inputmappen. Desuden er data, der kommer fra Kafka og de opdaterede emneforskydninger, i outputmappen. I slutningen af kortopgaven skriver individuelle kortlæggere forskydningen af den sidst forbrugte besked til HDFS. Selvom, hver mapper genstarter simpelthen fra de forskydninger, der er gemt i HDFS, hvis et job mislykkes, og job genstartes.
så det var alt sammen i Kafka Hadoop Integration. Håber du kan lide vores forklaring.