blijf op de hoogte met de nieuwste technologische trends
Word lid van Dataflair op Telegram!!
Kafka integratie met Hadoop
vandaag, in deze Kafka Hadoop Tutorial, zullen we Kafka Hadoop integratie bespreken. Bovendien zullen we deze tutorial beginnen met Hadoop introductie. Ook zien we Hadoop producent en Hadoop consument in Kafka integratie met Hadoop.
in principe kunnen we Kafka integreren met de Hadoop-technologie om verschillende use cases aan te pakken, zoals batchverwerking met behulp van Hadoop. Dus, in dit artikel, “Kafka Hadoop integratie” leren we de procedure om Hadoop te integreren met Kafka op een eenvoudiger en efficiënte manier. Echter, alvorens Kafka met Hadoop te integreren, is het belangrijk om de korte introductie van Hadoop te leren.
dus, laten we beginnen met Kafka Hadoop integratie.
Kafka Hadoop-integratie
Wat is Hadoop?
een grootschalig framework voor gedistribueerde batchverwerking dat gebruikt wordt om de gegevensverwerking te parallelliseren tussen vele knooppunten en ook de uitdagingen voor gedistribueerde computing aanpakt, inclusief big data, is wat we Hadoop noemen.
in principe werkt het volgens het principe van het MapReduce-framework dat door Google is ingevoerd. Het biedt een eenvoudige interface voor de parallellisatie en de distributie van grootschalige berekeningen. Daarnaast heeft het zijn eigen gedistribueerde databestandssysteem dat we HDFS (Hadoop Distributed File System) noemen. Om HDFS te begrijpen, splitst het de gegevens in kleine stukjes (zogenaamde blokken) en distribueert het verder naar alle knooppunten in een typische Hadoop-cluster. Bovendien, het creëert de replicatie van deze kleine stukjes gegevens en het slaat ze op om ervoor te zorgen dat de gegevens beschikbaar zijn van een ander knooppunt als een knooppunt is down.
hier is een afbeelding die de weergave op hoog niveau van een multi-knooppunt Hadoop-cluster toont:
Hadoop Multinode Cluster
a. hoofdcomponenten van Hadoop
Hieronder volgen de Hadoopcomponenten:
- Naamknooppunt
een enkel interactiepunt voor HDFS is wat we Naamcode noemen. Als zijn taak, het houdt de informatie over de kleine stukjes (blokken) van gegevens die worden verdeeld over knooppunt.
- secundaire Naamcode
in het geval van een fout in de naamknooppunt worden de bewerklogboeken opgeslagen om de laatst bijgewerkte status van HDFS te herstellen.
- gegevensknooppunt
het bewaart de werkelijke gegevens die door de naamcode worden gedistribueerd in blokken evenals de gerepliceerde kopie van gegevens van andere knooppunten.
- Job Tracker
om de MapReduce-taken op te splitsen in kleinere taken, helpt Job Tracker.
- Taakvolger
voor de uitvoering van taken die door de taakvolger worden opgesplitst, is de taakvolger verantwoordelijk.
echter, zorg ervoor dat de task tracker en de data nodes dezelfde machines delen.
Controleer hoeveel u weet over Hadoop
Kafka Hadoop integratie
om een pijplijn te bouwen die beschikbaar is voor real-time verwerking of monitoring en om de gegevens te laden in Hadoop, NoSQL, of data warehousing systemen voor offline verwerking en rapportage, vooral voor real-time publish-subscribe use cases, gebruiken we Kafka.
a. Hadoop producent
om de gegevens van een Hadoop Cluster naar Kafka te publiceren, biedt een Hadoop producent een brug aan die u kunt zien in onderstaande afbeelding:
bovendien worden Kafka-onderwerpen beschouwd als URI ‘ s voor een Kafka-producent. URI ‘ s worden hieronder gespecificeerd om verbinding te maken met een specifieke Kafka broker:
kafka: / / <kafka-broker> / <Kafka-topic>
wel, voor het verkrijgen van de gegevens van Hadoop, suggereert de Hadoop producer code twee mogelijke benaderingen, ze zijn:
- met behulp van het Pig-script en het schrijven van berichten in Avro-formaat
voor het schrijven van gegevens in een binair Avro-formaat gebruiken Kafka-producenten Pig-scripts in deze aanpak. Hier verwijst elke rij naar een enkel bericht. Verder, de avrokafkastorage klasse kiest het AVRO schema als eerste argument en vervolgens verbindt met de Kafka URI, om de gegevens te duwen in de Kafka cluster. Bovendien kunnen we eenvoudig schrijven naar meerdere onderwerpen en makelaars in dezelfde Pig script-gebaseerde baan, met behulp van de avrokafkastorage producer.
- met behulp van de Kafka OutputFormat-klasse voor taken
in de tweede methode wordt voor het publiceren van gegevens naar het Kafka-cluster de Kafka OutputFormat-klasse (breidt de outputformat-klasse van Hadoop uit) gebruikt. Hier, met behulp van low-level methoden van het publiceren, het publiceert berichten als bytes en biedt ook controle over de output. Hoewel, voor het schrijven van een record (bericht) naar een Hadoop cluster, de Kafka OutputFormat klasse gebruikt de kafkarecordwriter klasse.
daarnaast kunnen we Kafka-Producentenparameters en Kafka-Brokerinformatie ook configureren onder de configuratie van een taak, voor Kafka-producenten.
B. Hadoop Consumer
terwijl een Hadoop-taak die gegevens uit de Kafka-broker haalt en deze verder naar HDFS duwt, wat we een Hadoop-consument noemen. Hoewel, van onderstaande afbeelding, kunt u de positie van een Kafka consument te zien in de architectuur patroon:
Kafka Hadoop integratie-Hadoop Consumer
als een proces voert een Hadoop-taak parallel laden uit van Kafka naar HDFS ook enkele mappers uit om de gegevens te laden die afhankelijk zijn van het aantal bestanden in de invoermap. Bovendien, gegevens afkomstig van Kafka en de bijgewerkte topic offsets is in de output directory. Verder schrijven individuele mappers aan het einde van de map-taak de offset van het laatst geconsumeerde bericht naar HDFS. Elke mapper start echter gewoon opnieuw op van de offsets die zijn opgeslagen in HDFS, als een taak mislukt en taken opnieuw worden gestart.
dit was allemaal in Kafka Hadoop integratie. Ik hoop dat je onze uitleg leuk vindt.