Was ist der Unterschied zwischen HDFS und MapReduce?

Inhaltsverzeichnis:

Anonim

Die Hauptunterschied zwischen HDFS und MapReduce ist das HDFS ist ein verteiltes Dateisystem, das Zugriff auf Anwendungsdaten mit hohem Durchsatz bietet, während MapReduce ein Software-Framework ist, das Big Data auf großen Clustern zuverlässig verarbeitet.

Big Data ist eine Sammlung großer Datensätze. Es hat drei Haupteigenschaften: Lautstärke, Geschwindigkeit und Vielfalt. Hadoop ist eine Software, die das Speichern und Verwalten von Big Data ermöglicht. Es ist ein in Java geschriebenes Open-Source-Framework. Darüber hinaus unterstützt es die verteilte Verarbeitung großer Datensätze über Computercluster hinweg. HDFS und MapReduce sind zwei Module in der Hadoop-Architektur.

Big Data, HDFS, MapReduce

Was ist HDFS?

HDFS steht für Hadoop verteiltes Dateisystem. Es ist ein verteiltes Dateisystem von Hadoop, um auf großen Clustern zuverlässig und effizient zu laufen. Außerdem basiert es auf dem Google File System (GFS). Darüber hinaus verfügt es auch über eine Liste von Befehlen zur Interaktion mit dem Dateisystem.

Darüber hinaus arbeitet das HDFS nach der Master-Slave-Architektur. Der Master-Knoten oder Namensknoten verwaltet die Dateisystem-Metadaten, während die Slave-Knoten oder die Datennotizen tatsächliche Daten speichern.

Abbildung 1: HDFS-Architektur

Außerdem wird eine Datei in einem HDFS-Namespace in mehrere Blöcke aufgeteilt. Datenknoten speichern diese Blöcke. Und der Namensknoten ordnet die Blöcke den Datenknoten zu, die die Lese- und Schreiboperationen mit dem Dateisystem verarbeiten. Darüber hinaus führen sie Aufgaben wie Blockerstellung, -löschung usw. gemäß den Anweisungen des Namensknotens aus.

Was ist MapReduce?

MapReduce ist ein Software-Framework, das es dem Schreiben von Anwendungen ermöglicht, Big Data gleichzeitig auf großen Clustern von Standardhardware zu verarbeiten. Dieses Framework besteht aus einem einzelnen Master-Job-Tracker und einem Slave-Task-Tracker pro Cluster-Knoten. Der Master führt die Ressourcenverwaltung durch, plant Jobs auf Slaves, überwacht und führt die fehlgeschlagenen Tasks erneut aus. Andererseits führt der Slave-Task-Tracker die vom Master angewiesenen Tasks aus und sendet die Task-Statusinformationen ständig an die Mater zurück.

Abbildung 2: Übersicht über MapReduce

Außerdem sind mit MapReduce zwei Aufgaben verbunden. Sie sind die Map-Task und die Reduce-Task. Der Map-Task nimmt Eingabedaten und teilt sie in Tupel von Schlüssel-Wert-Paaren, während der Reduce-Task die Ausgabe eines Map-Tasks als Eingabe nimmt und diese Datentupel in kleinere Tupel verbindet. Außerdem wird der Map-Task vor dem Reduce-Task ausgeführt.

Unterschied zwischen HDFS und MapReduce

Definition

HDFS ist ein verteiltes Dateisystem, das große Dateien zuverlässig auf Maschinen in einem großen Cluster speichert. Im Gegensatz dazu ist MapReduce ein Software-Framework zum einfachen Schreiben von Anwendungen, die große Datenmengen parallel auf großen Clustern handelsüblicher Hardware zuverlässig und fehlertolerant verarbeiten. Diese Definitionen erklären den Hauptunterschied zwischen HDFS und MapReduce.

Hauptfunktionalität

Ein weiterer Unterschied zwischen HDFS und MapReduce besteht darin, dass das HDFS einen leistungsstarken Zugriff auf Daten über hochskalierbare Hadoop-Cluster bietet, während MapReduce die Verarbeitung von Big Data übernimmt.

Abschluss

Kurz gesagt, HDFS und MapReduce sind zwei Module in der Hadoop-Architektur. Der Hauptunterschied zwischen HDFS und MapReduce besteht darin, dass HDFS ein verteiltes Dateisystem ist, das Zugriff auf Anwendungsdaten mit hohem Durchsatz bietet, während MapReduce ein Software-Framework ist, das Big Data auf großen Clustern zuverlässig verarbeitet.

Referenz:

1. „HDFS-Architekturhandbuch“, Apache Hadoop, hier verfügbar. 2. „MapReduce-Tutorial“, Apache Hadoop, hier verfügbar.3. „Was ist Hadoop Distributed File System (HDFS)? – Definition von WhatIs.com.“ SearchDataManagement, hier verfügbar.

Bild mit freundlicher Genehmigung:

1. „Hdfsarchitecture“ von Magnai17 – Eigene Arbeit (CC BY-SA 4.0) über Commons Wikimedia2. „Mapreduce-Übersicht“ von Poposhka – SVG-Edit (CC BY-SA 3.0) über Commons Wikimedia

Was ist der Unterschied zwischen HDFS und MapReduce?