Datendeduplizierung ist eine beliebte und weit verbreitete Speichertechnologie zur Optimierung der Speicherkapazität. Sie eliminiert redundante Daten, indem sie doppelte Daten aus dem Datensatz entfernt und nur eine Kopie übrig lässt. Wie in der folgenden Abbildung dargestellt. Diese Technologie kann den Bedarf an physischem Speicherplatz erheblich reduzieren, um der wachsenden Nachfrage nach Datenspeicherung gerecht zu werden. Die Deduplizierungstechnologie bietet viele praktische Vorteile, darunter vor allem die folgenden:
(1) | Erfüllen Sie die ROI- (Return on Investment)/TCO-Anforderungen (Total Cost of Ownership). |
(2) | Das schnelle Datenwachstum kann effektiv kontrolliert werden; |
(3) | Erhöhen Sie den effektiven Lagerraum und verbessern Sie die Lagereffizienz. |
(4) | Sparen Sie die gesamten Speicher- und Verwaltungskosten; |
(5) | Sparen Sie die Netzwerkbandbreite der Datenübertragung; |
(6) | Sparen Sie Betriebs- und Wartungskosten wie Platz, Stromversorgung und Kühlung. |
Deduplizierungstechnologie wird häufig in Datensicherungs- und Archivierungssystemen eingesetzt, da nach mehreren Datensicherungen viele doppelte Daten vorhanden sind, was diese Technologie sehr gut geeignet macht. Tatsächlich kann die Deduplizierungstechnologie in vielen Situationen eingesetzt werden, einschließlich Online-Daten, Nearline-Daten und Offline-Datenspeichersystemen. Sie kann in Dateisystemen, Volume-Managern, NAS und Sans implementiert werden. Deduplizierung kann auch für die Datenwiederherstellung nach einem Datenproblem, die Datenübertragung und -synchronisierung verwendet werden, da eine Datenkomprimierungstechnologie zur Datenpaketierung verwendet werden kann. Die Deduplizierungstechnologie kann vielen Anwendungen helfen, den Datenspeicher zu reduzieren, Netzwerkbandbreite zu sparen, die Speichereffizienz zu verbessern, das Sicherungsfenster zu verkleinern und Kosten zu sparen.
Deduplizierung hat zwei Hauptdimensionen: Deduplizierungsverhältnisse und Leistung. Die Deduplizierungsleistung hängt von der jeweiligen Implementierungstechnologie ab, während die Deduplizierungsrate durch die Eigenschaften der Daten selbst und Anwendungsmuster bestimmt wird, wie in der folgenden Tabelle gezeigt. Speicheranbieter melden derzeit Deduplizierungsraten zwischen 20:1 und 500:1.
Hohe Deduplizierungsrate | Niedrige Deduplizierungsrate |
Vom Benutzer erstellte Daten | Daten aus der Natur |
Daten mit geringer Änderungsrate | Daten mit hoher Änderungsrate |
Referenzdaten, inaktive Daten | Aktive Daten |
Anwendung mit niedriger Datenänderungsrate | Anwendung mit hoher Datenänderungsrate |
Vollständige Datensicherung | Inkrementelle Datensicherung |
Daten-Langzeitspeicherung | Daten kurzfristig speichern |
Breites Spektrum an Datenanwendungen | Kleines Spektrum an Datenanwendungen |
Kontinuierliche Datenverarbeitung im Geschäftsleben | Allgemeine Daten der Geschäftsabwicklung |
Kleine Datensegmentierung | Big Data-Segmentierung |
Erweiterte Datensegmentierung | Datensegmentierung mit fester Länge |
Wahrgenommener Dateninhalt | Dateninhalt unbekannt |
Zeitdatendeduplizierung | Deduplizierung räumlicher Daten |
Deduplizierungsimplementierungspunkte
Bei der Entwicklung oder Anwendung der Deduplizierungstechnologie sollten verschiedene Faktoren berücksichtigt werden, da diese Faktoren ihre Leistung und Effektivität direkt beeinflussen.
(1) | Was | Welche Daten werden entgewichtet? |
(2) | Wann | Wann wird das Gewicht abgebaut? |
(3) | Wo | Wo bleibt die Gewichtsreduzierung? |
(4) | Wie | Wie kann man das Gewicht reduzieren? |
Deduplizierungsschlüsseltechnologie
Der Deduplizierungsprozess eines Speichersystems läuft im Allgemeinen wie folgt ab: Zunächst wird die Datendatei in einen Datensatz aufgeteilt, für jeden Datenblock wird ein Fingerabdruck berechnet, und dann wird anhand der Hash-Schlüsselwörter des Fingerabdrucks nach passenden Daten gesucht, um die doppelten Datenblöcke anzuzeigen. Nur die Indexnummer des Datenblocks wird gespeichert, andernfalls handelt es sich um einen neuen Datenblock. Beim Speichern des Datenblocks werden die entsprechenden Metadaten erstellt. Somit entspricht eine physische Datei im Speichersystem einer logischen Darstellung eines Satzes von FP-Metadaten. Beim Lesen der Datei wird zuerst die logische Datei gelesen, dann wird gemäß der FP-Sequenz der entsprechende Datenblock aus dem Speichersystem entnommen und die Kopie der physischen Datei wiederhergestellt. Aus dem obigen Prozess ist ersichtlich, dass die Schlüsseltechnologien der Deduplizierung hauptsächlich die Segmentierung von Dateidatenblöcken, die Berechnung des Datenblock-Fingerabdrucks und das Abrufen von Datenblöcken umfassen.
(1) Dateidatenblocksegmentierung
(2) Berechnung des Datenblock-Fingerabdrucks
(3) Datenblockabruf
So finden Sie diese empfohlenen Modelle zum Starten Ihrer Netzwerkpaketdeduplizierung:
Mylinking™ Netzwerkpaketbroker (NPB) ML-NPB-640048*10GE SFP+ plus 4*40GE/100GE QSFP28, max. 880 Gbit/s
Mylinking™ Netzwerkpaketbroker (NPB) ML-NPB-56606*40GE/100GE QSFP28 plus 48*10GE/25GE SFP28, max. 1,8 Tbit/s
Mylinking™ Netzwerkpaketbroker (NPB) ML-NPB-506048*10GE SFP+ plus 2*40GE QSFP, max. 560 Gbit/s
Mylinking™ Netzwerkpaketbroker (NPB) ML-NPB-486048*10GE SFP+, Max 480Gbps, Funktion Plus
Mylinking™ Netzwerkpaketbroker (NPB) ML-NPB-481048*10GE SFP+, Max 480Gbps
Mylinking™ Netzwerkpaketbroker (NPB) ML-NPB-2410P24*10GE SFP+, Max 240Gbps, DPI-Funktion
Mylinking™ Netzwerkpaketbroker (NPB) ML-NPB-6400
48*10GE SFP+ plus 4*40GE/100GE QSFP28, max. 880 Gbit/s
Veröffentlichungszeit: 18. Oktober 2022