Datendeduplizierung ist eine weit verbreitete Speichertechnologie zur Optimierung der Speicherkapazität. Sie eliminiert redundante Daten, indem sie Duplikate aus dem Datensatz entfernt und nur eine Kopie übrig lässt (siehe Abbildung unten). Diese Technologie kann den Bedarf an physischem Speicherplatz erheblich reduzieren und so der steigenden Nachfrage nach Datenspeicherung gerecht werden. Die Deduplizierungstechnologie bietet viele praktische Vorteile, insbesondere in folgenden Bereichen:
| (1) | Die Anforderungen an ROI (Return on Investment) und TCO (Total Cost of Ownership) erfüllen; |
| (2) | Das rasante Datenwachstum kann wirksam kontrolliert werden; |
| (3) | Vergrößerung des effektiven Stauraums und Verbesserung der Lagereffizienz; |
| (4) | Sparen Sie die gesamten Lager- und Verwaltungskosten; |
| (5) | Netzwerkbandbreite für die Datenübertragung sparen; |
| (6) | Sparen Sie Betriebs- und Wartungskosten wie Platzbedarf, Stromversorgung und Kühlung. |
Deduplizierungstechnologie findet breite Anwendung in Datensicherungs- und Archivierungssystemen, da nach mehrfachen Datensicherungen häufig Duplikate vorhanden sind, die sich ideal für diese Technologie eignen. Tatsächlich lässt sich Deduplizierungstechnologie in vielen Bereichen einsetzen, darunter Online-, Nearline- und Offline-Datenspeichersysteme. Sie kann in Dateisystemen, Volume-Managern, NAS und SANS implementiert werden. Deduplizierung kann auch für die Datenwiederherstellung nach einem Datenausfall, die Datenübertragung und -synchronisierung genutzt werden, da sie als Datenkomprimierungstechnologie zur Datenpaketierung dient. Deduplizierungstechnologie trägt dazu bei, den Datenspeicherbedarf zu reduzieren, Netzwerkbandbreite zu sparen, die Speichereffizienz zu steigern, das Backup-Fenster zu verkürzen und Kosten zu senken.
Die Deduplizierung hat zwei Hauptdimensionen: das Deduplizierungsverhältnis und die Leistung. Die Leistung hängt von der jeweiligen Implementierungstechnologie ab, während die Deduplizierungsrate durch die Eigenschaften der Daten selbst und die Anwendungsmuster bestimmt wird, wie in der folgenden Tabelle dargestellt. Speicheranbieter berichten aktuell von Deduplizierungsraten zwischen 20:1 und 500:1.
| Hohe Deduplizierungsrate | Niedrige Deduplizierungsrate |
| Vom Benutzer erstellte Daten | Daten aus der Natur |
| Daten mit niedriger Änderungsrate | Daten mit hoher Änderungsrate |
| Referenzdaten, inaktive Daten | Aktive Daten |
| Anwendung mit niedriger Datenänderungsrate | Anwendung mit hoher Datenänderungsrate |
| Vollständige Datensicherung | Inkrementelle Datensicherung |
| Langzeitspeicherung von Daten | Kurzzeitspeicherung von Daten |
| Breites Spektrum an Datenanwendungen | Kleines Spektrum an Datenanwendungen |
| Kontinuierliche Datenverarbeitung | Allgemeine Datenverarbeitung |
| Segmentierung kleiner Daten | Big-Data-Segmentierung |
| längliche Datensegmentierung | Datensegmentierung fester Länge |
| wahrgenommener Dateninhalt | Dateninhalt unbekannt |
| Zeitdatendeduplizierung | räumliche Datendeduplizierung |
Implementierungspunkte für die Deduplizierung
Bei der Entwicklung und Anwendung von Deduplizierungstechnologien müssen verschiedene Faktoren berücksichtigt werden, da diese die Leistungsfähigkeit und Effektivität direkt beeinflussen.
| (1) | Was | Welche Daten werden entgewichtet? |
| (2) | Wann | Wann wird das Gewicht beseitigt sein? |
| (3) | Wo | Wo liegt die Gewichtsreduzierung? |
| (4) | Wie | Wie kann ich Gewicht reduzieren? |
Schlüsseltechnologie zur Deduplizierung
Der Deduplizierungsprozess eines Speichersystems läuft im Allgemeinen wie folgt ab: Zunächst wird die Datendatei in Datenblöcke unterteilt. Für jeden Datenblock wird ein Fingerabdruck berechnet. Anschließend werden anhand des Fingerabdrucks Hash-Schlüsselwörter gesucht. Bei Übereinstimmungen werden doppelte Datenblöcke identifiziert und nur deren Indexnummer gespeichert. Andernfalls handelt es sich um einen neuen Datenblock, der gespeichert und mit entsprechenden Metadaten versehen wird. Somit entspricht eine physische Datei im Speichersystem einer logischen Repräsentation aus Fingerabdruck-Metadaten. Beim Lesen der Datei wird zuerst die logische Datei gelesen. Anschließend wird anhand der Fingerabdrucksequenz der entsprechende Datenblock aus dem Speichersystem extrahiert und eine Kopie der physischen Datei wiederhergestellt. Aus diesem Prozess geht hervor, dass die Schlüsseltechnologien der Deduplizierung die Segmentierung von Dateidatenblöcken, die Berechnung von Datenblock-Fingerabdrücken und die Datenblock-Wiederherstellung umfassen.
(1) Segmentierung von Dateidatenblöcken
(2) Berechnung des Datenblock-Fingerabdrucks
(3) Datenblockabruf
Um diese empfohlenen Modelle für den Einstieg in die Netzwerkpaketdeduplizierung zu finden:
Mylinking™ Network Packet Broker (NPB) ML-NPB-640048 x 10GE SFP+ plus 4 x 40GE/100GE QSFP28, max. 880 Gbit/s
Mylinking™ Network Packet Broker (NPB) ML-NPB-56606 x 40GE/100GE QSFP28 plus 48 x 10GE/25GE SFP28, max. 1,8 Tbit/s
Mylinking™ Network Packet Broker (NPB) ML-NPB-506048 x 10GE SFP+ plus 2 x 40GE QSFP, max. 560 Gbit/s
Mylinking™ Network Packet Broker (NPB) ML-NPB-486048 x 10GE SFP+, max. 480 Gbit/s, Function Plus
Mylinking™ Network Packet Broker (NPB) ML-NPB-481048 x 10GE SFP+, max. 480 Gbit/s
Mylinking™ Network Packet Broker (NPB) ML-NPB-2410P24 x 10GE SFP+, max. 240 Gbit/s, DPI-Funktion
Mylinking™ Network Packet Broker (NPB) ML-NPB-6400
48 x 10GE SFP+ plus 4 x 40GE/100GE QSFP28, max. 880 Gbit/s
Veröffentlichungsdatum: 18. Oktober 2022

