1. Das Konzept der Datenmaskierung
Datenmaskierung, auch Datenmaskierung genannt, ist ein technisches Verfahren zur Umwandlung, Modifizierung oder Verschleierung sensibler Daten wie Mobiltelefonnummern, Bankkartennummern und anderer Informationen gemäß festgelegter Maskierungsregeln und -richtlinien. Diese Technik dient primär dem Schutz sensibler Daten vor direkter Nutzung in unsicheren Umgebungen.
Prinzip der Datenmaskierung: Die Datenmaskierung muss die ursprünglichen Dateneigenschaften, Geschäftsregeln und die Datenrelevanz erhalten, um sicherzustellen, dass die nachfolgende Entwicklung, das Testen und die Datenanalyse nicht beeinträchtigt werden. Die Datenkonsistenz und -gültigkeit müssen vor und nach der Maskierung gewährleistet sein.
2. Klassifizierung der Datenmaskierung
Die Datenmaskierung kann in statische Datenmaskierung (SDM) und dynamische Datenmaskierung (DDM) unterteilt werden.
Statische Datenmaskierung (SDM)Die statische Datenmaskierung erfordert die Einrichtung einer separaten Datenbank in einer Nicht-Produktionsumgebung, um diese von der Produktionsumgebung zu isolieren. Sensible Daten werden aus der Produktionsdatenbank extrahiert und anschließend in der Nicht-Produktionsdatenbank gespeichert. Dadurch werden die anonymisierten Daten von der Produktionsumgebung isoliert, was den Geschäftsanforderungen entspricht und die Sicherheit der Produktionsdaten gewährleistet.
Dynamische Datenmaskierung (DDM)Es wird üblicherweise in Produktionsumgebungen eingesetzt, um sensible Daten in Echtzeit zu anonymisieren. Manchmal sind unterschiedliche Maskierungsstufen erforderlich, um dieselben sensiblen Daten in verschiedenen Situationen lesen zu können. Beispielsweise können unterschiedliche Rollen und Berechtigungen verschiedene Maskierungsschemata implementieren.
Anwendung für Datenberichterstattung und Datenproduktmaskierung
Solche Szenarien umfassen hauptsächlich interne Datenüberwachungsprodukte oder Billboards, externe Service-Datenprodukte und Berichte, die auf Datenanalysen basieren, wie z. B. Geschäftsberichte und Projektüberprüfungen.
3. Datenmaskierungslösung
Gängige Datenmaskierungsverfahren umfassen: Ungültigmachung, Zufallswert, Datenersetzung, symmetrische Verschlüsselung, Mittelwert, Offset und Rundung usw.
UngültigmachungUngültigmachung bezeichnet die Verschlüsselung, Kürzung oder das Verbergen sensibler Daten. Dabei werden die Originaldaten üblicherweise durch spezielle Symbole (z. B. *) ersetzt. Der Vorgang ist einfach, jedoch kennen die Benutzer nicht mehr das Format der Originaldaten, was die weitere Datenverarbeitung beeinträchtigen kann.
ZufallswertDer Zufallswert bezieht sich auf die zufällige Ersetzung sensibler Daten (Zahlen ersetzen Ziffern, Buchstaben ersetzen Buchstaben und Zeichen ersetzen Zeichen). Diese Maskierungsmethode gewährleistet bis zu einem gewissen Grad das Format sensibler Daten und erleichtert deren spätere Verwendung. Für einige aussagekräftige Wörter, wie z. B. Personen- und Ortsnamen, können Maskierungswörterbücher erforderlich sein.
DatenersetzungDie Datenersetzung ähnelt der Maskierung von Null- und Zufallswerten, mit dem Unterschied, dass anstelle von Sonderzeichen oder Zufallswerten die zu maskierenden Daten durch einen bestimmten Wert ersetzt werden.
Symmetrische VerschlüsselungSymmetrische Verschlüsselung ist ein spezielles, umkehrbares Maskierungsverfahren. Sie verschlüsselt sensible Daten mithilfe von Verschlüsselungsschlüsseln und -algorithmen. Das Chiffretextformat entspricht den Originaldaten in logischer Hinsicht.
DurchschnittDas Mittelwertverfahren wird häufig in statistischen Anwendungen eingesetzt. Bei numerischen Daten berechnet man zunächst den Mittelwert und verteilt dann die desensibilisierten Werte zufällig um diesen Mittelwert, sodass die Summe der Daten konstant bleibt.
Versatz und RundungDiese Methode verändert die digitalen Daten durch zufällige Verschiebung. Die Offset-Rundung gewährleistet die annähernde Authentizität des Wertebereichs bei gleichzeitiger Wahrung der Datensicherheit. Sie ist näher an den realen Daten als bisherige Verfahren und hat daher große Bedeutung für die Big-Data-Analyse.
Das empfohlene ModellML-NPB-5660" für die Datenmaskierung
4. Häufig verwendete Datenmaskierungstechniken
(1) Statistische Verfahren
Datenstichprobe und Datenaggregation
- Datenstichprobe: Die Analyse und Auswertung des ursprünglichen Datensatzes durch Auswahl einer repräsentativen Teilmenge des Datensatzes ist eine wichtige Methode zur Verbesserung der Effektivität von Anonymisierungsverfahren.
- Datenaggregation: Als Sammlung statistischer Verfahren (wie Summation, Zählen, Mittelwertbildung, Maximum und Minimum), die auf Attribute in Mikrodaten angewendet werden, ist das Ergebnis repräsentativ für alle Datensätze im ursprünglichen Datensatz.
(2) Kryptographie
Kryptographie ist eine gängige Methode, um die Desensibilisierung zu verbessern oder deren Wirksamkeit zu steigern. Verschiedene Verschlüsselungsalgorithmen können unterschiedliche Desensibilisierungseffekte erzielen.
- Deterministische Verschlüsselung: Eine nicht-zufällige symmetrische Verschlüsselung. Sie verarbeitet üblicherweise ID-Daten und kann den Chiffretext bei Bedarf entschlüsseln und in die ursprüngliche ID zurückführen, aber der Schlüssel muss angemessen geschützt werden.
- Unumkehrbare Verschlüsselung: Die Hash-Funktion wird zur Datenverarbeitung verwendet, üblicherweise für Identifikationsdaten. Sie kann nicht direkt entschlüsselt werden, und die Zuordnungsbeziehung muss gespeichert werden. Aufgrund der Eigenschaften der Hash-Funktion kann es außerdem zu Datenkollisionen kommen.
- Homomorphe Verschlüsselung: Hierbei kommt der homomorphe Chiffretext-Algorithmus zum Einsatz. Charakteristisch für ihn ist, dass das Ergebnis der Chiffretext-Operation nach der Entschlüsselung mit dem Ergebnis der Klartext-Operation übereinstimmt. Daher wird er häufig zur Verarbeitung numerischer Daten verwendet, ist aber aus Performancegründen nicht weit verbreitet.
(3) Systemtechnologie
Die Unterdrückungstechnologie löscht oder schützt Datenelemente, die nicht den Datenschutzbestimmungen entsprechen, veröffentlicht sie aber nicht.
- Maskierung: Dies ist die gebräuchlichste Desensibilisierungsmethode, um den Attributwert zu maskieren, z. B. wird die Gegnernummer oder die ID-Karte mit einem Sternchen gekennzeichnet oder die Adresse abgeschnitten.
- Lokale Unterdrückung: bezeichnet den Prozess des Löschens bestimmter Attributwerte (Spalten) und des Entfernens nicht essentieller Datenfelder;
- Datensatzunterdrückung: bezeichnet den Prozess des Löschens bestimmter Datensätze (Zeilen), also des Löschens nicht wesentlicher Datensätze.
(4). Pseudonymtechnologie
Pseudonymisierung ist eine Anonymisierungstechnik, bei der ein Pseudonym anstelle eines direkten (oder eines anderen sensiblen) Identifikators verwendet wird. Pseudonymisierungsverfahren erzeugen für jede betroffene Person eindeutige Kennungen anstelle direkter oder sensibler Identifikatoren.
- Es kann unabhängig voneinander Zufallswerte generieren, die der ursprünglichen ID entsprechen, die Zuordnungstabelle speichern und den Zugriff auf die Zuordnungstabelle streng kontrollieren.
- Man kann auch Verschlüsselung verwenden, um Pseudonyme zu erzeugen, muss aber den Entschlüsselungsschlüssel ordnungsgemäß aufbewahren;
Diese Technologie wird häufig bei einer großen Anzahl unabhängiger Datennutzer eingesetzt, wie beispielsweise OpenID im Szenario offener Plattformen, wo verschiedene Entwickler unterschiedliche OpenIDs für denselben Nutzer erhalten.
(5) Generalisierungstechniken
Generalisierungstechniken sind Anonymisierungsmethoden, die die Granularität ausgewählter Attribute in einem Datensatz reduzieren und eine allgemeinere, abstraktere Beschreibung der Daten ermöglichen. Generalisierungstechniken sind einfach anzuwenden und schützen die Authentizität von Datensatzdaten. Sie werden häufig in Datenprodukten oder Datenberichten eingesetzt.
- Runden: Hierbei wird eine Rundungsbasis für das ausgewählte Attribut festgelegt, z. B. Auf- oder Abrunden, was zu Ergebnissen wie 100, 500, 1K und 10K führt.
- Top- und Bottom-Codierungstechniken: Werte oberhalb (oder unterhalb) des Schwellenwerts werden durch einen Schwellenwert ersetzt, der die obere (oder untere) Ebene darstellt. Das Ergebnis lautet „über X“ oder „unter X“.
(6) Randomisierungstechniken
Randomisierungstechnologie, eine Art Anonymisierungstechnik, bezeichnet die zufällige Änderung des Attributwerts, sodass der Wert nach der Randomisierung vom ursprünglichen Wert abweicht. Dieses Verfahren erschwert es Angreifern, einen Attributwert aus anderen Attributwerten im selben Datensatz abzuleiten, beeinträchtigt jedoch die Authentizität der resultierenden Daten, was insbesondere bei Produktions- und Testdaten häufig vorkommt.
Veröffentlichungsdatum: 27. September 2022



