1. Das Konzept der Datenmaskierung
Datenmaskierung wird auch als Datenmaskierung bezeichnet. Es handelt sich um eine technische Methode zum Konvertieren, Ändern oder Verbergen sensibler Daten wie Handynummern, Bankkartennummern und anderer Informationen, sofern wir Maskierungsregeln und -richtlinien festgelegt haben. Diese Technik dient in erster Linie dazu, die direkte Verwendung sensibler Daten in unsicheren Umgebungen zu verhindern.
Prinzip der Datenmaskierung: Bei der Datenmaskierung sollten die ursprünglichen Dateneigenschaften, Geschäftsregeln und die Datenrelevanz erhalten bleiben, um sicherzustellen, dass die nachfolgende Entwicklung, Tests und Datenanalyse nicht durch die Maskierung beeinträchtigt werden. Stellen Sie vor und nach der Maskierung die Datenkonsistenz und -gültigkeit sicher.
2. Klassifizierung der Datenmaskierung
Die Datenmaskierung kann in statische Datenmaskierung (SDM) und dynamische Datenmaskierung (DDM) unterteilt werden.
Statische Datenmaskierung (SDM): Statische Datenmaskierung erfordert die Einrichtung einer neuen Datenbank außerhalb der Produktionsumgebung zur Isolierung von der Produktionsumgebung. Sensible Daten werden aus der Produktionsdatenbank extrahiert und anschließend in der Nicht-Produktionsdatenbank gespeichert. Auf diese Weise werden die desensibilisierten Daten von der Produktionsumgebung isoliert, was den Geschäftsanforderungen entspricht und die Sicherheit der Produktionsdaten gewährleistet.
Dynamische Datenmaskierung (DDM): Wird im Allgemeinen in Produktionsumgebungen verwendet, um sensible Daten in Echtzeit zu desensibilisieren. Manchmal sind unterschiedliche Maskierungsstufen erforderlich, um dieselben sensiblen Daten in unterschiedlichen Situationen zu lesen. Beispielsweise können unterschiedliche Rollen und Berechtigungen unterschiedliche Maskierungsschemata implementieren.
Anwendung zur Datenberichterstattung und Maskierung von Datenprodukten
Zu solchen Szenarien gehören hauptsächlich Produkte oder Werbetafeln zur internen Datenüberwachung, Datenprodukte für externe Dienste und auf Datenanalysen basierende Berichte, wie etwa Geschäftsberichte und Projektüberprüfungen.
3. Datenmaskierungslösung
Zu den gängigen Datenmaskierungsschemata gehören: Ungültigkeitserklärung, Zufallswert, Datenersetzung, symmetrische Verschlüsselung, Durchschnittswert, Offset und Rundung usw.
Ungültigkeitserklärung: Ungültigkeitserklärung bezeichnet das Verschlüsseln, Kürzen oder Verbergen sensibler Daten. Bei diesem Verfahren werden echte Daten üblicherweise durch Sonderzeichen (z. B. *) ersetzt. Der Vorgang ist einfach, Benutzer können jedoch das Format der Originaldaten nicht kennen, was sich auf nachfolgende Datenanwendungen auswirken kann.
Zufallswert: Der Zufallswert bezieht sich auf die zufällige Ersetzung sensibler Daten (Zahlen ersetzen Ziffern, Buchstaben ersetzen Buchstaben und Zeichen ersetzen Zeichen). Diese Maskierungsmethode stellt das Format sensibler Daten bis zu einem gewissen Grad sicher und erleichtert die spätere Datenanwendung. Für bestimmte bedeutungsvolle Wörter, wie z. B. Personen- und Ortsnamen, können Maskierungswörterbücher erforderlich sein.
Datenersetzung: Das Ersetzen von Daten ähnelt der Maskierung von Null- und Zufallswerten, mit dem Unterschied, dass anstelle von Sonderzeichen oder Zufallswerten die Maskierungsdaten durch einen bestimmten Wert ersetzt werden.
Symmetrische Verschlüsselung: Symmetrische Verschlüsselung ist ein spezielles reversibles Maskierungsverfahren. Sie verschlüsselt sensible Daten mithilfe von Verschlüsselungsschlüsseln und Algorithmen. Das Chiffretextformat entspricht den Originaldaten in logischen Regeln.
Durchschnitt: Das Durchschnittsverfahren wird häufig in statistischen Szenarien verwendet. Bei numerischen Daten berechnen wir zunächst den Mittelwert und verteilen dann die desensibilisierten Werte zufällig um den Mittelwert, wodurch die Summe der Daten konstant bleibt.
Versatz und Rundung: Diese Methode verändert die digitalen Daten durch zufällige Verschiebung. Die Offset-Rundung gewährleistet die ungefähre Authentizität des Bereichs bei gleichzeitiger Wahrung der Datensicherheit. Sie kommt den realen Daten näher als die vorherigen Verfahren und ist im Szenario der Big-Data-Analyse von großer Bedeutung.
Das empfohlene Modell "ML-NPB-5660" für die Datenmaskierung
4. Häufig verwendete Datenmaskierungstechniken
(1) Statistische Techniken
Datenstichprobe und Datenaggregation
- Datenstichprobe: Die Analyse und Auswertung des ursprünglichen Datensatzes durch Auswahl einer repräsentativen Teilmenge des Datensatzes ist eine wichtige Methode zur Verbesserung der Wirksamkeit von De-Identifizierungstechniken.
- Datenaggregation: Als Sammlung statistischer Techniken (wie Summation, Zählen, Mittelwertbildung, Maximum und Minimum), die auf Attribute in Mikrodaten angewendet werden, ist das Ergebnis repräsentativ für alle Datensätze im ursprünglichen Datensatz.
(2) Kryptographie
Kryptografie ist eine gängige Methode zur Desensibilisierung oder zur Steigerung ihrer Wirksamkeit. Verschiedene Verschlüsselungsalgorithmen können unterschiedliche Desensibilisierungseffekte erzielen.
- Deterministische Verschlüsselung: Eine nicht zufällige symmetrische Verschlüsselung. Sie verarbeitet in der Regel ID-Daten und kann den Chiffretext bei Bedarf entschlüsseln und in die ursprüngliche ID zurückversetzen. Der Schlüssel muss jedoch ordnungsgemäß geschützt sein.
Irreversible Verschlüsselung: Die Hash-Funktion wird zur Datenverarbeitung verwendet, die üblicherweise für ID-Daten verwendet wird. Sie kann nicht direkt entschlüsselt werden, und die Zuordnungsbeziehung muss gespeichert werden. Darüber hinaus kann es aufgrund der Hash-Funktion zu Datenkollisionen kommen.
- Homomorphe Verschlüsselung: Es wird der homomorphe Chiffretext-Algorithmus verwendet. Sein Merkmal ist, dass das Ergebnis der Chiffretextoperation nach der Entschlüsselung mit dem der Klartextoperation übereinstimmt. Daher wird er häufig zur Verarbeitung numerischer Felder verwendet, aus Leistungsgründen jedoch selten eingesetzt.
(3) Systemtechnik
Die Unterdrückungstechnologie löscht oder schirmt Datenelemente ab, die den Datenschutzbestimmungen nicht entsprechen, veröffentlicht sie jedoch nicht.
- Maskierung: Dies bezieht sich auf die gängigste Desensibilisierungsmethode zum Maskieren des Attributwerts, z. B. die Gegnernummer, der Personalausweis wird mit einem Sternchen markiert oder die Adresse wird abgeschnitten.
- Lokale Unterdrückung: bezieht sich auf den Vorgang des Löschens bestimmter Attributwerte (Spalten) und Entfernens nicht wesentlicher Datenfelder;
- Datensatzunterdrückung: bezieht sich auf den Vorgang des Löschens bestimmter Datensätze (Zeilen), d. h. des Löschens nicht wesentlicher Datensätze.
(4) Pseudonym-Technologie
Pseudomanning ist eine De-Identifizierungstechnik, bei der ein Pseudonym anstelle eines direkten Identifikators (oder eines anderen sensiblen Identifikators) verwendet wird. Pseudonymtechniken erstellen anstelle von direkten oder sensiblen Identifikatoren eindeutige Identifikatoren für jedes einzelne Informationssubjekt.
- Es kann unabhängig Zufallswerte generieren, die der ursprünglichen ID entsprechen, die Zuordnungstabelle speichern und den Zugriff auf die Zuordnungstabelle streng kontrollieren.
- Sie können auch Verschlüsselung verwenden, um Pseudonyme zu erstellen, müssen den Entschlüsselungsschlüssel jedoch sorgfältig aufbewahren.
Diese Technologie wird häufig bei einer großen Anzahl unabhängiger Datenbenutzer verwendet, wie beispielsweise OpenID im Open-Platform-Szenario, wo verschiedene Entwickler unterschiedliche OpenIDs für denselben Benutzer erhalten.
(5) Generalisierungstechniken
Die Generalisierungstechnik ist eine De-Identifizierungstechnik, die die Granularität ausgewählter Attribute in einem Datensatz reduziert und eine allgemeinere und abstraktere Beschreibung der Daten liefert. Die Generalisierungstechnologie ist einfach zu implementieren und kann die Authentizität von Daten auf Datensatzebene schützen. Sie wird häufig in Datenprodukten oder Datenberichten verwendet.
- Rundung: beinhaltet die Auswahl einer Rundungsbasis für das ausgewählte Attribut, z. B. Aufwärts- oder Abwärtsforensik, was zu Ergebnissen von 100, 500, 1K und 10K führt
- Top- und Bottom-Codierungstechniken: Ersetzen Sie Werte über (oder unter) dem Schwellenwert durch einen Schwellenwert, der den oberen (oder unteren) Pegel darstellt, was zu einem Ergebnis von „über X“ oder „unter X“ führt.
(6) Randomisierungstechniken
Als eine Art De-Identifizierungstechnik bezeichnet die Randomisierungstechnologie die Änderung des Attributwerts durch Randomisierung, sodass der Wert nach der Randomisierung vom ursprünglichen realen Wert abweicht. Dieser Prozess verringert die Möglichkeit eines Angreifers, einen Attributwert aus anderen Attributwerten im selben Datensatz abzuleiten, beeinträchtigt jedoch die Authentizität der resultierenden Daten, was bei Produktionstestdaten häufig vorkommt.
Veröffentlichungszeit: 27.09.2022