1. Das Konzept der Datenmaskierung
Datenmaskierung wird auch als Datenmaskierung bezeichnet. Dabei handelt es sich um eine technische Methode zur Konvertierung, Änderung oder Abdeckung sensibler Daten wie Mobiltelefonnummern, Bankkartennummern und anderer Informationen, wenn wir Maskierungsregeln und -richtlinien festgelegt haben. Diese Technik dient vor allem dazu, zu verhindern, dass sensible Daten direkt in unzuverlässigen Umgebungen verwendet werden.
Prinzip der Datenmaskierung: Bei der Datenmaskierung sollten die ursprünglichen Datenmerkmale, Geschäftsregeln und Datenrelevanz erhalten bleiben, um sicherzustellen, dass die nachfolgende Entwicklung, das Testen und die Datenanalyse nicht durch die Maskierung beeinträchtigt werden. Stellen Sie die Konsistenz und Gültigkeit der Daten vor und nach der Maskierung sicher.
2. Klassifizierung der Datenmaskierung
Die Datenmaskierung kann in statische Datenmaskierung (SDM) und dynamische Datenmaskierung (DDM) unterteilt werden.
Statische Datenmaskierung (SDM): Statische Datenmaskierung erfordert die Einrichtung einer neuen Nicht-Produktionsumgebungsdatenbank zur Isolierung von der Produktionsumgebung. Sensible Daten werden aus der Produktionsdatenbank extrahiert und dann in der Nicht-Produktionsdatenbank gespeichert. Auf diese Weise werden die desensibilisierten Daten von der Produktionsumgebung isoliert, was den Geschäftsanforderungen entspricht und die Sicherheit der Produktionsdaten gewährleistet.
Dynamische Datenmaskierung (DDM): Es wird im Allgemeinen in der Produktionsumgebung verwendet, um sensible Daten in Echtzeit zu desensibilisieren. Manchmal sind unterschiedliche Maskierungsstufen erforderlich, um dieselben sensiblen Daten in verschiedenen Situationen zu lesen. Beispielsweise können unterschiedliche Rollen und Berechtigungen unterschiedliche Maskierungsschemata implementieren.
Anwendung zur Datenberichterstattung und Maskierung von Datenprodukten
Solche Szenarien umfassen hauptsächlich interne Datenüberwachungsprodukte oder Werbetafeln, externe Servicedatenprodukte und auf Datenanalysen basierende Berichte, wie z. B. Geschäftsberichte und Projektüberprüfungen.
3. Datenmaskierungslösung
Zu den gängigen Datenmaskierungsschemata gehören: Ungültigmachung, Zufallswert, Datenersetzung, symmetrische Verschlüsselung, Durchschnittswert, Offset und Rundung usw.
Ungültigkeit: Ungültigmachung bezieht sich auf die Verschlüsselung, Kürzung oder das Verbergen sensibler Daten. Dieses Schema ersetzt normalerweise reale Daten durch spezielle Symbole (z. B. *). Der Vorgang ist einfach, aber Benutzer können das Format der Originaldaten nicht kennen, was sich auf nachfolgende Datenanwendungen auswirken kann.
Zufälliger Wert: Der Zufallswert bezieht sich auf das zufällige Ersetzen sensibler Daten (Zahlen ersetzen Ziffern, Buchstaben ersetzen Buchstaben und Zeichen ersetzen Zeichen). Durch diese Maskierungsmethode wird das Format sensibler Daten bis zu einem gewissen Grad sichergestellt und die spätere Datenanwendung erleichtert. Für einige bedeutungsvolle Wörter, wie z. B. Namen von Personen und Orten, sind möglicherweise Maskierungswörterbücher erforderlich.
Datenaustausch: Die Datenersetzung ähnelt der Maskierung von Null- und Zufallswerten, außer dass die Maskierungsdaten durch einen bestimmten Wert ersetzt werden, anstatt Sonderzeichen oder Zufallswerte zu verwenden.
Symmetrische Verschlüsselung: Symmetrische Verschlüsselung ist eine spezielle reversible Maskierungsmethode. Es verschlüsselt sensible Daten mithilfe von Verschlüsselungsschlüsseln und -algorithmen. Das Chiffretextformat stimmt mit den Originaldaten in logischen Regeln überein.
Durchschnitt: Das Durchschnittsschema wird häufig in statistischen Szenarien verwendet. Für numerische Daten berechnen wir zunächst ihren Mittelwert und verteilen dann die desensibilisierten Werte zufällig um den Mittelwert, sodass die Summe der Daten konstant bleibt.
Versatz und Rundung: Diese Methode ändert die digitalen Daten durch zufällige Verschiebung. Die versetzte Rundung stellt die ungefähre Authentizität des Bereichs sicher und behält gleichzeitig die Sicherheit der Daten bei, die näher an den realen Daten liegt als die vorherigen Schemata und im Szenario der Big-Data-Analyse von großer Bedeutung ist.
Das Empfehlungsmodell“ML-NPB-5660" für die Datenmaskierung
4. Häufig verwendete Datenmaskierungstechniken
(1). Statistische Techniken
Datenerfassung und Datenaggregation
- Datenstichprobe: Die Analyse und Auswertung des Originaldatensatzes durch Auswahl einer repräsentativen Teilmenge des Datensatzes ist eine wichtige Methode zur Verbesserung der Wirksamkeit von Deidentifizierungstechniken.
- Datenaggregation: Da es sich um eine Sammlung statistischer Techniken (wie Summierung, Zählung, Mittelung, Maximum und Minimum) handelt, die auf Attribute in Mikrodaten angewendet werden, ist das Ergebnis repräsentativ für alle Datensätze im Originaldatensatz.
(2). Kryptographie
Kryptographie ist eine gängige Methode zur Desensibilisierung oder zur Verbesserung der Wirksamkeit der Desensibilisierung. Verschiedene Arten von Verschlüsselungsalgorithmen können unterschiedliche Desensibilisierungseffekte erzielen.
- Deterministische Verschlüsselung: Eine nicht zufällige symmetrische Verschlüsselung. Es verarbeitet normalerweise ID-Daten und kann bei Bedarf den Chiffretext entschlüsseln und auf die ursprüngliche ID zurücksetzen, der Schlüssel muss jedoch ordnungsgemäß geschützt werden.
- Irreversible Verschlüsselung: Zur Verarbeitung von Daten wird die Hash-Funktion verwendet, die üblicherweise für ID-Daten verwendet wird. Es kann nicht direkt entschlüsselt werden und die Zuordnungsbeziehung muss gespeichert werden. Darüber hinaus kann es aufgrund der Funktion der Hash-Funktion zu Datenkollisionen kommen.
- Homomorphe Verschlüsselung: Es wird der homomorphe Chiffretext-Algorithmus verwendet. Sein Merkmal besteht darin, dass das Ergebnis der Chiffretextoperation das gleiche ist wie das Ergebnis der Klartextoperation nach der Entschlüsselung. Daher wird es häufig zur Verarbeitung numerischer Felder verwendet, aus Leistungsgründen ist es jedoch nicht weit verbreitet.
(3). Systemtechnik
Die Unterdrückungstechnologie löscht oder schirmt Datenelemente ab, die nicht dem Datenschutz entsprechen, veröffentlicht sie jedoch nicht.
- Maskierung: Dies bezieht sich auf die gebräuchlichste Desensibilisierungsmethode zur Maskierung des Attributwerts, z. B. die Nummer des Gegners, der Personalausweis wird mit einem Sternchen markiert oder die Adresse wird abgeschnitten.
- Lokale Unterdrückung: bezieht sich auf den Prozess des Löschens bestimmter Attributwerte (Spalten) und des Entfernens nicht wesentlicher Datenfelder;
- Datensatzunterdrückung: Bezieht sich auf den Vorgang des Löschens bestimmter Datensätze (Zeilen) und des Löschens nicht wesentlicher Datensätze.
(4). Pseudonym-Technologie
Pseudomanning ist eine Anonymisierungstechnik, bei der ein Pseudonym verwendet wird, um eine direkte Kennung (oder eine andere vertrauliche Kennung) zu ersetzen. Pseudonyme Techniken erstellen eindeutige Identifikatoren für jedes einzelne Informationssubjekt anstelle direkter oder sensibler Identifikatoren.
- Es kann unabhängig Zufallswerte generieren, die der ursprünglichen ID entsprechen, die Zuordnungstabelle speichern und den Zugriff auf die Zuordnungstabelle streng steuern.
- Sie können die Verschlüsselung auch zur Erstellung von Pseudonymen verwenden, müssen den Entschlüsselungsschlüssel jedoch ordnungsgemäß aufbewahren;
Diese Technologie wird häufig bei einer großen Anzahl unabhängiger Datenbenutzer verwendet, beispielsweise OpenID im Open-Platform-Szenario, bei dem verschiedene Entwickler unterschiedliche OpenIDs für denselben Benutzer erhalten.
(5). Generalisierungstechniken
Unter Generalisierungstechnik versteht man eine Deidentifizierungstechnik, die die Granularität ausgewählter Attribute in einem Datensatz reduziert und eine allgemeinere und abstraktere Beschreibung der Daten liefert. Die Generalisierungstechnologie ist einfach zu implementieren und kann die Authentizität von Daten auf Datensatzebene schützen. Es wird häufig in Datenprodukten oder Datenberichten verwendet.
- Rundung: beinhaltet die Auswahl einer Rundungsbasis für das ausgewählte Attribut, z. B. Aufwärts- oder Abwärtsforensik, was zu Ergebnissen von 100, 500, 1K und 10K führt
- Obere und untere Codierungstechniken: Ersetzen Sie Werte über (oder unter) dem Schwellenwert durch einen Schwellenwert, der die obere (oder untere) Ebene darstellt, was zu einem Ergebnis von „über X“ oder „unter X“ führt.
(6). Randomisierungstechniken
Als eine Art Deidentifizierungstechnik bezieht sich die Randomisierungstechnologie auf die Änderung des Werts eines Attributs durch Randomisierung, sodass sich der Wert nach der Randomisierung vom ursprünglichen tatsächlichen Wert unterscheidet. Dieser Prozess verringert die Fähigkeit eines Angreifers, einen Attributwert aus anderen Attributwerten im selben Datensatz abzuleiten, beeinträchtigt jedoch die Authentizität der resultierenden Daten, was bei Produktionstestdaten häufig der Fall ist.
Zeitpunkt der Veröffentlichung: 27.09.2022