1. Das Konzept der Datenmaskierung
Die Datenmaskierung wird auch als Datenmaskierung bezeichnet. Es handelt sich um eine technische Methode, um sensible Daten wie Mobiltelefonnummer, Bankkartennummer und andere Informationen zu konvertieren, zu ändern oder abzudecken, wenn wir Maskierungsregeln und Richtlinien gegeben haben. Diese Technik wird hauptsächlich verwendet, um zu verhindern, dass empfindliche Daten direkt in unzuverlässigen Umgebungen verwendet werden.
Datenmaskierungsprinzip: Die Datenmaskierung sollte die ursprünglichen Datenmerkmale, Geschäftsregeln und Datenrelevanz beibehalten, um sicherzustellen, dass die anschließende Entwicklung, das Testen und die Datenanalyse nicht durch Maskierung beeinflusst werden. Stellen Sie die Datenkonsistenz und Gültigkeit vor und nach der Maskierung sicher.
2. Klassifizierung der Datenmaskierung
Die Datenmaskierung kann in statische Datenmaskierung (SDM) und dynamische Datenmaskierung (DDM) unterteilt werden.
Statische Datenmaskierung (SDM): Statische Datenmaskierung erfordert die Einrichtung einer neuen Datenbank für nicht-produktionliche Umgebungsumgebungen zur Isolation aus der Produktionsumgebung. Sensitive Daten werden aus der Produktionsdatenbank extrahiert und dann in der Nichtproduktionsdatenbank gespeichert. Auf diese Weise werden die desensibilisierten Daten aus der Produktionsumgebung isoliert, die den geschäftlichen Anforderungen entspricht und die Sicherheit von Produktionsdaten gewährleistet.
Dynamische Datenmaskierung (DDM): Es wird im Allgemeinen in der Produktionsumgebung verwendet, um sensible Daten in Echtzeit zu desensibilisieren. Manchmal sind unterschiedliche Maskierungsniveaus erforderlich, um dieselben sensiblen Daten in verschiedenen Situationen zu lesen. Beispielsweise können unterschiedliche Rollen und Berechtigungen unterschiedliche Maskierungsschemata implementieren.
Datenberichterstattung und Datenprodukt -Maskierungsanwendung
Zu diesen Szenarien gehören hauptsächlich interne Datenüberwachungsprodukte oder Billboard, externe Servicedatenprodukte und Berichte, die auf Datenanalysen basieren, z. B. Geschäftsberichte und Projektüberprüfung.
3.. Datenmaskierungslösung
Gemeinsame Datenmaskierungsschemata umfassen: Invalidierung, Zufallswert, Datenersatz, symmetrische Verschlüsselung, Durchschnittswert, Offset und Rundung usw.
Ungültigheit: Invalidierung bezieht sich auf die Verschlüsselung, Kürzung oder Versteck sensibler Daten. Dieses Schema ersetzt normalerweise reale Daten durch spezielle Symbole (z. B. *). Der Vorgang ist einfach, aber Benutzer können das Format der Originaldaten nicht kennen, was sich auf die nachfolgenden Datenanwendungen auswirken kann.
Zufallswert: Der Zufallswert bezieht sich auf den zufälligen Ersatz sensibler Daten (Zahlen ersetzen Ziffern, Buchstaben und Zeichen ersetzen Zeichen). Diese Maskierungsmethode gewährleistet das Format sensibler Daten in gewissem Maße und erleichtert die nachfolgende Datenanwendung. Für einige bedeutungsvolle Wörter wie Namen von Menschen und Orten können masking -Wörterbücher benötigt werden.
Datenersatz: Der Datenersatz ähnelt der Maskierung von Null- und Zufallswerten, außer dass die Maskierungsdaten, anstatt Sonderzeichen oder Zufallswerte zu verwenden, durch einen bestimmten Wert ersetzt werden.
Symmetrische Verschlüsselung: Symmetrische Verschlüsselung ist eine spezielle reversible Maskierungsmethode. Es verschlüsselt sensible Daten durch Verschlüsselungsschlüssel und Algorithmen. Das Chiffretext -Format stimmt mit den Originaldaten in logischen Regeln überein.
Durchschnitt: Das durchschnittliche Schema wird häufig in statistischen Szenarien verwendet. Für numerische Daten berechnen wir zunächst ihren Mittelwert und verteilen dann die desensibilisierten Werte zufällig um den Mittelwert, wodurch die Summe der Datenkonstante beibehalten wird.
Offset und Rundung: Diese Methode verändert die digitalen Daten durch zufällige Verschiebung. Die Versatzrundung sorgt für die ungefähre Authentizität des Bereichs und sorgt für die Sicherheit der Daten, die näher an den tatsächlichen Daten als die vorherigen Schemata liegt, und hat im Szenario der Big -Data -Analyse eine große Bedeutung.
Das Empfehlungsmodell "ML-NPB-5660"Für die Datenmaskierung
4. häufig verwendete Datenmaskierungstechniken
(1). Statistische Techniken
Datenabtastung und Datenaggregation
.
.
(2). Kryptographie
Die Kryptographie ist eine gemeinsame Methode, um die Wirksamkeit der Desensibilisierung zu demensibilisieren oder zu verbessern. Verschiedene Arten von Verschlüsselungsalgorithmen können unterschiedliche Desensibilisierungseffekte erzielen.
- Deterministische Verschlüsselung: Eine nicht random symmetrische Verschlüsselung. Es wird normalerweise ID -Daten verarbeitet und kann bei Bedarf den Chiffretext entschlüsseln und wiederherstellen. Der Schlüssel muss jedoch ordnungsgemäß geschützt werden.
- Irreversible Verschlüsselung: Die Hash -Funktion wird verwendet, um Daten zu verarbeiten, die normalerweise für ID -Daten verwendet werden. Es kann nicht direkt entschlüsselt werden und die Kartierungsbeziehung muss gespeichert werden. Darüber hinaus kann aufgrund des Merkmals der Hash -Funktion Datenkollision auftreten.
. Sein Merkmal ist, dass das Ergebnis der Ciphertext -Operation das gleiche wie das der Klartextoperation nach der Entschlüsselung ist. Daher wird es häufig verwendet, um numerische Felder zu verarbeiten, es wird jedoch aus Leistungsgründen nicht weit verbreitet.
(3). Systemtechnologie
Die Unterdrückungstechnologie löscht oder schützt Datenelemente, die den Schutz des Datenschutzes nicht entsprechen, sie jedoch nicht veröffentlichen.
- Maskierung: Es bezieht sich auf die häufigste Desensibilisierungsmethode, um den Attributwert zu maskieren, z.
- Lokale Unterdrückung: Bezieht sich auf den Prozess des Löschens spezifischer Attributwerte (Spalten), wodurch nicht essentielle Datenfelder entfernt werden;
- Unterdrückung der Aufzeichnung: Bezieht sich auf den Prozess des Löschens bestimmter Datensätze (Zeilen), wodurch nicht essentielle Datensätze gelöscht werden.
(4). Pseudonym -Technologie
Pseudomomonning ist eine Ent-Identifizierungstechnik, die ein Pseudonym verwendet, um einen direkten Kennung (oder andere empfindliche Kennung) zu ersetzen. Pseudonym -Techniken erstellen eindeutige Kennungen für jedes einzelne Informationsfach anstelle von direkten oder sensiblen Kennungen.
- Es kann zufällige Werte unabhängig voneinander generieren, um der ursprünglichen ID zu entsprechen, die Zuordnungstabelle zu speichern und den Zugriff auf die Zugriffstabelle streng zu steuern.
- Sie können auch die Verschlüsselung verwenden, um Pseudonyme zu erzeugen, müssen jedoch den Entschlüsselungsschlüssel ordnungsgemäß halten.
Diese Technologie wird im Falle einer großen Anzahl unabhängiger Datenbenutzer häufig verwendet, wie z.
(5). Generalisierungstechniken
Die Generalisierungstechnik bezieht sich auf eine Ent-Identifizierungstechnik, die die Granularität ausgewählter Attribute in einem Datensatz verringert und eine allgemeinere und abstraktere Beschreibung der Daten liefert. Die Generalisierungstechnologie ist einfach zu implementieren und kann die Authentizität von Daten auf Datensatzebene schützen. Es wird häufig in Datenprodukten oder Datenberichten verwendet.
- Rundung: Beinhaltet die Auswahl einer Rundungsbasis für das ausgewählte Attribut, wie z.
- obere und untere Codierungstechniken: Ersetzen Sie die Werte über (oder unten). Der Schwellenwert mit einem Schwellenwert, der die obere (oder unten) Ebene darstellt, wodurch ein Ergebnis von "über x" oder "unter x" erfolgt
(6). Randomisierungstechniken
Als eine Art von De-Identifizierungstechnik bezieht sich die Randomisierungstechnologie auf die Änderung des Werts eines Attributs durch Randomisierung, so dass sich der Wert nach der Randomisierung vom ursprünglichen realen Wert unterscheidet. Dieser Prozess verringert die Fähigkeit eines Angreifers, einen Attributwert aus anderen Attributwerten in demselben Datensatz abzuleiten, wirkt sich jedoch auf die Authentizität der resultierenden Daten aus, was bei Produktionstestdaten gemeinsam ist.
Postzeit: Sep-27-2022