DataSunrise erreicht AWS DevOps Kompetenz Status in AWS DevSecOps und Überwachung, Protokollierung, Performance

Data Masking in Vertica

Data Masking in Vertica ermöglicht es Analysten, mit echten Datenstrukturen zu arbeiten, während Werte verborgen werden, die niemals im Klartext zugänglich sein sollten. Vertica ist eine leistungsstarke analytische Datenbank, die häufig für BI-Dashboards, Kundenanalysen, ML-Feature-Stores und Ad-hoc-Erkundungen großer, spaltenorientierter Datensätze eingesetzt wird. Diese Flexibilität ist für Unternehmen wertvoll, bedeutet aber auch, dass regulierte Felder wie Kartennummern, nationale Identifikationsnummern und medizinische Attribute leicht in Abfragen, Exporten oder Trainingsdatensätzen auftauchen können, wenn keine Schutzschicht angewendet wird.

Der Versuch, dies ausschließlich mit manuellen Berechtigungen, kopierten Tabellen oder handgeschriebenen SQL-Views zu lösen, wird schnell mühsam. Schemata ändern sich, neue Projektionen erscheinen, ETL-Jobs erzeugen abgeleitete Tabellen, und plötzlich ist niemand mehr sicher, welche Spalte tatsächlich sicher offengelegt werden darf. Anstatt jeder einzelnen Abfrage hinterherzujagen, benötigen Teams eine Maskierungsschicht, die automatisch für jede Vertica-Workload funktioniert.

Data Masking durch DataSunrise bietet Vertica-Anwendern genau diese Schicht. DataSunrise sitzt zwischen Vertica und den Client-Tools, erkennt sensible Felder und schreibt Abfrageergebnisse in Echtzeit so um, dass vertrauliche Werte je nach Richtlinie verborgen, tokenisiert oder teilweise angezeigt werden. Vertica kann so weiterhin seine Stärken bei schneller Analyse ausspielen, während Maskierungslogik, Prüfprotokolle und Compliance-Regeln in einer separaten, dedizierten Kontrollinstanz verwaltet werden.

Warum Vertica eine dedizierte Maskierungsschicht benötigt

Die Architektur von Vertica macht es gleichzeitig leistungsstark und komplex. Daten werden in spaltenorientierten ROS-Containern gespeichert, aktuelle Änderungen liegen im WOS, und Projektionen bieten mehrere physische Layouts für dieselbe logische Tabelle, wie in der Vertica-Architekturdokumentation beschrieben. Dieses Design ist ideal für Performance, macht es jedoch schwierig, Fragen wie „Wo genau befinden sich Kundenzahlungsdaten?“ oder „Welche Workloads greifen heute auf PHI zu?“ zu beantworten.

Typische Herausforderungen umfassen:

  • Breite analytische Tabellen, die Dutzende von Attributen (einschließlich PII und PHI) in einer einzigen Struktur bündeln.
  • Mehrere Projektionen, die sensible Spalten physisch über den Cluster replizieren.
  • Geteilte Cluster, die gleichzeitig von BI-Tools, ETL, Notebooks und ML-Frameworks genutzt werden.
  • Ad-hoc SQL von Power-Usern und Data Scientists, die kuratierte Berichtsschichten umgehen.
  • Verstreute Protokolle, die es erschweren, nachzuvollziehen, wer wann welche Daten einsehen konnte.

Die rollenbasierte Zugriffskontrolle (RBAC) von Vertica steuert, wer sich verbinden kann und welche Objekte abgefragt werden dürfen. Sie erkennt jedoch nicht, ob eine Abfrage Kartennummern exportiert, HR- und CRM-Daten unsicher verknüpft oder eine Nicht-Produktionsumgebung mit Live-Kundendaten füllt. Um diese Lücken zu schließen, setzen Organisationen externe Maskierungs- und Richtlinien-Engines ein, die Sensitivität von Spalten und Benutzerkontexte verstehen.

Wie DataSunrise Data Masking in Vertica bereitstellt

DataSunrise fungiert als transparenter Proxy vor Vertica. BI-Tools, SQL-Clients, Scheduler und Data-Science-Plattformen verbinden sich mit DataSunrise, anstatt direkt mit Vertica zu sprechen. Für jede Abfrage analysiert DataSunrise das SQL, erkennt sensible Spalten, bewertet Maskierungsrichtlinien und gibt entweder die Abfrage unverändert weiter oder schreibt das Ergebnis so um, dass vertrauliche Werte die Datenbank niemals ungeschützt verlassen.

Im Hintergrund kombiniert diese Maskierungs-Engine mehrere Fähigkeiten:

Die folgenden Screenshots zeigen eine typische Vertica-Maskierungskonfiguration: Definition einer Maskierungsregel, Auswahl der zu schützenden Spalten und Verifikation, dass Abfragen korrekt maskiert und protokolliert werden.

Definition einer Vertica-Maskierungsregel

Der erste Schritt besteht darin, eine Maskierungsregel anzulegen und sie mit der entsprechenden Vertica-Instanz zu verknüpfen. Im untenstehenden Beispiel zielt die Regel mit dem Namen Vertica_Masking auf eine Vertica-Datenbank ab, die über Port 5433 erreichbar ist. Die Regel legt auch fest, was bei einer Maskierung passiert – hier wird jedes Maskierungsereignis sowohl im DataSunrise-Audit-Store als auch im externen Syslog protokolliert, was die Integration in SIEM-Plattformen erleichtert.

DataSunrise-Dashboard zeigt Menüoptionen für Daten-Compliance, Audit und Maskierungsfunktionen in Vertica.
Allgemeine Einstellungen für eine dynamische Vertica-Maskierungsregel mit aktivierter Prüfprotokollierung.

In diesem Schritt definieren Sie das übergeordnete Verhalten:

  • Für welche Vertica-Instanzen die Regel gilt.
  • Ob Maskierungsereignisse protokolliert, übersprungen oder an externe Systeme weitergeleitet werden sollen.
  • Beliebige globale Filter, z. B. Beschränkung der Regel auf Produktionsumgebungen.

Diese Trennung erlaubt es, eine logische „Vertica_Masking“-Richtlinie zu verwalten, auch wenn später weitere Knoten oder Cluster hinzugefügt werden. Die Maskierungslogik lebt in DataSunrise, nicht in den Vertica-Schemas.

Auswahl von Spalten und Bedingungen für die Maskierung

Sobald die Regel vorhanden ist, wählen Sie aus, welche Vertica-Spalten maskiert und unter welchen Bedingungen dies geschehen soll. DataSunrise kann Spaltenlisten direkt aus den Entdeckungsergebnissen importieren, so dass Administratoren diese nicht manuell pflegen müssen.

Konfiguration dynamischer Maskierungsregeln für Vertica mit ausgewählten sensiblen Spalten.
Maskierungseinstellungen für sensitive Vertica-Spalten.

Maskierungsfunktionen lassen sich pro Spalte anpassen. Kartennummern zeigen beispielsweise nur die letzten vier Ziffern, Telefonnummern können die Landesvorwahl verlieren und Namen können vollständig ersetzt oder auf Initialen verkürzt werden. Das genaue Verhalten richtet sich nach internen Sicherheitsrichtlinien und den definierten Maskierungsprofilen in DataSunrise.

Eine typische Abfrage, ausgeführt von einem SQL-Client oder Notebook, könnte so aussehen:

SELECT
    id,
    full_name,
    SUBSTR(email, 1, 5) AS email_prefix,
    credit_card,
    phone
FROM customers_sensitive;

Ohne Maskierung würde diese Abfrage echte Kundennamen, Kartennummern und Telefonnummern zurückliefern. Mit aktivierter Regel sehen nicht privilegierte Nutzer pseudonymisierte Werte, während der Rest des Ergebnisdatensatzes unverändert bleibt.

SQL-Client zeigt maskierte Vertica-Abfrageergebnisse.
SQL-Client-Ansicht von maskierten Vertica-Daten.

Auditierung maskierter Abfragen in Vertica

Maskierung allein reicht für Regulierungs-konformität nicht aus. Organisationen müssen auch nachweisen, dass Maskierung konsequent angewendet wurde. DataSunrise protokolliert jede Abfrage, die Maskierung ausgelöst hat, inklusive Informationen über Benutzer, Anwendung, Regelname und Ausführungszeit. Diese Aufzeichnungen unterstützen Audits gemäß Vorschriften wie DSGVO, HIPAA und SOX.

Im Audit-Console können Sie:

  • Nach Vertica-Regel, Benutzer oder Anwendung filtern, um Vorfälle zu untersuchen.
  • Protokolle an SIEM- oder GRC-Plattformen exportieren.
  • Maskierungsereignisse mit Warnungen aus der Datenbank-Aktivitätsüberwachung korrelieren.

Da alle Abfragen über dieselbe Gateway-Instanz laufen, erhalten Compliance-Teams eine einheitliche, normalisierte Prüfspur, anstatt mehrere Vertica-Systemtabellen zusammenfügen zu müssen.

Häufige Vertica-Maskierungsszenarien

Data Masking in Vertica wird in vielen operativen und analytischen Szenarien eingesetzt. Die folgende Tabelle fasst typische Anwendungsfälle und die übliche Verwendung von DataSunrise-Maskierungskontrollen zusammen.

Szenario Risiko Maskierungsansatz
BI-Dashboards und Ad-hoc-Analysen Offenlegung von PII in Berichten und Exporten Dynamische Maskierung basierend auf Benutzerrollen und BI-Servicekonten
Data Science und Notebooks Nutzung realer Kundendaten während der Exploration Teilweise oder vollständige Maskierung für Nicht-Produktions- und Analystenrollen
ETL- und Daten-Pipelines Weitergabe sensibler Daten an nachgelagerte Systeme Maskierung zur Abfragezeit, bevor Daten Vertica verlassen
ML-Feature-Stores und Modelltraining Leckage von Identifikatoren in Trainingsdatensätze Pseudonymisierung und Tokenisierung mittels dynamischer Maskierungsregeln
Regulatorische Audits und Untersuchungen Unfähigkeit, den Schutz sensibler Daten nachzuweisen Maskierte Abfrageergebnisse in Kombination mit zentralisierten Audit-Trails

Fazit

Richtig umgesetzt erlaubt Data Masking in Vertica Organisationen, die Plattform weiterhin als Hochgeschwindigkeits-Analyse-Engine zu verwenden, während das Risiko der Offenlegung sensibler Informationen drastisch reduziert wird. Indem Maskierungslogik, Entdeckung und Auditierung an DataSunrise ausgelagert werden, ersetzen Teams anfällige manuelle Lösungen durch konsistenten, automatisierten Schutz.

Ob für BI-Self-Service, ML-Workloads oder die Vorbereitung auf regulatorische Prüfungen – ein dediziertes Maskierungsgateway gibt Vertica die Absicherung, die es benötigt, ohne den Datenzugriff zu verlangsamen.

Schützen Sie Ihre Daten mit DataSunrise

Sichern Sie Ihre Daten auf jeder Ebene mit DataSunrise. Erkennen Sie Bedrohungen in Echtzeit mit Activity Monitoring, Data Masking und Database Firewall. Erzwingen Sie die Einhaltung von Datenstandards, entdecken Sie sensible Daten und schützen Sie Workloads über 50+ unterstützte Cloud-, On-Premise- und KI-System-Datenquellen-Integrationen.

Beginnen Sie noch heute, Ihre kritischen Daten zu schützen

Demo anfordern Jetzt herunterladen

Benötigen Sie die Hilfe unseres Support-Teams?

Unsere Experten beantworten gerne Ihre Fragen.

Allgemeine Informationen:
[email protected]
Vertrieb:
[email protected]
Kundenservice und technischer Support:
support.datasunrise.com
Partnerschafts- und Allianz-Anfragen:
[email protected]