Accueil
Guides | DataSunrise
Guide Complet sur la Recherche de Données Sensibles dans les Images Hébergées sur AWS S3

Guide Complet sur la Recherche de Données Sensibles dans les Images Hébergées sur AWS S3

Installation de DataSunrise depuis le dépôt (Debian 13, Ubuntu 24 x64) Comment migrer le modèle CloudFormation DataSunrise de la configuration de lancement (LC) à la ressource de modèle de lancement (LT) dans le groupe Auto Scaling Comment Envoyer des Événements DataSunrise à un Canal Microsoft Teams via Webhook Entrant en Utilisant des Abonnés Comment déléguer les données de la base d’audit vers AWS S3 et les lire en utilisant le service AWS Athena Convertir la configuration d’essai ou BYOL de DataSunrise en facturation horaire PostgreSQL (RDS) vs Aurora PostgreSQL Comment dépanner les erreurs « La connexion a été interrompue » ou « La connexion a été interrompue de manière inattendue » dans les applications utilisant les proxys DataSunrise Les Performances de DataSunrise sous une Forte Charge de Trafic L’Approche de DataSunrise pour configurer les pénalités de détection d’injection SQL Comment bloquer des hôtes spécifiques dans DataSunrise pour améliorer la sécurité de la base de données Dépannage des problèmes de mesure et de facturation horaire AWS dans DataSunrise sur AWS Marketplace Comment effectuer la modification de la Formation Cloud Masquage Dynamique des Données avec DataSunrise : Masquage avec des scripts Lua Comment Choisir la Base de Données pour le Stockage d’Audit : Une Analyse de Performance Comment exécuter pgbench via le proxy DataSunrise sur PostgreSQL 14 avec l’authentification SCRAM Comment Contrôler la Visibilité des Noms de Tables Installer le package DataSunrise depuis le dépôt DEB (pour Debian 12/Ubuntu 22) Configuration de l’authentification SSO DataSunrise basée sur SAML (Okta) Authentification SSO DataSunrise basée sur OpenID (Okta) Guide Complet sur la Recherche de Données Sensibles dans les Images Hébergées sur AWS S3 Comment déployer DataSunrise avec un Template Terraform sur Azure Comment intégrer DataSunrise avec un cluster SQL Server Always On Comment déployer DataSunrise dans Microsoft Azure en utilisant Azure Resource Manager Comment effectuer le masquage statique des données avec DataSunrise pour MongoDB Comment configurer la traçabilité des audits de DB pour MS Azure MySQL Configurer le trailing d’audit de base de données pour MS Azure PostgreSQL Comment configurer DataSunrise pour masquer les données pour Amazon Athena Comment Mettre à Niveau la Version de l’OS RHEL des Serveurs DataSunrise Existants Comment intégrer DataSunrise avec les flux d’activité de base de données AWS pour obtenir des résultats d’audit pour AWS Aurora PostgreSQL Configurer des certificats SSL pour le proxy de base de données DataSunrise Rapports dans DataSunrise : Système crucial pour une sécurité renforcée des bases de données Comment cacher les schémas des utilisateurs dans Redshift Aperçu de la console centralisée DataSunrise Journaux d’audit AWS RDS PostgreSQL dans DataSunrise Masquage de Texte Non Structuré sur AWS S3 Masquage des Données sur Place Auditer les actions administratives dans votre Oracle RDS et EC2 Meilleures pratiques des règles de DataSunrise Le script Lua découvre des données sensibles dans les fichiers JSON Comment vérifier si DataSunrise reçoit du trafic Supprimer une procédure ou une fonction d’une base de données Principes de Base du Masquage Dynamique Installer DataSunrise à partir du dépôt RPM (pour RHEL, CentOS 8/9) Installation de DataSunrise depuis le dépôt DEB (Ubuntu, Debian) Guide de sécurité Règles de Sécurité Contre les Injections SQL Guide d’Audit Apprentissage des Règles et Audit Priorité des Règles Guide de Masquage Dynamique des Données Guide du Masquage Statique des Données

Pour fournir à nos clients un outil de découverte des données puissant, il y a quelque temps, nous avons présenté la fonctionnalité OCR (Reconnaissance Optique de Caractères) intégrée dans notre module Data Discovery. Cette fonctionnalité vous permet de rechercher des données sensibles telles que des données personnelles, des numéros de cartes de crédit, des permis de conduire, etc. contenues dans des fichiers image. Le processus de découverte est effectué automatiquement sans intervention humaine. Le OCR Data Discovery fonctionne uniquement avec AWS S3 pour le moment.

Le OCR DD de DataSunrise est basé sur le moteur Tesseract qui utilise la technologie des réseaux de neurones pour la reconnaissance des caractères. Tesseract utilise la bibliothèque Leptonica pour lire des images dans l’un des formats suivants :

PNG
JPEG
TIFF
JPEG 2000
GIF
WebP (y compris WebP animé)
BMP
PNM

Fonctionnement

Une fois qu’une tâche OCR Data Discovery est lancée, le processus de découverte passe par les étapes suivantes :

DataSunrise parcourt le contenu du compartiment S3 spécifié à la recherche d’images.
Le préprocesseur du moteur OCR prépare les images découvertes pour un traitement ultérieur en améliorant leur contraste et leur netteté.
DataSunrise, avec l’aide de la technologie OCR Tesseract, reconnaît le texte non structuré présent dans les images et utilise des algorithmes de découverte de données en fonction des paramètres de votre tâche de découverte.

En résultat, vous obtenez les noms et l’emplacement des fichiers image contenant des données sensibles ainsi que ces données dans un rapport DD.

Configuration d’une tâche OCR dans DataSunrise

Examinons maintenant le processus de création d’une tâche de découverte de données OCR.

Tout d’abord, notez que le OCR Data Discovery avec NLP Data Discovery nécessite Java 1.8+

Pour utiliser le OCR Data Discovery, vous devez procéder comme suit :

Avant de passer à l’étape suivante, créez une instance de base de données S3 dans DataSunrise (consultez le guide de l’utilisateur de DataSunrise pour plus de détails).
Accédez à Data Discovery → Periodic Data Discovery
Créez une tâche de découverte de données pour votre compartiment S3 :

Remplissez les Paramètres Généraux :

Nommez la tâche
Sélectionnez le serveur DS sur lequel démarrer la tâche
Si vous souhaitez effectuer la découverte de données pour plusieurs instances de base de données, cochez la case correspondante et sélectionnez les instances concernées
Cochez la case Générer des Rapports pour créer un rapport au format PDF ou CSV.

Dans la section Paramètres de Recherche :

Sélectionnez votre instance de base de données AWS S3. Fournissez les identifiants pour votre S3
Choisissez la Stratégie de Sélection : sélectionner toutes les lignes ou seulement les premières lignes
Sélectionnez la Stratégie de Correspondance de Colonne : type de filtrage de colonne
Définissez le Pourcentage Minimum de Correspondance : c’est le pourcentage minimal de lignes dans une colonne correspondant aux conditions du filtre de recherche pour considérer que la colonne contient les données sensibles requises
Sélectionnez le Nombre de Lignes Analysées : nombre de lignes analysées à sélectionner

Dans les Paramètres Multiprocessus :

Sélectionnez la Stratégie d’Exécution : Serveur DS Unique ou Plusieurs Serveurs DS pour un calcul parallèle

Sélectionnez les Objets de BD à explorer :

Utilisez l’arborescence des objets pour spécifier les objets qui doivent être parcourus lors de l’exécution de la tâche

Vous pouvez exclure certains objets de la recherche en utilisant l’arborescence d’objets correspondante :

Dans les Paramètres de Recherche :

Sélectionnez le Type d’Information ou les Normes de Sécurité selon lesquels effectuer la recherche. Notez que vous pouvez également utiliser la Recherche par Attributs pour trouver un Type d’Information ou une Norme de Sécurité dont vous avez besoin via un attribut.

Dans la section Fréquence de Démarrage :

Sélectionnez la fréquence d’exécution de la tâche. Choisissez Manuel pour un démarrage manuel ou définissez un horaire.

Important : vous devez activer le paramètre supplémentaire imageDataDiscovery avant de lancer la tâche. Vous pouvez le faire dans Paramètres Supplémentaires (Paramètres Système -> Paramètres Supplémentaires) ou dans la sous-section Paramètres Supplémentaires Personnalisés de la page de la tâche.

Sélectionnez imageDataDiscovery dans la liste et activez-le comme indiqué ci-dessous :

Exécutez la tâche manuellement ou selon un calendrier et DataSunrise effectuera automatiquement la découverte OCR :

Pour les résultats de recherche, référez-vous au tableau des Résultats de Recherche :

Guide Complet sur la Recherche de Données Sensibles dans les Images Hébergées sur AWS S3

Fonctionnement

Configuration d’une tâche OCR dans DataSunrise

Did this guide help you?