Inicio
Guías | DataSunrise
Guía integral sobre cómo buscar datos sensibles en imágenes alojadas en AWS S3

Guía integral sobre cómo buscar datos sensibles en imágenes alojadas en AWS S3

Instalación de DataSunrise desde el Repositorio (Debian 13, Ubuntu 24 x64) Cómo Migrar la Plantilla de CloudFormation de DataSunrise de Launch Configuration (LC) a Launch Template (LT) en un grupo de Auto Scaling Cómo Enviar Eventos de DataSunrise a un Canal de Microsoft Teams vía Webhook Entrante utilizando Suscriptores Cómo Descargar los Datos de la Base de Datos de Auditoría a AWS S3 y Leerlos Usando el Servicio AWS Athena Convertir configuración de Prueba o BYOL de DataSunrise a Facturación por Hora PostgreSQL (RDS) vs Aurora PostgreSQL Cómo Solucionar Errores de “La Conexión Fue Terminada” o “La Conexión Se Terminó Inesperadamente” en Aplicaciones Que Usan Proxies DataSunrise Rendimiento de DataSunrise Bajo Condiciones de Alto Tráfico Enfoque de DataSunrise para Configurar Penalidades por Detección de Inyección SQL Cómo Bloquear Hosts Específicos en DataSunrise para una Seguridad Mejorada de la Base de Datos Solución de Problemas de Medición y Facturación por Hora en AWS en DataSunrise en AWS Marketplace Cómo Realizar la Modificación de Cloud Formation Enmascaramiento Dinámico de Datos con DataSunrise: Enmascaramiento con Scripts Lua Cómo Elegir la Base de Datos para Almacenamiento de Auditoría: Un Análisis de Rendimiento Cómo Ejecutar pgbench a través del Proxy DataSunrise en PostgreSQL 14 con Autenticación SCRAM Cómo Controlar la Visibilidad de los Nombres de las Tablas Instalar el paquete DataSunrise desde el repositorio DEB (para Debian 12/Ubuntu 22) Configuración de la Autenticación SSO de DataSunrise Basada en SAML (Okta) Autenticación SSO de DataSunrise basada en OpenID (Okta) Guía integral sobre cómo buscar datos sensibles en imágenes alojadas en AWS S3 Cómo Desplegar DataSunrise con Plantilla de Terraform en Azure Integra DataSunrise con SQL Server Always On Cluster Cómo Desplegar DataSunrise en Microsoft Azure Usando Azure Resource Manager Cómo Realizar el Enmascaramiento de Datos Estáticos de DataSunrise para MongoDB Cómo Configurar el Rastreo de Auditoría para MS Azure MySQL Configurar el Seguimiento de Auditoría de DB para MS Azure PostgreSQL Cómo configurar DataSunrise para enmascarar datos para Amazon Athena Cómo actualizar la versión del sistema operativo RHEL de los servidores existentes de DataSunrise Cómo integrar DataSunrise con AWS Database Activity Streams para obtener resultados de auditoría para AWS Aurora PostgreSQL Configurar Certificados SSL para el Proxy de Base de Datos DataSunrise Informes en DataSunrise: Sistema Crucial para una Seguridad Mejorada de Bases de Datos Cómo Ocultar Esquemas a los Usuarios en Redshift Descripción General de la Consola Centralizada DataSunrise Registros de Auditoría de AWS RDS PostgreSQL en DataSunrise Enmascarando Texto No Estructurado en AWS S3 Enmascaramiento en su lugar Auditar acciones administrativas en su Oracle RDS y EC2 Mejores Prácticas de las Reglas de DataSunrise El script de Lua descubre datos sensibles en archivos JSON Cómo verificar si DataSunrise recibe tráfico Eliminar un procedimiento o una función de una base de datos Principios Básicos del Enmascaramiento Dinámico Instalar DataSunrise desde el repositorio RPM (para RHEL, CentOS 8/9) Instalación de DataSunrise desde el Repositorio DEB (Ubuntu, Debian) Guía de Seguridad Reglas de Seguridad Contra Inyecciones SQL Guía de Auditoría Reglas de Aprendizaje y Auditoría Prioridad de Reglas Guía de Enmascaramiento Dinámico de Datos Guía de Enmascaramiento de Datos Estáticos

Para proporcionar a nuestros clientes una potente herramienta de descubrimiento de datos, hace un tiempo presentamos la funcionalidad OCR (Reconocimiento Óptico de Caracteres) integrada en nuestro módulo de Descubrimiento de Datos. Esta característica le permite buscar datos sensibles como datos personales, números de tarjetas de crédito, licencias de conducir, etc., contenidos en archivos de imagen. El proceso de descubrimiento se realiza de forma automática sin necesidad de ninguna intervención humana. El Descubrimiento de Datos OCR trabaja únicamente con AWS S3 por el momento.

El OCR DD de DataSunrise se basa en el motor Tesseract, el cual utiliza tecnología de redes neuronales para el reconocimiento de caracteres. Tesseract utiliza la biblioteca Leptonica para leer imágenes con alguno de estos formatos:

PNG
JPEG
TIFF
JPEG 2000
GIF
WebP (incluyendo WebP animado)
BMP
PNM

Cómo funciona

Una vez iniciada una tarea de Descubrimiento de Datos OCR, el proceso de descubrimiento sigue las siguientes fases:

DataSunrise examina el contenido del cubo S3 especificado en busca de imágenes.
El preprocesador del motor OCR prepara las imágenes descubiertas para su procesamiento posterior, mejorando su contraste y nitidez.
DataSunrise, con la ayuda de la tecnología OCR de Tesseract, reconoce el texto no estructurado contenido en las imágenes y utiliza algoritmos de Descubrimiento de Datos en relación con este texto de acuerdo con la configuración de su tarea de Descubrimiento de Datos.

Como resultado, usted obtiene los nombres y la ubicación de los archivos de imagen que contienen datos sensibles, así como esos datos en un informe DD.

Configuración de una tarea OCR en DataSunrise

Ahora, echemos un vistazo al proceso de creación de una tarea de Descubrimiento de Datos OCR.

En primer lugar, tenga en cuenta que el Descubrimiento de Datos OCR junto con el Descubrimiento de Datos NLP requiere Java 1.8+

Para utilizar el Descubrimiento de Datos OCR, debe realizar lo siguiente:

Antes de continuar con el siguiente paso, cree una instancia de base de datos S3 en DataSunrise (consulte la Guía del Usuario de DataSunrise para más detalles).
Navegue a Descubrimiento de Datos → Descubrimiento de Datos Periódico
Genere una tarea de Descubrimiento de Datos para su cubo S3:

Complete la sección de Ajustes Generales:

Nombre la tarea
Seleccione el Servidor DS en el cual iniciar la tarea
Si desea realizar el Descubrimiento de Datos para múltiples instancias de base de datos, marque la casilla correspondiente y seleccione las instancias de interés
Marque la casilla Generar Informes para crear un informe en formato PDF o CSV.

En la sección de Parámetros de Búsqueda:

Seleccione su instancia de base de datos S3. Proporcione las credenciales para su S3
Elija la Estrategia de Selección: seleccione todas las filas o solo las filas principales
Seleccione la Estrategia de Coincidencia de Columnas: tipo de filtrado de columnas
Establezca el Porcentaje Mínimo de Coincidencia: es el porcentaje mínimo de filas en una columna que coinciden con las condiciones del filtro de búsqueda para considerar la columna como contenedora de los datos sensibles requeridos
Seleccione el Número de Filas Analizadas: número de filas analizadas que se van a SELECCIONAR

En Parámetros Multiproceso:

Seleccione la Estrategia de Ejecución: Servidor DS Único o Múltiples Servidores DS para cálculo en paralelo

Seleccione los Objetos de la Base de Datos que se deben buscar:

Utilice el árbol de objetos para especificar los objetos que deben ser explorados durante la ejecución de la tarea

Puede excluir ciertos objetos de la búsqueda utilizando el árbol de objetos correspondiente:

En Ajustes de Búsqueda:

Seleccione el Tipo de Información o los Estándares de Seguridad para la búsqueda correspondiente. Tenga en cuenta que también puede utilizar Buscar por Atributos para encontrar un Tipo de Información o un Estándar de Seguridad que necesite mediante atributos.

En Frecuencia de Inicio:

Seleccione la frecuencia de ejecución de la tarea. Seleccione Manual para un inicio manual o configure un horario.

Importante: es necesario habilitar el parámetro adicional imageDataDiscovery antes de ejecutar la tarea. Puede hacerlo en Parámetros Adicionales (Configuración del Sistema -> Parámetros Adicionales) o en la subsección de Configuración Adicional Personalizada de la página de la tarea.

Seleccione imageDataDiscovery en la lista y actívelo como se muestra a continuación:

Ejecute la tarea de forma manual o según el horario y DataSunrise realizará el descubrimiento OCR automáticamente:

Para ver los resultados de la búsqueda, consulte la tabla de Resultados de Búsqueda:

Guía integral sobre cómo buscar datos sensibles en imágenes alojadas en AWS S3

Cómo funciona

Configuración de una tarea OCR en DataSunrise

Did this guide help you?