Guía integral sobre cómo buscar datos sensibles en imágenes alojadas en AWS S3
Para proporcionar a nuestros clientes una potente herramienta de descubrimiento de datos, hace un tiempo presentamos la funcionalidad OCR (Reconocimiento Óptico de Caracteres) integrada en nuestro módulo de Descubrimiento de Datos. Esta característica le permite buscar datos sensibles como datos personales, números de tarjetas de crédito, licencias de conducir, etc., contenidos en archivos de imagen. El proceso de descubrimiento se realiza de forma automática sin necesidad de ninguna intervención humana. El Descubrimiento de Datos OCR trabaja únicamente con AWS S3 por el momento.
El OCR DD de DataSunrise se basa en el motor Tesseract, el cual utiliza tecnología de redes neuronales para el reconocimiento de caracteres. Tesseract utiliza la biblioteca Leptonica para leer imágenes con alguno de estos formatos:
- PNG
- JPEG
- TIFF
- JPEG 2000
- GIF
- WebP (incluyendo WebP animado)
- BMP
- PNM
Cómo funciona
Una vez iniciada una tarea de Descubrimiento de Datos OCR, el proceso de descubrimiento sigue las siguientes fases:
- DataSunrise examina el contenido del cubo S3 especificado en busca de imágenes.
- El preprocesador del motor OCR prepara las imágenes descubiertas para su procesamiento posterior, mejorando su contraste y nitidez.
- DataSunrise, con la ayuda de la tecnología OCR de Tesseract, reconoce el texto no estructurado contenido en las imágenes y utiliza algoritmos de Descubrimiento de Datos en relación con este texto de acuerdo con la configuración de su tarea de Descubrimiento de Datos.
Como resultado, usted obtiene los nombres y la ubicación de los archivos de imagen que contienen datos sensibles, así como esos datos en un informe DD.
Configuración de una tarea OCR en DataSunrise
Ahora, echemos un vistazo al proceso de creación de una tarea de Descubrimiento de Datos OCR.
En primer lugar, tenga en cuenta que el Descubrimiento de Datos OCR junto con el Descubrimiento de Datos NLP requiere Java 1.8+
Para utilizar el Descubrimiento de Datos OCR, debe realizar lo siguiente:
- Antes de continuar con el siguiente paso, cree una instancia de base de datos S3 en DataSunrise (consulte la Guía del Usuario de DataSunrise para más detalles).
- Navegue a Descubrimiento de Datos → Descubrimiento de Datos Periódico
- Genere una tarea de Descubrimiento de Datos para su cubo S3:
Complete la sección de Ajustes Generales:

- Nombre la tarea
- Seleccione el Servidor DS en el cual iniciar la tarea
- Si desea realizar el Descubrimiento de Datos para múltiples instancias de base de datos, marque la casilla correspondiente y seleccione las instancias de interés
- Marque la casilla Generar Informes para crear un informe en formato PDF o CSV.
En la sección de Parámetros de Búsqueda:

- Seleccione su instancia de base de datos S3. Proporcione las credenciales para su S3
- Elija la Estrategia de Selección: seleccione todas las filas o solo las filas principales
- Seleccione la Estrategia de Coincidencia de Columnas: tipo de filtrado de columnas
- Establezca el Porcentaje Mínimo de Coincidencia: es el porcentaje mínimo de filas en una columna que coinciden con las condiciones del filtro de búsqueda para considerar la columna como contenedora de los datos sensibles requeridos
- Seleccione el Número de Filas Analizadas: número de filas analizadas que se van a SELECCIONAR
En Parámetros Multiproceso:

Seleccione la Estrategia de Ejecución: Servidor DS Único o Múltiples Servidores DS para cálculo en paralelo
Seleccione los Objetos de la Base de Datos que se deben buscar:

Utilice el árbol de objetos para especificar los objetos que deben ser explorados durante la ejecución de la tarea
Puede excluir ciertos objetos de la búsqueda utilizando el árbol de objetos correspondiente:

En Ajustes de Búsqueda:

Seleccione el Tipo de Información o los Estándares de Seguridad para la búsqueda correspondiente. Tenga en cuenta que también puede utilizar Buscar por Atributos para encontrar un Tipo de Información o un Estándar de Seguridad que necesite mediante atributos.
En Frecuencia de Inicio:

Seleccione la frecuencia de ejecución de la tarea. Seleccione Manual para un inicio manual o configure un horario.
Importante: es necesario habilitar el parámetro adicional imageDataDiscovery antes de ejecutar la tarea. Puede hacerlo en Parámetros Adicionales (Configuración del Sistema -> Parámetros Adicionales) o en la subsección de Configuración Adicional Personalizada de la página de la tarea.

Seleccione imageDataDiscovery en la lista y actívelo como se muestra a continuación:

Ejecute la tarea de forma manual o según el horario y DataSunrise realizará el descubrimiento OCR automáticamente:

Para ver los resultados de la búsqueda, consulte la tabla de Resultados de Búsqueda:
