Guida Completa su Come Cercare Dati Sensibili in Immagini Ospitate su AWS S3
Per fornire ai nostri clienti uno strumento potente di scoperta dei dati, tempo fa abbiamo presentato la funzionalità OCR (Optical Character Recognition) integrata nel nostro modulo Data Discovery. Questa funzionalità consente di cercare dati sensibili quali dati personali, numeri di carte di credito, patenti di guida, ecc. contenuti in file immagine. Il processo di scoperta viene eseguito automaticamente senza alcuna interferenza umana. L’OCR Data Discovery funziona attualmente solo con AWS S3.
L’OCR DD di DataSunrise si basa sul motore Tesseract, che utilizza la tecnologia neuronet per il riconoscimento dei caratteri. Tesseract impiega la libreria Leptonica per leggere immagini in uno dei seguenti formati:
- PNG
- JPEG
- TIFF
- JPEG 2000
- GIF
- WebP (compresi i WebP animati)
- BMP
- PNM
Come Funziona
Una volta avviato un task OCR Data Discovery, il processo di Discovery si articola nelle seguenti fasi:
- DataSunrise esplora il contenuto del bucket S3 specificato alla ricerca di immagini.
- Il preprocessore del motore OCR prepara le immagini individuate rendendole più contrastate e nitide per ulteriori elaborazioni.
- DataSunrise, con l’aiuto della tecnologia OCR Tesseract, riconosce il testo non strutturato presente nelle immagini e utilizza gli algoritmi di Data Discovery in relazione a tale testo secondo le impostazioni del task di Data Discovery.
Di conseguenza, otterrà i nomi e la posizione dei file immagine che contengono dati sensibili, nonché tali dati in un report DD.
Configurare un Task OCR in DataSunrise
Ora esaminiamo il processo di creazione di un task OCR Data Discovery.
In primo luogo, si noti che l’OCR Data Discovery con NLP Data Discovery richiede Java 1.8+.
Per utilizzare l’OCR Data Discovery, è necessario procedere come segue:
- Prima di procedere al passaggio successivo, crei un’istanza S3 DB in DataSunrise (fare riferimento alla Guida Utente di DataSunrise per i dettagli).
- Navigare in Data Discovery → Periodic Data Discovery
- Creare un task di Data Discovery per il bucket S3 desiderato:
Compili le Impostazioni Generali:

- Denomini il task
- Selezioni il DS Server su cui avviare il task
- Se desidera eseguire la Data Discovery per più istanze DB, spunti la casella corrispondente e selezioni le istanze di interesse
- Spunti la casella Genera Report per creare un report in formato PDF o CSV
Nella sezione Parametri di Ricerca:

- Selezioni la sua istanza S3 DB. Fornisca le credenziali per il suo S3
- Scegli Strategia di Selezione: selezioni tutte le righe o solo le prime righe
- Selezioni Strategia di Corrispondenza Colonne: tipo di filtraggio per colonne
- Imposti la Percentuale Minima di Corrispondenza: è la percentuale minima di righe in una colonna che soddisfano le condizioni del filtro di ricerca per considerare la colonna come contenente i dati sensibili richiesti
- Selezioni il Numero di Righe Analizzate: numero di righe analizzate da SELECTARE
Nei Parametri Multiprocess:

Selezioni la Strategia di Esecuzione: Unico DS Server o Molteplici DS Server per il calcolo parallelo
Selezioni gli Oggetti DB da cercare:

Utilizzi l’albero degli oggetti per specificare gli oggetti che devono essere esaminati durante l’esecuzione del task
Può escludere alcuni oggetti dalla ricerca utilizzando l’albero degli oggetti corrispondente:

Nelle Impostazioni di Ricerca:

Selezioni il Tipo di Informazione o gli Standard di Sicurezza in base ai quali effettuare la ricerca. Si noti che può anche utilizzare la funzione Cerca per Attributi per individuare il Tipo di Informazione o lo Standard di Sicurezza desiderato in base all’attributo.
Nella sezione Frequenza di Avvio:

Selezioni la frequenza di esecuzione del task. Selezioni Manuale per l’avvio manuale oppure imposti una pianificazione.
Importante: è necessario abilitare il parametro aggiuntivo imageDataDiscovery prima di eseguire il task. Può farlo nelle Impostazioni Aggiuntive (Impostazioni di Sistema -> Parametri Aggiuntivi) oppure nella sottosezione Impostazioni Aggiuntive Personalizzate della pagina del task.

Selezioni imageDataDiscovery nell’elenco e lo abiliti come mostrato di seguito:

Esegua il task manualmente o secondo la pianificazione e DataSunrise eseguirà automaticamente la scoperta OCR:

Per visualizzare i risultati della ricerca, faccia riferimento alla tabella dei Risultati della Ricerca:
