DataSunrise Obtient le Statut Compétence DevOps AWS dans AWS DevSecOps et Surveillance, Journalisation, Performance

Amazon Athena Piste d’audit des données

À mesure que le monde devient de plus en plus axé sur les données, sécuriser les informations sensibles et garantir la conformité aux réglementations en matière de données n’a jamais été aussi important. Cela est particulièrement vrai avec l’essor de l’intelligence artificielle générative (GenAI), où les modèles traitent d’immenses quantités de données pour créer de nouveaux contenus. Il est donc essentiel de s’assurer que les données utilisées par ces systèmes sont sécurisées et que chaque action est correctement audité. L’une des façons d’y parvenir est d’instaurer une piste d’audit des données robuste, qui offre une transparence totale et une responsabilité pour chaque action effectuée sur les données.

Dans cet article, nous explorerons les éléments clés d’une piste d’audit des données, y compris l’audit en temps réel, le masquage dynamique des données, la découverte des données, la sécurité et la conformité des données, en mettant un accent particulier sur la manière dont la piste d’audit des données Amazon Athena peut aider à gérer et sécuriser les données sensibles dans les applications GenAI.

L’importance des pistes d’audit des données pour GenAI

Une piste d’audit des données sert de journal détaillé indiquant qui a accédé aux données ou les a modifiées et à quel moment. Cela est particulièrement crucial dans le contexte de GenAI, où les modèles d’IA peuvent générer des informations ou des résultats basés sur des données sensibles. Face au risque croissant de mauvaise utilisation des données ou de violations, le maintien d’une piste d’audit robuste permet de détecter et de résoudre rapidement toute anomalie ou accès non autorisé.

Schéma présentant les sources de données et les capacités d’intégration
Illustration de l’intégration des sources de données, y compris les bases de données, les data lakes et les services cloud tels qu’Amazon S3.

Les pistes d’audit renforcent non seulement la sécurité, mais elles aident également les organisations à se conformer à diverses réglementations sur les données telles que le RGPD, la HIPAA et le PCI-DSS, qui exigent une surveillance et un contrôle stricts sur l’accès et le traitement des données.

Audit en temps réel

Dans le contexte de GenAI, l’audit en temps réel est indispensable. Alors que les modèles d’IA interagissent en temps réel avec de grands ensembles de données, il est essentiel de suivre chaque interaction afin de garantir qu’aucune activité non autorisée ne se produise. Les outils d’audit en temps réel peuvent alerter immédiatement les administrateurs en cas d’action non autorisée, offrant ainsi une visibilité instantanée sur le fonctionnement du système.

Par exemple, en utilisant AWS CloudTrail en combinaison avec Athena, vous pouvez surveiller chaque requête exécutée sur des ensembles de données sensibles. Cela garantit que toute activité suspecte est détectée dès qu’elle survient, empêchant ainsi d’éventuelles violations avant qu’elles ne s’aggravent.

Voici un exemple de la manière dont une requête peut être enregistrée à des fins d’audit :

SELECT * 
FROM "your_database"."your_audit_table"
WHERE action_type = 'QUERY' 
AND timestamp > current_timestamp - INTERVAL '1 hour';

Cette requête extrait les journaux des requêtes les plus récentes effectuées sur votre base de données, permettant ainsi une surveillance en temps réel de l’accès aux données.

En tirant parti des fonctionnalités d’audit en temps réel de DataSunrise, vous pouvez obtenir une visibilité et un contrôle encore plus approfondis sur vos données, en particulier lorsque des informations sensibles sont utilisées pour entraîner ou inférer via des modèles GenAI. Plus d’informations sur les capacités d’audit en temps réel sont disponibles dans la documentation de DataSunrise.

Schéma présentant l’intégration des services AWS avec Confluent Cloud et QuickSight
Schéma montrant l’intégration des services AWS avec Confluent Cloud et QuickSight pour l’analyse des données.

Masquage dynamique des données pour une sécurité renforcée

Le masquage dynamique des données (DDM) est une fonctionnalité puissante qui permet aux organisations de protéger les données sensibles sans en restreindre totalement l’accès. Dans les environnements où les modèles GenAI doivent accéder à de grands ensembles de données pour l’entraînement, mais où les données brutes peuvent contenir des informations personnelles identifiables (PII) ou d’autres détails sensibles, le DDM peut masquer ces éléments sensibles tout en permettant au modèle de traiter les données.

Par exemple, supposons qu’un modèle d’IA ait besoin d’accéder aux noms et adresses e-mail des clients pour des besoins d’entraînement. En utilisant le masquage dynamique, le modèle peut interagir avec une version masquée des données, par exemple en affichant seulement les premières lettres d’un e-mail, tout en dissimulant le reste des informations.

Exemple :

SELECT name, email 
FROM users 
WHERE role = 'Data Scientist' 
MASK email USING '[email protected]';

Dans cette requête, les adresses e-mail sont masquées dynamiquement pour les utilisateurs qui n’ont pas besoin de les consulter, renforçant ainsi la sécurité tout en permettant le bon fonctionnement du système.

Le masquage dynamique est particulièrement crucial dans le contexte de GenAI, car des modèles d’IA mal configurés pourraient, par inadvertance, exposer des données sensibles. L’intégration du masquage dynamique de DataSunrise garantit que cela n’arrive jamais, même lorsque les modèles traitent les données en temps réel. Vous trouverez plus d’informations sur le masquage dynamique ici.

Découverte des données et conformité

Un autre aspect important d’une piste d’audit des données est la découverte des données — le processus d’identification et de classification des informations sensibles au sein de vos bases de données. Dans une application GenAI, la découverte des données aide à s’assurer que seules les parties nécessaires et non sensibles des données sont exposées au modèle, et que les données sensibles sont correctement protégées.

Athena vous permet d’interroger les bases de données et d’effectuer une découverte des données afin d’identifier des données potentiellement sensibles, telles que des adresses e-mail ou des numéros de sécurité sociale, et de les catégoriser en conséquence. Cela vous permet d’établir des politiques pour masquer ou chiffrer les données sensibles lors de l’interaction avec les modèles d’IA.

Par exemple, la requête SQL suivante peut être utilisée pour identifier des données sensibles dans vos tables :

SELECT table_name, column_name
FROM information_schema.columns
WHERE column_name LIKE '%email%' OR column_name LIKE '%ssn%';

En exécutant de telles requêtes, vous pouvez rapidement identifier les colonnes qui pourraient nécessiter une protection supplémentaire avant d’être utilisées par les modèles GenAI. Cela aide à garantir la conformité avec les normes réglementaires telles que le RGPD et la HIPAA, et réduit le risque de violations de données.

Pour plus d’informations sur la découverte des données et sur la manière de garantir la conformité aux réglementations de protection des données, consultez la section conformité DataSunrise.

Sécuriser vos données avec l’audit natif et DataSunrise

Pour configurer un audit natif pour votre environnement Athena, vous devez activer la journalisation à l’aide d’AWS CloudTrail. Cela permettra d’enregistrer chaque requête exécutée sur vos ensembles de données, offrant ainsi un enregistrement complet des accès et des modifications.

Tableau de bord CloudWatch affichant des métriques et des filtres de groupe de ressources
Capture d’écran du tableau de bord CloudWatch affichant des métriques telles que BucketSizeBytes et des filtres de groupe de ressources pour la surveillance.

Pour configurer la journalisation de base, suivez ces étapes :

Activer la journalisation CloudTrail : Configurer AWS CloudTrail pour enregistrer toutes les requêtes Athena.
Configurer un bucket S3 : Rediriger les journaux vers un bucket S3 pour un stockage et une analyse à long terme.
Surveiller les journaux : Utiliser AWS CloudWatch pour surveiller les journaux en temps réel.

Exemple :

aws cloudtrail create-trail --name AthenaTrail --s3-bucket-name athena-logs --is-multi-region-trail
aws cloudtrail start-logging --name AthenaTrail

Cependant, la journalisation d’audit native d’Athena seule peut ne pas suffire à satisfaire aux exigences de sécurité et de conformité des applications GenAI. Pour un audit et une surveillance améliorés, DataSunrise fournit une couche de sécurité supplémentaire grâce à sa capacité à effectuer des audits en temps réel, un masquage dynamique des données et un contrôle d’accès plus granulaire.

L’intégration de DataSunrise avec la piste d’audit d’Athena permet un suivi plus détaillé et sécurisé des accès et des modifications apportées aux données. Cette intégration renforce à la fois la visibilité en temps réel et la capacité d’appliquer efficacement les politiques de conformité. Pour en savoir plus sur les capacités d’audit de DataSunrise, consultez cette page.

Interface DataSunrise affichant les options de création de règle d’audit
Capture d’écran de l’interface DataSunrise montrant la page « Nouvelle règle d’audit » et les options de navigation du module.

Conclusion : Renforcer la sécurité de GenAI grâce à une piste d’audit des données complète

Dans le monde trépidant de GenAI, sécuriser les données et garantir la conformité sont primordiaux. En mettant en place une piste d’audit des données robuste, incluant l’audit en temps réel, le masquage dynamique, la découverte des données et les meilleures pratiques de sécurité, les organisations peuvent protéger les informations sensibles et maintenir la transparence.

Avec l’intégration de DataSunrise dans l’écosystème d’Athena, les entreprises peuvent renforcer leur sécurité des données et leur conformité, en particulier lorsqu’il s’agit de modèles d’IA traitant de grandes quantités de données sensibles. Protéger les données avec les bons outils et pratiques contribue à instaurer la confiance et à garantir la conformité réglementaire tout en permettant à GenAI de réaliser pleinement son potentiel.

Pour obtenir des informations complémentaires sur la sécurisation de vos données, consultez notre page sur les réglementations de conformité ou découvrez-en davantage sur les notifications en temps réel.

Protégez vos données avec DataSunrise

Sécurisez vos données à chaque niveau avec DataSunrise. Détectez les menaces en temps réel grâce à la surveillance des activités, au masquage des données et au pare-feu de base de données. Appliquez la conformité des données, découvrez les données sensibles et protégez les charges de travail via plus de 50 intégrations supportées pour le cloud, sur site et les systèmes de données basés sur l'IA.

Commencez à protéger vos données critiques dès aujourd’hui

Demander une démo Télécharger maintenant

Suivant

Trace d’audit Azure Cosmos DB pour PostgreSQL

En savoir plus

Besoin de l'aide de notre équipe de support ?

Nos experts seront ravis de répondre à vos questions.

Informations générales :
[email protected]
Service clientèle et support technique :
support.datasunrise.com
Demandes de partenariat et d'alliance :
[email protected]