
Audit des Données pour Impala

Introduction
Avant d’entrer dans le détail de l’audit des données dans Impala, il est essentiel de d’abord considérer le contexte général de l’audit de données et de la conformité. L’audit des données est essentiellement le processus de surveillance systématique et d’enregistrement des activités de la base de données qui affectent l’intégrité, la confidentialité et la disponibilité des données. Il comprend la mise en place et la maintenance de dossiers détaillés des actions des utilisateurs et des événements du système, y compris l’exécution des requêtes, les modifications de schéma et les modèles d’accès aux données. Cela inclut la capture des tentatives d’authentification réussies et échouées, des opérations DDL et des événements d’accès aux données spécifiques basés sur des règles d’audit et des exigences de conformité configurées.
Dans le paysage actuel des données, où les organisations exploitent des systèmes distribués à grande échelle, l’audit joue un rôle crucial dans la sécurité des bases de données et la gouvernance. Selon le Rapport sur les Menaces de Données Thales 2024, environ 70 % des entreprises sont incapables de classer plus de 50 % de leurs données sensibles, soulignant le besoin critique d’une gouvernance des données et d’un audit robustes. En outre, les organisations qui ont passé les audits de conformité n’avaient un historique de violation que dans seulement 21 % des cas, avec seulement 3 % signalant une violation au cours des 12 derniers mois, démontrant l’efficacité des mesures d’audit et de conformité appropriées.
Auditer dans Apache Impala
Impala, en tant que moteur de requêtes SQL distribué pour Apache Hadoop, présente des défis et opportunités uniques pour la journalisation et la surveillance de la conformité. Fonctionnant sur des clusters distribués et gérant le traitement de données à grande échelle, Impala nécessite des mécanismes d’audit robustes pour suivre l’exécution des requêtes, l’utilisation des ressources et les modèles d’accès aux données dans son architecture distribuée. Comprendre comment implémenter et gérer efficacement la journalisation d’audit dans Impala est crucial pour les organisations qui doivent maintenir la conformité tout en tirant parti de la puissance du traitement SQL distribué.
Comprendre les capacités de journalisation intégrées d’Impala fournit une base pour répondre aux exigences d’audit de base. Dans ce contexte, nous allons explorer comment ces journaux peuvent être consultés et quels types d’informations ils peuvent fournir à des fins d’audit.
Accéder à l’Audit de Données de Base pour Impala avec les journaux impalad
Avant d’entrer dans les capacités d’audit avancées, il est utile de comprendre comment Impala fournit des fonctionnalités de journalisation de base par défaut. Les journaux d’Impala, accessibles à la fois via son interface web et via le système de fichiers, offrent un moyen fondamental de surveiller des activités telles que l’exécution des requêtes SQL et les événements du système.
Accéder aux Journaux via l’Interface Web
Une fois Impala opérationnel, vous pouvez naviguer jusqu’à l’interface web impalad
et accéder aux journaux dans la section /logs
:
https://<ip_address>:25000/logs

Cette interface fournit une vue centralisée des journaux du système, y compris les requêtes SQL, les détails de connexion et les événements internes.
Accéder aux Journaux via la Ligne de Commande
Les journaux sont également accessibles à l’emplacement spécifié dans la configuration log_path
. Vous pouvez consulter le fichier impalad.INFO
en naviguant directement vers le fichier journal en utilisant des utilitaires du système Linux comme cat
ou grep
:
cat /var/lib/impala/logs/impalad.INFO
Ce fichier contient des journaux mixtes, y compris les messages du système, les statuts des services et les requêtes SQL exécutées sur la base de données.
Exemple : Journalisation des Requêtes SQL
Vous pouvez observer le comportement de la journalisation en action en exécutant quelques requêtes SQL de base. Commencez par entrer dans le shell Impala et en exécutant quelques requêtes simples :
CREATE DATABASE test;
CREATE TABLE test.sample (id INT);
INSERT INTO test.sample VALUES (1), (2), (3);
SELECT * FROM test.sample;
Vérification des Journaux dans l’Interface Web
En ouvrant l’interface web, vous pouvez utiliser la fonction de recherche (par exemple, Ctrl+F
) pour trouver les requêtes enregistrées comme les requêtes effectuées sur la table test.sample

Vérification des Journaux via la Ligne de Commande
De même, vous pouvez filtrer les requêtes directement depuis le fichier journal avec des utilitaires système comme grep
. Voici un exemple de filtrage des requêtes sur la table ‘test.sample’ :
grep "test.sample" /var/lib/impala/logs/impalad.INFO

Comprendre les Détails des Journaux
Par défaut, Impala journalise tout au niveau de journalisation ALL
. Cela inclut :
- Événements système et messages de statut
- Détails des connexions et des sessions
- Exécutions de requêtes SQL
Niveaux de Journalisation
Impala prend en charge divers niveaux de journalisation (par exemple, INFO
, WARN
, ERROR
, ALL
), qui peuvent être configurés pour contrôler la verbosité des journaux. Au niveau ALL
, les journaux sont complets et incluent les requêtes SQL, mais les informations qu’ils fournissent restent basiques. Vous pouvez en savoir plus sur la journalisation système et les niveaux de journalisation en consultant la documentation officielle sur ce sujet.
Pertinence pour l’Audit
Les journaux par défaut sont utiles pour :
- Tracer l’exécution des requêtes pour le débogage ou le dépannage.
- Surveiller les connexions et les activités des sessions.
- Observer le comportement général du système.
Journaux d’Audit Séparés dans Impala
Il est également utile de mentionner qu’Impala fournit une fonctionnalité pour générer des journaux d’audit séparés spécialement conçus pour un suivi détaillé et des objectifs de conformité. Ces journaux d’audit peuvent être activés en démarrant impalad
avec des indicateurs spécifiques. Pour des informations plus détaillées, vous pouvez consulter la documentation officielle d’Impala.
Informations Capturées dans les Journaux d’Audit
Ces journaux d’audit fournissent des traces plus détaillées des activités des utilisateurs, par rapport aux journaux du système. De plus, contrairement aux journaux du système, les journaux d’audit sont stockés au format JSON, ce qui les rend interrogeables à l’aide d’outils comme jq
pour une meilleure lisibilité des résultats.
jq '.[] | select(.sql_statement | test("test.sample"))' /var/lib/impala/audit/impala_audit_event_log_1.0*

Limites de l’Audit des Données pour Impala avec les Journaux par Défaut :
Bien que les journaux système et d’audit par défaut d’Impala puissent fournir des informations utiles, ils présentent certaines limites, les rendant moins viables et évolutifs comme solutions à long terme pour un audit et une surveillance complets. Ces limites incluent :
Absence de Support pour les Requêtes ou les Filtres Natives : Les journaux par défaut ne peuvent pas être interrogés ou filtrés en utilisant SQL ou des mécanismes de filtrage intégrés. Cette limitation nécessite le recours à des outils externes comme
jq
ou des utilitaires système pour la visualisation et l’analyse, ce qui peut compliquer les workflows et gêner l’intégration avec d’autres systèmes.Granularité Limitée : Le système de journalisation par défaut capture tous les événements de manière générale, sans possibilité de définir des règles d’audit spécifiques. Cela rend le suivi des activités spécifiques à chaque utilisateur ou la surveillance des changements de données sensibles moins efficace.
Surcharge de Stockage et de Performance : La journalisation continue à un niveau de détail élevé, en particulier dans des environnements à fort trafic, peut entraîner une utilisation significative du stockage et une dégradation des performances, nécessitant une gestion des ressources minutieuse et une rotation périodique des journaux.
DataSunrise : Audit des Données Amélioré pour Impala

Alors que la journalisation native d’Impala répond aux besoins de base en matière d’audit des données pour Impala, ses contraintes soulignent la nécessité de solutions d’audit spécialisées, en particulier dans les environnements d’entreprise de grande taille. DataSunrise aborde ces limitations en fournissant des capacités de surveillance et d’analyse complètes, offrant une interrogeabilité avancée, un contrôle granulaire et une gestion des ressources optimisée.
Avantages de DataSunrise pour l’Audit d’Impala
- Mise en Œuvre Facile : Des options de déploiement rapides et une interface intuitive signifient un temps de mise en valeur plus rapide par rapport à la configuration des journaux natifs. Les équipes peuvent commencer à surveiller les activités des bases de données avec un minimum de temps de configuration.

- Conformité Automatisée : DataSunrise simplifie les processus d’audit grâce à l’automatisation des tâches de rapport de conformité et de surveillance. Cette automatisation réduit considérablement les efforts manuels par rapport à l’analyse traditionnelle des journaux.

- Outils de Sécurité Avancés : Allant au-delà de la simple journalisation et de l’audit de base, DataSunrise offre des fonctionnalités sophistiquées, y compris des notifications instantanées, des politiques de sécurité hautement personnalisables, et une analyse des modèles pour les menaces de sécurité.

- Intégration Multi-plateforme : Avec un support s’étendant à plus de 40 systèmes de bases de données en plus d’Impala, DataSunrise permet une surveillance des activités de bases de données standardisée dans divers environnements de bases de données.