Types de données Redshift

Dans le monde de l’entreposage de données et de l’analyse, Amazon Redshift s’est imposé comme une solution puissante et évolutive. En tant que base de données orientée colonne, Redshift offre une gamme de types de données pour stocker et traiter efficacement de grands volumes de données structurées. Comprendre les types de données Redshift est essentiel pour optimiser les performances des requêtes et garantir l’intégrité des données. Dans cet article, nous explorerons les bases des types de données Redshift, les comparerons avec des exemples SQL et discuterons du concept de masquage de ces types de données.
Qu’est-ce que Redshift ?
Amazon Redshift est un service d’entreposage de données à l’échelle du pétaoctet, entièrement géré, offert par Amazon Web Services (AWS). Il permet aux entreprises de stocker et d’analyser d’énormes quantités de données à l’aide d’outils basés sur SQL et d’applications de BI standard. Son architecture en grappe, constituée de nœuds, qui répartit les données et le traitement sur plusieurs machines, garantit des performances élevées et une grande évolutivité.
Types de données Redshift
Redshift prend en charge une variété de types de données pour s’adapter aux différents types d’informations. Vous pouvez classer ces types en plusieurs catégories.
1. Types numériques :
- SMALLINT : entier signé sur 2 octets
- INTEGER : entier signé sur 4 octets
- BIGINT : entier signé sur 8 octets
- DECIMAL : nombre à virgule fixe avec une précision spécifiée par l’utilisateur
- REAL : nombre à virgule flottante simple précision
- DOUBLE PRECISION : nombre à virgule flottante double précision
2. Types de caractères :
- CHAR : chaîne de caractères de longueur fixe
- VARCHAR : chaîne de caractères de longueur variable
- NVARCHAR : chaîne de caractères Unicode de longueur variable
3. Types de date/heure :
- DATE : date calendaire (année, mois, jour)
- TIMESTAMP : date et heure (sans fuseau horaire)
- TIMESTAMPTZ : date et heure (avec fuseau horaire)
4. Type booléen :
- BOOL : booléen logique (vrai/faux)
5. Autres types :
- GEOMETRY : type de données spatiales pour représenter des objets géométriques
- HLLSKETCH : esquisse HyperLogLog pour un comptage approximatif des valeurs distinctes
- SUPER : type de données semi-structurées pour stocker des données de type JSON
Types de données Redshift vs. Exemples SQL
Comparons certains types de données Redshift avec leurs équivalents SQL à l’aide d’exemples de code.
Exemple 1 : Création d’une table avec divers types de données
CREATE TABLE employees ( id INTEGER, name VARCHAR(100), age SMALLINT, salary DECIMAL(10, 2), hire_date DATE );
Dans cet exemple, nous créons une table nommée “employees” avec des colonnes de différents types de données. La colonne “id” est de type INTEGER, “name” est de type VARCHAR(100), “age” est de type SMALLINT, “salary” est de type DECIMAL(10, 2) et “hire_date” est de type DATE.
Exemple 2 : Insertion de données dans la table
INSERT INTO employees VALUES (1, 'John Doe', 35, 5000.00, '2022-01-01'), (2, 'Jane Smith', 28, 4500.50, '2023-03-15');
Ici, nous insérons deux lignes de données dans la table “employees”. Les valeurs correspondent aux types de données définis pour chaque colonne.
Masquage des types de données Redshift
Le masquage des données est une technique utilisée pour protéger les informations sensibles en les remplaçant par des données fictives mais réalistes. Redshift prend en charge diverses fonctions de masquage pour obfusquer les données selon des règles ou des motifs spécifiques.
Exemple 3 : Masquage des données sensibles à l’aide des fonctions de masquage de Redshift
SELECT id, name, age, firstname_mask(name) AS masked_name, mask_number(salary, 'N', 2) AS masked_salary, mask_date(hire_date, 'D') AS masked_hire_date FROM employees;
Dans cet exemple, nous récupérons des données de la table “employees” tout en appliquant des fonctions de masquage aux colonnes sensibles. La fonction firstname_mask masque le prénom dans la colonne “name”. La fonction mask_number masque la colonne “salary” en remplaçant les 2 derniers chiffres par ‘N’. La fonction mask_date masque la colonne “hire_date” en remplaçant le composant jour par ‘D’.
Le résultat ressemblerait à ceci :
id | name | age | masked_name | masked_salary | masked_hire_date ---+------------+-----+-------------+---------------+------------------ 1 | John Doe | 35 | J*** D** | 5000.NN | 2022-01-DD 2 | Jane Smith | 28 | J*** S**** | 4500.NN | 2023-03-DD
Comme vous pouvez le constater, les informations sensibles dans les colonnes “name”, “salary” et “hire_date” sont masquées tout en préservant le format et le type de données.
Conclusion
Comprendre les types de données Redshift est essentiel pour une gestion efficace des données et l’optimisation des requêtes dans Amazon Redshift. En utilisant les types de données appropriés et les techniques de masquage, vous pouvez garantir l’intégrité des données, protéger les informations sensibles et optimiser les performances des requêtes. La prise en charge par Redshift d’un large éventail de types de données et de fonctions de masquage en fait une solution d’entreposage de données polyvalente et sécurisée.
DataSunrise offre des outils exceptionnels et flexibles pour la sécurité, les règles d’audit, le masquage et la conformité dans Redshift et d’autres bases de données. Nos solutions fournissent une protection complète des données et aident les organisations à répondre aux exigences réglementaires. Nous vous invitons à visiter l’équipe de DataSunrise pour une démo en ligne afin de découvrir comment nos outils peuvent améliorer la sécurité de vos données et vos efforts de conformité.
