Inicio
Centro de Conocimiento
Introducción al Controlador JDBC de Athena para Consultas de Datos sin Interrupciones

Introducción al Controlador JDBC de Athena para Consultas de Datos sin Interrupciones

¿Eres un desarrollador Java que busca conectarse a Amazon Athena desde tus aplicaciones? El controlador JDBC de Athena facilita la consulta de datos en Amazon S3 utilizando SQL estándar.

Este artículo explicará el controlador JDBC de Athena. Mostrará cómo usarlo con código de ejemplo. También hablará sobre las características de seguridad que posee. Al final, tendrás una base sólida para usar Athena con Java.

¿Qué es el Controlador JDBC de Athena?

El controlador JDBC de Athena es un controlador de tipo 4. Las aplicaciones Java lo utilizan para conectarse a la fuente de datos de Athena. La API JDBC establece esta conexión. Convierte las llamadas a métodos JDBC en solicitudes HTTP que Athena puede interpretar.

El uso de la API JDBC para consultar Athena tiene varias ventajas:

Oculta los detalles de la comunicación HTTP subyacente
Permite utilizar el código JDBC y SQL de forma familiar para trabajar con Athena
Permite integrar Athena en cualquier aplicación o herramienta Java que soporte JDBC

AWS proporciona el controlador como un archivo JAR independiente. Para usarlo, simplemente incluye el JAR en el classpath de tu aplicación.

Conectándose a Athena

Para conectarte a Athena utilizando el controlador JDBC, necesitas construir una cadena de conexión JDBC con el siguiente formato:

jdbc:awsathena://AwsRegion=[Region];S3OutputLocation=[Output];[Property1]=[Value1];[Property2]=[Value2];...

Los componentes clave son:

La región AWS que aloja tu instancia de Athena.
S3OutputLocation – la ubicación en S3 donde Athena debe almacenar los resultados de las consultas
Propiedades adicionales opcionales para la configuración

Aquí hay un ejemplo de una URL JDBC que se conecta a Athena en la región us-west-2. El sistema guarda los resultados en un bucket S3 designado:

jdbc:awsathena://AwsRegion=us-west-2;S3OutputLocation=s3://my-athena-results/output;

Para establecer la conexión en el código Java, utiliza la clase DriverManager:

String url = "jdbc:awsathena://AwsRegion=us-west-2;S3OutputLocation=s3://my-athena-results/output";
Connection conn = DriverManager.getConnection(url);

Esto crea un objeto Connection que luego puedes utilizar para ejecutar consultas.

Autenticación en Athena

Para conectarte, el controlador JDBC necesita credenciales de AWS para autenticarse con Athena. Hay varias formas de proporcionar las credenciales:

Variables de entorno – Establece las variables de entorno AWS_ACCESS_KEY_ID y AWS_SECRET_ACCESS_KEY.
Propiedades del sistema Java – Establece las propiedades del sistema aws.accessKeyId y aws.secretKey.
Archivo de credenciales de AWS – Coloca la clave de acceso y el secreto en el archivo ~/.aws/credentials.
Perfil de instancia de AWS – Si se ejecuta en EC2, asigna un rol IAM a la instancia. El controlador recuperará automáticamente credenciales temporales.

El controlador JDBC busca las credenciales en ese orden. Deberías utilizar un perfil de instancia o el archivo de credenciales para evitar codificar claves sensibles de forma fija.

Consultas Básicas

Una vez que tengas la conexión, puedes ejecutar consultas SQL sobre ella. Utiliza el método createStatement para crear un objeto Statement, y luego llama a executeQuery con tu SQL:

Statement stmt = conn.createStatement();
String sql = "SELECT * FROM my_table LIMIT 10";
ResultSet rs = stmt.executeQuery(sql);

Esto envía la consulta a Athena, espera a que se complete y devuelve los resultados como un ResultSet. Luego, puedes iterar sobre las filas y acceder a los valores de las columnas:

while (rs.next()) {
    String col1 = rs.getString(1);
    int col2 = rs.getInt(2);
    // ...
}

Recuerda que Athena consulta datos almacenados en S3. Antes de realizar consultas, necesitas crear una tabla externa que mapee los datos de S3:

CREATE EXTERNAL TABLE my_table (
    col1 STRING,
    col2 INT
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
LOCATION 's3://my-data-bucket/input/';

Esto crea una tabla my_table con dos columnas respaldadas por un archivo CSV en S3. Con la tabla disponible, puedes consultarla a través de JDBC como se muestra arriba.

Consultas Parametrizadas

Para consultas que aceptan parámetros, utiliza un PreparedStatement en lugar de un Statement regular. Construye el SQL con marcadores de posición (?) y luego vincula valores a ellos:

String sql = "SELECT * FROM my_table WHERE col1 = ?";
PreparedStatement pstmt = conn.prepareStatement(sql);
pstmt.setString(1, "foo");
ResultSet rs = pstmt.executeQuery();

Esto vincula el valor “foo” al primer marcador de posición. Utilizar un PreparedStatement tiene algunos beneficios:

Evita la inyección SQL al enviar los parámetros de forma separada de la consulta.
Athena puede almacenar en caché y reutilizar el plan de consulta.
Puedes ejecutar la misma consulta múltiples veces con diferentes valores de parámetros.

Características de Seguridad

El controlador JDBC de Athena soporta varias características y configuraciones relacionadas con la seguridad:

Cifrado

Por defecto, el controlador se conecta a Athena utilizando HTTPS para el cifrado en tránsito. Todos los datos enviados entre la aplicación y Athena están cifrados usando TLS.

Control de Acceso

Athena respeta los permisos IAM asociados a las credenciales de AWS utilizadas por el controlador JDBC. Puedes restringir el acceso a datos específicos otorgando permisos SELECT en bases de datos y tablas concretas.

Por ejemplo, esta política permite consultar únicamente las tablas de la base de datos ‘my_database’:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Action": [
                "athena:StartQueryExecution",
                "athena:GetQueryExecution",
                "athena:GetQueryResults",
                "athena:StopQueryExecution"
            ],
            "Resource": [
                "arn:aws:athena:us-west-2:123456789012:workgroup/primary"
            ]
        },
        {
            "Effect": "Allow",
            "Action": [
                "glue:GetTable",
                "glue:GetPartitions",
                "glue:GetPartition"
            ],
            "Resource": [
                "arn:aws:glue:us-west-2:123456789012:catalog",
                "arn:aws:glue:us-west-2:123456789012:database/my_database",
                "arn:aws:glue:us-west-2:123456789012:table/my_database/*"
            ]
        }
    ]
}

Asocia esta política al usuario o rol IAM utilizado por la conexión JDBC para hacer cumplir el control de acceso.

Cifrado en S3

El sistema almacena los resultados de las consultas en la ubicación S3 especificada en la URL JDBC. Para proteger estos datos en reposo, puedes configurar el bucket S3 para utilizar cifrado.

Utiliza la configuración de cifrado predeterminado del bucket para cifrar automáticamente todos los objetos
Utiliza la encriptación del lado del cliente en tu aplicación para cifrar los datos antes de almacenarlos en S3

El controlador JDBC de Athena soporta de forma transparente la lectura y escritura en buckets S3 cifrados.

Conclusión

El controlador JDBC de Athena ayuda a las aplicaciones Java a ejecutar consultas SQL sobre datos en Amazon S3. Soporta una variedad de métodos de autenticación y características de seguridad para proteger los datos.

Para obtener más información, consulta la documentación oficial del controlador JDBC de Athena.

Acerca de DataSunrise

Si necesitas características adicionales de seguridad, monitoreo, auditoría y cumplimiento para Athena, considera DataSunrise Database Security. DataSunrise ofrece herramientas para controlar el enmascaramiento de datos, auditar consultas en tiempo real, monitorear y asegurar el cumplimiento de las normativas.

Para experimentar DataSunrise en vivo y obtener una licencia de prueba gratuita, contacta a nuestro equipo para programar una demostración en línea. Te mostraremos cómo DataSunrise puede mejorar la seguridad de Athena.