Software

Extraer, transformar y cargar: el proceso etl

Es esencial que en cualquier transacción, las organizaciones involucradas son plenamente conscientes de todos los datos relevantes para la transacción para que una decisión puede ser llegó a sin ambigüedad, con absoluta transparencia y firmó con satisfacción mutua. En el mundo de la computación en nube, el volumen de datos almacenados en varios formatos es abrumador. El resultado natural es que datos sólo requeridos, con jinetes de periféricos, deben ser el grifo. Esta advertencia implica que las organizaciones son capaces de almacenar datos en un formato específico de la empresa y pueden acceder a él en segundos en una descarga sin ambigüedades de su almacén de datos o de base de datos.

En la jerga informática, extracto, transformación y carga (ETL) se refiere a un proceso en el uso de bases de datos, especialmente en almacenamiento de datos que incluye:

Extracción de datos de fuentes externas.

Transformando para que quepa operacional necesita al más alto nivel de calidad.

Cargándolos en el objetivo final (almacén de datos operacionales, mart o almacén)

La extracción

Extracción de datos desde sistemas de origen interno y externo, estructurados o no estructurados diferentes es la primera etapa de un proceso ETL. Esto puede ser muy complicado, pues solamente los datos pertinentes en ese momento en el tiempo y extraídos correctamente, gobernará el resultado. Una simple petición se envía a los sistemas de fuente, usando conexiones internas, mensaje de cola, conectividad abierta de bases de datos (ODBC) u objeto vinculación e incrustación, middleware de base de datos (OLE-DB). La mayoría de los repositorios de datos recopilar datos de diversas fuentes. Cada bit de datos puede ser en formato de su fuente, que podría estar en las estructuras de base de datos relacionales y no relacionales. El objetivo de la fase de extracción es convertir todos los datos en un formato específico para el proceso de transformación. Algunas herramientas ETL pueden hacerlo automáticamente. Los datos se mueve entonces en lo que se llama la zona.

La transformación

Una vez que los datos están disponibles en la zona, es todo en una sola plataforma y una base de datos. Resulta fácil de combinar tablas, filtrar y ordenar los datos utilizando atributos específicos. Un conjunto de reglas o funciones se aplican a los datos extraídos de la fuente para obtener los datos para la carga en el destino final. Generalmente, una transformación puede ser necesario para satisfacer las necesidades técnicas de la base de datos de destino, como traducir valores codificados, clasificación, aplicación de validación de datos simples o complejas, etc. y negocios.

La carga

Datos se cargan en el extremo de destino, generalmente el almacén, como un hecho / dimensión mesas. Desde allí los datos pueden ser agregados y cargados en datamarts o cubos como fieltro apropiada. Puesto que los requisitos tienden a ser específicas de la organización, este proceso puede variar ampliamente.

El proceso ETL también se denomina el proceso de integración de datos. ETL administra los procesos de migración de datos, gestión de datos, limpieza de datos, sincronización de datos y consolidación de datos.