Il est essentiel que dans toute transaction, les organisations concernées soient pleinement informées de toutes les données pertinentes à cette transaction afin qu'une décision peut être arrivée sans ambiguïté, avec une transparence absolue et signée avec satisfaction mutuelle. Dans un monde du cloud computing, le volume des données stockées dans de multiples formats est ahurissante. L'aboutissement naturel est que données seulement requises, avec des pilotes de périphériques, soit sur le robinet. Cette mise en garde implique que les organisations sont capables de stocker des données dans un format spécifique à la société et peuvent y accéder en quelques secondes dans un téléchargement sans ambiguïté de son entrepôt de données ou de base de données.
En jargon informatique, extraction, transformation et chargement (ETL) se réfère à un processus dans l'utilisation de base de données, en particulier dans les entrepôts de données qui implique :
Extraction des données de sources externes.
Transformer pour l'adapter opérationnel a besoin du plus haut niveau de qualité.
Chargeant dans la cible de fin (données opérationnelles, mart ou magasin)
L'Extraction
Extraction des données de systèmes différents de source interne et externe, structurées ou non structurées est la première étape d'un processus ETL. Cela peut être assez difficile, car seules les données pertinentes à ce point dans le temps et extraites correctement régira le résultat. Une simple demande est envoyée pour les systèmes source, à l'aide de connexions internes, message queuing, (ODBC) open database connectivity ou Object Linking and Embedding, middleware de base de données (OLE DB). La plupart des référentiels de données rassembler des données provenant de diverses sources. Chaque bit de données peut être au format de sa source, ce qui pourrait être dans les structures de base de données relationnelles et non relationnelles. L'objectif de la phase d'extraction consiste à convertir toutes les données dans un format spécifique pour le traitement de la transformation. Certains outils ETL peuvent faire automatiquement. Les données sont alors transférées dans ce qu'on appelle la zone de transit.
La Transformation
Une fois que les données sont disponibles dans la zone de transit, c'est tout sur une plate-forme et une base de données. Il devient facile de fusionner des tables, de filtrer et de trier les données à l'aide d'attributs spécifiques. Un ensemble de règles ou de fonctions sont appliquées aux données extraites de la source pour calculer les données de chargement dans la cible de la fin. Généralement, une transformation peut être requise pour satisfaire les besoins professionnels et techniques de la base de données cible, comme des valeurs codées traduction, tri, appliquer la validation des données simples ou complexes, etc..
Le chargement
Les données sont chargées dans l'extrémité cible, généralement de l'entrepôt, comme fait / dimension des tables. De là les données peuvent être agrégées et chargées dans les datamarts ou cubes comme feutre appropriée. Puisque les exigences tendent à être spécifiques d'organisation, ce processus peut varier largement.
Le processus ETL est aussi dénommé le processus d'intégration de données. ETL gère les processus comme la migration de données, data management, nettoyage des données, la synchronisation des données et consolidation de données.