Software

Uitpakken, transformeren en laden: het etl-proces

Het is essentieel dat in elke transactie, de organisaties die betrokken zijn zich volledig bewust van alle gegevens met betrekking tot die transactie zodat een besluit kan worden bereikt zonder dubbelzinnigheid, met volledige transparantie en ondertekend met wederzijdse tevredenheid. In de huidige wereld van cloud computing, is het volume van gegevens die zijn opgeslagen in meerdere indelingen mindboggling. Het natuurlijke resultaat is dat alleen vereiste gegevens, met perifere renners, van de tap moeten. Deze waarschuwing betekent dat organisaties geschikt zijn voor het opslaan van gegevens in een bedrijfsspecifieke formaat en in seconden in een ondubbelzinnige downloaden vanuit de database of de data magazijn openen kunnen.

In Computerjargon verwijst uitpakken, transformeren en laden (ETL) naar een proces in databasegebruik, met name in datawarehousing die inhoudt dat:

Extraheren van gegevens uit externe bronnen.

Transformeren aan operationele moet op het hoogste kwaliteitsniveau.

Laden in het einddoel (operationele gegevensopslag, mart of magazijn)

De extractie

Extraheren van gegevens uit verschillende interne en externe, gestructureerde en/of ongestructureerde source systemen is de eerste fase van een ETL-proces. Dit kan heel lastig zijn, worden als alleen de gegevens op dat moment in de tijd relevante en uitgepakte correct voor het resultaat gelden zullen. Een eenvoudig verzoek is verzonden naar de bronsystemen, met behulp van interne verbindingen, message Queuing-, ODBC open database connectivity (ODBC) of Object Linking and Embedding, Database (OLE-DB) middleware. De meeste gegevens repositories verzamelen gegevens uit verschillende bronnen. Elke data-bit kan worden in de bron-indeling, die zou kunnen in relationele en niet-relationele databasestructuren worden. Het doel van de extractie-fase is alle gegevens omzetten in een specifieke indeling voor transformatie verwerking. Sommige ETL-tools kunnen dit automatisch doen. De gegevens wordt vervolgens verplaatst naar wat de Staging-ruimte heet.

De transformatie

Zodra de gegevens beschikbaar in de Staging-ruimte zijn, is het allemaal op één platform en één database. Het wordt gemakkelijk om het samenvoegen van tabellen, filteren en sorteren de gegevens met behulp van specifieke kenmerken. Een set van regels of functies worden toegepast op de uitgepakte gegevens uit de bron voor het afleiden van de gegevens voor het laden in het einddoel. Meestal, kan sommige transformatie worden verlangd om te voldoen aan de zakelijke en technische behoeften van de doeldatabase, zoals vertalen gecodeerde waarden, sorteren, toepassing van eenvoudige of complexe gegevensvalidatie, enz.

Het laden

Gegevens in het einde is geladen target, meestal het magazijn, als feit / dimensie van tabellen. Vanaf daar kan de gegevens worden samengevoegd en als vilt passende in datamarts of blokjes geladen. Aangezien de eisen neigen om specifieke organisatie, kan dit proces lopen sterk uiteen.

Het ETL-proces is ook gegevens integratieproces genoemd. ETL beheert processen zoals gegevensmigratie, gegevensbeheer, Gegevensreinigen, data synchronisatie en gegevensconsolidatie.