Es ist wichtig, dass in jeder Transaktion die Unternehmen, die sich alle für die Transaktion relevanten Daten bewusst, sind damit eine Entscheidung ohne Zweideutigkeit, mit absoluter Transparenz erreichten und mit gegenseitigen Zufriedenheit unterzeichnet werden kann. In unserer heutigen Welt des Cloud computing ist das Volumen der Daten in mehreren Formaten Einrahmung. Das natürliche Ergebnis ist, dass nur notwendige Daten mit peripheren Fahrer vom Fass sein sollte. Diese Einschränkung bedeutet, dass Organisationen sind in der Lage, Daten in einem firmenspezifischen Format Speichern und darauf in Sekunden in einen eindeutigen Download aus seiner Datenbank oder Data-Warehouse zugreifen können.
Im Computer-Jargon extrahieren, transformieren und laden (ETL) bezieht sich auf einen Prozess in der Datenbanknutzung, vor allem in Data-warehousing, die beinhaltet:
Extrahieren von Daten aus externen Quellen.
Umwandlung zu operativen passen muss auf höchstem Qualitätsniveau.
Laden es in das Ende als Ziel (operative Datenspeicher, Mart oder Lager)
Die Extraktion
Extrahieren von Daten aus verschiedenen internen und externen, strukturierte bzw. unstrukturierte Quellsystemen ist die erste Stufe eines ETL-Prozesses. Dies kann ziemlich schwierig sein, als nur Daten zu diesem Zeitpunkt relevanten und extrahiert das Ergebnis korrekt geregelt ist. Eine einfache Anfrage wird an den Quellsystemen, über interne Verbindungen, Message queuing, open Database Connectivity (ODBC) oder Object Linking and Embedding, (OLE DB) Datenbank-Middleware gesendet. Die meisten Daten-Repositories sammeln Daten aus verschiedenen Quellen. Jedes Datenbit in seiner Quellformat, möglicherweise die in relationale und nicht relationale Datenbankstrukturen sein könnte. Die Extraktion-Phase soll alle Daten in einem bestimmten Format für Transformationsverarbeitung zu konvertieren. Einige ETL-Tools können dies automatisch ausgeführt. Die Daten werden dann in Staging-Bereich sogenannten verschoben.
Die Transformation
Sobald die Daten in den Stagingbereich verfügbar ist, ist es alles auf einer Plattform und einer Datenbank. Es wird leicht zu Tabellen, Filtern und Sortieren der Daten mit bestimmten Attributen vereinen. Eine Reihe von Regeln oder Funktionen gelten für die extrahierten Daten aus der Datenquelle, die Daten zum Laden in das Ende Ziel abzuleiten. In der Regel möglicherweise einige Transformation benötigt, um die geschäftlichen und technischen Anforderungen der Zieldatenbank, wie übersetzen codierte Werte, sortieren, anwenden einfacher oder komplexer Datenüberprüfung, etc. zu erfüllen.
Das Laden
Daten werden geladen, in das Ende als Ziel, in der Regel das Lager, als Tatsache / Dimensionstabellen. Dort können die Daten aggregiert und in Datamart oder Cubes als Filz entsprechenden geladen werden. Da die Anforderungen neigen dazu, bestimmte Organisation sein, könnte dieser Prozess stark variieren.
Der ETL-Prozess ist auch als Daten-Integration-Prozess bezeichnet. ETL verwaltet Prozesse wie Datenmigration, Datenmanagement, Datenbereinigung, Datensynchronisation und Datenkonsolidierung.