Det er viktig at i en transaksjon, organisasjonene er fullt klar over alle data som er relevante for transaksjonen slik at en avgjørelse kan ankom uten tvetydighet, med absolutt åpenhet og signert med gjensidig tilfredshet. I dagens verden av cloud computing, er volumet av data lagret i flere formater mindboggling. Det naturlige resultatet er at bare nødvendige data, med eksterne ryttere, skal på trykk. Denne innvendingen innebærer at organisasjoner kan lagre dataene i et firmaspesifikke format og har tilgang til den på sekunder i en entydig nedlasting fra sin database eller data lager.
I datamaskinen sjargong refererer ekstrakt, transformering og belastning (ETL) til en prosess i databasen bruk, spesielt i datavarehus som innebærer:
Trekker ut data fra eksterne kilder.
Transformere den passer operative behov på det høyeste kvalitetsnivået.
Legge det i slutten målet (operative datalageret, mart eller lager)
Utvinning
Trekker ut data fra forskjellige interne og eksterne, og/strukturert eller ustrukturert kilde systemer er første trinn i en ETL prosess. Dette kan være ganske vanskelig, som bare data relevant på dette punktet i tid og utdraget riktig vil styre utfallet. En enkel forespørsel sendes til kilde systemer, bruker interne tilkoblinger, meldingskøordning, open database connectivity (ODBC) eller Object Linking og Embedding, Database (OLE-DB) mellomvare. De fleste datalagre samle data fra ulike kilder. Alle data bits kan ha sitt utspring format, som kan være i Relasjons-og ikke-relasjonelle strukturer. Målet med utvinning fase er å konvertere alle data i et bestemt format for transformasjon behandling. Noen ETL-verktøy kan gjøre dette automatisk. Dataene flyttes deretter til det som kalles klargjøringsområdet.
Transformasjonen
Når dataene er tilgjengelige i klargjøringsområdet, er det på én plattform og en database. Det blir lett å flette tabeller, filtrere og sortere dataene ved hjelp av bestemte attributter. Et sett med regler eller funksjoner brukes hentet data fra kilden å utlede datatypen for lasting i slutten målet. Vanligvis kan noen forandring være nødvendig å møte forretnings- og tekniske behovene til måldatabasen, som oversette kodede verdier, sortering, bruke enkle eller komplekse datavalidering, etc.
Lasting
Data er lastet inn slutten målet, vanligvis lageret, som fakta / dimensjon tabeller. Derfra kan dataene samlet og lastet inn i datamarts eller kuber som føltes riktig. Siden kravene har tendens til være organisasjon bestemt, kan denne prosessen varierer mye.
ETL prosessen er også referert til som dataintegrasjon prosess. ETL administrerer prosesser som dataoverføring, databehandling, datarensing, datasynkronisering og datakonsolidering.