Software

Estrarre, trasformare e caricare: il processo di etl

È essenziale che in qualsiasi transazione, le organizzazioni coinvolte sono pienamente consapevoli di tutti i dati rilevanti per tale transazione, così che una decisione può essere arrivata a senza ambiguità, con assoluta trasparenza e firmata con reciproca soddisfazione. Nel mondo del cloud computing, il volume di dati memorizzati in formati multipli è mindboggling. L'esito naturale è che dati solo necessari, con i piloti periferici, dovrebbero essere sul rubinetto. Questo avvertimento implica che le organizzazioni sono in grado di archiviare dati in un formato specifico della società e possono accedervi in pochi secondi un'inequivocabile download dal suo magazzino di dati o database.

In gergo informatico, Estratto, trasformazione e caricamento (ETL) si riferisce a un processo di utilizzo di database, specialmente nel data warehouse che coinvolge:

Estrazione di dati da fonti esterne.

Trasformandolo per misura operativa ha bisogno al massimo livello di qualità.

Caricamento nella destinazione finale (archivio di dati operativi, mart o magazzino)

L'estrazione

Estrazione dei dati dai sistemi di origine interna ed esterna, strutturati o non strutturati diversi è la prima tappa di un processo ETL. Questo può essere abbastanza difficile, come solo i dati pertinenti a quel punto nel tempo ed estratti correttamente disciplinerà l'esito. Ai sistemi di origine, utilizzando connessioni in-House, Accodamento, connettività di database aperto (ODBC) o Object Linking and Embedding, middleware Database (OLE DB), viene inviata una richiesta semplice. La maggior parte dei repository di dati raccogliere dati da varie fonti. Ogni bit di dati possono essere in formato di origine, che potrebbe essere in strutture di database relazionali e non relazionali. L'obiettivo della fase di estrazione è quello di convertire tutti i dati in un formato specifico per l'elaborazione di trasformazione. Alcuni strumenti ETL possono farlo automaticamente. I dati viene poi trasferiti in quello che è chiamato l'Area di gestione temporanea.

La trasformazione

Una volta che i dati sono disponibili nell'Area di gestione temporanea, è tutto su un'unica piattaforma e un database. Diventa facile unire tabelle, filtra e ordina i dati utilizzando attributi specifici. Un insieme di regole o funzioni vengono applicate ai dati estratti dalla fonte per ricavare i dati per il caricamento nella destinazione finale. Di solito, qualche trasformazione può essere richiesto per incontrare il business e le esigenze tecniche del database di destinazione, come tradurre i valori codificati, ordinamento, applicare la convalida dei dati semplici o complessi, ecc.

Il caricamento

I dati vengono caricati nell'estremità target, solitamente il magazzino, come fatto / tabelle delle dimensioni. Da lì i dati possono essere aggregati e caricati nel Datamart o cubetti come ritenuto appropriato. Poiché i requisiti tendono ad essere specifici di organizzazione, questo processo potrebbe variare notevolmente.

Il processo ETL è anche definito come processo di integrazione dei dati. ETL gestisce processi di migrazione dei dati, gestione dati, pulizia dei dati, sincronizzazione dati e consolidamento di dati.