Программное обеспечение

Извлечения, преобразования и загрузки: процесс etl

Важно, что в любой сделке, участвующих организаций в полной мере осознаем все данные, относящиеся к этой транзакции так, что решение может прибыл в без неоднозначности, с абсолютной транспарентности и подписал с взаимное удовлетворение. В сегодняшнем мире облачных вычислений объем данных, хранящихся в нескольких форматах-mindboggling. Естественный результат, что только необходимых данных с периферийных всадников, должно быть на кране. Это предостережение означает, что организации способны хранение данных в формате конкретной компании и доступ к ней в секундах в недвусмысленной скачать из своей базы данных или хранилища данных.

В компьютерной жаргон извлечения, преобразования и загрузки (ETL) относится к процессу, в базе данных использования, особенно в хранилища данных, что предполагает:

Извлечение данных из внешних источников.

Превращая его с учетом оперативных потребностей на самом высоком уровне качества.

Загрузка в конце цели (хранилище оперативных данных, март или склад)

Добыча

Извлечение данных из систем различных внутренних и внешних, структурированных и неструктурированных источников является первым этапом процесса ETL. Это может быть довольно сложно, как только данные, соответствующие на тот момент во времени и извлеченные правильно будет регулировать результаты. Простой запрос отправляется исходных систем, использование внутренних соединений, сообщений очереди, подключение к открытой базе данных (ODBC) или связывание и внедрение объектов, базы данных (OLE-DB) промежуточного по. Большинство хранилищ данных сопоставления данных из различных источников. Каждый бит данных может быть в его исходный формат, который может быть в структуры реляционных и нереляционных баз данных. Цель этапа добычи является конвертировать все данные в определенном формате для обработки преобразования. Некоторые инструменты ETL может делать это автоматически. Данные затем переехала в то, что называется промежуточной области.

Преобразование

После того как данные доступны в промежуточной области, это все на одной платформе и одна база данных. Она становится легко объединить таблицы, фильтрация и сортировка данных с помощью атрибутов. Набор правил или функции применяются к извлеченные данные из источника для получения данных для загрузки в конце целевой. Как правило для удовлетворения технических потребностей целевой базы данных, как перевод закодированных значений, сортировка, применение проверки простых или сложных данных, и т.д. и бизнес могут потребоваться некоторые преобразования.

Загрузка

Данные загружаются в конце цель, обычно склад, как факт / измерение таблицы. Оттуда можно агрегировать и загружается в кубов или datamarts как чувствовал себя соответствующие данные. Поскольку требования, как правило, организация конкретных, этот процесс может варьироваться широко.

Процесс ETL также называют процесс интеграции данных. ETL управляет процессами как миграции данных, управления данными, очистку данных, синхронизации данных и консолидации данных.