Главная | Библиотека | Глоссарий | Процесс ETL, ETL-процесс, ETL process |
Глоссарий
Процесс ETL
ETL process
Синонимы: ETL-процесс, ETL
Комплекс методов, реализующих процесс переноса исходных данных из различных источников в аналитическое приложение или поддерживающее его хранилище данных. Является составной частью этапа консолидации данных.
ETL-приложения извлекают информацию из одного или нескольких источников, преобразуют ее в формат, поддерживаемый системой хранения и обработки, которая является получателем данных, а затем загружают в нее преобразованную информацию.
Изначально ETL-системы использовались для переноса информации из более ранних версий различных информационных систем в более новые. В настоящее время они находят все более широкое применение именно для консолидации данных с целью их дальнейшего анализа. Очевидно, что поскольку ХД могут строиться на основе различных моделей данных (многомерных, реляционных, гибридных), то и процесс ETL должен разрабатываться с учетом всех особенностей используемой в ХД модели. Кроме этого, желательно, чтобы ETL-система была универсальной, т.е. могла извлекать и переносить данные как можно большего числа типов и форматов.
Независимо от особенностей построения и функционирования ETL-система должна обеспечивать выполнение трех основных этапов процесса переноса данных (ETL-процесса):
- Извлечение данных – на этом шаге данные извлекаются из одного или нескольких источников и подготавливаются к этапу преобразования. При этом следует отметить, что для корректного представления данных после их загрузки в ХД из источников должны быть извлечены не только сами данные, но и информация, описывающая их структуру, из которой будут сформированы метаданные для хранилища.
- Преобразование данных – производится преобразование форматов и кодировки данных, а также их интегрирование и очистка;
- Загрузка данных – запись преобразованных, интегрированных и очищенных данных в соответствующую систему хранения.
Все операции над данными в процессе ETL производятся в так называемой промежуточной области, где для этого создаются временные таблицы.

