Главная | Библиотека | Глоссарий | Очистка данных, Data Cleaning |
Глоссарий
Очистка данных
Data Cleaning
Процесс очистки данных от различных факторов, мешающих их корректному анализу: аномальных и фиктивных значений, пропусков, дубликатов и противоречий, шумов и т.д. Очистка данных является важнейшим этапом аналитического процесса и от того, насколько эффективно она произведена, во многом зависит корректность результатов анализа и точность построенных аналитических моделей.
Очистка данных производится как перед их загрузкой в хранилище (т.е. в процессе ETL), так и в аналитическом приложении непосредственно перед анализом. При этом основная очистка производится в аналитическом приложении, поскольку некоторые проблемы (например, дубликаты и противоречия) невозможно выявить до завершения консолидации данных. Кроме этого, требования к качеству данных могут быть различными для различных методов и алгоритмов анализа. Поэтому большинство аналитических приложений содержит развитый комплекс средств очистки данных.

