Главная | Библиотека | Глоссарий | Предобработка данных, Data Preprocessing |
Глоссарий
Предобработка данных
Data Preprocessing
Процедура подготовки данных к анализу в процессе которой они приводятся в соответствие с требованиями, определяемыми спецификой решаемой задачи.
Предобработка данных включает два направления: очистку и оптимизацию. Очистка производится с целью исключения факторов, снижающих качество данных и мешающих работе аналитических алгоритмов. Она включает обработку дубликатов, противоречий и фиктивных значений, восстановление и заполнение пропусков, сглаживание и очистку данных от шума, подавление и редактирование аномальных значений. Кроме этого, в процессе очистки восстанавливаются нарушения структуры, полноты и целостности данных, преобразуются некорректные форматы.
Оптимизация данных, как элемент предобработки, включает снижение размерности входных данных, выявление и исключение незначащих признаков. Основное отличие оптимизации от очистки в том, что факторы, устраняемые в процессе очистки, существенно снижают точность решения задачи или делают работу аналитических алгоритмов невозможной. Проблемы, решаемые при оптимизации, адоптируют данные к конкретной задаче и повышают эффективность их анализа.
Предобработка данных является важнейшим этапом аналитического процесса, и ее элементы выполняются на всех его шагах, начиная от OLTP-систем и заканчивая аналитическим приложением.

