Глоссарий

Предобработка данных

Data Preprocessing

Процедура подготовки данных к анализу в процессе которой они приводятся в соответствие с требованиями, определяемыми спецификой решаемой задачи.

Предобработка данных включает два направления: очистку и оптимизацию. Очистка производится с целью исключения факторов, снижающих качество данных и мешающих работе аналитических алгоритмов. Она включает обработку дубликатов, противоречий и фиктивных значений, восстановление и заполнение пропусков, сглаживание и очистку данных от шума, подавление и редактирование аномальных значений. Кроме этого, в процессе очистки восстанавливаются нарушения структуры, полноты и целостности данных, преобразуются некорректные форматы.

Оптимизация данных, как элемент предобработки, включает снижение размерности входных данных, выявление и исключение незначащих признаков. Основное отличие оптимизации от очистки в том, что факторы, устраняемые в процессе очистки, существенно снижают точность решения задачи или делают работу аналитических алгоритмов невозможной. Проблемы, решаемые при оптимизации, адоптируют данные к конкретной задаче и повышают эффективность их анализа.

Предобработка данных является важнейшим этапом аналитического процесса, и ее элементы выполняются на всех его шагах, начиная от OLTP-систем и заканчивая аналитическим приложением.

Подпишитесь!

Микроблог BaseGroup в Twitter
Блог BaseGroup в Live Journal (ЖЖ)
Почтовая рассылка BaseGroup на Subscribe.ru

Искать термин

А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Э Ю Я

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

Искать по слову