Очистка данных

Данные, используемые для бизнес-анализа, чаще всего плохого качества. В них содержится  много ошибок: дублирование, противоречия, пропуски, аномалии и множество других проблем. Исключить их полностью невозможно: данные нужно очищать. Для улучшения качества исходной информации приходится использовать все возможные способы как организационные, так и программные.

Плохое качество данных является одной из самых больших проблем при построении аналитических решений, т.к. на основе некорректной информации делаются неверные выводы. Даже самые совершенные методы анализа не помогают, необходимо использовать специальные механизмы очистки. С применением Deductor решаются задачи очистки данных, для этого в платформу включены соответствующие инструменты:

  • Обнаружение ошибок. В Deductor встроены алгоритмы для обнаружения различных типов ошибок: пропусков в упорядоченных и неупорядоченных данных, выявление аномальных отклонений, поиск дубликатов и противоречивых сведений, удаление шумов, различные способы фильтрации. Подготовив сценарий обнаружения ошибок однажды, можно автоматически применять его для вновь поступающих данных.
  •  Исправление ошибок. Deductor позволяет не просто обнаружить ошибки, но и исправить их, например, заполнить пропуски или отредактировать аномальные значения. Для исправления ошибок можно использовать различные алгоритмы определения корректного значения на основе статистики или сведений из любого стороннего источника.
  • Дедубликация данных. Практически в любой компании возникает проблема дублирования данных, когда один и тот же объект (компания, продукт, физическое лицо) внесен в справочник под различными названиями. Для корректной обработки таких данных необходимо провести операцию дедубликации – объединить сведения по одинаковым объектам, причем нужно учесть, что в названии могут быть опечатки, переставленные слова и прочие проблемы, не позволяющие проводить дедубликацию на основе полного совпадения. Deductor дает возможность решить эту задачу, найти совпадающие и похожие названия, оценить степень схожести.
  • Интеграция. Встроенные в Deductor инструменты интеграции позволяют после выполнения сценариев очистки загрузить корректные данные в различные системы, протоколировать ход выполнения действий, оповещать в случае обнаружения ошибок.

Очистка данных - одна из наиболее актуальных задач анализа. На ее выполнение тратится большая часть времени при создании решений. Это необходимый этап работ в любом проекте. Deductor включает все требуемое для решения задачи очистки данных, позволяя большую часть операций осуществлять в автоматическом режиме.