Главная | Библиотека | Очистка и предобработка данных |
Очистка и предобработка данных
Очистка персональных данных, часть 1
Большинство компаний собирают персональную информацию о своих клиентах с целью ее дальнейшего анализа и выявления скрытых закономерностей. Полученная база данных содержит ошибки (опечатки, пропуски, некорректные значения...), которые мешают дальнейшей её обработке. Существует ряд методов, позволяющих обнаружить и очистить "загрязненные" данные. В статье рассматриваются наиболее простые из них.
Очистка персональных данных, часть 2
В статье описаны речь методы очистки персональных данных, основанные на применении математической статистики. Они позволяют выявлять пропуски, аномалии, опечатки и прочее. По имеющимся данным можно рассчитать наиболее вероятные значения для замены пропущенной или ошибочной информации.
Очистка и разбор текста
Описан подход к решению задачи очистки и разбора текстов. Методика предназначена для работы с частично структурированными данными, такими как прайс-листы, описания деталей/конструкций и прочее. Способ заключается в разбиении информации, представленную в виде произвольного текста, на составные части, например, из описания детали выделить название, изготовителя, ГОСТ, различные характеристики.
Разбор адреса на составляющие
Большое количество сведений о клиентах, имеющееся в базах данных, хранятся в неудобном для аналитической обработки виде, например, адресная информация. Можно ли и нужно ли ее применять для анализа? Да, нужно использовать обязательно. Но без предварительной обработки не получится в виду того, что общепринятого формата записи не существует. Поэтому необходимо его разбить на составляющие.
Фильтрация данных в системах анализа и прогноза
Необходимость в фильтрации данных возникает каждый раз, когда нужно отделить передаваемое сообщение от искажающего его шума. Цель процесса фильтрации данных - наилучшее восстановление первоначального сигнала на фоне помехи, или определение наличия полезного сигнала, или разрешение (различение) нескольких сигналов, присутствующих во входной последовательности.
Основы теории вейвлет-преобразования
В статье даны основы теории вейвлет-преобразования, дается неформальное определение вейвлета, рассмотрены области применения вейвлет-анализа.
Приложения вейвлет-анализа
В статье рассматриваются самые актуальные вопросы применения вейвлетов в наиболее общих задачах, связанных с обработкой информации, таких как очистка сигнала от помех, сжатие данных, выявление кратковременных и глобальных закономерностей, спектральный анализ составляющих сигнала.
Непрерывное вейвлет-преобразование в анализе бизнес-информации
В статье предлагается метод анализа бизнес-данных, позволяющий представить аналитическую информацию в наглядном, удобном для изучения виде и сделать очевидными скрытые особенности бизнес-процесса. Благодаря наглядности представления информации в виде карты коэффициентов вейвлет-преобразования, часто достаточно беглого взгляда, чтобы увидеть влияние наиболее значимых факторов и быстро принять правильное решение.
Вейвлет своими руками
Несколько советов, на основании которых каждый может построить целое семейство вейвлетов "в домашних условиях" и оценить достоинства вейвлет-анализа, применив их к имеющимся данным.
WavUtils - библиотека инструментов вейвлет-преобразования
Описание модуля WavUtils. В качестве инструмента вейвлет-преобразования были выбраны вейвлеты Добеши - как наиболее хорошо изученные и удобные в вычислительном плане. Использование вейвлетов до 10 порядка включительно представляется достаточным для решения подавляющего большинства прикладных задач, связанных с цифровой обработкой сигналов.
Калмановская фильтрация
Описание математического аппарата адаптивных фильтров рекурсивного типа (фильтры Калмана).
Быстрое преобразование Фурье
Описание алгоритмов, положенных в основу библиотеки FilteringBase - алгоритм быстрого преобразования Фурье.
Различные стратегии сэмплинга в условиях несбалансированности классов
В статье рассматриваются стратегии сэмплинга, которые могут быть применены в случае, когда в наборе данных классы не сбалансированы. Рассмотрены такие подходы, как случайное удаление примеров мажоритарного класса, связи Томека (Tomek links), SMOTE, ASMO и другие.

