Обработка данных

Под обработкой в Deductor подразумевается любое действие, связанное с неким преобразованием данных, например, фильтрация, построение модели, очистка и прочее. Собственно в блоке "Обработка данных" и производятся самые важные с точки зрения анализа действия. Наиболее существенной особенностью механизмов обработки, реализованных в Deductor, является то, что полученные в результате их применения данные можно опять обрабатывать любым методом из доступных. Таким образом, есть возможность строить сколь угодно сложные сценарии.

Обработка данных

Подобная функциональность очень важна, т.к. при анализе реальных бизнес-данных практически всегда приходится выполнять последовательность действий для получения нужного результата. Например, при построении прогноза в самом простом случае нужно после импорта очистить данные, трансформировать их, построить модель и применить ее для прогноза на несколько шагов вперед. В действительности же сценарии бывают значительно сложнее. В них сохраняются параметры обработки, поэтому для получения результата на новых данных достаточно всего лишь применить к ним подготовленный сценарий.

В Deductor реализован большой набор механизмов обработки, позволяющий решать широкий класс задач анализа.

Механизм обработки Описание
Очистка данных
Парциальная обработка Парциальная обработка Заполнение пропусков, редактирование аномалий, сглаживание, вычитание шума, вейвлет преобразование.
Факторный анализ Факторный анализ Понижение размерности пространства факторов.
Корреляционный анализ Корреляционный анализ Оценка зависимости выходных полей данных от входных факторов и устранения незначащих факторов.
Дубликаты и противоречия Дубликаты и противоречия Обнаружение и фильтрация дубликатов и противоречий.
Фильтрация Фильтрация Фильтрация записей в таблице по заданным условиям.
Трансформация данных
Настройка набора данных Настройка набора данных Изменение названия поля, ширины, метки, типа и вида данных, назначения столбца. Кэширование данных.
Скользящее окно Скользящее окно Трансформация временного ряда к скользящему окну. Используется при построении автокорреляционных моделей.
Дата и время Дата и время Выделение из дат любого временного интервала (год, месяц, квартал и т.д.).
 Квантование Преобразование непрерывных данных в дискретные.
Сортировка Сортировка Сортировка записей в заданном пользователем порядке.
Слияние Слияние Объединение наборов данных, полученных при помощи различных сценариев обработки.
Замена Замена Замена данных в выборке по таблице подстановки.
Группировка Группировка
Разгруппировка Разгруппировка
Два взаимосвязанных метода обработки. Группировка позволяет объединять записи по полям-измерениям, агрегируя данные в полях-фактах. Разгруппировка проводит обратную операцию – разбиение полученных общих цифр в соответствии с рассчитанными пропорциями.
Кросс-таблица Кросс-таблица Изменение структуры таблицы, перенесение значений поля в заголовки строк и столбцов. Имеется обратная операция - свёрстка столбцов.
Свёртка столбцов  Свёртка столбцов Изменение структуры таблицы, перенесение заголовков полей в значения строк и столбцов. Имеется обратная операция - кросс-таблица
Data Mining
Автокорреляция Автокорреляция Нахождение линейной автокорелляционной зависимости. Метод применяется при обработке временных рядов для обнаружения периодичности, сезонности.
Прогнозирование Прогнозирование Получение прогноза на несколько шагов вперед на основе модели, построенной любым способом, например, при помощи нейросети или линейной регрессии.
Линейная регрессия Линейная регрессия Классический линейный метод решения задачи регрессии.
Логистическая регрессия Логистическая регрессия Популярный метод построения моделей для случаев, когда выходное поле бинарное.
Нейронные сети Нейронные сети Многослойные нейронные сети – алгоритмы обратного распространения ошибки и RProp. Нейросети предназначены для решения задач регрессии и классификации. Это мощный современный самообучающийся механизм, способный решать нелинейные задачи.
Деревья решений Деревья решений Метод машинного обучения, позволяющий автоматически извлекать из данных закономерности, отображаемые в виде иерархической системы правил, легко интерпретируемых человеком. Метод предназначен для решения задач классификации.
Самоорганизующиеся карты Кохонена Самоорганизующиеся карты Кохонена Мощный самообучающийся механизм кластеризации, позволяющий не только кластеризовать данные, но и отобразить результаты в виде удобных для интерпретации двухмерных карт.
Ассоциативные правила Ассоциативные правила Метод анализа, позволяющий находить ассоциативные связи между событиями, например, обнаружить, что при покупки товара Х, с определенной вероятностью приобретут товар Y. Иногда этот метод называют анализом потребительской корзины.
Кластеризация Кластеризация Кластеризация при помощи алгоритмов k-means и g-means.
Пользовательская модель Пользовательская модель Создание аналитических моделей на основании жестких правил и экспертных оценок. Расчет выходных значений по готовым формулам.
Зависимые обработчики
Матрица корреляции Матрица корреляции Матрица корреляции в виде таблицы, полученная после применения обработчика "Корреляционный анализ".
Коэффициенты регрессии Коэффициенты регрессии Коэффициенты регрессии в виде таблицы, полученные после применения обработчиков Логистическая и Линейная регрессия.
Правила Правила Правила в виде таблицы, полученные после применения алгоритма поиска ассоциативных правил.
Прочие
Скрипт Скрипт Предназначен для автоматизации процесса добавления в сценарий однотипных ветвей обработки. Аналогом скрипта является функция в языках программирования. Ветвь строится один раз, а затем скриптами выполняются заложенные в ней универсальные обработки.
Групповая обработка Групповая обработка Выполнение фрагмента сценария, аналогично обработчику "Скрипт", с возможностью его применения не для всего набора, а для каждой группы в отдельности. Поддерживается как "прогон", так и переобучение моделей для каждой группы данных.
Калькулятор Калькулятор Добавление в исходный набор новых полей, рассчитанных по формулам на основе других полей исходной таблицы.
Условие Условие С помощью этой операции можно организовать условное выполнение узлов сценария. При этом, если заданное условие не выполняется, то узлы сценария, следующие за данным обработчиком, не будут обработаны.
Команда ОС Команда ОС Вызов из сценария любого внешнего приложения, реализующего специфичные, отсутствующие в Deductor, механизмы обработки данных.
Сценарий Deductor Сценарий Deductor Запуск внешних сценариев Deductor.

Основной акцент в Deductor сделан на самообучающиеся алгоритмы. Они удачно сочетают в себе мощность математического аппарата с простотой применения. А широкое использование мастеров оказывает дополнительную помощь в освоении современных методов анализа.

Каждый из реализованных механизмов анализа обработки дает ценные результаты, но только их совместное применение и возможность комбинирования обеспечивают совершенно новое качество решений.