Главная | Deductor | Принципы работы | Обработка данных |
Обработка данных
Под обработкой в Deductor подразумевается любое действие, связанное с неким преобразованием данных, например, фильтрация, построение модели, очистка и прочее. Собственно в блоке "Обработка данных" и производятся самые важные с точки зрения анализа действия. Наиболее существенной особенностью механизмов обработки, реализованных в Deductor, является то, что полученные в результате их применения данные можно опять обрабатывать любым методом из доступных. Таким образом, есть возможность строить сколь угодно сложные сценарии.

Подобная функциональность очень важна, т.к. при анализе реальных бизнес-данных практически всегда приходится выполнять последовательность действий для получения нужного результата. Например, при построении прогноза в самом простом случае нужно после импорта очистить данные, трансформировать их, построить модель и применить ее для прогноза на несколько шагов вперед. В действительности же сценарии бывают значительно сложнее. В них сохраняются параметры обработки, поэтому для получения результата на новых данных достаточно всего лишь применить к ним подготовленный сценарий.
В Deductor реализован большой набор механизмов обработки, позволяющий решать широкий класс задач анализа.
| Механизм обработки | Описание |
|---|---|
| Очистка данных | |
| Заполнение пропусков, редактирование аномалий, сглаживание, вычитание шума, вейвлет преобразование. | |
| Понижение размерности пространства факторов. | |
| Оценка зависимости выходных полей данных от входных факторов и устранения незначащих факторов. | |
| Обнаружение и фильтрация дубликатов и противоречий. | |
| Фильтрация записей в таблице по заданным условиям. | |
| Трансформация данных | |
| Изменение названия поля, ширины, метки, типа и вида данных, назначения столбца. Кэширование данных. | |
| Трансформация временного ряда к скользящему окну. Используется при построении автокорреляционных моделей. | |
| Выделение из дат любого временного интервала (год, месяц, квартал и т.д.). | |
| Преобразование непрерывных данных в дискретные. | |
| Сортировка записей в заданном пользователем порядке. | |
| Объединение наборов данных, полученных при помощи различных сценариев обработки. | |
| Замена данных в выборке по таблице подстановки. | |
| Два взаимосвязанных метода обработки. Группировка позволяет объединять записи по полям-измерениям, агрегируя данные в полях-фактах. Разгруппировка проводит обратную операцию – разбиение полученных общих цифр в соответствии с рассчитанными пропорциями. | |
| Изменение структуры таблицы, перенесение значений поля в заголовки строк и столбцов. Имеется обратная операция - свёрстка столбцов. | |
| Изменение структуры таблицы, перенесение заголовков полей в значения строк и столбцов. Имеется обратная операция - кросс-таблица | |
| Data Mining | |
| Нахождение линейной автокорелляционной зависимости. Метод применяется при обработке временных рядов для обнаружения периодичности, сезонности. | |
| Получение прогноза на несколько шагов вперед на основе модели, построенной любым способом, например, при помощи нейросети или линейной регрессии. | |
| Классический линейный метод решения задачи регрессии. | |
| Популярный метод построения моделей для случаев, когда выходное поле бинарное. | |
| Многослойные нейронные сети – алгоритмы обратного распространения ошибки и RProp. Нейросети предназначены для решения задач регрессии и классификации. Это мощный современный самообучающийся механизм, способный решать нелинейные задачи. | |
| Метод машинного обучения, позволяющий автоматически извлекать из данных закономерности, отображаемые в виде иерархической системы правил, легко интерпретируемых человеком. Метод предназначен для решения задач классификации. | |
| Мощный самообучающийся механизм кластеризации, позволяющий не только кластеризовать данные, но и отобразить результаты в виде удобных для интерпретации двухмерных карт. | |
| Метод анализа, позволяющий находить ассоциативные связи между событиями, например, обнаружить, что при покупки товара Х, с определенной вероятностью приобретут товар Y. Иногда этот метод называют анализом потребительской корзины. | |
| Кластеризация при помощи алгоритмов k-means и g-means. | |
| Создание аналитических моделей на основании жестких правил и экспертных оценок. Расчет выходных значений по готовым формулам. | |
| Зависимые обработчики | |
| Матрица корреляции в виде таблицы, полученная после применения обработчика "Корреляционный анализ". | |
| Коэффициенты регрессии в виде таблицы, полученные после применения обработчиков Логистическая и Линейная регрессия. | |
| Правила в виде таблицы, полученные после применения алгоритма поиска ассоциативных правил. | |
| Прочие | |
| Предназначен для автоматизации процесса добавления в сценарий однотипных ветвей обработки. Аналогом скрипта является функция в языках программирования. Ветвь строится один раз, а затем скриптами выполняются заложенные в ней универсальные обработки. | |
| Выполнение фрагмента сценария, аналогично обработчику "Скрипт", с возможностью его применения не для всего набора, а для каждой группы в отдельности. Поддерживается как "прогон", так и переобучение моделей для каждой группы данных. | |
| Добавление в исходный набор новых полей, рассчитанных по формулам на основе других полей исходной таблицы. | |
| С помощью этой операции можно организовать условное выполнение узлов сценария. При этом, если заданное условие не выполняется, то узлы сценария, следующие за данным обработчиком, не будут обработаны. | |
| Вызов из сценария любого внешнего приложения, реализующего специфичные, отсутствующие в Deductor, механизмы обработки данных. | |
| Запуск внешних сценариев Deductor. | |
Основной акцент в Deductor сделан на самообучающиеся алгоритмы. Они удачно сочетают в себе мощность математического аппарата с простотой применения. А широкое использование мастеров оказывает дополнительную помощь в освоении современных методов анализа.
Каждый из реализованных механизмов анализа обработки дает ценные результаты, но только их совместное применение и возможность комбинирования обеспечивают совершенно новое качество решений.


Обсудить на форуме 
Все картинки (10)