Страницы: 1 2 3 >>

Тематика: Визуализация

Непонятно исполнение обработчиков в Deductor

Подскажите, тестирую вашу программу не могу разобраться с Deductor Academic, а точнее с исполнением ее обработчиков.
Есть обучающая выбока, к ней применяется следующий обработчик - "Нейросеть", далее я просмтариваю данные, после чего решаю выполнить еще раз обработчик "Нейросеть", на том же уровне что и предыдущий - но результаты СОВЕРШЕННО другие! Почему?
Я понимаю если бы второй обработчик "Нейросеть" исходил от первого, можно было говорить об обучении (или что-то в этом роде), но ведь процесс на одном уровне.

Еще пример, ту же выборку импортирую еще раз и выполняю обработчик "Нейросеть", результаты опять СОВЕРШЕННО другие от предыдущих.Тоже самое и для других обработчиков. И теперь скажите, каким результатам верить, на что опираться? Ведь при построении скоринговой карты Deductor Scorecard Modeler будет тоже самое творится, собственно баллы не получится нормально сформировать?

Нейронная сеть - многослойный персептрон - имеет процедуру обучения, которая носит итерационный характер, как и все методы машинного обучения.
Если Вы под результатами понимаете параметры нейросети (веса нейронов), то да, они не будут одинаковыми, но в целом модели будут демонстрировать близкие результаты, если судить по диаграмме рассеяния/таблице сопряженности. Для того чтобы веса нейросети у двух узлов полностью совпадали (что, кстати очень редко требуется на практике), необходимо выполнение нескольких условий:
1. Разделение на обучающую и тестовую выборку - одинаковое (что может не соблюдаться, если используется случайное разделение на вкладке Мастера)
2. Начальная инициализация весовых коэффициентов должна быть одинаковая (она также у ваших узлов разная).
3. Проделано одинаковое число итераций (эпох) алгоритма.

При построении балльных скоринговых карт в DCSM используется логистическая регрессия, это статистический метод, при расчете он всегда дает одинаковые веса при независимых переменных.

Допустим скоринговую карту я построю через логистическую регрессию.
А вот выявлять закономерности буду через нейронные сети.
Вот ситуация: импортирую две выборки. Устанавливаю для каждого из обработчиков "нейросеть" одинкаовые параметры и получаю разные результаты. Вот пример, способы отображения обработчика - "Граф нейросети", "Что если", "Обучающий набор" и "Таблица сопряженности".
Результаты:
1) В "Граф нейросети" отличия не значительные, лишь в одной/двух связей. Индикатор внизу - это степень взаимосвязи, вес (чем выше коэффициент, тем сильнее связь) или что это ?
2)В "Что если" я хотел бы рассмотрел зависимости на графике. В основном отличие в прормежутках для некоторых характеристик. И опять же вопрос, график строится для каждой записи? Тогда не могли бы вы пояснить на основе чего вычесляются закономерности и прогнозирование?(это вроде как главная задача нейросетей).
3) В "Таблица сопряженности" отличия бывают в 10 записей для каждой классификации.

Не могли бы вы предоставить ссылку или иной источник информации о применении нейросетей в скоринговом моделировании. Не могу найти где же закономерности и прогнозирование?
p.s. Извините за глобальный разбор, просто очень хочется преждевременно досконально разобраться с вашей программой перед использованием DCSM.

Один из самых главных недостатков нейронных сетей заключается в том, что модель представляет собой "черный" ящик, интерпретации веса не поддаются (имеется ряд научных работ отечественных ученых, которые сделали попытку интерпретации весов нейросети, о том, насколько успешно, сказать не можем).
По п. 2 - см. документацию "Руководство аналитика", "Справка", "Демопример".
По п. 3 - значительно число 10 записей или нет, сказать нельзя, так как вы не привели общий объем выборки.

На практике нейронные сети в кредитном скоринге (анкетном) применяются редко, по большей части, в скоринге мошеннических действий. Модель нейросети, построенную на характеристиках заемщиков, Вы не сможете преобразовать в классическую скоринговую карту с баллами, так как веса нейронов не имеют интерпретации. Это также является одной из причин непопулярности данного инструмента в анкетном скоринге. Кроме того, применение нейросетей требует более глубокого знания аналитики, нормализации и кодирования, приемов балансировки выборок, cost-sensitive обучения и так далее. Эти знания мы даем в нашем полном курсе по бизнес-аналитике.

Спасибо за ваш ответ относительно "Нейросетей". И все же, чем помогают нейросети в скоринге помимо мошенничества?
Прочитав несколько развернутых (но все же похожих) статей, речь везде шла больше не о машенничестве, а о прогнозировании, о нахождении зависимостей. Я, честно признаться, не нашел возможности определить зависимость. Только если под зависимостью считать "Что если" (тогда это не совсем хорошо описыват выборку).

К примеру,как мне кажется, карты Кохонена считаю гораздо полезнее, чтобы выявить закономерности.

p.s. я тестирую вашу обучающую выборку "Пример из скоринга"

Модель нейросети, дающая хорошее качество на тестовой выборке, говорит о том, что зависимости между входами и выходами имеются, они скорее всего нелинейные, и такую модель можно использовать для получения прогноза на новых примерах.
Если Вам нужно, помимо прогноза, обеспечить максимальную интерпретируемость того, как получается результат, нужно использовать другие методы - регрессию, деревья решений. Карты Кохонена позволяют "взглянуть" на данные и помочь в выработке гипотез для последующей проверки методами предсказатьной аналитики.

При построении скоринговой модели решается задача классификации, причем бинарной "давать кредит"/"не давать кредит". Нейросети как алгоритм с этой задачей вполне справляются. Другое дело вопрос - использовать ли именно этот алгоритм или нет?

Чаще всего в этой задаче нейросети на практике не применяются и основная причина именно в том, что нейросеть невозможно интерпретировать, а в банках любят, когда все понятно и сведено к баллам. Видимо не хочется доверять принятие решений, связанных с деньгами системе, которая работает как "черный ящик". :)

Есть еще одна причина. Если используются баллы, полученные при помощи логистической регрессии, то можно СРАВНИТЬ несколько скоринговых карт, причем с пониманием какие поля значимы. С нейросетями такое не сработает, т.к. он находит нелинейные зависимости, а следовательно понять значимость одного поля, независимо от других не получается.

Возможно, реалистичная схема использования нейросети, это когда основное решение принимается при помощи баллов, полученных при помощи логистической регрессии, а в "серых зонах" прогоняется еще и через нейросеть, чтобы получить дополнительное подтверждение.

особенности Визуализатора

Часто при использовании Визуализатора при попытке построить повернхность возникает надпись "Данные по столбцам ... превышают допустимый разброс". Каким образом возможно преодолеть этот барьер и все же отобразить данные в виде поверхности. Нормализовать? Но чаще всего при попытке нормализации вкладка закрыта для обработки и внизу размещена надпись: "Парметры линейной нормализации недоступны". Смотрел и в Руководстве и другие материалы, хотелось бы получить ответ не в виде "там-то и там-то есть ответ", а простой алгоритм, который поможет решить проблему. Ведь исходная таблица проедставляет собой всего-то три столбца - один с названиями 192 клиентов, другой с объемами продаж (от 0 до 145 млн) и третий, с абсолютными приростами (также от 0 до 3-4 млн. Возможно, следует уменьшить разброс (на самом деле в статистике он называется, очевидно, размах (вариации), нет?) либо вручную нормализовать данные еще до ввода в Deductor.

Алексей

18-11-2011

В визуализаторе "Многомерная диаграмма" сообщение "Поля по осям X и Y превышают допустимый совокупный разброс" отображается, если произведение размаха значений по оси X на размах значений по оси Y превышает 10 млн. Дело в том, что визуальный компонент, который собственно отображает диаграмму начинает, ОЧЕНЬ медленно работать в подобной ситуации. Решение проблемы – это предварительное шкалирование исходных значений, т.е. значение было метрах, а нужно сделать в километрах, и т.д.

Отчеты в кубе

Доброго времени!
в кубе не получается построить отчет:
товары, дающие 10% выручки по продажам за последние 20 дней года
сделал преобразование даты и времени (День года)
с помощью селектора – фильтрация данных в кубе создал условие Доля от общего значение 10%,
как создать условие последние 20 дней года?

Насколько понимаю фильтр, удовлетворяющий двум условиям, в кубе настроить нельзя...Я в этом случае выхожу следующим образом: до визуализации добавляю признак (через обработчик "Калькулятор") на принадлежность дня периоду (истина/ложь) и уже в кубе фильтруюсь на нужное значение по признаку и долю от суммы.

Удаление нулей.

Добрый день,товарищи!
Прошу Вашей помощи.
В ходе вычислений и преобразований в Дедуктор Студио получается столбец данных, некоторые из которых- нули.
При помощи какого инструмента обработки можно удалить строки с нулями?

Сергей

16-08-2011

Фильтр)

Алексей

16-08-2011

Линия на графике

Добрый день. Подскажите пожалуйста, как нарисовать на графике горизонтальную линию с определенный значением "y" ?

Сергей

09-06-2011

Как вариант - нужно ввести еще один столбец со значениями константы, а затем добавить его в исходные данные для графика.

Anton

14-06-2011

статистические данные

Подскажите пожалуйста, у кого то есть или где можно скачать статистические данные для анализа платежеспособности заемщика – физического лица с помощью Deductor? Заранее очень благодарен. Мне надо для написания магистерской работы.

Владимир

21-01-2011

по поводу расположения осей диаграммы "Размещения объектов в пространстве"

Хотелось бы узнать, каким образом возможно расположить при визуализации оси таким образом, чтобы нужный элемент был бы показан в качестве метки?
Например, есть данные по позициям ассортимента:
артикул (например 123-345 или 123345)
прирост период 1 (например, от 0,3 до 12,3)
прирост период 2 (например, от 0,3 до 14,3)
цена (например, от 0,3 до 12,5)
продажи период 2 (например от 0,5 до 2,33)
Итого возможно использовтаь все оси (X,Y,Z), цвет и размер объекта при визуализации.
Каким образом возможно ввести эти данные в визуализатор так, чтобы удобно отражалось данные?
Хотелось бы так:
по осям - прирост 1, прирост 2 и артикул, цвет - продажи, а размер - цена
Перебрал все оси, но сложно подобрать так, чтобы артикул был бы обозначен в качестве метки.
Какую ось отображает визуализатор в качестве метки и какую в качестве значения? Путем опыта (так как в руководстве об это в целом, понять сложно) понял, что это ось Z. Но отображается не артикул, а какое-то другое значение. Как же все-таки это исполнить правильно?

Ось Х - артикул,
Ось Y - прирост период 1,
Ось Z - прирост период 2,
цвет - продажи, а размер - цена.
Метка - выбрать "Координата Х".

И в качестве метки будет Артикул, но тогда и ось Х будет - список артикулов)))

Raisa

30-12-2010

Изменение значений на диаграмме

Здравствуйте, у меня два файла, в первом два поля, "Номер региона" и "Наименование", а во втором несколько полей, включая поле "Номер региона".

Делаю группировку, и рисую диаграмму. На диаграмме выводится по X допустим что-то там, а по Y, - номер региона: 1 2 3 4 5 6 7 и тд.

Как можно заменить отображение этих значений, чтобы вместо 1 было например Наименование из первого файла. Иили как условие можно задать, подскажите пожалуйста.

Роман

29-11-2010

Отображать в качестве метки оси можно любое поле. Только нужно, чтобы оно было в таблице.

Потому нужно после группировки подтянуть слиянием имя региона и это поле отображать в качестве метки на оси.

Спасибо.

Роман

30-11-2010

Убираются ли итоги в отчете?

Скажите, можно ли убрать итоги в отчете куба как промежуточные так и общие?

Андрей

24-11-2010

Можно утрать или все итоги, или по горизонтали или по вертикали. На панели в кубе есть соответствующая кнопка.

Непонятки с мерами эффективности деревьев решений

Здравствуйте.
Вопросы по мерам эффективности деревьев решений.

В книге "Бизнес-аналитика: от данных к знаниям" на стр. 401 вводятся понятия поддержки и достоверности. Поддержка определяется как отношение правильно классифицированных примеров в узле/листе к общему числу примеров, попавших в узел/лист. Достоверность - отношение числа правильно классифицированных примеров к числу неправильно классифицированных примеров.

Таким образом, Поддержка - это число в интервале [0,1], а Достоверность может принимать любые сколь угодно большие неотрицательные значения.

Строю дерево решений по данным файла loans.txt (входит в поставку Deductora). Получаю дерево, в котором на вкладке Дерево решений напротив каждого узла/листа Поддержка выражается числом, больше 1, (что не стыкуется с теорией), а Достоверностьвыражается целым положительным числом (что, вообще-то говоря, маловероятно, если следовать определению).

Более того, на вкладке Правила опять приводятся значения Поддержки и Достоверности, в виде пар колонок из целых чисел и процентов.

Из справки к программе удается узнать, что:"Поддержка - указываются значения поддержки, как по числу записей, так и в процентном отношении этого числа к полному объему выборки." Вопрос: "как по числу записей" - это о чем?

Там же читаем:"Достоверность - указываются значения достоверности, как по числу записей, так и в процентном отношении этого числа от общего числа примеров, попавших в данное правило."
Вопросы:
1) О каких числах тут идет речь?
2) Как достоверность может быть выражена в процентах?
3) Судя по числам, получается, что процент достоверности вычисляется как отношение числа в колонке Достоверность к числу в колонке Поддержка. А что это за числа - непонятно.

PS: Еще есть вкладка Значимость атрибутов, на которой приводится значение таинственного показателя "Значимость атрибутов", описание которого мне найти не удалось.

Хотелось бы внести ясность в этом вопросе.

С уважением,
Богданов Александр.

Признаю, в книге фраза про достоверность вводит в заблуждение, правильнее говорить, что достоверность - это количество правильно классифицированных данным узлом примеров.
Далее. Предположим, в узел N попало 200 примеров (всего примеров 10000), из них 150 относятся к классу 1, 50 - к классу 2.
Поддержка: а) по числу записей - 100. б) в процентах - 1%.
Достоверность узла (класс 1): а) по числу записей - 150 б) в процентах - 75%.
(класс 2): а) по числу записей - 50 б) в процентах - 25%.

Про поддержку ошибся: а) по числу записей - 200. б) в процентах - 2%.

Страницы: 1 2 3 >>

Форум: аналитическая платформа Deductor

Обсуждение аналитической платформы Deductor: прикладные решения на его базе, ошибки, замечания, пожелания, предложения... Вопросы применения Deductor для решения практических задач, механизмы интеграции системы со сторонними приложениями, особенности реализации математического аппарата.

Подпишитесь!

Микроблог BaseGroup в Twitter
Блог BaseGroup в Live Journal (ЖЖ)
Почтовая рассылка BaseGroup на Subscribe.ru

Тематика на форуме