Подскажите, тестирую вашу программу не могу разобраться с Deductor Academic, а точнее с исполнением ее обработчиков.
Есть обучающая выбока, к ней применяется следующий обработчик - "Нейросеть", далее я просмтариваю данные, после чего решаю выполнить еще раз обработчик "Нейросеть", на том же уровне что и предыдущий - но результаты СОВЕРШЕННО другие! Почему?
Я понимаю если бы второй обработчик "Нейросеть" исходил от первого, можно было говорить об обучении (или что-то в этом роде), но ведь процесс на одном уровне.
Еще пример, ту же выборку импортирую еще раз и выполняю обработчик "Нейросеть", результаты опять СОВЕРШЕННО другие от предыдущих.Тоже самое и для других обработчиков. И теперь скажите, каким результатам верить, на что опираться? Ведь при построении скоринговой карты Deductor Scorecard Modeler будет тоже самое творится, собственно баллы не получится нормально сформировать?
Тематика: Визуализация
Непонятно исполнение обработчиков в Deductor
Сергей Поверитов
11-03-2012
Нейронная сеть - многослойный персептрон - имеет процедуру обучения, которая носит итерационный характер, как и все методы машинного обучения.
Если Вы под результатами понимаете параметры нейросети (веса нейронов), то да, они не будут одинаковыми, но в целом модели будут демонстрировать близкие результаты, если судить по диаграмме рассеяния/таблице сопряженности. Для того чтобы веса нейросети у двух узлов полностью совпадали (что, кстати очень редко требуется на практике), необходимо выполнение нескольких условий:
1. Разделение на обучающую и тестовую выборку - одинаковое (что может не соблюдаться, если используется случайное разделение на вкладке Мастера)
2. Начальная инициализация весовых коэффициентов должна быть одинаковая (она также у ваших узлов разная).
3. Проделано одинаковое число итераций (эпох) алгоритма.
При построении балльных скоринговых карт в DCSM используется логистическая регрессия, это статистический метод, при расчете он всегда дает одинаковые веса при независимых переменных.
Support BaseGroup Labs
11-03-2012
Допустим скоринговую карту я построю через логистическую регрессию.
А вот выявлять закономерности буду через нейронные сети.
Вот ситуация: импортирую две выборки. Устанавливаю для каждого из обработчиков "нейросеть" одинкаовые параметры и получаю разные результаты. Вот пример, способы отображения обработчика - "Граф нейросети", "Что если", "Обучающий набор" и "Таблица сопряженности".
Результаты:
1) В "Граф нейросети" отличия не значительные, лишь в одной/двух связей. Индикатор внизу - это степень взаимосвязи, вес (чем выше коэффициент, тем сильнее связь) или что это ?
2)В "Что если" я хотел бы рассмотрел зависимости на графике. В основном отличие в прормежутках для некоторых характеристик. И опять же вопрос, график строится для каждой записи? Тогда не могли бы вы пояснить на основе чего вычесляются закономерности и прогнозирование?(это вроде как главная задача нейросетей).
3) В "Таблица сопряженности" отличия бывают в 10 записей для каждой классификации.
Не могли бы вы предоставить ссылку или иной источник информации о применении нейросетей в скоринговом моделировании. Не могу найти где же закономерности и прогнозирование?
p.s. Извините за глобальный разбор, просто очень хочется преждевременно досконально разобраться с вашей программой перед использованием DCSM.
Сергей Поверитов
11-03-2012
Один из самых главных недостатков нейронных сетей заключается в том, что модель представляет собой "черный" ящик, интерпретации веса не поддаются (имеется ряд научных работ отечественных ученых, которые сделали попытку интерпретации весов нейросети, о том, насколько успешно, сказать не можем).
По п. 2 - см. документацию "Руководство аналитика", "Справка", "Демопример".
По п. 3 - значительно число 10 записей или нет, сказать нельзя, так как вы не привели общий объем выборки.
На практике нейронные сети в кредитном скоринге (анкетном) применяются редко, по большей части, в скоринге мошеннических действий. Модель нейросети, построенную на характеристиках заемщиков, Вы не сможете преобразовать в классическую скоринговую карту с баллами, так как веса нейронов не имеют интерпретации. Это также является одной из причин непопулярности данного инструмента в анкетном скоринге. Кроме того, применение нейросетей требует более глубокого знания аналитики, нормализации и кодирования, приемов балансировки выборок, cost-sensitive обучения и так далее. Эти знания мы даем в нашем полном курсе по бизнес-аналитике.
Support BaseGroup Labs
11-03-2012
Спасибо за ваш ответ относительно "Нейросетей". И все же, чем помогают нейросети в скоринге помимо мошенничества?
Прочитав несколько развернутых (но все же похожих) статей, речь везде шла больше не о машенничестве, а о прогнозировании, о нахождении зависимостей. Я, честно признаться, не нашел возможности определить зависимость. Только если под зависимостью считать "Что если" (тогда это не совсем хорошо описыват выборку).
К примеру,как мне кажется, карты Кохонена считаю гораздо полезнее, чтобы выявить закономерности.
p.s. я тестирую вашу обучающую выборку "Пример из скоринга"
Сергей Поверитов
11-03-2012
Модель нейросети, дающая хорошее качество на тестовой выборке, говорит о том, что зависимости между входами и выходами имеются, они скорее всего нелинейные, и такую модель можно использовать для получения прогноза на новых примерах.
Если Вам нужно, помимо прогноза, обеспечить максимальную интерпретируемость того, как получается результат, нужно использовать другие методы - регрессию, деревья решений. Карты Кохонена позволяют "взглянуть" на данные и помочь в выработке гипотез для последующей проверки методами предсказатьной аналитики.
Support BaseGroup Labs
11-03-2012
При построении скоринговой модели решается задача классификации, причем бинарной "давать кредит"/"не давать кредит". Нейросети как алгоритм с этой задачей вполне справляются. Другое дело вопрос - использовать ли именно этот алгоритм или нет?
Чаще всего в этой задаче нейросети на практике не применяются и основная причина именно в том, что нейросеть невозможно интерпретировать, а в банках любят, когда все понятно и сведено к баллам. Видимо не хочется доверять принятие решений, связанных с деньгами системе, которая работает как "черный ящик". :)
Есть еще одна причина. Если используются баллы, полученные при помощи логистической регрессии, то можно СРАВНИТЬ несколько скоринговых карт, причем с пониманием какие поля значимы. С нейросетями такое не сработает, т.к. он находит нелинейные зависимости, а следовательно понять значимость одного поля, независимо от других не получается.
Возможно, реалистичная схема использования нейросети, это когда основное решение принимается при помощи баллов, полученных при помощи логистической регрессии, а в "серых зонах" прогоняется еще и через нейросеть, чтобы получить дополнительное подтверждение.
Алексей Арустамов
12-03-2012
особенности Визуализатора
Часто при использовании Визуализатора при попытке построить повернхность возникает надпись "Данные по столбцам ... превышают допустимый разброс". Каким образом возможно преодолеть этот барьер и все же отобразить данные в виде поверхности. Нормализовать? Но чаще всего при попытке нормализации вкладка закрыта для обработки и внизу размещена надпись: "Парметры линейной нормализации недоступны". Смотрел и в Руководстве и другие материалы, хотелось бы получить ответ не в виде "там-то и там-то есть ответ", а простой алгоритм, который поможет решить проблему. Ведь исходная таблица проедставляет собой всего-то три столбца - один с названиями 192 клиентов, другой с объемами продаж (от 0 до 145 млн) и третий, с абсолютными приростами (также от 0 до 3-4 млн. Возможно, следует уменьшить разброс (на самом деле в статистике он называется, очевидно, размах (вариации), нет?) либо вручную нормализовать данные еще до ввода в Deductor.
Алексей
18-11-2011
В визуализаторе "Многомерная диаграмма" сообщение "Поля по осям X и Y превышают допустимый совокупный разброс" отображается, если произведение размаха значений по оси X на размах значений по оси Y превышает 10 млн. Дело в том, что визуальный компонент, который собственно отображает диаграмму начинает, ОЧЕНЬ медленно работать в подобной ситуации. Решение проблемы – это предварительное шкалирование исходных значений, т.е. значение было метрах, а нужно сделать в километрах, и т.д.
Сергей Ларин
18-11-2011
Отчеты в кубе
Доброго времени!
в кубе не получается построить отчет:
товары, дающие 10% выручки по продажам за последние 20 дней года
сделал преобразование даты и времени (День года)
с помощью селектора – фильтрация данных в кубе создал условие Доля от общего значение 10%,
как создать условие последние 20 дней года?
Александр Мельников
15-10-2011
Насколько понимаю фильтр, удовлетворяющий двум условиям, в кубе настроить нельзя...Я в этом случае выхожу следующим образом: до визуализации добавляю признак (через обработчик "Калькулятор") на принадлежность дня периоду (истина/ложь) и уже в кубе фильтруюсь на нужное значение по признаку и долю от суммы.
Анна Рудометкина
17-10-2011
Спасибо
Александр Мельников
19-10-2011
статистические данные
по поводу расположения осей диаграммы "Размещения объектов в пространстве"
Хотелось бы узнать, каким образом возможно расположить при визуализации оси таким образом, чтобы нужный элемент был бы показан в качестве метки?
Например, есть данные по позициям ассортимента:
артикул (например 123-345 или 123345)
прирост период 1 (например, от 0,3 до 12,3)
прирост период 2 (например, от 0,3 до 14,3)
цена (например, от 0,3 до 12,5)
продажи период 2 (например от 0,5 до 2,33)
Итого возможно использовтаь все оси (X,Y,Z), цвет и размер объекта при визуализации.
Каким образом возможно ввести эти данные в визуализатор так, чтобы удобно отражалось данные?
Хотелось бы так:
по осям - прирост 1, прирост 2 и артикул, цвет - продажи, а размер - цена
Перебрал все оси, но сложно подобрать так, чтобы артикул был бы обозначен в качестве метки.
Какую ось отображает визуализатор в качестве метки и какую в качестве значения? Путем опыта (так как в руководстве об это в целом, понять сложно) понял, что это ось Z. Но отображается не артикул, а какое-то другое значение. Как же все-таки это исполнить правильно?
Алексей Юрьевич
29-12-2010
Ось Х - артикул,
Ось Y - прирост период 1,
Ось Z - прирост период 2,
цвет - продажи, а размер - цена.
Метка - выбрать "Координата Х".
И в качестве метки будет Артикул, но тогда и ось Х будет - список артикулов)))
Raisa
30-12-2010
Изменение значений на диаграмме
Здравствуйте, у меня два файла, в первом два поля, "Номер региона" и "Наименование", а во втором несколько полей, включая поле "Номер региона".
Делаю группировку, и рисую диаграмму. На диаграмме выводится по X допустим что-то там, а по Y, - номер региона: 1 2 3 4 5 6 7 и тд.
Как можно заменить отображение этих значений, чтобы вместо 1 было например Наименование из первого файла. Иили как условие можно задать, подскажите пожалуйста.
Роман
29-11-2010
Отображать в качестве метки оси можно любое поле. Только нужно, чтобы оно было в таблице.
Потому нужно после группировки подтянуть слиянием имя региона и это поле отображать в качестве метки на оси.
Алексей Арустамов
30-11-2010
Спасибо.
Роман
30-11-2010
Убираются ли итоги в отчете?
Скажите, можно ли убрать итоги в отчете куба как промежуточные так и общие?
Андрей
24-11-2010
Можно утрать или все итоги, или по горизонтали или по вертикали. На панели в кубе есть соответствующая кнопка.
Алексей Арустамов
24-11-2010
Непонятки с мерами эффективности деревьев решений
Здравствуйте.
Вопросы по мерам эффективности деревьев решений.
В книге "Бизнес-аналитика: от данных к знаниям" на стр. 401 вводятся понятия поддержки и достоверности. Поддержка определяется как отношение правильно классифицированных примеров в узле/листе к общему числу примеров, попавших в узел/лист. Достоверность - отношение числа правильно классифицированных примеров к числу неправильно классифицированных примеров.
Таким образом, Поддержка - это число в интервале [0,1], а Достоверность может принимать любые сколь угодно большие неотрицательные значения.
Строю дерево решений по данным файла loans.txt (входит в поставку Deductora). Получаю дерево, в котором на вкладке Дерево решений напротив каждого узла/листа Поддержка выражается числом, больше 1, (что не стыкуется с теорией), а Достоверностьвыражается целым положительным числом (что, вообще-то говоря, маловероятно, если следовать определению).
Более того, на вкладке Правила опять приводятся значения Поддержки и Достоверности, в виде пар колонок из целых чисел и процентов.
Из справки к программе удается узнать, что:"Поддержка - указываются значения поддержки, как по числу записей, так и в процентном отношении этого числа к полному объему выборки." Вопрос: "как по числу записей" - это о чем?
Там же читаем:"Достоверность - указываются значения достоверности, как по числу записей, так и в процентном отношении этого числа от общего числа примеров, попавших в данное правило."
Вопросы:
1) О каких числах тут идет речь?
2) Как достоверность может быть выражена в процентах?
3) Судя по числам, получается, что процент достоверности вычисляется как отношение числа в колонке Достоверность к числу в колонке Поддержка. А что это за числа - непонятно.
PS: Еще есть вкладка Значимость атрибутов, на которой приводится значение таинственного показателя "Значимость атрибутов", описание которого мне найти не удалось.
Хотелось бы внести ясность в этом вопросе.
С уважением,
Богданов Александр.
Александр Богданов
13-03-2010
Признаю, в книге фраза про достоверность вводит в заблуждение, правильнее говорить, что достоверность - это количество правильно классифицированных данным узлом примеров.
Далее. Предположим, в узел N попало 200 примеров (всего примеров 10000), из них 150 относятся к классу 1, 50 - к классу 2.
Поддержка: а) по числу записей - 100. б) в процентах - 1%.
Достоверность узла (класс 1): а) по числу записей - 150 б) в процентах - 75%.
(класс 2): а) по числу записей - 50 б) в процентах - 25%.
Николай Паклин
13-03-2010
Про поддержку ошибся: а) по числу записей - 200. б) в процентах - 2%.
Николай Паклин
13-03-2010



новое сообщение
карта форума
правила форума
обратная связь
