Здраствуйте! Подскажите, пожалуйста, есть ли возможность используя ваш компонент для делфи по генетическим алгоритмам произвести многокритериалную оптимизацию? Например, в один момент есть функция на максимизацию и минимизацию?
Тематика: Data Mining
Многокритериальная оптимизация
Александр
17-04-2012
Минимизировать или максимизировать можно что-то одно. Тут вариантов никаких нет. Суть оптимизации заключается в том, что мы должны как-то сказать какой из вариантов лучше, а какой хуже. Значит нам в любом случае придется привести все к одной шкале.
Пример на пальцах: у нас есть выпускаемый продукт и мы оптимизируем сразу два показателя, каких угодно, например, минимизируем время производства и максимизируем загрузку оборудования. Минимум одного и максимум другого приходятся на различные ситуации. Вопрос - какой вариант лучше? Ответ - понятия не имею.
Для того, чтобы ответить на этот вопрос нужно привести все к одному показателю, а потом уже по этому показателю выбирать лучший вариант. В примере, что выше, можно например все свести к деньгам. Рассчитать сколько в деньгах мы выиграем от того, что минимизируем время и сколько выиграем от того, что максимизируем загрузку оборудования. Т.к. показатель один - деньги, то без проблем можно выбрать лучший вариант. Где больше заработаем,то и лучше.
Если не удается привести к одному более или менее объективному показателю, как деньги, то надо задать коэффициент для каждого показателя. И получить одну функцию для которой будем искать экстремум, но которая является линейной комбинацией других показателей. А можно и нелинейной. В принципе, это значения не имеет. Важно то, что в конечном счете функция, экстремум которой мы будем искать, будет одна.
Алексей Арустамов
07-05-2012
предсказание методом SVM
Добрый день!
У кого-то есть опыт предсказаний числовых рядов методом SVM в Statistica 8?
Дело в том, что я столкнулся с такой проблемой, что алгоритм правильно классифицирует данные (определяет категории в данных), но при попытке сделать custom prediction, выдает совершенно не те данные, которые верно предсказывал в процессе тренировки.
Подскажите, в чем может быть дело. Спасибо!
Sergey
23-03-2012
В Статистике7 та же самая проблема.
Обычный предикшн - всё хорошо, а кастом предикшн (после ввода user defined case) - неправильно.
Но я Справку не глядел - может, там обязательно требуют как-то иначе (вручную) нормировать данные для кастом предикшн.
Victor Tsaregorodtsev
26-03-2012
Sergey,
SVM (support vector machine) ведь используется для решении задачи классификации, но не регрессии.
Максим Щербаков
25-03-2012
И регрессии тоже.
Statistica на основе SVM умеет делать и классификацию, и регрессию.
Victor Tsaregorodtsev
26-03-2012
Отрицательные коэффициенты регрессии
Подскажите пожалуйста, если после логистической регресси, я просматриваю Коэффициенты регрессии:
1) для некоторых (большинства) характеристик они отрицательны, как интерпретировать такие результаты?
2) некоторые характеристики имеют (как пример)-3,777E , я так понимаю наличие E говорит о слишком высоком(низком) показателе?
Может нужны другие настройки при исполнении обработчика?
Сергей
12-03-2012
Lyn C. Thomas. Consumer Credit Models: Pricing, Profit, and Portfolios. Pages 82-84
Gewissta
20-03-2012
Скоринговые карты. Как формируются баллы?
Вот с анализом истории кредитования используя логистическую регрессию, нейронные сети и т.д. вроде бы более менее понятно, знакомился с методами в Deductor.
Что касается самого формирования скоринговых карт.Набор характеристик в основном одинаковый для российских банков, за исключением нескольких специфических характеристик, волнующих определенные банки при процессе кредитования.
У меня вопрос, как и на основании чего каждой характеристики определяется определенное количество баллов??
К примеру Возраст имеет несколько признаков (22-25, 25-28 и т.д) и для каждого признака были
выявлены определенные весовые коэффициенты, представленные в виде баллов. Так вот каким
способом это формируется?
Сергей Поверитов
04-03-2012
Конкретный алгоритм (статистический либо машинного обучения) формирует веса при атрибутах характеристик скоринговой карты. Это могут быть регрессионные коэффициенты, поддержка узла дерева решений и т.д.
Перевод данных величин в скоринговые баллы производится после их расчета по специальным формулам.
Подробнее об этом можете посмотреть на странице Deductor Credit Scorecard Modeler - http://www.basegroup.ru/solutions/scm/
Support BaseGroup Labs
05-03-2012
Скажите пожалуйста, помимо формирования баллов для характеристик, Deductor Credit Scorecard Modeler способен сформировать проходной бал для заемщика? если да, то насколько широки способности выполнения такой задачи? (имеется ввиду на сколько гибко можно сформировать проходной балл основоваясь на размер активов или др. показатели).
Сергей Поверитов
05-03-2012
Задача кредитного скоринга заключается в построении скоринговой карты, присвоении итоговых баллов каждому заемщику, чем обеспечивается их ранжирование по убыванию (возрастанию) вероятности наступления дефолта P(D).
На этом непосредственно сам скоринг заканчивается (и Deductor Credit Scorecard Modeler тоже), и задача определения оптимального балла отсечения для принятия решения о выдаче кредита решается различными методиками, от простых до сложных на основе входной дополнительной информации. Это может быть сделано сценариями Deductor.
Support BaseGroup Labs
05-03-2012
Спасибо за информацию.
Сергей Поверитов
05-03-2012
По каким специальным формулам? Это важно. Ведь при переводе регрессионных коэффициентов в баллы неизбежна потеря информации и искажения. Как она решается? Как это учитывают ваши формулы?
Артем
06-03-2012
Перевод регрессионных коэффициентов в баллы диктуется стандартом скоринговых карт, которые должны быть в баллах. При этом интерпретация облегчается, но добавляется небольшое искажение. Формулы стандартные из учебников по кредитному скорингу, по умолчанию DSCM масштабирует карту в стандарт FICO, при котором каждые 40 баллов удваивают шансы наступления события.
Support BaseGroup Labs
07-03-2012
Не будете так любезны дать ссылку на этот стандарт? Находил в интернете только извлечения из него. Спасибо
Артем
16-03-2012
Двумерный анализ - характеристики
Подскажите пожалуйста, возможен ли Двумерный анализ данных в Deductor Academic 5.2 направ. на характеристики скоринговых карт, чтобы оценить значимость каждого атрибута с помощью индекса IV?
или така обработка возможно только в специализированной программе Deductor?
Сергей
07-03-2012
Этот показатель считается при помощи сценария. Вообще, обработчики в Deductor реализуют базовые алгоритмы, все остальное - это комбинация действий этих самых базовых алгоритмов.
Посмотрите, например, банк сценариев - http://www.basegroup.ru/solutions/scripts/ там показано как можно известные индикаторы, типа ABC-анализа рассчитать при помощи всего нескольких узлов сценария в Deductor.
В решении Deductor Credit Scorecard Modeler есть готовый сценарий расчета индекса IV.
Алексей Арустамов
07-03-2012
Обсуждение: Применение логистической регрессии в медицине и...
Здравствуйте!) на данном форуме вы скидывали ссылку на зарубежный источник учебных баз по физическим лицам. А вы случайно не владеете подобной информацией о юридических?)
Татьна
10-02-2012
Предварительное сжатие входных данных
Здравствуйте,
Предсказания нейронной сети во многом зависят от входных данных (ну или мусора), которые идут на вход.
Классически подаются embedding данные, несколько последних значений time series. Опущу здесь варианты предварительной обработки, как вычисление разницы, нормирование итд
А какие есть наилучшие методы для сжатия размерности (dimensionality reduction) входного временного ряда? Есть массив значений пускай 60 данных погружения, надо их сжать и получить скажем 16 данных, которые хорошо описывают особенности time series. Варианты
1) Кусочная линейная аппроксимация
мы используем нелинейный метод нейронных сетей, а такими входами получается обрезаем нелинейность
2) спектр, преобразование фурье
как показывает опыт, плохо работает
3) вейвлеты
можно взять первые значимые коэффициенты вейвлетного разложения. Но вейвлеты хорошо сглаживают середину ряда, а для прогнозирования требуется адекватно описать правый край данных, здесь вейвлеты не очень
4) многочлены
коэффициенты при высоких степенях оказывают очень сильное влияние на выходной ряд
5) сплайны (?)
6) преобразование в грамматический ряд, например в зависимости от количества стандартных отклонений от среднего
7) Разложение по собственным функциям. Как мне кажется это наиболее правильное преобразование, но здесь непонятно насколько базис будет сохраняться в будущем при работе с нестационарными данными?
Может быть подскажете современные методики для подобных преобразований? Заранее спасибо.
Ярослав
10-02-2012
Помогите определится с вектором поиска
Добрый день! Я аспирант первого года. Моя темя дисера выглядит примерно так: "Уменьшение размеров статистической БД, без потери данных". Её я взял с работы: имеется огромная БД(речь о сотнях петабайт информации), которая копилась 10 лет. Родилась идея её уменьшить, т.к. старые данные не очень интересны и их точностью можно пренебречь (чем более старые данные, тем большую точность можно потерять), но эта идея не приоритетная и в задачу она так и не переродилась. Я взялся за неё, т.к. из неё можно спокойно написать дисер. Сама БД представляет из себя таблицу, каждая строка которой представляет из себя событие и имеет 30 столбцов параметров, некоторые из которых могут принимать по 2 состояния (true/false), а некоторые представляют из себя произвольную строку, которая может нигде больше не повторяться. Логичная идея: склеить похожие строки(события) и присвоить ещё один столбец с обозначением "веса" строки. Но в научной работе нужно опираться на имеющиеся научные труды, которых я никак найти не могу. Можете задать мне направление поиска (область науки; организации, занимающиеся подобными проблемами; ПО; очень желательно конкретную литературу)? Фраза: работаю в этой области давно, не сталкивался подобной проблемой и точно могу сказать что тут ... и тут ... искать не стоит, тоже будет очень полезна! Заранее спасибо!
Артём
14-11-2011
>Можете задать мне направление поиска (область науки
Data mining
>организации, занимающиеся подобными проблемами
Интернет-поисковик, крупный магазин в интернете, служба безопасности чего угодно.
Один наш блогер-некинокритик (знающие поймут), например, недавно пропиарил статью исследователей из Yahoo.
Ну а служба безопасности упомянута вот почему. Вы предположили, что данные можно сжимать с потерями. Но инфу о поведении злоумышленника надо, наоборот, оставлять неизменной - эта инфа(компьютерные логи) может пригодиться и для следствия, и для судебных разбирательств. Но злоумышленников обычно мало - поэтому надо в базе выделять типичное и нетипичное=вредоносное поведение пользователей, и обе группы инфы жать разными алгоритмами (если всё-таки нетипичную инфу решено будет сжимать).
>ПО
Должно быть - я просто чужим софтом не интересуюсь. На сайте Грегори можно посмотреть.
>очень желательно конкретную литературу
При таких платежеспособных клиентах (названных выше) - нахаляву раздавать ссылки или даже просто конкретные ключевые фразы для поиска? Я пока подожду.
Victor Tsaregorodtsev
15-11-2011
Смотрите в сторону теории информации. В качестве знакомства с конкретными алгоритмами можете начать с метода главных компонент.
boris_notkin
14-11-2011
>можете начать с метода главных компонент.
При 30 переменных в БД это вряд ли даст уменьшение в 10 раз (т.е. вряд ли будет достаточно 3 компоненты). Т.е. петабайты останутся петабайтами.
Тем более, что автор сказал, что переменные в БД разнотипны (раз), и некоторые из них являются бинарными (два). Сильно специальный МГК придётся использовать.
Victor Tsaregorodtsev
15-11-2011
Совершенно согласен, а поэтому и написал, что с этого метода следует лишь начать знакомство с подходами, направленными на решение возникшей проблемы. Все равно рано или поздно это сделать придется, т.к. без знания такой классики жанра (если смотреть на общую постановку задачи и не вдаваться в ее детали) можно и процедуру защиты не пройти.
boris_notkin
16-11-2011
Спасибо за ответы! Копаю сейчас в сторону data mining. Нашёл нечто похожее в кластеризации. И встретил статью с очень похожей проблемой в сенсорных сетях. Очень жаль, что почти вся литература по этому направлению на английском. Приходится больше пыхтеть над переходом чем над самой диссертацией =(
P.S. Выражаю своё отвращению программисту этого сайта. Идентифицировать пользователя только по имени, записанного в форме - это ужасно! (я даже указал свою почту, отличную от почты Артёма, за которого меня приняла система).
Артём
21-11-2011
ИАД в Интернет-магазине, задачи
Здравствуйте! Коллеги, у меня стоит задача построить систему ИАД для Интернет-магазина. На входе данные собранные с Google Analytics. Я затрудняюсь в постановке задачи самому себе что мне делать, не подскажите что и методы?
Дмитрий Анатольевич
10-11-2011
Алгоритм G-Means. Как получить желательное критическое значение
Не могу понять, как получить желательное критическое значение A*2(Z) из выбранного нами в начале алгоритма Уровня Значимости (альфа)... В документации по G-means написано след.:
Figure 2 shows a run of the G-means algorithm on a synthetic dataset with two true clusters and 1000 points, using АЛЬФА = 0.0001. The critical value for the Anderson-Darling test is 1.8692 for this confidence level.
непонятно как из АЛЬФА = 0.0001 получили critical value (A*2(Z)) = 1.8692 ...
please help
Theo
05-11-2011
Проще говоря, что делать после того, как получен A*2(Z) ? С чем его сравнивать (понятное дело, что НЕ A*2(Z) < alpha) ?
Theo
05-11-2011



новое сообщение
карта форума
правила форума
обратная связь
