Страницы: 1 2 3 4 5 6 >> ..18

Тематика: Data Mining

Многокритериальная оптимизация

Здраствуйте! Подскажите, пожалуйста, есть ли возможность используя ваш компонент для делфи по генетическим алгоритмам произвести многокритериалную оптимизацию? Например, в один момент есть функция на максимизацию и минимизацию?

Александр

17-04-2012

Минимизировать или максимизировать можно что-то одно. Тут вариантов никаких нет. Суть оптимизации заключается в том, что мы должны как-то сказать какой из вариантов лучше, а какой хуже. Значит нам в любом случае придется привести все к одной шкале.

Пример на пальцах: у нас есть выпускаемый продукт и мы оптимизируем сразу два показателя, каких угодно, например, минимизируем время производства и максимизируем загрузку оборудования. Минимум одного и максимум другого приходятся на различные ситуации. Вопрос - какой вариант лучше? Ответ - понятия не имею.

Для того, чтобы ответить на этот вопрос нужно привести все к одному показателю, а потом уже по этому показателю выбирать лучший вариант. В примере, что выше, можно например все свести к деньгам. Рассчитать сколько в деньгах мы выиграем от того, что минимизируем время и сколько выиграем от того, что максимизируем загрузку оборудования. Т.к. показатель один - деньги, то без проблем можно выбрать лучший вариант. Где больше заработаем,то и лучше.

Если не удается привести к одному более или менее объективному показателю, как деньги, то надо задать коэффициент для каждого показателя. И получить одну функцию для которой будем искать экстремум, но которая является линейной комбинацией других показателей. А можно и нелинейной. В принципе, это значения не имеет. Важно то, что в конечном счете функция, экстремум которой мы будем искать, будет одна.

предсказание методом SVM

Добрый день!
У кого-то есть опыт предсказаний числовых рядов методом SVM в Statistica 8?
Дело в том, что я столкнулся с такой проблемой, что алгоритм правильно классифицирует данные (определяет категории в данных), но при попытке сделать custom prediction, выдает совершенно не те данные, которые верно предсказывал в процессе тренировки.

Подскажите, в чем может быть дело. Спасибо!

Sergey

23-03-2012

В Статистике7 та же самая проблема.
Обычный предикшн - всё хорошо, а кастом предикшн (после ввода user defined case) - неправильно.
Но я Справку не глядел - может, там обязательно требуют как-то иначе (вручную) нормировать данные для кастом предикшн.

Sergey,

SVM (support vector machine) ведь используется для решении задачи классификации, но не регрессии.

И регрессии тоже.
Statistica на основе SVM умеет делать и классификацию, и регрессию.

Отрицательные коэффициенты регрессии

Подскажите пожалуйста, если после логистической регресси, я просматриваю Коэффициенты регрессии:
1) для некоторых (большинства) характеристик они отрицательны, как интерпретировать такие результаты?
2) некоторые характеристики имеют (как пример)-3,777E , я так понимаю наличие E говорит о слишком высоком(низком) показателе?
Может нужны другие настройки при исполнении обработчика?

Сергей

12-03-2012

Lyn C. Thomas. Consumer Credit Models: Pricing, Profit, and Portfolios. Pages 82-84

Gewissta

20-03-2012

Скоринговые карты. Как формируются баллы?

Вот с анализом истории кредитования используя логистическую регрессию, нейронные сети и т.д. вроде бы более менее понятно, знакомился с методами в Deductor.

Что касается самого формирования скоринговых карт.Набор характеристик в основном одинаковый для российских банков, за исключением нескольких специфических характеристик, волнующих определенные банки при процессе кредитования.
У меня вопрос, как и на основании чего каждой характеристики определяется определенное количество баллов??
К примеру Возраст имеет несколько признаков (22-25, 25-28 и т.д) и для каждого признака были
выявлены определенные весовые коэффициенты, представленные в виде баллов. Так вот каким
способом это формируется?

Конкретный алгоритм (статистический либо машинного обучения) формирует веса при атрибутах характеристик скоринговой карты. Это могут быть регрессионные коэффициенты, поддержка узла дерева решений и т.д.
Перевод данных величин в скоринговые баллы производится после их расчета по специальным формулам.
Подробнее об этом можете посмотреть на странице Deductor Credit Scorecard Modeler - http://www.basegroup.ru/solutions/scm/

Скажите пожалуйста, помимо формирования баллов для характеристик, Deductor Credit Scorecard Modeler способен сформировать проходной бал для заемщика? если да, то насколько широки способности выполнения такой задачи? (имеется ввиду на сколько гибко можно сформировать проходной балл основоваясь на размер активов или др. показатели).

Задача кредитного скоринга заключается в построении скоринговой карты, присвоении итоговых баллов каждому заемщику, чем обеспечивается их ранжирование по убыванию (возрастанию) вероятности наступления дефолта P(D).
На этом непосредственно сам скоринг заканчивается (и Deductor Credit Scorecard Modeler тоже), и задача определения оптимального балла отсечения для принятия решения о выдаче кредита решается различными методиками, от простых до сложных на основе входной дополнительной информации. Это может быть сделано сценариями Deductor.

Спасибо за информацию.

По каким специальным формулам? Это важно. Ведь при переводе регрессионных коэффициентов в баллы неизбежна потеря информации и искажения. Как она решается? Как это учитывают ваши формулы?

Артем

06-03-2012

Перевод регрессионных коэффициентов в баллы диктуется стандартом скоринговых карт, которые должны быть в баллах. При этом интерпретация облегчается, но добавляется небольшое искажение. Формулы стандартные из учебников по кредитному скорингу, по умолчанию DSCM масштабирует карту в стандарт FICO, при котором каждые 40 баллов удваивают шансы наступления события.

Не будете так любезны дать ссылку на этот стандарт? Находил в интернете только извлечения из него. Спасибо

Артем

16-03-2012

Двумерный анализ - характеристики

Подскажите пожалуйста, возможен ли Двумерный анализ данных в Deductor Academic 5.2 направ. на характеристики скоринговых карт, чтобы оценить значимость каждого атрибута с помощью индекса IV?
или така обработка возможно только в специализированной программе Deductor?

Сергей

07-03-2012

Этот показатель считается при помощи сценария. Вообще, обработчики в Deductor реализуют базовые алгоритмы, все остальное - это комбинация действий этих самых базовых алгоритмов.

Посмотрите, например, банк сценариев - http://www.basegroup.ru/solutions/scripts/ там показано как можно известные индикаторы, типа ABC-анализа рассчитать при помощи всего нескольких узлов сценария в Deductor.

В решении Deductor Credit Scorecard Modeler есть готовый сценарий расчета индекса IV.

Обсуждение: Применение логистической регрессии в медицине и...

Здравствуйте!) на данном форуме вы скидывали ссылку на зарубежный источник учебных баз по физическим лицам. А вы случайно не владеете подобной информацией о юридических?)

Татьна

10-02-2012

Предварительное сжатие входных данных

Здравствуйте,

Предсказания нейронной сети во многом зависят от входных данных (ну или мусора), которые идут на вход.

Классически подаются embedding данные, несколько последних значений time series. Опущу здесь варианты предварительной обработки, как вычисление разницы, нормирование итд

А какие есть наилучшие методы для сжатия размерности (dimensionality reduction) входного временного ряда? Есть массив значений пускай 60 данных погружения, надо их сжать и получить скажем 16 данных, которые хорошо описывают особенности time series. Варианты

1) Кусочная линейная аппроксимация
мы используем нелинейный метод нейронных сетей, а такими входами получается обрезаем нелинейность
2) спектр, преобразование фурье
как показывает опыт, плохо работает
3) вейвлеты
можно взять первые значимые коэффициенты вейвлетного разложения. Но вейвлеты хорошо сглаживают середину ряда, а для прогнозирования требуется адекватно описать правый край данных, здесь вейвлеты не очень
4) многочлены
коэффициенты при высоких степенях оказывают очень сильное влияние на выходной ряд
5) сплайны (?)
6) преобразование в грамматический ряд, например в зависимости от количества стандартных отклонений от среднего
7) Разложение по собственным функциям. Как мне кажется это наиболее правильное преобразование, но здесь непонятно насколько базис будет сохраняться в будущем при работе с нестационарными данными?

Может быть подскажете современные методики для подобных преобразований? Заранее спасибо.

Ярослав

10-02-2012

Помогите определится с вектором поиска

Добрый день! Я аспирант первого года. Моя темя дисера выглядит примерно так: "Уменьшение размеров статистической БД, без потери данных". Её я взял с работы: имеется огромная БД(речь о сотнях петабайт информации), которая копилась 10 лет. Родилась идея её уменьшить, т.к. старые данные не очень интересны и их точностью можно пренебречь (чем более старые данные, тем большую точность можно потерять), но эта идея не приоритетная и в задачу она так и не переродилась. Я взялся за неё, т.к. из неё можно спокойно написать дисер. Сама БД представляет из себя таблицу, каждая строка которой представляет из себя событие и имеет 30 столбцов параметров, некоторые из которых могут принимать по 2 состояния (true/false), а некоторые представляют из себя произвольную строку, которая может нигде больше не повторяться. Логичная идея: склеить похожие строки(события) и присвоить ещё один столбец с обозначением "веса" строки. Но в научной работе нужно опираться на имеющиеся научные труды, которых я никак найти не могу. Можете задать мне направление поиска (область науки; организации, занимающиеся подобными проблемами; ПО; очень желательно конкретную литературу)? Фраза: работаю в этой области давно, не сталкивался подобной проблемой и точно могу сказать что тут ... и тут ... искать не стоит, тоже будет очень полезна! Заранее спасибо!

Артём

14-11-2011

>Можете задать мне направление поиска (область науки

Data mining

>организации, занимающиеся подобными проблемами

Интернет-поисковик, крупный магазин в интернете, служба безопасности чего угодно.
Один наш блогер-некинокритик (знающие поймут), например, недавно пропиарил статью исследователей из Yahoo.
Ну а служба безопасности упомянута вот почему. Вы предположили, что данные можно сжимать с потерями. Но инфу о поведении злоумышленника надо, наоборот, оставлять неизменной - эта инфа(компьютерные логи) может пригодиться и для следствия, и для судебных разбирательств. Но злоумышленников обычно мало - поэтому надо в базе выделять типичное и нетипичное=вредоносное поведение пользователей, и обе группы инфы жать разными алгоритмами (если всё-таки нетипичную инфу решено будет сжимать).

>ПО

Должно быть - я просто чужим софтом не интересуюсь. На сайте Грегори можно посмотреть.

>очень желательно конкретную литературу

При таких платежеспособных клиентах (названных выше) - нахаляву раздавать ссылки или даже просто конкретные ключевые фразы для поиска? Я пока подожду.

Смотрите в сторону теории информации. В качестве знакомства с конкретными алгоритмами можете начать с метода главных компонент.

boris_notkin

14-11-2011

>можете начать с метода главных компонент.

При 30 переменных в БД это вряд ли даст уменьшение в 10 раз (т.е. вряд ли будет достаточно 3 компоненты). Т.е. петабайты останутся петабайтами.

Тем более, что автор сказал, что переменные в БД разнотипны (раз), и некоторые из них являются бинарными (два). Сильно специальный МГК придётся использовать.

Совершенно согласен, а поэтому и написал, что с этого метода следует лишь начать знакомство с подходами, направленными на решение возникшей проблемы. Все равно рано или поздно это сделать придется, т.к. без знания такой классики жанра (если смотреть на общую постановку задачи и не вдаваться в ее детали) можно и процедуру защиты не пройти.

boris_notkin

16-11-2011

Спасибо за ответы! Копаю сейчас в сторону data mining. Нашёл нечто похожее в кластеризации. И встретил статью с очень похожей проблемой в сенсорных сетях. Очень жаль, что почти вся литература по этому направлению на английском. Приходится больше пыхтеть над переходом чем над самой диссертацией =(

P.S. Выражаю своё отвращению программисту этого сайта. Идентифицировать пользователя только по имени, записанного в форме - это ужасно! (я даже указал свою почту, отличную от почты Артёма, за которого меня приняла система).

Артём

21-11-2011

ИАД в Интернет-магазине, задачи

Здравствуйте! Коллеги, у меня стоит задача построить систему ИАД для Интернет-магазина. На входе данные собранные с Google Analytics. Я затрудняюсь в постановке задачи самому себе что мне делать, не подскажите что и методы?

Алгоритм G-Means. Как получить желательное критическое значение

Не могу понять, как получить желательное критическое значение A*2(Z) из выбранного нами в начале алгоритма Уровня Значимости (альфа)... В документации по G-means написано след.:
Figure 2 shows a run of the G-means algorithm on a synthetic dataset with two true clusters and 1000 points, using АЛЬФА = 0.0001. The critical value for the Anderson-Darling test is 1.8692 for this confidence level.
непонятно как из АЛЬФА = 0.0001 получили critical value (A*2(Z)) = 1.8692 ...
please help

Theo

05-11-2011

Проще говоря, что делать после того, как получен A*2(Z) ? С чем его сравнивать (понятное дело, что НЕ A*2(Z) < alpha) ?

Theo

05-11-2011

Страницы: 1 2 3 4 5 6 >> ..18

Форум: технологии анализа данных

Обсуждаются темы, связанные с математическим аппаратом и алгоритмами поиска закономерностей, моделирования, прогнозирования, визуализации и т.п. Все, что связано с Data Warehouse, OLAP, Data Mining, Knowledge Discovery in Databases..

Подпишитесь!

Микроблог BaseGroup в Twitter
Блог BaseGroup в Live Journal (ЖЖ)
Почтовая рассылка BaseGroup на Subscribe.ru

Тематика на форуме