Страницы: 1 2 3 >>

Тематика: OLAP

Рост индексов

Подскажите пожалуйста как вычислить прирост индексов, если куб выглядит следующим образом: в столбцах дня недели, в строках дата, внутри куба индексы. Нужно вычислить рост индекса по дням недели.

Ольга

12-12-2011

Помогите определится с вектором поиска

Добрый день! Я аспирант первого года. Моя темя дисера выглядит примерно так: "Уменьшение размеров статистической БД, без потери данных". Её я взял с работы: имеется огромная БД(речь о сотнях петабайт информации), которая копилась 10 лет. Родилась идея её уменьшить, т.к. старые данные не очень интересны и их точностью можно пренебречь (чем более старые данные, тем большую точность можно потерять), но эта идея не приоритетная и в задачу она так и не переродилась. Я взялся за неё, т.к. из неё можно спокойно написать дисер. Сама БД представляет из себя таблицу, каждая строка которой представляет из себя событие и имеет 30 столбцов параметров, некоторые из которых могут принимать по 2 состояния (true/false), а некоторые представляют из себя произвольную строку, которая может нигде больше не повторяться. Логичная идея: склеить похожие строки(события) и присвоить ещё один столбец с обозначением "веса" строки. Но в научной работе нужно опираться на имеющиеся научные труды, которых я никак найти не могу. Можете задать мне направление поиска (область науки; организации, занимающиеся подобными проблемами; ПО; очень желательно конкретную литературу)? Фраза: работаю в этой области давно, не сталкивался подобной проблемой и точно могу сказать что тут ... и тут ... искать не стоит, тоже будет очень полезна! Заранее спасибо!

Артём

14-11-2011

>Можете задать мне направление поиска (область науки

Data mining

>организации, занимающиеся подобными проблемами

Интернет-поисковик, крупный магазин в интернете, служба безопасности чего угодно.
Один наш блогер-некинокритик (знающие поймут), например, недавно пропиарил статью исследователей из Yahoo.
Ну а служба безопасности упомянута вот почему. Вы предположили, что данные можно сжимать с потерями. Но инфу о поведении злоумышленника надо, наоборот, оставлять неизменной - эта инфа(компьютерные логи) может пригодиться и для следствия, и для судебных разбирательств. Но злоумышленников обычно мало - поэтому надо в базе выделять типичное и нетипичное=вредоносное поведение пользователей, и обе группы инфы жать разными алгоритмами (если всё-таки нетипичную инфу решено будет сжимать).

>ПО

Должно быть - я просто чужим софтом не интересуюсь. На сайте Грегори можно посмотреть.

>очень желательно конкретную литературу

При таких платежеспособных клиентах (названных выше) - нахаляву раздавать ссылки или даже просто конкретные ключевые фразы для поиска? Я пока подожду.

Смотрите в сторону теории информации. В качестве знакомства с конкретными алгоритмами можете начать с метода главных компонент.

boris_notkin

14-11-2011

>можете начать с метода главных компонент.

При 30 переменных в БД это вряд ли даст уменьшение в 10 раз (т.е. вряд ли будет достаточно 3 компоненты). Т.е. петабайты останутся петабайтами.

Тем более, что автор сказал, что переменные в БД разнотипны (раз), и некоторые из них являются бинарными (два). Сильно специальный МГК придётся использовать.

Совершенно согласен, а поэтому и написал, что с этого метода следует лишь начать знакомство с подходами, направленными на решение возникшей проблемы. Все равно рано или поздно это сделать придется, т.к. без знания такой классики жанра (если смотреть на общую постановку задачи и не вдаваться в ее детали) можно и процедуру защиты не пройти.

boris_notkin

16-11-2011

Спасибо за ответы! Копаю сейчас в сторону data mining. Нашёл нечто похожее в кластеризации. И встретил статью с очень похожей проблемой в сенсорных сетях. Очень жаль, что почти вся литература по этому направлению на английском. Приходится больше пыхтеть над переходом чем над самой диссертацией =(

P.S. Выражаю своё отвращению программисту этого сайта. Идентифицировать пользователя только по имени, записанного в форме - это ужасно! (я даже указал свою почту, отличную от почты Артёма, за которого меня приняла система).

Артём

21-11-2011

Не получается воспроизвести пример из книги

Делаю срезы из ХД (с. 622 книги Бизнес-аналитика: от данных к знаниям, 2-е издание).
Запускаю Мастер импорта, выбираю какие данных хочу импортировать (устанавливаю галочки точно как на рис. 14.24). Жму Далее. Для записи Дата устанавливаю "последний" и "4 месяца от имеющихся", выбираю пользовательский фильтр. Жму Далее, Далее. Выбираю способ отображения - куб. И вот в следующем окне получаю не Товар.Наименование, а Товар.Код|Товар.Наименование. Также получаю не Отдел.Наименование, а Отдел.Код|Отдел.Наименование. То есть получаю длинный путь разделенный вертикальной чертой. Все бы ничего, но потом в OLAP отчете такой же длинный путь отображается. Это неудобно. Как мне избавиться от длинных наименований? Где и какие настройки изменить?. В книге ведь как то это сделано. Спасибо.

ffo

15-09-2011

Для изменения «Меток столбца» используйте обработчик «Настройка набора данных».

Все получилось (в обработчике вручную изменил имя столбца и метку стобца).
Надо Николаю Борисовичу Паклину передать чтоб в третьем издании книги хоть строчку об этом обработчике обязательно включил и рисунок 14.28 изменил, так как пока в нем повторен рисунок 14.27. Спасибо за помощь.

Гость

15-09-2011

В книге намеренно была опущена эта подробность, так как объем книги ограничен.
Перед выполнением любых кейсов из глав 14-19 настоятельно рекомендуется освоить "Базовые навыки работы в Deductor Studio" из прилагаемого методического руководства на CD к книге.
Об этом мы напоминаем читателям в 13-й главе.

Спасибо за оперативность в ответах.

ffo

15-09-2011

Выявление аномалий в БД

Доброго времени суток! Есть задача выявить аномально малые или большие записи в таблице фактов в MS SQL 2005 BI, с помощью ИМЕННО средств аналитики. Подскажите пожалуйста как это сделать.
Пример: аномально большое количество нетрудоустроинных выпускников в одном из регионов за конкретный отчетный период.

Сергей

21-06-2011

MATLAB (графики)

помогите в матлабе написать программу.
надо в одной области сделать 2-ва графика(параболлу и гиперболу)

Иван

08-04-2011

Обсуждение: Ядро OLAP системы. Часть 3 - построение срезов...

Статья написана настолько кривым языком, столько слов-паразитов, что основной смысл просто теряется. Такое впечатление что автор сам не понимает о чем пишет. Общая картина вырисовывается только с 3 прочтения. Советую Алексею Старикову больше не упражняться в написании популярных материалов.

Павел

19-11-2010

Прогнозирование предпочтений клиентов(дистанционная торговля по почте)

Здравствуйте!
Я руководитель аналитической группы департамента снабжения крупной компании, занимающейся продажами по каталогам. Специфика нашей деятельности в том, что наш ассортимент завозится из Китая, откуда срок доставки более чем 2-3 месяца. При этом наш потребитель, получив каталог по почте, заказывая товар тоже через почту, не в курсе того, есть ли у нас товар в данный момент на складе. Задачей нашей группы является прогнозирование предпочтений клиентов, чтоб клиенту не пришлось ждать заказа, и чтоб заказанного нами товара из Китая хватило в принципе, т.е. мы должны за три месяца угадать, а потом постоянно актуализировать наши представления о том, что захочет купить клиент из 32х страничного каталога. И тут факторами, влияющими на спрос клиента, являются размер картинки и ее расположение, цена предложения, сезон, тематика каталога, товарное окружение, а также маркетинговые ухищрения. Общее количество заказов и кривую их прихода худо-бедно прогнозирует наш маркетинг, что касается непосредственно товаров в каталое, тут мы продвинулись совсем недалеко(экспертные оценки). Я сейчас нахожусь в активном поиске методов, с помощью которых можно повысить качество прогнозирования, скорее всего, это многофакторная регрессия и нейронные сети. Что вы могли бы мне посоветовать? Мне интересно получится ли Deductor интегрировать в наши процессы прогнозирования...

Добрый день!

У меня есть такой ответ на Ваш вопрос, что спасение утопающих дело рук самих утопающих. А на стороне вы только заранее жилет или круг купить можете, а надувать его вам самим надо, а потом грести грести :) (шутка)

В свое время у нас было внедрено решение от BaseGroup. Причем успешно, так как все работало, не хуже чем у нас было до этого. Под ваши критерии подходит на 99% процентов. Там поставки из США, КИТАЯ и ЕВРОПЫ - сроки заказов до 6 месяцев. Номеклатура около 2 тыс. позиций.

Примерно в 2003-2004 году мы улудшили показатели по прогнозам поставок примерно на 5-7% после внедрения вышеуказанного решения. Причем в краткосрочном периоде 5-6 месяцев, дальше вопросов стало намного больше, чем ответов.

Главный вывод - все усилия на исходные данные, их качество и происхождение. Так как причина почему система была выведена из эксплуатации у нас была именно в этом.

Если захотите подробностей, то пишите в почту.

С уважением,

Чистов Павел

Здравствуйте! Благодарим за интерес к нашим разработкам.
На самом деле, данная задача состоит из нескольких подзадач. Во-первых, это непосредственно построение моделей временных рядов для прогнозирования, а во-вторых, автоматизация получения попозиционного прогноза на заданное число периодов вперед.
В первой подзадаче могут использоваться методы ABC-XYZ-анализа для изучения стабильности и доходности товарных позиций и выбора методик прогнозирования - от сложных (нейросеть, линейная регрессия) до простых (скользящее среднее, "жесткие" расчетные формулы и т.д.).
На втором этапе эта схема реализуется в Deductor, как правило, из нескольких моделей путем автоматического перебора и сравнения выбирается наилучшая согласно выбранному критерию качества.
Все делается в сценариях Deductor, и на выходе имеем прогноз по каждой товарной позиции. Пример такого подхода на Deductor можно посмотреть в нашей книге "Бизнес-аналитика: от данных к знаниям" (Глава 18 - "Прогнозирование продаж товаров в оптовой компании").
В Вашем случае, возможно, можно улучшить прогноз, подавая на вход модели кроме истории прошлых продаж показатели информативности товара в каталоге, но общая схема не изменится.

Свяжитесь с нами для получения более подробной информации, как правило, мы проводим презентацию с демонстрацией фрагментов готовых решений непосредственно у Заказчика.

BaseGroup Labs

28-05-2009

А "Дедуктор" соответствует вышеизложеному самопиару? :)

_next_

22-06-2009

Мы же не предлагаем верить нам на слово. На сайте есть бесплатная академическая версия Deductor - http://www.basegroup.ru/download/deductor/ . Качайте и сами во всем убедитесь. Для этого даже не требуется регистрация - все в открытом доступе. Никаких "котов в мешке".

Обсуждение: Ядро OLAP системы. Часть 3 -- построение срезов куба

Привет всем! У меня дипломная работа- анализ данных с помошью ОЛАП технологий в рекламном агентстве! пОМОГИТЕ! С чего начать?

laylo

08-12-2007

Построение OLAP диаграмм (графиков)

Люди, помогите! Мне надо построить диаграмму по сечению куба. Я знаю, что такой возможностью обладает Crystal Reports, но в стандартной поставке студии эта опция не доступна. Подскажите пожалуйста, где достать Crystal Reports с возможность построения OLAP диаграмм или другой способ построить OLAP диаграмму в 2005 студии в приложении на C#. Заранее спасибо.

MiXOH

31-05-2007

Обсуждение: Применение OLAP технологий при извлечении данных

хмм...пишу курсовик на тему "Построение семантических сетей с помощью OLAP-моделей"...

alkali

26-05-2007

Страницы: 1 2 3 >>

Форум: технологии анализа данных

Обсуждаются темы, связанные с математическим аппаратом и алгоритмами поиска закономерностей, моделирования, прогнозирования, визуализации и т.п. Все, что связано с Data Warehouse, OLAP, Data Mining, Knowledge Discovery in Databases..

Подпишитесь!

Микроблог BaseGroup в Twitter
Блог BaseGroup в Live Journal (ЖЖ)
Почтовая рассылка BaseGroup на Subscribe.ru

Тематика на форуме