Вход
Регистрация

Сегментация данных как метод сравнительного анализа

Рассмотрим простой пример, показывающий, как анализ, а в частности сегментирование, может помочь сократить финансовые потери.

Я думаю, что Вы неоднократно слышали о различных мошенничествах, совершаемых партнерами, а возможно, и сами становились жертвами подобного мошенничества. Если бы мы могли спрогнозировать, как будет себя вести фирма-партнер, то могли бы минимизировать потери от нечистоплотной деятельности. Лицом любой организации будет считать ее финансовое состояние, зная которое можно попробовать предсказать ее поведение и прогнозировать будущее. Таким образом, мы будем говорить о сравнительном анализе финансового состояния фирм.

В принципе, характеристики организаций можно получить, анализируя различные показатели работы фирмы и связи между ними. Для этого мы можем использовать данные финансовых отчетов. Из них мы можем извлечь значения различных параметров (текущие и просроченные долги, суммы скидок, частоту отгрузок товара и прочее). Но для получения достаточно достоверной информации приходится анализировать много взаимосвязей большого количества параметров. Эта задача не настолько проста, как хотелось бы. Например, для описания финансового состояния банков используется порядка 30 различных показателей, а человек обычно не может оперировать более чем 2-3 параметрами одновременно. Поскольку информации для анализа нужно много и чаще всего она разнородна, то невозможно просто окинуть одним взглядом весь этот набор. А ведь хотелось бы, например, получить какой-то обобщенный, простой для понимания отчет, бросив один взгляд на который, можно было бы сразу сказать о состоянии дел. Желательно получить в результате работы какой-либо простой для восприятия график, глядя на который можно сразу сказать о состоянии дел у интересующей нас фирмы. Т.е. фактически нам необходимо получить какие-то "координаты", исходя из которых можно определить, что представляет собой эта фирма.

Очень часто просто выбираются два наиболее важных, с точки зрения экспертов, параметра и используют это для представления на двумерной карте положения всех фирм. Такой метод часто применяется для сравнительного анализа различных банков. Однако при таком подходе мы очень сильно огрубляем модель, из-за чего можем получить некорректные результаты.

Более общий подход заключается в использовании не каких-либо двух, достаточно произвольно выбранных параметров, а использование двух линейных комбинаций всех параметров. Такие методы позволяют провести линейное приближение различных параметров. Но и линейная обработка не всегда способна выделить ведущие параметры, описывающие состояние фирм с приемлемой точностью.

В этом случае выходом может быть применение нейронных сетей. Существует сеть, которая как раз позволяет отобразить искомый набор параметров, число которых может быть очень большим, в виде двух координат на плоскости.

В качестве наиболее наглядного примера применения рассмотрим задачу кардиологического диспансера. В него поступают больные с инфарктом миокарда, причем у некоторых из них болезнь протекает без осложнений, у некоторых наступает осложнение в виде рецидива инфаркта миокарда, но они выживают, а некоторые умирают. В диспансере накопилось значительное количество карточек о больных, которые и были использованы для исследования. В этих карточках находятся данные о значениях различных параметров состояния больного. Всего таких параметров 25, и простыми методами оказалось невозможно найти закономерности между значениями этих параметров и исходом заболевания. Тогда было решено использовать нейросеть.

В результате, после обучения, на карте у нас хорошо видны две группы, обозначенные синим цветом, находящиеся на некотором расстоянии друг от друга (см. рис.1) – это и есть сегменты (кластеры).

Рис. 1. Карта Кохонена

Теперь попробуем нанести на карту информацию об исходе заболевания (рис.2 и рис.3). В результате мы получим следующую картину: в правую группу попали больные, у которых начались осложнения. Кроме того, почти у всех из них болезнь закончилась летальным исходом. Эту зону можно назвать зоной вероятного летального исхода. В левой же зоне оказались больные с осложнениями и без них. Количество же больных с летальным исходом меньше в процентном отношении. Левый участок можно считать зоной положительного исхода.

Рис. 2. Расположение на карте больных с РИМ
Рис. 3. Расположение на карте больных с летальным исходом

А теперь рассмотрим, как проводились аналогичные исследования для теплосети города Рязани. Всего по городу около 150 тыс. потребителей отопления и горячего водоснабжения. Среди них встречаются хронические неплательщики, люди, которые постоянно платят в срок, а также те, кто платит время от времени. С каждой из этих групп нужно проводить работу индивидуальную. Кого-то надо время от времени предупреждать, а некоторым пора отключать отопление и горячую воду.

Поскольку в имеющейся базе данных имеется очень много записей и у каждого клиента используется около 10 параметров об их платеже, то решить такую задачу напрямую сложно. Здесь на помощь и приходит нейронная сеть.

Для обучения системы было выбрано около 300 записей, в которые вошли различные потребители теплосети. В результате работы системы получилась карта, на которую затем мы нанесли информацию о различных группах клиентов. Были выделены 5 основных групп: "хронические" неплательщики (С3), временные неплательщики (С1), те, кто постоянно платят меньше чем начисляют (С2), и те, кто переплачивает (С5) и добросовестные плательщики (С4).Добросовестных, как видите, не очень много.

После нанесения соответствующей раскраски можно заметить, что все потребители группируются по разным участкам карты (см. рис. 4).

Рис.4. Расположение на карте неплательщиков

По зоне карты, в которую попадает клиент, можно определить, как себя вести с конкретным клиентом, что позволит путем применения соответствующих мер сократить убытки.

Кроме того, можно использовать полученную карту для анализа взаимосвязей между параметрами в простой наглядной форме. Для этого достаточно раскрасить карту разными параметрами и сравнить результаты. Так как при этом все видно в простой наглядной форме, то система позволяет в большей степени использовать способности человека к анализу и сравнению, чем таблицы с множеством колонок с цифрами.

Все показанное выше – это и есть сегментация. Благодаря тому, что схожие объекты располагаются на карте рядом, мы, зная сведения только об одном их них, можем сделать вывод, о том, как поведут себя те, кто находится поблизости.

Как же, с учетом всего вышесказанного, решить задачу определения нечистоплотного партнера? Взять сведения обо всех партнерах и построить карту. После этого наложить на нее информацию об известных вам сомнительных фирмах. Если они группируются в какой-либо области, то это значит, что все, расположенные рядом потенциально опасны. Мы определим группу риска. Как дальше работать: применять к ним более жесткие правила или вообще прекратить работу с ними – вам решать.