Анализ отклоненных заявок в кредитном скоринге

Введение

В скоринге кредитоспособность заемщика предсказывается созданной моделью. Она основана на характеристиках клиента, желающего получить кредит, и оценивает риск путем предсказания манеры погашения долга заемщиком.

Когда человек подает заявку с просьбой выдать ему заем, она может быть одобрена или отклонена кредитором. Одобрение влечет за собой выдачу денег. Спустя определенное время в зависимости от наличия просрочек возврата необходимой суммы одобренный клиент может быть рассмотрен как хороший или плохой. Процесс выдачи кредита изображен на рисунке 1.

Схема процесса кредитования

Рисунок 1 – Схема процесса кредитования

Механизм выбора определяет одобрить или отклонить просьбу клиента, а итоговый механизм устанавливает манеру выполнения кредитных обязательств со стороны заемщика. Именно моделирование этого механизма является одной из задач кредитного скоринга.

Заметим, что тип заемщика среди отклоненных заявок неизвестен, так как отсутствуют данные о том, каким образом происходил бы возврат кредита клиентом.

Отклоненные заявки можно включить в скоринговую модель с целью смещения результата. Процесс оценивания риска невыполнения обязательств заемщиками, которым было отказано текущей кредитной политикой, называется анализом отклоненных заявок (reject inference). Он может быть рассмотрен как статистический вывод с неполными данными. Методы отклоненных заявок могут быть применены для иных проблем, связанных с недостающими данными, а именно для страхования, подбора кадров и медицинской диагностики.

Анализ отклоненных заявок притягивает интерес огромного числа людей, и предложено множество различных методов для решения данной задачи. В то же время достаточно трудно оценить эффективность этих методов, так как реальная кредитоспособность клиентов, которым было отказано, неизвестна.

Отклоненные заявки и проблема недостающих данных

Пусть x = (x1, x2…xk)вектор признаков каждого клиента банка. Здесь содержится типичная информация о заёмщике, включая его кредитную историю.

Метка класса y – данные наблюдений за одобренными заемщиками. Они неизвестны для клиентов, которым было отказано банком в выдаче кредита. Для заемщиков, которые оказались добросовестными, y = 1, в противном случае y = 0. Таким образом, {y} in{0,1}.

Теперь необходимо ввести вспомогательную переменную a. Если заемщику был выдан кредит, то a = 1, если же ему было отказано, то a = 0. Тогда значение y имеется только для тех клиентов, для которых a = 1, а для отклоненных (a = 0) значение y является недостающим (missing), так как нет точных данных о том, был ли вовремя возвращен кредит заемщиком.

Механизм случайно недостающих данных

Сперва рассмотрим случай, когда x и у принимают абсолютно случайные значения (условие MCAR – missing completely at random). Иными словами, случай одобрения выдачи кредита (a = 1) не зависит от x и y. Отсюда имеет место следующее равенство:

P(a = 1 | x, y) = P(a = 1). (1)

Это ситуация, когда заемщик был одобрен абсолютно случайным образом, например подбрасыванием монеты. На практике такие ситуации не возникают. Чаще всего решение выносится на основе значений вектора x и не зависит от y, то есть

P(a = 1 | x, y) = P(a = 1 | x). (2)

Подобное происходит из-за того, что множество кредиторов используют формальную модель выбора. Пусть g(x) – некоторая функция, определяющая рейтинг клиента согласно выбранной методике. В этом случае значения y наблюдаемы только, если функция g(x) превышает заданное пороговое значение: g(x) ≥ c, где c – константа, называемая порогом отсечения (условие MAR – missing at random).

Из (2) получаем следующее равенство:

P(y = 1 | x, a = 1) = P(y = 1 | x, a = 0) = P(y = 1 | x), (3)

то есть при любом фиксированном значении x распределение наблюдаемого y равно распределению недостающего y.

Теперь рассмотрим случай (условие MNAR – missing not at random), когда одобрение зависит и от значений y, даже если x имеет фиксированные значения, то есть:

P(a = 1 | x, y) ≠ P(a = 1 | x). (4)

Это происходит тогда, когда одобрение частично основано на характеристиках человека, которые не записаны в x. Например, если кредитор положился на "общее впечатление" о заемщике. Подобное так же бывает, когда использование модели формального выбора иногда откланяется кредитором в связи с особенными характеристиками заемщика, не указанными в x. Если эти характеристики имеют дополнительное влияние на y, то

P(y = 1 | x, a = 1) ≠ P(y = 1 | x, a = 0). (5)

Игнорирование и неигнорирование механизма недостающих данных

Механизм недостающих данных в конечном счете может быть проигнорирован, если:

  1. принято условие MAR;
  2. параметры механизма недостающих данных не имеют отношения к итоговому механизму.

В данной ситуации механизм недостающих данных называется игнорируемым, так как нет необходимости включать его модель в случае, когда интересует только итоговый механизм.

Если условие MAR не принято, то механизм недостающих данных называют неигнорируемым. Тогда он должен быть включен в модель для лучшей оценки параметров итогового механизма.

Методы анализа отклоненных заявок

Существует пять основных технологий анализа отклоненных заявок, которые могут пополнить данные о клиентах:

  1. случайное добавление – случайное одобрение отклоненных заявок для получения дополнительных записей;
  2. приращение – увеличение кредитного рейтинга на определенное значение (вес);
  3. экстраполяция – предугадывание количества плохих среди отказанных заявок с использованием соотношения хороший/плохой одобренных клиентов;
  4. групповое применение – использование данных других кредитных организаций;
  5. двумерное представление – визуальное представление данных об одобренных и отклоненных заявках.

Случайное добавление

Если модель одобряет заявки абсолютно случайно, не ссылаясь на доступные данные или имеющийся опыт, то выполняется условие MCAR. Только небольшому числу примеров можно найти объяснение. Это может быть использовано для случайного добавления. Существует два сценария:

  1. Новые игроки – на новом рынке одобряются все новые клиенты, за исключением очевидных проблемных случаев. При добавлении новых данных правила одобрения обновляются, чтобы исключить худшие ситуации.
  2. Установившиеся игроки – кредиторы одобряют некоторые случайные заявки, которые были отклонены, при этом выбираются они в регионе незначительно ниже порога отсечения.

Приращение

Этот подход можно также назвать взвешиванием, так как рейтингу присваивается определенный вес. Он эффективен в случае MAR недостающих данных.

Процесс приращения заключается в следующем. После того как существующая модель определила одобренные и отклоненные заявки, рассчитывается вес приращения:

W^{*}= W*{{A+R}/A}, (6)

где W^{*} – искомый вес приращения, W – прежний вес приращения (если процедура повторялась ранее, иначе W = 1), A – количество одобренных заявок, R – количество отклоненных. Рейтинг каждой заявки умножается на значение W^{*} , и среди отклоненных находятся новые хорошие и плохие клиенты. Также иногда заявки группируются по некоторым атрибутам. Например, в США каждый гражданин имеет общий рейтинг, который может меняться в течение жизни. Таким образом, можно выделить группы заявок по принадлежности к тому или иному диапазону рейтинга и найти вес для каждой из групп. Тогда формула 6 примет следующий вид:

W^{*}_{i}= W_{i}*{{A_{i}+R_{i}}/A_{i}}, (7)

где i – это группа, для которой рассчитывается Ai, являющаяся количеством одобренных заявок в группе i, Ri – количество отклоненных заявок в группе i.

Экстраполяция

Одним из методов анализа отклоненных заявок является экстраполяция, которая основана на предложении о том, что могло бы произойти с заявками, которые были отклонены, в случае их одобрения. Как приращение этот метод применяется в случае MAR.

При экстраполяции необходимо определить, какие заявки одобрены, а какие отклонены, а также какие клиенты среди одобренных оказались хорошими. Еще необходимо определить предполагаемое значение коэффициента KI, который в идеале должен отражать следующее соотношение:

формула 8, (8)

где GK – количество одобренных хороших клиентов, BK – количество одобренных плохих, GI – количество отклоненных хороших, BI – количество отклоненных плохих.

Далее рассчитывается количество отклоненных плохих заемщиков по следующей формуле:

Формула 9, (9)

где NR – общее число отклоненных заявок.

Групповое применение

Применяемый набор данных может быть расширен включением в него данных извне. Зачастую заемщики, которым было отказано в одном банке, успешно его берут в другом. Это дает много полезных данных, которые могут быть эффективно использованы для анализа отклоненных заявок. Кредитные бюро предоставляют такую возможность.

Совершенно очевидно, что "групповое применение" является высоко эффективным методом получения сведений об отвергнутых заемщиках. Однако существуют некоторые препятствия этому. За полученную информацию придется заплатить определенную сумму. Также не все заемщики, которые были отвергнуты, смогут получить кредит в других организациях. Некоторые клиенты имеют настолько плохие кредитные истории, что сделать это невозможно.

Двумерное представление

Данный подход отличается от других тем, что он основан на использовании средств визуализации данных. Фактические и предполагаемые значения собираются в таблицу, на основе которой строится графическое представление. Для этого необходимо осуществить следующие шаги:

  1. разработать модель одобрения заявок;
  2. применить её для всего набора имеющихся данных;
  3. создать диаграмму размещения, где по оси X отложить вероятность одобрения – P(Одобрение), а по оси Y – вероятность того, что клиент по субъективному мнению кредитора является хорошим заемщиком – P(Хороший);
  4. использовать кредитный рейтинг как P(Одобрение);
  5. определить значения P(Одобрение) и P(Хороший) для достаточного количества случаев;
  6. построить график ожидаемого среднего рейтинга для плохих заемщиков среди одобренных и отклоненных клиентов;
  7. построить график рейтингов плохих клиентов;
  8. визуально оценить полученное двумерное представление.

Данная модель полезна, когда принято условие MNAR, то есть значения P(Хороший) зависят от кредитного рейтинга, определенного моделью (неравенства 4, 5). Если есть подозрения на то, что при одобрении заявок субъективная оценка клиента кредитором играла большую роль, то следует визуально проанализировать отклоненные заявки с помощью двумерного представления.

Пример продемонстрирован на рисунке 2. Данная ситуация возникает редко, но при помощи двумерного представления можно наглядно увидеть недостатки существующей модели и попытаться вручную скорректировать её.

Двумерное представление

Рисунок 2 – Двумерное представление скоринговой политики

Теперь после ознакомления с методологиями анализа отклоненных заявок покажем схематично основную идею (рисунок 3).

Анализ отклоненных заявок

Рисунок 3 – Анализ отклоненных заявок

Пример анализа отклоненных заявок

Пусть имеется набор данных из 1000 записей о клиентах банка, в которых указан кредитный рейтинг, присвоенный моделью, отвергнута или отклонена заявка и для одобренных заемщиков – его тип (хороший/плохой). При отборе заявок использовался порог отсечения, равный 0,7. Общая информация представлена в таблице 1.

Таблица 1 – Информация по кредитованию

Одобренные заявки Отклоненные заявки Всего
Хорошие заемщики Плохие заемщики
952 9 39 1000

Так как построенная модель отклоняла заявки на основе данных, известных о клиенте, то выполняются равенства условия MAR недостающих данных. В этой ситуации эффективно использовать приращение и экстраполяцию.

При приращении необходимо воспользоваться формулой 6 для расчета весовых коэффициентов. Тогда, подставляя значения из таблицы 1, получим следующее:

W^{*}= {952+9}/952 approx 1,01.

Таким образом, рейтинг каждого клиента необходимо умножить на 1,01. Сохранив прежний порог отсечения, проведем переклассификацию. В результате чего среди отклоненных заявок появилась одна, которая стала "хорошей".

Теперь рассчитаем количество плохих заемщиков среди отклоненных методом экстраполяции. Для этого необходимо установить некоторое значение коэффициенту KI. Предположим, что он равен 40. Подставляя все значения в формулу 9, получаем BI = 11. Сведем полученные данные в таблицу 2.

Таблица 2 – Результаты после экстраполяции

Одобренные заявки Отклоненные заявки Всего
Хорошие заемщики Плохие заемщики Хорошие заемщики Плохие заемщики
952 9 28 11 1000

Таким образом, к хорошим будут отнесены 28 клиентов с наивысшим рейтингом среди отклоненных.

Основные выводы

В большинстве случаев потенциальная выгода от анализа отклоненных заявок ограничена. Наилучший подход – использование группового применения, в этом случае риски не столь высоки, а также возможно сочетать различные методологии между собой и выбирать наиболее подходящий результат.

Достоинством анализа отклоненных заявок является то, что мы можем расширить набор данных, сделать его репрезентативнее с той или иной стороны. Это бывает полезно, когда кредитная организация выходит на новый рынок, когда информации накоплено немного и ощутима её нехватка.

Однако иногда использовать анализ отклоненных заявок следует крайне осторожно. Так как неверные выводы могут повлечь за собой финансовые потери. На уже освоенном рынке построенная модель работает довольно эффективно, и она корректируется незначительно в результате анализа: количество вновь одобренных клиентов невелико, а риск выдать кредит плохому заемщику возрастает.


Царьков Сергей

Литература
  1. Anderson R. “The Credit Scoring Toolkit. Theory and Practice for Retail Credit Risk Management and Decision Automation”, 2007
  2. Weldon G. “Inferring Behavior on Rejected Credit Applicants-Three Approaches”, 1999
  3. Feelders A.J. “An Overview of Model Based Reject Inference for Credit Scoring”, 2003
  4. Mok J.-M. “Reject Inference in Credit Scoring”, 2009