16
Метод бинарной логистической регрессии в банковском скоринге А.В. ГруздеВ, исследовательская компания «Гевисста», директор В этом номере мы продолжаем публикацию, посвященную при- менению метода логистической регрессии для построения ско- ринговых моделей 1 . В прошлый раз речь шла об описании метода, подготовке данных и построении регрессионного уравнения. Во второй части статьи мы остановимся на работе с прогнозами и валидации модели, подробно рассмотрим ROC-анализ для оценки прогностической эффективности модели. 1 См.: Груздев А.В. Метод бинарной логистической регрессии в банковском скоринге. Риск-менеджмент в кредитной орга- низации. 2012. № 1. С. 71–88. 2 См.: Груздев А.В. Дискриминантный анализ в банковском скоринге // Риск-менеджмент в кредитной организации. 2011. № 4. С. 64–84. Прогноз регрессионной модели Теперь обратимся к двум новым переменным [PRE_1] и [PGR_1] (рис. 3). 1. [PRE_1] Predicted Probability, или Предсказанная вероят- ность. Можно посмотреть, как модель предсказала риски по 150 потенци- альным клиентам и тем 700 клиентам, у которых кредит закрыт с извест- ным результатом погашения. Кроме того, можно сравнить их со зна- чениями рисков, предсказанными дискриминантной моделью 2 . Согласно приведенным в табл. 4 значениям бета-коэффициентов наше регрессионное уравнение выглядит следующим образом: 0,605 0,247 0,089 0,072 0,602 . y =− × × + × × + × ñòàæ ïðîæèâàíèå ïðîöäîëãîâ êàðòäîëã Напомним, что вероятность дефолта вычисляется по формуле: ( 0,605 0,247 0,089 0,072 0,602 ) 1 . 1 P e −− × × + × + × = + ñòàæ ïðîæèâàíèå ïðîöäîëãîâ êàðòäîëã 76 Риск-менеджмент в кредитной организации № 2 (06) \ 2012 Управление и контроль

Логистическая регрессия в скоринге (Часть II)

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Логистическая регрессия в скоринге (Часть II)

Метод бинарной логистической регрессии в банковском скоринге

А.В. ГруздеВ,

исследовательская

компания «Гевисста»,

директор

В этом номере мы продолжаем публикацию, посвященную при-менению метода логистической регрессии для построения ско-ринговых моделей1. В прошлый раз речь шла об описании метода, подготовке данных и построении регрессионного уравнения. Во второй части статьи мы остановимся на работе с прогнозами и валидации модели, подробно рассмотрим ROC-анализ для оценки прогностической эффективности модели.

1 См.: Груздев А.В. Метод бинарной логистической регрессии в банковском скоринге. Риск-менеджмент в кредитной орга-низации. 2012. № 1. С. 71–88.

2 См.: Груздев А.В. Дискриминантный анализ в банковском скоринге // Риск-менеджмент в кредитной организации. 2011. № 4. С. 64–84.

Прогноз регрессионной моделиТеперь обратимся к двум новым переменным [PRE_1] и [PGR_1] (рис. 3).

1. [PRE_1] — Predicted Probability, или Предсказанная вероят-ность.

Можно посмотреть, как модель предсказала риски по 150 потенци-альным клиентам и тем 700 клиентам, у которых кредит закрыт с извест-ным результатом погашения. Кроме того, можно сравнить их со зна-чениями рисков, предсказанными дискриминантной моделью2.

Согласно приведенным в табл. 4 значениям бета-коэффициентов наше регрессионное уравнение выглядит следующим образом:

0,605 0,247 0,089 0,0720,602 .

y = − − × − × + ×× + ×

ñòàæ ïðîæèâàíèåïðîöäîëãîâ êàðòäîëã

Напомним, что вероятность дефолта вычисляется по формуле:

( 0,605 0,247 0,089 0,072 0,602 )

1.

1P

e− − − × − × + × + ×=

+ ñòàæ ïðîæèâàíèå ïðîöäîëãîâ êàðòäîëã

76

Риск-менеджмент в кредитной организации № 2 (06) \ 2012

Управление и контроль

Page 2: Логистическая регрессия в скоринге (Часть II)

Вычислим вероятность дефолта для наблюдения 706:

( 0,605 0,247 1 0,089 3 0,072 9,90 0,602 0,23)

( 0,605 0,247 0,267 0,7128 0,13846)

( 0,26774)

1

11

11 1 1

0,43.1 1,307 2,3071

Pe

e

e

− − − × − × + × + ×

− − − − + +

− −

= =+

= =+

= = = ≈++

Как видим, вычисленное вручную значение вероятности дефолта совпадает со значением вероятности дефолта, автоматически вычис-ленным SPSS (см. значение переменной [PRE_1] для данного наблю-дения). Вычисленные вероятности позволяют нам обеспечить ран-жирование заемщиков по убыванию (возрастанию) вероятности дефолта (PD).

2. [PGR_1] — Predicted Group, или Предсказанная группа. Переменная принимает два значения: 0 — не было долгов по кре-

дитам; 1 — были долги по кредитам.При условии, что предсказанная вероятность дефолта меньше

установленного порога отсечения (по умолчанию это значение 0,5), прогнозируется ответ 0 — не было долгов по кредитам.

При условии, что предсказанная вероятность дефолта больше установленного порога отсечения, прогнозируется ответ 1 — были долги по кредитам.

Можно посмотреть, как модель предсказала принадлежность к «хорошим»/«плохим» заемщикам по тем 700 заемщикам, у которых кредит закрыт с известным результатом погашения, и по 150 потен-циальным клиентам.

Рассмотрим наблюдение 701. Сравним значение переменной [Dis2_1] со значением перемен ной [PRE_1]. Значение [Dis2_1] для этого наблюдения — 8% (0,08452 × 100). Это обозначает, что дис-криминантная модель с вероятностью 8% отнесла данное наблю-дение к группе клиентов, у которых будут долги по кредиту (группе со значением 1). Значение [PRE_1] для этого наблюдения — 1% (0,00996 × 100). Это значит, что модель логистической регрессии с вероятностью 1% предсказывает риск невыплаты кредита по данному заемщику.

Рассмотрим наблюдение 703. Опять сравним значение переменной [Dis2_1] со значением переменной [PRE_1]. Значение [Dis2_1] для этого наблюдения — 81% (0,81455 × 100). Дискриминантная модель с вероятностью 81% предсказывает риск невыплаты кредита по данному заемщику. Значение [PRE_1] для этого наблюдения — 63%

Дискриминантная

и регрессионная модели

дают в целом схожие

оценки кредитоспособ-

ности потенциального

клиента. Однако на прак-

тике это выполняется

далеко не для всех

наблюдений.

77

www.reglament.net

вероятность дефолта \ регрессионные коэффициенты \ ROC-анализ

Метод бинарной логистической регрессии в банковском скоринге

Page 3: Логистическая регрессия в скоринге (Часть II)

(0,62995 × 100). Модель логистической регрессии с вероятностью 63% предсказывает риск невыплаты кредита по данному заемщику.

Как видим по этим двум наблюдениям, дискриминантная и регрес-сионная модели дают в целом схожие оценки кредитоспособности потенциального клиента. Однако на практике это выполняется далеко не для всех наблюдений.

Наблюдение 716 — пример расхождения оценок моделей в креди-тоспособности заемщика. Значение [Dis2_1] для этого наблюдения — 68% (0,67969 × 100). Дискриминантная модель с вероятностью 68% предсказывает риск невыплаты кредита по данному заемщику.

Значение [PRE_1] для этого наблюдения — 30% (0,30242 × 100). Модель логистической регрессии с вероятностью 30% предсказывает риск невыплаты кредита по данному заемщику.

Рисунок 3

Прогноз кредитоспособности заемщиков

78

Риск-менеджмент в кредитной организации № 2 (06) \ 2012

Управление и контроль

Page 4: Логистическая регрессия в скоринге (Часть II)

В классификационной диаграмме (рис. 4) и классификационной таблице (табл. 8) приводятся практические результаты применения модели.

Рисунок 4

Классификационная диаграмма

В классификационной диаграмме (рис. 4) используются первые буквы градаций зависимой переменной: Н («Не было долгов по кредиту») и Б («Были долги по кредиту»). В нашем случае, чтобы избежать проблем с отображением символов в диаграмме, мы воспользовались англий-ским вариантом меток для переменной «Факт долга по кредиту».

По горизонтальной оси отложены значения прогнозируемой вероят-ности, вычисляемые по уравнению регрессии, а по вертикальной оси — частоты. Каждый столбик на диаграмме соответствует определенной предсказанной вероятности дефолта, а его высота — количеству объ-ектов (заемщиков), для которых предсказана данная вероятность.

В случае идеальной модели все буквы Н окажутся левее букв Б, а разделять их будет вероятность 0,5.

На диаграмме видно, что некоторые столбики включают в себя обе буквы, что свидетельствует об ошибках предсказания. Высота в один символ соответствует 5 объектам.

Символам Н в правой части диаграммы и символам Б в левой части диаграммы соответствуют неправильные предсказания отно-

Номер шага: 4Наблюдаемые группы и предсказанные вероятности

Predicted Probability is of Membership for «Были долги по кредиту»Разделяющее значение равно ,50Символы:Н — Не было долгов по кредиту.Б — Были долги по кредиту.Каждый символ соответствует 5 наблюдениям.

Predicted Prob:Group: 0 ,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 1

80

60

40

20

Час

тота

0 ,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 1

79

www.reglament.net

вероятность дефолта \ регрессионные коэффициенты \ ROC-анализ

Метод бинарной логистической регрессии в банковском скоринге

Page 5: Логистическая регрессия в скоринге (Часть II)

сительно дефолта заемщика. Количество правильных и неправиль-ных предсказаний можно увидеть в классификационной таблице.

Для каждого наблюдения прогнозируется ответ «Были долги по кредиту» при условии, что спрогнозированная вероятность дефолта больше установленного порога отсечения (в нашем исследовании это значение 0,5).

Таблица 8

Результаты классификации (Classification table)a

a Разделяющее значение = ,500.b Выбранные наблюдения validate EQ 1.c Невыбранные наблюдения validate NE 1.

Некоторые из невыбранных наблюдений не были классифицированы либо из-за пропущенных значений в независимых

переменных, либо из-за категориальных переменных со значениями вне допустимого диапазона выбранных значений.

Наблюдаемый показатель Спрогнозировано

Выбранные наблюденияb Невыбранные наблюденияc

Факт долга по кредиту

Процент-ный пока-затель верных прогнозов

Факт долга по кредиту

Процент-ный пока-затель верных прогнозов

Не было долгов по кре-диту

Были долги по кре-диту

Не было долгов по кредиту

Были долги по кре-диту

Шаг 1 Факт долга по кредиту

Не было долгов по кредиту

361 14 96,3 137 5 96,5

Были долги по кредиту

100 24 19,4 45 14 23,7

Общий процент 77,2 75,1

Шаг 2 Факт долга по кредиту

Не было долгов по кредиту

351 24 93,6 136 6 95,8

Были долги по кредиту

80 44 35,5 36 23 39,0

Общий процент 79,2 79,1

Шаг 3 Факт долга по кредиту

Не было долгов по кредиту

348 27 92,8 135 7 95,1

Были долги по кредиту

72 52 41,9 28 31 52,5

Общий процент 80,2 82,6

Шаг 4 Факт долга по кредиту

Не было долгов по кредиту

352 23 93,9 130 12 91,5

Были долги по кредиту

67 57 46,0 27 32 54,2

Общий процент 82,0 80,6

80

Риск-менеджмент в кредитной организации № 2 (06) \ 2012

Управление и контроль

Page 6: Логистическая регрессия в скоринге (Часть II)

Исходя из наблюдений, использованных для построения модели, 57 из 124 клиентов, у которых были долги по кредиту, классифици-рованы корректно. 352 из 375 «хороших» заемщиков классифициро-ваны корректно. Всего 82% наблюдений в обучающей выборке клас-сифицированы верно.

Из представленной таблицы мы видим пошаговое улучшение классификации, которая показывает, насколько адекватна наша модель. По умолчанию лучшей считается та модель, которая кор-ректно классифицирует больший процент наблюдений в обучающей и проверочной выборках. Однако, даже если модель с высокой точ-ностью прогнозирует принадлежность к той или иной группе, это еще не является доказательством качества модели1.

Нужно помнить, что результаты классификации по обучающей выборке могут быть излишне оптимистичными. Чтобы исключить это предположение, мы должны проанализировать результаты клас-сификации по проверочной выборке и соотношение верных про-гнозов по категориям заемщиков в обеих выборках.

Проверка модели осуществляется путем классификации клиентов, уже бравших кредит и не рассмотренных при построении модели. Эти результаты представлены в разделе «Невыбранные наблюде-ния». В проверочной выборке 80,6% этих наблюдений классифици-рованы корректно.

Меньший процент корректных прогнозов в проверочной выборке может свидетельствовать о переобучении (оверфиттинге), когда модель выдает правильные прогнозы в обучающей выборке, но ошибается в прогнозах по новым объектам, не входившим в состав обучения, или по наблюдениям из той категории, которая значи-тельно меньше представлена в выборке. Точность классификации сильно зависит от относительных размеров групп (категорий дихо-томической переменной) и всегда получается более высокой для большей группы. Последнее утверждение наглядно иллюстрирует тот факт, что для 94% «хороших» заемщиков (большей по размеру группы) модель верно предсказала категорию «Не было долгов по кредиту» и лишь для 46% «плохих» заемщиков — категорию «Были долги по кредиту». Это обозначает, что 64% «плохих» заемщиков неправильно причислены к «хорошим» заемщикам («оптимистич-ность» модели).

Для того чтобы модель лучше прогнозировала «плохих» заемщиков, можно увеличить долю «плохих» заемщиков в выборке. Для этого

1 Hosmer D.W., Lemeshow S. Applied logistic regression. N.Y.: John Wiley & Sons, 2000.

По умолчанию лучшей

считается та модель,

которая корректно клас-

сифицирует больший

процент наблюдений

в обучающей и прове-

рочной выборках. Нужно

помнить, что результаты

классификации по обу-

чающей выборке могут

быть излишне оптими-

стичными.

81

www.reglament.net

вероятность дефолта \ регрессионные коэффициенты \ ROC-анализ

Метод бинарной логистической регрессии в банковском скоринге

Page 7: Логистическая регрессия в скоринге (Часть II)

«плохим» заемщикам присваивается больший вес («хорошие» заем-щики получают вес 1, «плохие» заемщики — 2).

Подбор cut-off также может помочь нам повысить точность кор-ректных прогнозов по «плохим» заемщикам. Однако из пояснения к таблице «Разделяющее значение = ,500» видно, что возможности проверки модели ограничены, потому что за ее основу взято лишь одно значение порога отсечения. Этого недостаточно для оценки прогностической способности модели. Поэтому целесообразно сохра-нить спрогнозированные вероятности (переменные [PRE_1] и [PGR_1]), а затем оценить ее прогностическую способность, выбрать наилуч-ший порог отсечения, используя ROC-кривую (собственно этап вали-дации модели).

Валидация модели

ROC-анализROC-анализ (Receiver Operating Characteristic) — это анализ прогно-стической эффективности модели. В качестве модели выступает бинар-ный классификатор. Это может быть пробит-модель, нейронная сеть, метод опорных векторов. В нашем случае ROC-кривая используется для оценки результатов классификации, выданных моделью логисти-ческой регрессии. Рассматриваются два класса: класс с положитель-ными исходами и класс с отрицательными исходами. Предполагается, что у нашей модели есть некоторый параметр, варьируя который мы будем получать то или иное разбиение на два класса. Его часто назы-вают порогом или точкой отсечения (cut-off value). В зависимости от него будут получаться различные величины ошибок I и II рода.

В логистической регрессии порог отсечения изменяется от 0 до 1 — это и есть расчетное значение уравнения регрессии.

Рассмотрим матрицу ошибок (табл. 9), которая строится на основе спрогнозированной и фактической принадлежности наблюдений к классам.

Таблица 9

Матрица ошибок классификации (Confusion Matrix)Фактически

Модель Положительные примеры

Отрицательные примеры

Положительные примеры TP FP

Отрицательные примеры FN TN

Всегда важно опреде-

лять оптимальный уро-

вень точности класси-

фикации, при котором

возможно наилучшее

качество обобщения.

82

Риск-менеджмент в кредитной организации № 2 (06) \ 2012

Управление и контроль

Page 8: Логистическая регрессия в скоринге (Часть II)

В матрице используются следующие обозначения:— TP (True Positives) — верно классифицированные положитель-

ные примеры (так называемые истинно положительные случаи); — TN (True Negatives) — верно классифицированные отрицатель-

ные примеры (истинно отрицательные случаи); — FN (False Negatives) — положительные примеры, классифици-

рованные как отрицательные (ошибка I рода). Это так называемый «ложный пропуск», когда интересующее нас событие ошибочно не обнаруживается (ложно отрицательные примеры);

— FP (False Positives) — отрицательные примеры, классифици-рованные как положительные (ошибка II рода). Это «ложная тревога», когда при отсутствии события ошибочно выносится решение о его присутствии (ложно положительные случаи).

Что является положительным событием, а что — отрицатель-ным, зависит от задачи исследования. В SPSS, если зависимая переменная принимает значение 0, это соответствует отрицатель-ному исходу; значение 1 — положительному (интересующему событию).

В нашем примере отрицательным исходом будет класс «Не было долгов по кредиту» (соответствует значению 0), а положительным — класс «Были долги по кредиту» (соответствует значению 1). Таким образом, ошибкой I рода будет отнесение «плохих» клиентов к «хоро-шим», а ошибкой II рода — отнесение «хороших» клиентов к «пло-хим» (табл. 10).

Важной характеристикой любой модели является достоверность (Validity). В нашем исследовании достоверность — величина, харак-теризующая способность метода отличать «хороших» заемщиков

ROC-анализ (Receiver

Operating Characteristic) —

это анализ прогностиче-

ской эффективности

модели. В качестве

модели выступает

бинарный классифика-

тор. В нашем случае

ROC-кривая используется

для оценки результатов

классификации, выдан-

ных моделью логистиче-

ской регрессии.

Таблица 10

Матрица ошибок классификации (Confusion Matrix) для нашего примера

Фактически

Спрогнозировано моделью

дефолт Не-дефолт

дефолт TPистинно положительные(«плохой» заемщик классифицирован как «плохой»)

FPложно положительные («хороший» заемщик классифицирован как «плохой») ОШИБКА II рОдА

Не-дефолт FNложно отрицательные («плохой» заемщик классифицирован как «хороший») ОШИБКА I рОдА

TNистинно отрицательные («хороший» заемщик классифицирован как «хороший»)

83

www.reglament.net

вероятность дефолта \ регрессионные коэффициенты \ ROC-анализ

Метод бинарной логистической регрессии в банковском скоринге

Page 9: Логистическая регрессия в скоринге (Часть II)

от «плохих». Она включает два компонента: чувствительность и специфичность.

Чувствительность (Sensitivity) измеряется долей истинно поло-жительных результатов — долей положительных результатов у «пло-хих» заемщиков. В нашем примере это способность модели правильно определять тех клиентов, у которых дефолт есть.

Модель с высокой чувствительностью характеризуется ужесто-ченным отбором клиентов — максимальным предотвращением про-пуска «плохих» заемщиков — и является консервативной. Ее задача — минимизировать кредитный риск, связанный с выдачей кредита (уменьшить вероятность совершения ошибки I рода).

Специфичность (Specificity) измеряется долей истинно отрица-тельных результатов — отрицательных результатов у «хороших» заемщиков. В нашем примере это способность модели правильно определять, у кого нет дефолта.

Модель с высокой специфичностью менее тщательно выявляет «плохих» заемщиков и является рискованной. Ее задача — миними-зировать упущенную выгоду, связанную с отказом в выдаче кредита (уменьшить вероятность совершения ошибки II рода).

Положительные результаты состоят из истинно положительных (TP) и ложно положительных (FP).

Отрицательные результаты состоят из ложно отрицательных (FN) и истинно отрицательных (TN).

В случае с нашей моделью (с порогом отсечения 0,5) таблица будет выглядеть так, как показано в табл. 11.

Достоверность модели

включает два компо-

нента: чувствитель-

ность и специфичность.

Чувствительность

(Sensitivity) измеряется

долей истинно положи-

тельных результатов,

специфичность

(Specificity) — долей

истинно отрицательных

результатов.

Таблица 11

Матрица ошибок классификации при пороге отсечения 0,5

Факт долга по кредиту

Были долги по кредиту

Не было долгов по кредиту

Predicted group

Были долги по кредиту 89 35

Не было долгов по кредиту 94 482

Чувствительность равняется TP / (TP + FN) = 89 / (89 + 94) = 89 / 183 = 0,49, или 49%.

Специфичность равняется TN / (FP + TN) = 482 / (35 + 482) = 482 / 517 = 0,93, или 93%.

Чтобы построить ROC-кривую для нашей модели:

84

Риск-менеджмент в кредитной организации № 2 (06) \ 2012

Управление и контроль

Page 10: Логистическая регрессия в скоринге (Часть II)

Английская версия SPSSВыберите в меню Analize ROC Curve... Переменную [PRE_1] переместите в поле Test Variable, а переменную [Факт долга по кредиту] — в поле State Variable Под значением Value of State Variable понимается положительное значение, т.е. кодировка, соответствующая состоянию «Были долги по кредиту». Введите в это поле 1. В группе Display активируйте все имеющиеся опции Нажмите OK

русская версия SPSSВыберите в меню Анализ Кривая ROC... Переменную [PRE_1] переместите в поле Проверяемые переменные, а переменную [Факт долга по кредиту] — в поле Переменная состояния В поле значение переменной состояния введите положительное значение, т.е. кодировку, соответствующую состоянию «Были долги по кредиту». Введите в это поле 1. В группе Вывести активируйте все имеющиеся опции Нажмите OK

Таблица 12

Обработанные наблюдения

* Положительный результат теста соответствует состоянию «Были долги по кредиту».

Большие значения переменной(ых) указывают на скорее положительный результат теста.

Факт долга по кредиту действительные случаи (в соответствии со списком)

Положительные* 183

Отрицательные 517

Пропущенные 150

ROC-кривая (рис. 5) помогает найти наилучший порог отсечения. По оси ординат откладывается чувствительность (Sensitivity), или истинно положительные примеры, по оси абсцисс — 1 минус специ-фичность (1 – Specificity), или ложно положительные примеры. Как вариант, по оси абсцисс откладывается специфичность (Specificity), или истинно отрицательные примеры.

ROC-кривая помогает

найти наилучший порог

отсечения. По оси орди-

нат откладывается чув-

ствительность (Sensi-

tivity), или истинно

положительные при-

меры, по оси абсцисс —

1 минус специфичность

(1 – Specificity), или

ложно положительные

примеры.

В итоге получим результаты анализа, отраженные в табл. 12.

85

www.reglament.net

вероятность дефолта \ регрессионные коэффициенты \ ROC-анализ

Метод бинарной логистической регрессии в банковском скоринге

Page 11: Логистическая регрессия в скоринге (Часть II)

Рисунок 5

ROC-кривая

Отметим, что ROC-кривая — это не кривая зависимости одной величины (x) — чувствительности от другой величины (y) — 1 минус специфичность. Здесь обе величины зависят от некоторой незави-симой переменной — порога отсечения (от 0 до 1), меняя который получаем координаты точек (чувствительность, 1 минус специфич-ность), отображаемые на графике.

Диагностируемое значение с нулевой степенью прогнозирования изображается линией, наклоненной под углом 45 градусов (диаго-налью). У идеальной модели кривая проходит через верхний левый угол, где доля истинно положительных случаев составляет 100%. Поэтому чем больше выгнута ROC-кривая, тем более точным явля-ется прогнозирование результатов модели. Чем ближе ROC-кривая расположена к диагональной прямой с нулевой степенью прогно-зирования, тем хуже прогностическая способность модели. Инди-катором этого свойства служит площадь под ROC-кривой (табл. 13), которая для теста с нулевой степенью прогнозирования равна 0,5, а для случая с максимальной степенью прогнозирования — 1. Для рассматриваемого примера получилось значение, равное 0,855, при-чем доверительный интервал 95% соответствует значениям площади, принадлежащим диапазону от 0,825 до 0,886.

Зная AUC, можно вычислить индекс Джини, который позволяет судить о дискриминирующей способности модели, то есть способ-ности отличать «хороших» и «плохих» заемщиков:

Gini = (AUC – 0,5) × 2 = (0,855 – 0,5) × 2 = 0,71.

Выбор оптимального порога отсечения (cut-off value) для разде-ления «хороших» и «плохих» заемщиков зависит от того, какая задача

Выбор оптимального

порога отсечения (cut-

off value) для разделе-

ния «хороших» и «пло-

хих» заемщиков зави-

сит от того, какая

задача стоит перед кре-

дитным специалистом.

Он определяет, какова

будет цена совершения

ошибки I рода (цена

отнесения «плохого»

заемщика к «хорошим»)

и ошибки II рода (цена

отнесения «хорошего»

заемщика к «плохим»).

1,0

0,8

0,6

0,4

0,2

00,2 0,4 0,6 0,8 1,0

Sen

siti

vity

1 – Specificity

86

Риск-менеджмент в кредитной организации № 2 (06) \ 2012

Управление и контроль

Page 12: Логистическая регрессия в скоринге (Часть II)

Таблица 13

Площадь под кривой (Area under Curve)Переменная(ые) результата теста: предсказанная вероятность

a В соответствии с непараметрическим предположением.b Нулевая гипотеза: истинное значение площади = 0,5.

Площадь Стандартная ошибкаa

Асимптотическая значимостьb

Асимптотический 95%-ный доверительный интервал

Нижняя граница

Верхняя граница

,855 ,016 ,000 ,825 ,886

стоит перед риск-менеджером. Он определяет, какова будет цена совершения ошибки I рода (цена отнесения «плохого» заемщика к «хорошим») и ошибки II рода (цена отнесения «хорошего» заемщика к «плохим»).

В нашем примере баланс между чувствительностью и специфич-ностью в точке 0,277 (табл. 14). В ней чувствительность равна 77,6%. Это означает, что 77,6% «плохих» заемщиков будут выявлены клас-сификатором. Специфичность равна 77,6%, следовательно, 22,4% «хороших» заемщиков получат отказ в предоставлении кредита.

Теперь рассмотрим значение порога 0,5 (см. табл. 14), которое выбрано по умолчанию. В нем чувствительность равна 48,6%. Это озна-чает, что 48,6% «плохих» заемщиков будут выявлены классифика-тором. Специфичность равна 93,2%, следовательно, 6,8% «хороших» заемщиков получат отказ в предоставлении кредита.

В нашем случае необходимо, чтобы модель точнее классифици-ровала «плохих» заемщиков. Для этого снизим порог отсечения, тем самым увеличив чувствительность (способность модели правильно выявлять тех клиентов, у которых дефолт есть).

Отметим, что изменение порога отсечения не влияет на этап регрессионного оценивания (значения коэффициентов регрессии останутся прежними).

По умолчанию порог равен 0,5. Это значит, что заемщик будет классифицирован во 2-ю группу («Были долги по кредиту»), если вычисленная для него вероятность принадлежности к ней 0,5 или выше. Меняя порог отнесения ко 2-й группе, саму вероятность (зави-сящую от коэффициентов регрессии) мы не изменяем.

В Редакторе данных/Редакторе переменных SPSS появились новые переменные [PRE_2], [PGR_2], [COO_2], [LEV_2] и [SRE_2]. Отметим, что значения этих переменных тождественны значениям перемен-

Метод бинарной логи-

стической регрессии

позволил нам построить

модель, которая класси-

фицировала заемщиков

как «хороших» и «пло-

хих». Точность класси-

фикации заемщиков

в обучающей выборке

составила 82%.

87

www.reglament.net

вероятность дефолта \ регрессионные коэффициенты \ ROC-анализ

Метод бинарной логистической регрессии в банковском скоринге

Page 13: Логистическая регрессия в скоринге (Часть II)

Таблица 14

Координаты кривой (Coordinates of the Curve)Результирующая переменная(ые) теста: предсказанная вероятность

a Наименьшим значением отсечения является минимальное значение тестовой переменной

минус 1, максимальным значением отсечения является максимальное значение тестовой

переменной плюс 1. Все остальные значения отсечения являются средними двух после-

довательных упорядоченных значений тестовой переменной.

Положительно, если меньше или равноa

Чувствительность 1 – специфичность

,0000000 1,000 1,000

… … …

,2773130 ,776 ,224

… … …

,5013109 ,486 ,068

,5066426 ,481 ,068

,5108590 ,481 ,066

,5122580 ,481 ,064

,5127758 ,481 ,062

,5135591 ,481 ,060

,5169312 ,475 ,060

… … …

Английская версия SPSSНажмите Options в диалоговом окне Logistic Regression В поле Classification cutoff введите 0,28 Нажмите Continue Нажмите OK в диалоговом окне Logistic Regression

русская версия SPSSНажмите Параметры в диалоговом окне Логистическая регрессия В поле Порог классификации введите 0,28 Нажмите Продолжить Нажмите OK в диалоговом окне Логистическая регрессия

ных [PRE_1], [PGR_1], [COO_1], [LEV_1] и [SRE_1]. Таким образом, мы видим, что изменение порога отсечения с 0,5 до 0,28 не повлияло на коэффициенты регрессии. Спрогнозированная вероятность, при-

88

Риск-менеджмент в кредитной организации № 2 (06) \ 2012

Управление и контроль

Page 14: Логистическая регрессия в скоринге (Часть II)

Таблица 15

Результаты классификации (Classification table)a

a Разделяющее значение = ,280.b Выбранные наблюдения validate EQ 1.c Невыбранные наблюдения validate NE 1.

Наблюдаемый показатель

Спрогнозировано

Выбранные наблюденияb Невыбранные наблюденияc

Факт долга по кредиту

Процент-ный пока-затель вер-ных про-гнозов

Факт долга по кредиту

Процент-ный пока-затель вер-ных про-гнозов

Не было долгов по кре-диту

Были долги по кре-диту

Не было долгов по кре-диту

Были долги по кре-диту

Шаг 1 Факт долга по кредиту

Не было долгов по кредиту

285 90 76,0 120 22 84,5

Были долги по кредиту

56 68 54,8 21 38 64,4

Общий процент 70,7 78,6

Шаг 2 Факт долга по кредиту

Не было долгов по кредиту

285 90 76,0 106 36 74,6

Были долги по кредиту

42 82 66,1 15 44 74,6

Общий процент 73,5 74,6

Шаг 3 Факт долга по кредиту

Не было долгов по кредиту

285 90 76,0 107 35 75,4

Были долги по кредиту

35 89 71,8 12 47 79,7

Общий процент 74,9 76,6

Шаг 4 Факт долга по кредиту

Не было долгов по кредиту

292 83 77,9 111 31 78,2

Были долги по кредиту

29 95 76,6 12 47 79,7

Общий процент 77,6 78,6

надлежность к группе, значения Кука, разбалансировки и остатков не изменились. Изменился лишь прогноз наступления события.

Результаты классификации и матрица ошибок при пороге отсе-чения 0,28 показаны соответственно в табл. 15 и 16.

89

www.reglament.net

вероятность дефолта \ регрессионные коэффициенты \ ROC-анализ

Метод бинарной логистической регрессии в банковском скоринге

Page 15: Логистическая регрессия в скоринге (Часть II)

Чувствительность равняется TP / (TP + FN) = 142 / (142 + 41) = = 142 / 183 = 0,776, или 77,6%.

Специфичность равняется TN / (FP + TN) = 403 / (114 + 403) = = 403 / 517 = 0,779, или 77,9%.

Как видим, рассчитанные вручную значения чувствительности и специфичности равны значениям чувствительности и специфич-ности, найденным по таблице с координатами кривой (см. табл. 14).

Метод бинарной логистической регрессии позволил нам построить модель, которая классифицировала заемщиков как «хороших» и «пло-хих». Точность классификации заемщиков в обучающей выборке составила 82%. При этом меньший процент прогнозов в проверочной выборке может указывать на переобучение и некоторую нестабиль-ность модели. Кроме того, модель существенно хуже прогнозирует «плохих» клиентов. В связи с этим всегда важно определить опти-мальный, пусть иногда меньший, уровень точности классификации, при котором модель обладает наилучшей обобщающей способно-стью. Использование весов для увеличения доли «плохих» заемщи-ков в выборке и подбор порога отсечения могут улучшить способ-ность модели корректно прогнозировать «плохих» заемщиков.

Удаление (или корректировка) выбросов и влияющих наблюдений в ряде случаев также способно повлиять на прогнозную способность модели. Выбросы определяются значениями остатков, для их выяв-ления лучше использовать стьюдентизированные остатки. Влияющие наблюдения выявляются по расстоянию от центра облака наблюде-ний и значению остатка, оптимальнее выявлять их с помощью рас-стояний Кука. Следует помнить, что выбросы в отличие от влияющих наблюдений не могут изменить оценку параметра регрессии.

ROC-кривая помогает нам выбрать такой порог отсечения, кото-рый был бы оптимальным сочетанием чувствительности и специфич-ности в зависимости от поставленной задачи.

Таблица 16

Матрица ошибок при пороге отсечения 0,28

Факт долга по кредиту

Были долгипо кредиту

Не было долгов по кредиту

Predicted group

Были долги по кредиту 142 114

Не было долгов по кредиту 41 403

Выводы

90

Риск-менеджмент в кредитной организации № 2 (06) \ 2012

Управление и контроль

Page 16: Логистическая регрессия в скоринге (Часть II)

Применение ROC-анализа лишний раз демонстрирует нам, что ни один метод анализа практически никогда не даст нам модели со 100%-ной чувствительностью и 100%-ной специфичностью. Чем больше чувствительность, тем меньше специфичность, и наоборот. Минимизируя вероятность совершения ошибки I рода, мы увеличи-ваем вероятность совершения ошибки II рода и наоборот. Для какой-то части заемщиков мы всегда получим неверные результаты. Наша модель — не исключение.

Если первостепенной ставится задача минимизации кредитных рисков, максимального предотвращения пропуска «плохих» заем-щиков, то можно уменьшить вероятность совершения ошибки I рода, понизить порог отсечения, увеличив чувствительность метода в ущерб специфичности.

В нашем исследовании изначально заемщик является «плохим», если у него вероятность дефолта выше 50%. Снизим точку отсечения до 42%. Это обозначает, что заемщик объявляется ненадежным, если у него вероятность дефолта выше 42%. Мы ужесточаем требования, идем по пути минимизации рисков, чтобы не отнести «плохого» заемщика к «хорошему» (желая избежать ошибки I рода). При этом возрастет вероятность совершить ошибку II рода, отказать в кредите, возможно, надежному заемщику, отнеся его к проб лемным.

Если же главной задачей является расширение клиентской базы, то можно повысить точку отсечения, увеличив специфичность модели в ущерб чувствительности.

Применение ROC-анализа

лишний раз демонстри-

рует нам, что ни один

метод анализа практиче-

ски никогда не даст нам

модели со 100%-ной

чувствительностью

и 100%-ной специ фич-

ностью. Чем больше

чувствительность, тем

меньше специфичность,

и наоборот.

91

www.reglament.net

вероятность дефолта \ регрессионные коэффициенты \ ROC-анализ

Метод бинарной логистической регрессии в банковском скоринге