21
Дискриминантный анализ в банковском скоринге А.В. ГрузДеВ, исследовательская компания «Гевисста», директор Статистические методы, лежащие в основе скоринговых систем, весьма разнообразны. В настоящее время широко используются дискриминантный анализ, множественная регрессия, логисти- ческая регрессия, деревья классификации, метод К-ближайших соседей, байесовские процедуры, метод опорных векторов, МАР-сплайны и нейронные сети. В настоящей статье речь пой- дет об использовании дискриминантного анализа для оценки кредитоспособности заемщиков. Описание метода Цель дискриминантного анализа — это различение (дискриминация) объектов наблюдения на классы по заранее определенным при- знакам. Применительно к скорингу: класс — это статус заемщика: кредитоспособный/некредитоспособный (зависимая переменная); объекты наблюдения — собственно заемщики; признаки — харак- теристики заемщиков (независимые переменные, или преди- кторы). В основе метода лежит несколько базовых предположений: — множество объектов разбито на несколько обучающих под- множеств (в скоринге это обычно два класса: надежные и ненадеж- ные заемщики), которые отличаются друг от друга предикторами (характеристиками); — все предикторы независимы (отсутствует коллинеарность), переменная не может быть линейной комбинацией других пере- менных, иначе не представляет ценности для анализа; — все предикторы измеряются в интервальной шкале или шкале отношений; — независимые переменные внутри класса нормально распреде- лены внутри класса (при фиксированных других переменных); — все классы гомоскедастичны (выполняется однородность кова- риационных матриц для каждого класса). Результатом анализа является построение дискриминантной функции вида d = a + b 1 x 1 + b 2 x 2 + ... + b n x n , 64 Риск-менеджмент в кредитной организации № 4 (04) \ 2011 Управление и контроль

Дискриминантный анализ в скоринге

Embed Size (px)

DESCRIPTION

Statistical methods

Citation preview

Page 1: Дискриминантный анализ в скоринге

Дискриминантный анализ в банковском скоринге

А.В. ГрузДеВ,

исследовательская

компания «Гевисста»,

директор

Статистические методы, лежащие в основе скоринговых систем, весьма разнообразны. В настоящее время широко используются дискриминантный анализ, множественная регрессия, логисти-ческая регрессия, деревья классификации, метод К-ближайших соседей, байесовские процедуры, метод опорных векторов, МАР-сплайны и нейронные сети. В настоящей статье речь пой-дет об использовании дискриминантного анализа для оценки кредитоспособности заемщиков.

Описание методаЦель дискриминантного анализа — это различение (дискриминация) объектов наблюдения на классы по заранее определенным при-знакам. Применительно к скорингу: класс — это статус заемщика: кредитоспособный/некредитоспособный (зависимая переменная); объекты наблюдения — собственно заемщики; признаки — харак-теристики заемщиков (независимые переменные, или преди-кторы).

В основе метода лежит несколько базовых предположений:— множество объектов разбито на несколько обучающих под-

множеств (в скоринге это обычно два класса: надежные и ненадеж-ные заемщики), которые отличаются друг от друга предикторами (характеристиками);

— все предикторы независимы (отсутствует коллинеарность), переменная не может быть линейной комбинацией других пере-менных, иначе не представляет ценности для анализа;

— все предикторы измеряются в интервальной шкале или шкале отношений;

— независимые переменные внутри класса нормально распреде-лены внутри класса (при фиксированных других переменных);

— все классы гомоскедастичны (выполняется однородность кова-риационных матриц для каждого класса).

Результатом анализа является построение дискриминантной функции вида

d = a + b1x1 + b2x2 + ... + bnxn,

64

Риск-менеджмент в кредитной организации № 4 (04) \ 2011

Управление и контроль

Page 2: Дискриминантный анализ в скоринге

где d — зависимая переменная (класс заемщика);

a — константа;

bn — коэффициенты дискриминантной функции;

xn — предикторы (характеристики заемщика).

С помощью этой модели, зная характеристики заемщика, можно с определенной степенью вероятности определить его принадлеж-ность к одному из классов.

Важно помнить, что ни один из статистических методов не при-годен для практического применения без предварительной «настройки». Дискриминантный анализ здесь не исключение и осу-ществляется в два этапа. На первом этапе проводится отбор наи-более значимых (из числа имеющихся) характеристик потенциаль-ного заемщика, определяются критерии «плохого» и «хорошего» заемщиков. Отправной точкой для отбора здесь служат имеющиеся у банка данные по клиентам, у которых кредит закрыт с известным результатом погашения (обучающая выборка). На втором этапе по данным обучающей выборки выполняется классификация потен-циальных заемщиков на «плохих» и «хороших».

Рассмотрим конкретный пример разработки скоринговой модели для ипотечного кредитования клиентов банка в программе SPSS. Модель должна дать прогноз рисков по клиентам, которые плани-руют воспользоваться ипотечным кредитом.

Сбор (регистрация) данных для моделиОбъект исследования — данные о 850 клиентах, предоставленные отделом кредитования:

— 700 клиентов, которые уже воспользовались ипотечным кре-дитом (обучающая выборка);

— 150 клиентов, которые только планируют воспользоваться ипотечным кредитом (выборка, по которой нужно дать прогноз).

Независимые переменные — пол клиента, возраст клиента, обра-зование клиента, стаж на последнем месте работы, срок проживания по последнему адресу, процент долговых обязательств клиента от дохода (×100), долг клиента по кредитной карте банка, ежемесяч-ный доход клиента, срок кредита, сумма кредита и пр.

Зависимая переменная — наличие/отсутствие у клиента долгов по ранее взятому кредиту.

Клиент — физическое лицо, владелец кредитной карты банка, обратившийся за ипотечным кредитом и заполнивший анкету уста-новленного образца.

65

www.reglament.net

кредитоспособность заемщика \ дискриминантная функция \ кросс-проверка

Дискриминантный анализ в банковском скоринге

Page 3: Дискриминантный анализ в скоринге

Подготовка данных для моделиНа первом этапе по данным о 700 клиентах, уже обращавшихся за кредитом, были выделены четыре ключевые характеристики для определения кредитоспособности заемщика: стаж на последнем месте работы, срок проживания по последнему адресу, процент долговых обязательств клиента от дохода (×100), долг клиента по кре-дитной карте банка.

На втором этапе запускалась генерация случайной выборки из этих 700 клиентов для создания модели. Использовался метод out-of-sample validation, большая часть имеющихся данных (примерно 70%) исполь-зовалась для построения модели, а оставшаяся часть (не задейство-ванная в моделировании) применялась для проверки модели. Затем полученная модель классифицировала 150 потенциальных клиентов на «плохих» и «хороших» заемщиков. При этом был выбран прямой метод дискриминантного анализа — дискриминантная функция вычисляется при одновременном введении всех независимых пере-менных (предикторов). В этом случае учитывается каждая незави-симая переменная.

Чтобы извлечь случайную выборку, необходимо выполнить сле-дующие действия:

Английская версия SPSSВыберите в меню Transform Выберите Random Number Generators… Выберите Set Starting Point Выберите Fixed Value и введите значение 9191972 Нажмите OK

русская версия SPSSВыберите в меню Преобразовать Выберите Генераторы случайных чисел… Выберите задать начальное значение Выберите Фиксированное и введите значение 9191972 Нажмите OK

66

Риск-менеджмент в кредитной организации № 4 (04) \ 2011

Управление и контроль

Page 4: Дискриминантный анализ в скоринге

Чтобы создать переменную отбора наблюдений для проверки модели, необходимо выполнить следующие действия:

Установленные значения для переменной [validate] позволят нам получить сгенерированное случайным образом распределение Бер-нулли. В нашем случае распределение Бернулли (случайная вели-чина) принимает значение либо 0, либо 1 с вероятностью наступления события p = 0,7. Распределение Бернулли наилучшим образом опи-сывает ситуации, где результатом является успех или неуспех (нали-чие или отсутствие возможности погашения долга по кредиту).

Мы намереваемся использовать переменную [validate] для наблю-дений, которые могут быть применены для построения модели, то есть для клиентов, которые уже воспользовались кредитом.

При этом помним, что есть 150 наблюдений, что соответствует 150 потенциальным клиентам, которые планируют взять кредит.

Чтобы выполнить вычисления только по тем клиентам, которым уже был выдан кредит, необходимо сделать следующее:

Английская версия SPSSВыберите в меню Transform Выберите Compute Variable… Введите validate в поле Target Variable Введите rv.bernoulli (0.7) в поле Numeric Expression

русская версия SPSSВыберите в меню Преобразовать Выберите Вычислить переменную… Введите validate в поле Вычисляемая переменная Введите rv.bernoulli (0.7) в поле Числовое выражение

Благодаря этому переменная [validate] будет вычислена только для наблюдений, у которых нет пропущенных значений переменной [фактдолга], то есть будет вычислена для клиентов, уже получивших кредит.

Английская версия SPSSНажмите If Выберите Include if case satisfies condition Введите MISSING (фактдолга) = 0 в качестве условия

русская версия SPSSНажмите если Выберите Включить наблюдения, удовлетворяющие условию Введите MISSING (фактдолга) = 0 в качестве условия

67

www.reglament.net

кредитоспособность заемщика \ дискриминантная функция \ кросс-проверка

Дискриминантный анализ в банковском скоринге

Page 5: Дискриминантный анализ в скоринге

Примерно 70% клиентов, которые уже брали кредит, отмечены в переменной [validate] значением 1. Эти клиенты и будут исполь-зоваться для создания модели. Остальные клиенты, которым был выдан кредит, будут использованы для проверки результатов модели.

Настройка и запуск процедуры анализаЧтобы запустить процедуру дискриминантного анализа:

Английская версия SPSSНажмите Continue Нажмите OK в диалоговом окне Compute Variable

русская версия SPSSНажмите Продолжить  Нажмите OK в диалоговом окне Вычислить переменную

Английская версия SPSSВыберите в меню Analyze Classify Discriminant Поместите переменную [фактдолга] в поле для зависимых переменных Grouping Variable  Щелкните по выключателю Define Range, введите минимальное и максимальное значения этой переменной: от 0 до 1  Поместите анализируемые независимые переменные [Стаж работы на данном месте], [Срок проживания

68

Риск-менеджмент в кредитной организации № 4 (04) \ 2011

Управление и контроль

Page 6: Дискриминантный анализ в скоринге

Английская версия SPSSВыделите переменную [validate] и щелкните по выключателю Value, введите значение 1 для данной переменной Нажмите Continue

русская версия SPSSВыделите переменную [validate] и щелкните по выключателю значение, введите значение 1 для данной переменной Нажмите Продолжить

Английская версия SPSSНажмите Statistics в диалоговом окне Discriminant Analysis  Выберите Means, Univariate ANOVAs и Box’s M в поле Descriptives Выберите Fisher’s и Unstandardized в поле Function Coefficients Выберите Within-groups correlation в поле Matrices  Нажмите Continue

русская версия SPSSНажмите Статистики в диалоговом окне Дискриминантный анализ  Выберите Средние, Однофакторный дисперсионный анализ и M Бокса в поле Описательные  Выберите Фише-ра и Нестандартизированные в поле Коэффициенты функции  Выберите Внутригруппо-вая корреляция в поле Матрицы  Нажмите Продолжить

по последнему адреcу], [% долговых обязательств от дохода (×100)] и [Долг по кредитной карте банка] в область Independents  Поместите переменную [validate] в область Selection Variable

русская версия SPSSВыберите в меню Анализ Классификация Дискриминантный анализ Поместите переменную [фактдолга] в поле для зависимых переменных Группировать по  Щелкните по выключателю задать диапазон, введите минимальное и максимальное значения этой переменной: от 0 до 1 Поместите анализируемые независимые переменные [Стаж работы на данном месте], [Срок проживания по последнему адреcу], [% долговых обязательств от дохода (×100)] и [Долг по кредитной карте банка] в область Независимые  Поместите переменную [validate] в область Переменная отбора наблюдений

69

www.reglament.net

кредитоспособность заемщика \ дискриминантная функция \ кросс-проверка

Дискриминантный анализ в банковском скоринге

Page 7: Дискриминантный анализ в скоринге

Интерпретация результатов дискриминантного анализаВ табл. 1–20 представлены результаты дискриминантного анализа (для лучшего понимания дан русский перевод статистик).

Английская версия SPSSНажмите Save в диалоговом окне Discriminant Analysis Выберите Predicted group membership и Probabilities of group membership Нажмите ContinueНажмите OK в диалоговом окне Discriminant Analysis

русская версия SPSSНажмите Сохранить в диалоговом окне Дискриминантный анализ Выберите Предсказанная принадлежность к группе и Вероятности принадлежности к группам Нажмите ПродолжитьНажмите OK в диалоговом окне Дискриминантный анализ

Английская версия SPSSНажмите Classify в диалоговом окне Discriminant Analysis Выберите Summary table, Leave-one-out classification Нажмите Continue

русская версия SPSSНажмите Классифицировать в диалоговом окне Дискриминантный анализ Выберите Итоговая таблица, Скользящий контроль Нажмите Продолжить

70

Риск-менеджмент в кредитной организации № 4 (04) \ 2011

Управление и контроль

Page 8: Дискриминантный анализ в скоринге

Невзвешенные наблюдения N ПроцентВалидные 499 58,7Исключенные Пропущенные или лежащие вне диапазона коды группирующей

переменной150 17,6

По крайней мере одна пропущенная дискриминантная переменная 0 ,0Оба групповых кода пропущены или лежат вне диапазона и отсутствует по крайней мере одна дискриминантная переменная

0 ,0

Невыбранные 201 23,6Итого исключенные 351 41,3

Всего наблюдений 850 100,0

Таблица 1

Сводка результатов обработки наблюдений

Таблица 2

Групповые статистикиФакт долга по кредиту Среднее Стандарт-

ное откло-нение

Кол-во валидных (искл. целиком)невзвешенные взвешенные

Не было долговпо кредиту

Стаж работы на данном месте 9,5840 6,67766 375 375,000Срок проживания по последнему адреcу 8,8800 6,94239 375 375,000% долговых обязательств от дохода (×100) 8,8179 5,69545 375 375,000Долг по кредитной карте банка 1,2554 1,41769 375 375,000

Были долги по кредиту

Стаж работы на данном месте 5,1855 5,72737 124 124,000Срок проживания по последнему адреcу 6,3548 6,27836 124 124,000% долговых обязательств от дохода (×100) 14,4468 7,97554 124 124,000Долг по кредитной карте банка 2,3656 3,36732 124 124,000

Итого Стаж работы на данном месте 8,4910 6,72386 499 499,000Срок проживания по последнему адреcу 8,2525 6,86476 499 499,000% долговых обязательств от дохода (×100) 10,2166 6,78238 499 499,000Долг по кредитной карте банка 1,5313 2,13087 499 499,000

Тест, приведенный в табл. 3, измеряет потенциал каждой незави-симой переменной перед построением модели. Основной результат теста определяется с помощью величины «Значимость» (Significance). Если «Значимость» меньше 0,05, это означает, что различия между средними значениями дискриминационных переменных в исследуе-мых группах являются статистически значимыми. Если «Значимость» выше 0,10, переменная непригодна для построения модели, поскольку по ней невозможно провести четкое различие между группами (в нашем случае — между «хорошими» и «плохими» заемщиками). Такая пере-менная должна быть исключена из дискриминантной модели, а зада-ние на проведение анализа должно быть сформировано заново.

Как видим из табл. 3, каждая переменная в нашей дискриминант-ной модели является статистически значимой.

71

www.reglament.net

кредитоспособность заемщика \ дискриминантная функция \ кросс-проверка

Дискриминантный анализ в банковском скоринге

Page 9: Дискриминантный анализ в скоринге

Лямбда Уилкса (Wilks Lambda) — это еще один показатель для изме-рения потенциала переменной. Меньшие значения указывают на то, что переменная лучше осуществляет дискриминацию между груп-пами.

Из табл. 3 видно, что лучше всего дискриминирует группы пере-менная [% долговых обязательств от дохода (×100)], которая следует за переменными [Стаж работы на данном месте], [Долг по кредитной карте банка] и [Срок проживания по последнему адреcу].

В табл. 4 показано, что наибольшие коэффициенты корреляции наблюдаются между переменной [Долг по кредитной карте банка] и другими переменными, но трудно сказать, являются ли они доста-точно высокими, чтобы быть принятыми. Чтобы быть уверенным, нужно посмотреть на различия между коэффициентами в структур-ной матрице и коэффициентами дискриминантной функции.

Критерий Бокса равенства ковариационных матрицВ табл. 5 приведены логарифмические определители (log deter-minants) — мера вариабельности групп. Большие значения лога-рифмических определителей соответствуют более вариабельным группам.

Таблица 3

Критерий равенства групповых средних

Переменные Лямбда уилкса F ст.св1 ст.св2 знч.Стаж работы на данном месте ,920 43,262 1 497 ,000Срок проживания по последнему адреcу ,975 12,911 1 497 ,000% долговых обязательств от дохода (×100) ,871 73,534 1 497 ,000Долг по кредитной карте банка ,949 26,597 1 497 ,000

Таблица 4

Объединенные внутригрупповые матрицы

Переменная Стаж работы на данном месте

Срок прожива-ния по послед-нему адреcу

% долговых обязательств от дохода (×100)

Долг по кредитной карте банка

Корреляция Стаж работы на данном месте

1,000 ,286 ,104 ,508

Срок проживания по последнему адреcу

,286 1,000 ,140 ,290

% долговых обязательств от дохода (×100)

,104 ,140 1,000 ,508

Долг по кредитной карте банка

,508 ,290 ,508 1,000

72

Риск-менеджмент в кредитной организации № 4 (04) \ 2011

Управление и контроль

Page 10: Дискриминантный анализ в скоринге

Тест М Бокса (Box’s M), результаты которого даны в табл. 6, про-веряет нулевую гипотезу об однородности матриц дисперсий/кова-риаций переменных (проверка многомерной нормальности — нор-мальности распределения данных в выбранных переменных). Поскольку результат теста является статистически значимым, нуле-вую гипотезу следует отвергнуть, оптимальным будет запросить вывод отдельных матриц, чтобы увидеть, дает ли это совершенно различные результаты классификации.

Таблица 5

Логарифмические определители

Таблица 6

Результаты теста М Бокса

уже получившие в прошлом кредит ранг Лог. определитель

Не было долгов по кредиту 4 11,185

Были долги по кредиту 4 12,253

Объединенные внутри групп 4 11,957

Примечание: указаны ранги и натуральные логарифмы определителей групповых кова-

риационных матриц.

M Бокса 252,117F Приблизительно 24,893

ст.св1 10ст.св2 245917,239Знч. ,000

Примечание: проверка нулевой гипотезы о равенстве ковариационных матриц.

Отметим: тест очень чувствителен к нарушению многомерной нормальности (что не редкость в реальной практике), поэтому не сле-дует рассматривать его слишком серьезно.

Канонические дискриминантные функцииCобственные значения (Eigenvalue), приведенные в табл. 7, дают нам информацию об относительной мощности каждой дискрими-нантной функции. Высокое значение этого показателя свидетель-ствует о высокой точности модели.

Когда рассматриваются две группы, каноническая корреляция — самый полезный показатель в таблице. Это эквивалент корреляции Пирсона между значениями дискриминантной функции и груп-пами.

73

www.reglament.net

кредитоспособность заемщика \ дискриминантная функция \ кросс-проверка

Дискриминантный анализ в банковском скоринге

Page 11: Дискриминантный анализ в скоринге

Нормированные коэффициенты канонической дискриминантной функции (табл. 9) позволяют нам сравнивать переменные с различ-ными шкалами. Коэффициенты с большими абсолютными значе-ниями соответствуют переменным с большей дискриминирующей способностью.

При помощи этих коэффициентов можно оценить относительный вклад каждой дискриминантной переменной в различие двух иссле-дуемых групп. В рассматриваемом примере долг клиента по кре-дитной карте почти в 1,5 (0,649/0,437) раза больше влияет на вероят-ность дефолта, чем процент его долговых обязательств от дохода.

Таблица 7

Собственные значения

Таблица 8

Лямбда Уилкса

Таблица 9

Нормированные коэффициенты канонической дискриминантной функции

Функция Собственное значение

Процент объяс-ненной дисперсии

Кумулятивный процент

Каноническая корреляция

1 ,357* 100,0 100,0 ,513

* В анализе использовалась 1 каноническая дискриминантная функция.

Проверка функции(й) Лямбда уилкса Хи-квадрат ст.св. знч.

1 ,737 151,007 4 ,000

Лямбда Уилкса (табл. 8) показывает, насколько хорошо каждая функция разделяет наблюдения на группы. Меньшие значения лямбды Уилкса указывают на большую дискриминирующую мощ-ность функции.

Переменная Функция1

Стаж работы на данном месте – ,784Срок проживания по последнему адреcу – ,295% долговых обязательств от дохода (×100) ,437Долг по кредитной карте банка ,649

74

Риск-менеджмент в кредитной организации № 4 (04) \ 2011

Управление и контроль

Page 12: Дискриминантный анализ в скоринге

Структурная матрица (табл. 10) показывает корреляцию каждой прогнозируемой переменной с дискриминантной функцией. Пере-менная [% долговых обязательств от дохода (×100)] лучше всего дискриминирует группы на тех, кто способен выплатить кредит, и тех, кто не способен его погасить.

Именно коэффициенты канонической дискриминантной функ-ции (табл. 11) используются для построения дискриминантной модели:

d = a + b1x1 + b2x2 + ... + bnxn.

В нашем случае дискриминантная функция имеет вид:

d = 0,208 – 0,122x1 – 0,044x2 + 0,069x3 + 0,312x4,

где x1, x2, x3, x4 — значения предикторов для конкретного наблюдения, по кото-

рому нужно дать прогноз.

Таблица 10

Структурная матрица

Таблица 11

Коэффициенты канонической дискриминантной функции

Примечание: объединенные внутригрупповые корреляции между дискриминантными пере-

менными и нормированными каноническими дискриминантными функциями. Переменные

упорядочены по абсолютной величине корреляций внутри функции.

Переменные Функция

1% долговых обязательств от дохода (x100) ,644Стаж работы на данном месте – ,494Долг по кредитной карте банка ,387Срок проживания по последнему адреcу – ,270

Переменные Функция

1Стаж работы на данном месте – ,122Срок проживания по последнему адреcу – ,044% долговых обязательств от дохода (×100) ,069Долг по кредитной карте банка ,312(Константа) ,208

Примечание: ненормированные коэффициенты.

75

www.reglament.net

кредитоспособность заемщика \ дискриминантная функция \ кросс-проверка

Дискриминантный анализ в банковском скоринге

Page 13: Дискриминантный анализ в скоринге

Коэффициенты также применяют для расчета баллов скоринговой карты (в нашем примере переменные с положительными значе-ниями коэффициентов могут быть использованы для увеличения скорингового балла заемщика, а переменные с отрицательными значениями — для уменьшения).

Таблица 12

Функции в центроидах групп

Таблица 13

Сводка классификации

Факт долга по кредиту Функция

1Не было долгов по кредиту – ,343Были долги по кредиту 1,037

Классификационные статистикиКлассифицирующие функции используются для того, чтобы отнести наблюдения к той или иной группе. Для каждой группы представ-лена отдельная функция. Классифицирующие значения вычисляются для каждой функции. Дискриминантная модель относит наблюдение к той группе, классифицирующая функция которой достигает самого высокого значения.

Коэффициенты для переменных [Стаж работы на данном месте] и [Срок проживания по последнему адреcу] меньше в классифици-рующей функции «Были долги по кредиту». Это означает, что кли-енты, которые в течение многих лет жили по одному и тому же адресу и работали в одной и той же компании, имеют наименьшую вероятность дефолта. Клиенты с большим долгом имеют наиболь-шую вероятность дефолта.

Примечание: ненормированные канонические дискриминантные функции вычислены

в центроидах групп.

Обработано 850

Исключенные Пропущенные или лежащие вне диапазона коды групп

0

По крайней мере одна дискриминантная переменная пропущена

0

Используется в выводе 850

76

Риск-менеджмент в кредитной организации № 4 (04) \ 2011

Управление и контроль

Page 14: Дискриминантный анализ в скоринге

Дискриминантная модель: прогнозПо итогам анализа в редакторе данных/редакторе переменных SPSS появились три новые переменные:

1. [Dis_1] — Predicted Group for Analysis 1, или «Предсказанная группа».

Переменная принимает два значения:0 — не было долгов по кредитам;1 — были долги по кредитам.Чтобы было удобно анализировать вероятности дефолта по 150 по -

тенциальным клиентам, переименуем метки переменной:0 — не будет долгов по кредиту;1 — будут долги по кредиту.Также можно посмотреть, как модель предсказала риски по тем

700 клиентам, у которых кредит закрыт с известным результатом погашения.

2. [Dis1_1] — Probabilities of Membership in Group 0 for Analysis 1, или «Вероятности принадлежности к группе со значением 0 — не будет долгов по кредиту».

Классифицирующие

функции используются

для того, чтобы отнести

наблюдения к той или

иной группе. Дискрими-

нантная модель относит

наблюдение к той

группе, классифицирую-

щая функция которой

достигает самого высо-

кого значения.

Таблица 14

Априорные вероятности для групп

Таблица 15

Коэффициенты классифицирующей функции

Переменная Факт долга по кредиту

не было долгов по кредиту

были долги по кредиту

Стаж работы на данном месте ,277 ,109Срок проживания по последнему адреcу ,145 ,085% долговых обязательств от дохода (×100) ,291 ,386Долг по кредитной карте банка – ,734 – ,303(Константа) –3,485 –3,676

Факт долга по кредиту Априорные Наблюдения, использованные в анализе

невзвешенные взвешенные

Не было долгов по кредиту ,500 375 375,000

Были долги по кредиту ,500 124 124,000

Итого 1,000 499 499,000

Примечание: линейные дискриминантные функции Фишера.

77

www.reglament.net

кредитоспособность заемщика \ дискриминантная функция \ кросс-проверка

Дискриминантный анализ в банковском скоринге

Page 15: Дискриминантный анализ в скоринге

3. [Dis2_1] — Probabilities of Membership in Group 1 for Analysis 1, или «Вероятности принадлежности к группе со значением 1 — будут долги по кредиту».

ПримерРассмотрим наблюдения 701 и 703 (рисунок).

Наблюдение 701 — это клиентка 36 лет, которая работает в одной и той же компании 16 месяцев, проживает по своему постоянному адресу в течение 13 месяцев, ее долговые обязательства составляют 10,9% ее дохода, $540 из которых — долг по кредитной карте.

Значение переменной [Dis_1] для этого наблюдения — 0, то есть «не будет долгов по кредиту». Таким образом, дискриминантная модель отнесла данного клиента к «хорошим» заемщикам.

Значение переменной [Dis1_1] для этого наблюдения — 92% (0,91548 × 100). Это означает, что с вероятностью 92% данное наблю-дение может быть отнесено к группе клиентов, у которых не будет долгов по кредиту (группе со значением 0).

Значение переменной [Dis2_1] для этого наблюдения — 8% (0,08452 × × 100). Это означает, что с вероятностью 8% данное наблюдение может быть отнесено к группе клиентов, у которых будут долги по кредиту (группе со значением 1).

Наблюдение 703 — это клиент 40 лет, который работает в одной и той же компании 9 месяцев, проживает по своему постоянному адресу в течение 9 месяцев, его долговые обязательства составляют 17% его дохода, $4880 из которых — долг по кредитной карте.

Значение переменной [Dis_1] для этого наблюдения — 1, то есть «будут долги по кредиту». Таким образом, дискриминантная модель отнесла данного клиента к «плохим» заемщикам.

Значение переменной [Dis1_1] для этого наблюдения — 19% (0,18545 × 100). Это означает, что лишь с вероятностью 19% данное наблюдение может быть отнесено к группе клиентов, у которых не будет долгов по кредиту (группе со значением 0).

Значение переменной [Dis2_1] для этого наблюдения — 81% (0,81455 × 100). Это означает, что с вероятностью 81% данное наблю-дение может быть отнесено к группе клиентов, у которых будут долги по кредиту (группе со значением 1).

В классификационной таблице (табл. 16) приводятся результаты использования дискриминантной модели. 94 клиента из 124, у которых были долги по кредиту, были классифицированы корректно. 281 кли-ент из 375, выплативших кредит, был классифицирован корректно.

78

Риск-менеджмент в кредитной организации № 4 (04) \ 2011

Управление и контроль

Page 16: Дискриминантный анализ в скоринге

В целом 75,2% наблюдений были классифицированы корректно. Сле-дует помнить, что данная классификация может быть слишком «опти-мистичной» (точность классификации может быть завышена).

Рисунок

Прогноз кредитоспособности заемщиков

Факт долга по кредиту Предсказанная принадлеж-ность к группе

Итого

не было долгов по кредиту

были долги по кредиту

1 2 3 4Выбранные наблюдения

Исходные Частота Не было долгов по кредиту 281,0 94,0 375,0Были долги по кредиту 30,0 94,0 124,0

% Не было долгов по кредиту 74,9 25,1 100,0Были долги по кредиту 24,2 75,8 100,0

Таблица 16

Результаты классификации*

79

www.reglament.net

кредитоспособность заемщика \ дискриминантная функция \ кросс-проверка

Дискриминантный анализ в банковском скоринге

Page 17: Дискриминантный анализ в скоринге

Валидация моделиКросс-проверка (раздел табл. 16 «Кросс-проверенные») пытается скорректировать «оптимистичную» классификацию тем, что клас-сифицирует каждое наблюдение функциями, полученными по всем наблюдениям, при этом исключая его самого из вычислений. Метод кросс-проверки дает более «оптимистичный» прогноз, чем метод обычной проверки.

Проверка модели осуществляется путем классификации клиен-тов, уже бравших кредит, которые не использовались для постро-ения модели. Эти результаты представлены в разделе «Невыбран-ные наблюдения». 77,1% этих наблюдений модель классифициро-вала правильно.

150 несгруппированных наблюдений — это потенциальные кли-енты. Приведенные здесь результаты — частотная таблица, коли-чество наблюдений по каждой из предсказанных групп этих кли-ентов.

Поскольку тест М Бокса статистически значим, это может при-годиться для последующего анализа, цель которого — ответить на вопрос, внесет ли изменения в классификацию использование ковариационной матрицы для отдельных групп.

Чтобы провести классификацию с использованием ковариацион-ной матрицы для отдельных групп:

1 2 3 4

Кросс-проверен-ные**

Частота Не было долгов по кредиту 278,0 97,0 375,0

Были долги по кредиту 31,0 93,0 124,0

% Не было долгов по кредиту 74,1 25,9 100,0

Были долги по кредиту 25,0 75,0 100,0

Невыбран-ные наблю-дения

Исходные Частота Не было долгов по кредиту 106,0 36,0 142,0

Были долги по кредиту 10,0 49,0 59,0

Несгруппированные наблюдения 95,0 55,0 150,0

% Не было долгов по кредиту 74,6 25,4 100,0

Были долги по кредиту 16,9 83,1 100,0

Несгруппированные наблюдения 63,3 36,7 100,0

Окончание табл. 16

* 75,2% выбранных исходных сгруппированных наблюдений классифицировано правильно.

77,1% невыбранных исходных сгруппированных наблюдений классифицировано правильно.

74,3% выбранных кросс-проверяемых сгруппированных наблюдений классифицировано правильно.

** Кросс-проверка проводится только для наблюдений в анализе. При кросс-проверке каждое наблюдение классифицируется

функциями, выведенными по всем наблюдениям, за исключением его самого.

80

Риск-менеджмент в кредитной организации № 4 (04) \ 2011

Управление и контроль

Page 18: Дискриминантный анализ в скоринге

Английская версия SPSSВыберите в меню Discriminant Analysis Нажмите Classify Выберите Separate-groups Обратите внимание, что с включенной опцией Separate-groups опция Leave-one-out classification недоступна Нажмите Continue Нажмите OK в диалоговом окне Discriminant Analysis

русская версия SPSSВыберите в меню Дискриминантный анализ Нажмите Классифицировать Выберите Для отдельных групп Обратите внимание, что с включенной опцией Для отдельных групп опция Скользящий контроль недоступна Нажмите Продолжить Нажмите OK в диалоговом окне Дискриминантный анализ

Результаты классификации изменились незначительно (табл. 17). Можно заключить, что использование отдельных ковариационных матриц не несет особой ценности для анализа. Тест М Бокса слиш-ком чувствителен к отклонениям от многомерной нормальности, что, вероятно, и произошло в нашем случае.

В табл. 18 приводятся априорные вероятности принадлежности к группам. Априорные вероятности (Prior Probabilities) — это веро-ятности того, что наблюдение принадлежит соответствующей группе, без использования какой-либо информации о значениях переменных в модели. Пока вы не определите ее, по умолчанию предполагается, что наблюдение может быть с равной степенью вероятности отнесено как к клиенту, у которого не было долгов по кредиту, так и к кли-енту, у которого были долги. Однако вы можете знать априори, что в популяции больше ненадежных заемщиков и поэтому апри-орные вероятности для заемщика принадлежать к группе «плохих» заемщиков выше, чем принадлежать к группе «хороших» заемщиков. Подгонка априорных вероятностей пропорционально размерам групп может улучшить общую точность классификации, что мы и выполним для новых данных.

Априорные вероятности

(Prior Probabilities) —

это вероятности того,

что наблюдение принад-

лежит соответствующей

группе, без использова-

ния какой-либо инфор-

мации о значениях

переменных в модели.

81

www.reglament.net

кредитоспособность заемщика \ дискриминантная функция \ кросс-проверка

Дискриминантный анализ в банковском скоринге

Page 19: Дискриминантный анализ в скоринге

* 76,2% выбранных исходных сгруппированных наблюдений классифицировано правильно.

77,6% невыбранных исходных сгруппированных наблюдений классифицировано правильно.

Факт долга по кредиту Априорные вероятности

Наблюдения, использованные для анализа

невзвешенные взвешенные

Не было долгов по кредиту ,500 375 375,000

Были долги по кредиту ,500 124 124,000

Итого 1,000 499 499,000

Таблица 18

Априорные вероятности для групп

Чтобы провести классификацию, используя неодинаковые апри-орные вероятности:

Английская версия SPSSВыберите в меню Discriminant Analysis Нажмите Classify Выберите Compute from group sizes Выберите Within-groups Нажмите Continue Нажмите OK в диалоговом окне Discriminant Analysis

русская версия SPSSВыберите в меню Дискриминантный анализ Нажмите Классифицировать Выберите Вычислить по размерам групп Выберите Внутригрупповая Нажмите Продолжить Нажмите OK в диалоговом окне Дискриминантный анализ

Таблица 17

Результаты классификации*

Факт долга по кредиту Предсказанная принадлежность к группе

Итого

не было долгов по кредиту

были долги по кредиту

Выбранные наблюдения

Исходные Частота Не было долгов по кредиту 287,0 88,0 375,0

Были долги по кредиту 31,0 93,0 124,0

% Не было долгов по кредиту 76,5 23,5 100,0

Были долги по кредиту 25,0 75,0 100,0

Невыбран-ные наблю-дения

Исходные Частота Не было долгов по кредиту 107,0 35,0 142,0

Были долги по кредиту 10,0 49,0 59,0

Несгруппированные наблюдения 96,0 54,0 150,0

% Не было долгов по кредиту 75,4 24,6 100,0

Были долги по кредиту 16,9 83,1 100,0

Несгруппированные наблюдения 64,0 36,0 100,0

82

Риск-менеджмент в кредитной организации № 4 (04) \ 2011

Управление и контроль

Page 20: Дискриминантный анализ в скоринге

Априорные вероятности (табл. 19) вычислены исходя из размеров групп. 75,2% наблюдений — это клиенты, у которых не было долгов по кредиту, и теперь классифицирующие функции взвешиваются в пользу наблюдений по клиентам, у которых не было долгов.

Таблица 19

Априорные вероятности для групп

Факт долга по кредиту Априорные вероятности

Наблюдения, использованные для анализаневзвешенные взвешенные

Не было долгов по кредиту ,752 375 375,000Были долги по кредиту ,248 124 124,000Итого 1,000 499 499,000

Результаты классификации представлены в табл. 20.Точность классификации получилась более высокой, чем при

подходе, основанном на равных априорных вероятностях. К сожа-лению, часто эта точность достигается ценой завышения процентной доли клиентов, у которых были долги по кредиту (выделено жирным в таблице). Как же поступить в этой ситуации? Если вы придержи-ваетесь «оптимистического» подхода к оценке кредитоспособности клиента (расширение клиентской базы, особенно когда речь идет об открытии банком нового, «пилотного» кредитного продукта) и вам необходимо составить портрет проблемного заемщика, то лучше использовать метод, основанный на равных априорных вероятно-стях. Если же вы придерживаетесь «скептического» подхода (мини-

При «оптимистическом»

подходе к оценке креди-

тоспособности клиента

лучше использовать

метод классификации,

основанный на равных

априорных вероятно-

стях. При «скептиче-

ском» подходе целесо-

образнее использовать

метод, основанный

на неравных априорных

вероятностях.

83

www.reglament.net

кредитоспособность заемщика \ дискриминантная функция \ кросс-проверка

Дискриминантный анализ в банковском скоринге

Page 21: Дискриминантный анализ в скоринге

мизация кредитных рисков), то целесообразнее использовать метод, основанный на неравных априорных вероятностях.

Используя дискриминантный анализ, мы создали модель, которая позволяет классифицировать заемщиков на «хороших» и «плохих». Использование критерия М Бокса показало возможную проблему неоднородности ковариационных матриц, хотя в ходе дальнейшего анализа выяснилось, что это может быть вызвано чувствительно-стью теста к нарушению многомерной нормальности. Использование метода, основанного на неравных априорных вероятностях, повы-сило точность классификации, но за счет искажения данных (завы-шения числа «плохих» заемщиков). В нашем примере предпочтение было отдано методу равных априорных вероятностей1.

Факт долга по кредиту Предсказанная принадлежность к группе

Итого

не было долгов по кредиту

были долги по кредиту

Выбранные наблюдения

Исходные Частота Не было долгов по кредиту 356,0 19,0 375,0

% Были долги по кредиту 75,0 49,0 124,0Не было долгов по кредиту 94,9 5,1 100,0Были долги по кредиту 60,5 39,5 100,0

Кросс-проверен-ные**

Частота Не было долгов по кредиту 355,0 20,0 375,0Были долги по кредиту 77,0 47,0 124,0

% Не было долгов по кредиту 94,7 5,3 100,0Были долги по кредиту 62,1 37,9 100,0

Невыбран-ные наблю-дения

Исходные Частота Не было долгов по кредиту 137,0 5,0 142,0Были долги по кредиту 31,0 28,0 59,0Несгруппированные наблюдения 130,0 20,0 150,0

% Не было долгов по кредиту 96,5 3,5 100,0Были долги по кредиту 52,5 47,5 100,0Несгруппированные наблюдения 86,7 13,3 100,0

* 82,1% невыбранных исходных сгруппированных наблюдений классифицировано правильно;

81,2% выбранных исходных сгруппированных наблюдений классифицировано правильно;

80,6% выбранных кросс-проверяемых сгруппированных наблюдений классифицировано правильно.

** Кросс-проверка проводится только для наблюдений в анализе. При кросс-проверке каждое наблюдение классифициру-

ется функциями, выведенными по всем наблюдениям, за исключением его самого.

1 Для самостоятельного проведения дискриминантного анализа можно использовать данные настоящего исследования (http://narod.ru/disk/22240614001/Скоринг.sav.html).

Выводы

Таблица 20

Результаты классификации*

84

Риск-менеджмент в кредитной организации № 4 (04) \ 2011

Управление и контроль