29
НЕЙРОННЫЕ СЕТИ В БАНКОВСКОМ СКОРИНГЕ А.В. Груздев, исследовательская компания «Гевисста», директор КЛЮЧЕВЫЕ СЛОВА: нейронная сеть, нейрон, синаптический вес, обучающая выборка, контрольная выборка, тестовая выборка, переменная разделения, зависимая переменная, фактор, ковариата, дефолт, прогноз, псевдовероятность, порог отсечения, классификационная таблица, переобучение, ROC-кривая, диаграмма точности прогнозов, кумулятивная диаграмма выигрыша, диаграмма прироста, нормализованная важность Нейронные сети являются популярным инструментом прогнозирования в силу их больших возможностей, гибкости и удобства использования. Прогностические нейронные сети особенно успешно применяются в тех сферах, где рассматриваемый процесс зависит от множества факторов: вероятность оттока клиентов; прогноз потребительского спроса; прогноз вероятности отклика на маркетинг продажи товаров по почте, чтобы определить, каким домашним хозяйствам из списка рассылки должны быть посланы предложения; выигрыш претендента и определение риска выдаваемого кредита заявителю; выявление фактов мошенничества в базе данных страховых исков.

Нейронные сети в банковском скоринге

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Нейронные сети в банковском скоринге

НЕЙРОННЫЕ СЕТИ В БАНКОВСКОМ СКОРИНГЕ А.В. Груздев, исследовательская компания «Гевисста», директор КЛЮЧЕВЫЕ СЛОВА: нейронная сеть, нейрон, синаптический вес, обучающая выборка, контрольная выборка, тестовая выборка, переменная разделения, зависимая переменная, фактор, ковариата, дефолт, прогноз, псевдовероятность, порог отсечения, классификационная таблица, переобучение, ROC-кривая, диаграмма точности прогнозов, кумулятивная диаграмма выигрыша, диаграмма прироста, нормализованная важность Нейронные сети являются популярным инструментом прогнозирования в силу их больших возможностей, гибкости и удобства использования. Прогностические нейронные сети особенно успешно применяются в тех сферах, где рассматриваемый процесс зависит от множества факторов:

вероятность оттока клиентов;

прогноз потребительского спроса;

прогноз вероятности отклика на маркетинг продажи товаров по почте, чтобы

определить, каким домашним хозяйствам из списка рассылки должны быть посланы

предложения;

выигрыш претендента и определение риска выдаваемого кредита заявителю;

выявление фактов мошенничества в базе данных страховых исков.

Page 2: Нейронные сети в банковском скоринге

Описание метода Что же такое нейронная сеть? В настоящее время нет единого определения термина «нейронная сеть». Мы воспользуемся определением Саймона Хайкина – автора классических работ по нейронным сетям (1998):

Нейронная сеть – это громадный распределенный параллельный процессор, состоящий из элементарных единиц обработки информации, накапливающих экспериментальные знания и представляющих их для последующей обработки. Нейронная сеть схожа с мозгом с двух точек зрения: Знания (knowledge) поступают в сеть из окружающей среды и используются в процессе обучения (learning process). Для накопления знаний применяются связи между нейронами (interneuron connection), называемые синаптическими весами (synaptic weights). Сделаем еще одно важное дополнение: наложение различных предположений допускается только в процессе обучения, но не до него. Нейронные сети имеют свои сходства и отличия от традиционных статистических методов. Например, традиционная линейная модель регрессии может обучиться на основе метода наименьших квадратов и сохранить результаты обучения в регрессионных коэффициентах. В этом смысле регрессионная модель – это нейронная сеть. Фактически можно утверждать, что линейная регрессия –это частный случай нейронных сетей определенного типа. Однако линейная регрессия имеет строгую структуру модели и набор гипотез, которые выдвигаются прежде, чем начинается обучение на основе данных. В нейронных сетях, наоборот, выдвигаются минимальные требования к структуре модели и гипотезам. Таким

Page 3: Нейронные сети в банковском скоринге

образом, нейронная сеть близка статистическим методам, которые не требуют предварительной гипотезы о характере взаимосвязей между зависимой переменной и независимыми переменными. Вместо этого форма взаимосвязей определяется в процессе обучения. Если подходит линейная зависимость между зависимой переменной и независимыми переменными, то результаты нейронной сети должны быть близки результатам, полученным с помощью линейной модели регрессии. Если более уместна нелинейная зависимость, то нейронная сеть автоматически подбирает «корректную» структуру модели.

Чаще всего в кредитном скоринге используется архитектура многослойного персептона. Многослойный персептон позволяет получить прогностическую модель для одной и более зависимых (целевых) переменных, основываясь на значениях независимых переменных. Результаты, предсказанные моделью при использовании этого типа сети, контролируются в том смысле, что их можно сравнить с известными значениями целевых переменных (факт погашения кредита по прошлым заемщикам). Рассмотрим конкретный пример разработки скоринговой модели для ипотечного кредитования клиентов банка в программе SPSS с использованием многослойного перспептона. У нас есть данные о 850 клиентов, предоставленные отделом кредитования. Из них 700 клиентов, по которым известен результат погашения кредита (историческая выборка), и 150 будущих клиентов, для которых нужно дать прогноз дефолта. Применим разделение исторической выборки на обучающую и контрольную (метод Split-Sample Validation): 70% данных используется для построения модели, а оставшаяся часть (не участвовавшая в моделировании) – для проверки модели. Затем используем полученную модель для

Page 4: Нейронные сети в банковском скоринге

классификации 150 потенциальных клиентов на «хороших» и «плохих» заемщиков. Чтобы извлечь случайную выборку, выполните следующие действия:

Английская версия SPSS Русская версия SPSS ► Выберите в меню: Transform ► Random Number Generators... ► Выберите Set Starting Point. ► Выберите Fixed Value и введите значение 9191972 ► Щелкните OK.

► Выберите в меню: Преобразовать ► Генераторы случайных чисел... ► Выберите Задать начальное значение. ► Выберите Фиксированное и введите значение 9191972 ► Щелкните OK.

Page 5: Нейронные сети в банковском скоринге

Теперь нам потреуется переменная разделения понадобится для точного воссоздания выборок, используемых для анализа.

Чтобы создать переменную разделения [partition], выполните следующие действия: ► Выберите в меню: Transform ► Compute Variable... ► Введите partition в поле Target Variable ► Введите 2*rv.bernoulli(0.7)-1 в поле Numeric Expression

► Выберите в меню: Преобразовать ► Вычислить переменную... ► Введите partition в поле Вычисляемая переменная ► Введите 2*rv.bernoulli(0.7)-1 в поле Числовое выражение

Установленные значения для переменной [partition] позволят нам получить сгенерированное случайным образом распределение Бернулли. Заметьте, что оно модифицировано. Теперь случайная величина с вероятностью наступления события p=0.7 принимает значение либо 1, либо -1 вместо 1 либо 0. Наблюдения с положительными значениями переменной разделения отнесены к обучающей выборке, наблюдения с отрицательными значениями – к контрольной.

Page 6: Нейронные сети в банковском скоринге

► Щелкните OK в диалоговом окне Compute Variable.

► Щелкните OK в диалоговом окне Вычислить переменную.

Примерно 70% исторических данных, отмечены в переменной [partition] значением 1. Эти наблюдения будут использоваться для создания модели. Остальные 30% исторических данных отмечены в переменной [partition] значением -1 и будут использованы для проверки результатов модели.

Page 7: Нейронные сети в банковском скоринге

Чтобы запустить процедуру многослойного персептона: ► Выберите в меню Analyze ► Neural Networks ► Multilayer Perceptron... ► Переместите переменную [Факт долга] в поле для зависимых переменных Dependent Variables ► Переместите переменную [Уровень образования] в поле для факторов Factors ► Поместите независимые переменные, начиная с [Возраст] до [Другие долги] — в область Covariates ► Щелкните вкладку Partitions

► Выберите в меню Анализ ► Нейронные сети ► Многослойный персептон… ► Переместите переменную [Факт долга] в поле для зависимых перемен-ных Зависимые переменные ► Переместите переменную [Уровень образования] в поле для факторов Факторы ► Поместите независимые переменные, начиная с [Возраст] до [Другие долги] — в область Ковариаты ► Щелкните вкладку Разделение

Page 8: Нейронные сети в банковском скоринге

► Выберите Use partitioning variable to assign cases ► Выберите [partition] в качестве переменной разделения ► Щелкните вкладку Output

► Выберите Использовать переменную разделения ► Выберите [partition] в качестве переменной разделения ► Щелкните вкладку Вывод

Page 9: Нейронные сети в банковском скоринге

► Выберите Description, Diagram, Synaptic weights в поле Network Structure ► Выберите Model summary, Classification Results, ROC curve, Cumulative gains chart, Lift chart и Predicted by observed chart в поле Network Performance. Параметр Residual by predicted chart недоступен, поскольку зависимая переменная не является количественной. ► Выберите Case processing summary и Independent variable importance analysis

► Щелкните OK

► Выберите Описание, Диаграмма, Веса нейронов в поле Структура сети ► Выберите Сводка для модели, Результаты классификации, ROC кривая, Кумулятивная диаграмма выигрыша, Диаграмма прироста и Диаграмма точности прогнозов в поле Производительность сети. Параметр Диаграмма остатков и прогнозов недоступен, поскольку зависимая переменная не является количественной. ► Выберите Сводный отчет обработки наблюдений и Анализ важности независимых переменных

► Щелкните OK

Page 10: Нейронные сети в банковском скоринге

Таблица 1 Сводка результатов обработки наблюдений N Процент

Выборка Обучающая 499 71,3%

Контрольная 201 28,7%

Валидные 700 100,0%

Исключенные 150

Всего набл. 850

Из табл. 1 следует, что 499 наблюдений были отнесены к обучающей выборке, а 201 – к контрольной. 150 наблюдений, исключенные из анализа, - потенциальные клиенты, по которым нужно дать прогноз. Таблица 2 Информация о сети Входной слой Факторы 1 Уровень образования

Ковариаты 1 Возраст

2 Стаж работы на данном месте

3 Срок проживания по последнему адреcу

4 Доход

5 [% долговых обязательств от дохода (x100)

6 Долг по кредитной карте Банка

7 Другие долги

Количество нейронов a 12

Метод масштабирования ковариатов Стандартизованный

Скрытый слой(и)

Количество скрытых слоев 1

Количество нейронов в скрытом слое 1a 4

Функция активации Гиперболический тангенс

Выходной слой

Зависимые переменные

1 Факт долга по кредиту

Количество нейронов 2

Функция активации Софтмакс

Функция ошибки Кросс-энтропия

a. Исключая нейроны смещения

Функция активации скрытого слоя: Гиперболический тангенс Функция активации выходного слоя: Софтмакс

Page 11: Нейронные сети в банковском скоринге

Рисунок 1 Модель нейронной сети

В табл. 2 и на рис. 1 приводится общая информация о нейронной сети. С ее помощью мы можем проверить

Page 12: Нейронные сети в банковском скоринге

корректность заданных нами спецификаций. Особо отметим:

Количество нейронов во входном слое – это количество ковариат плюс общее число уровней фактора; входные элементы создаются для каждой категории переменной [Уровень образования] и ни одна из категорий не рассматривается как «лишняя» единица анализа, как это характерно для большинства процедур моделирования.

Точно так же нейроны на выходе создаются для каждой категории переменной [Факт долга], всего два в выходном слое.

Процедура «Автоматический выбор архитектуры» (использованы настройки по умолчанию) отобрала четыре нейрона в скрытом слое.

Таблица 3 Сводка по модели Обучающая Ошибка кросс-энтропии 156,606

Процент неверных прогнозов 15,6%

Правило остановки Максимальное количество эпох (100) достигнуто

Время обучения 00:00:01,310

Контрольная Процент неверных прогнозов 25,4%

Зависимая переменная: Факт долга по кредиту

В табл. 3 дается информация о результатах обучения и применения модели на контрольной выборке:

Показана ошибка кросс-энтропии, потому что выходной слой использует функцию активации софтмакс. Это ошибка функции, которую сеть пытается минимизировать в ходе обучения.

Процент неверных прогнозов взят из таблицы классификации и будет рассмотрен чуть ниже.

Page 13: Нейронные сети в банковском скоринге

Алгоритм оценки остановлен, потому что достигнуто максимальное количество эпох (циклов). Обучение сети проходит итеративно по шагам. Шаг еще называют эпохой или циклом. На каждом шаге совершается один проход по всей обучающей выборке с проверкой на контрольной выборке. В идеале обучение должно остановиться, когда реализовано заданное количество эпох, ошибка достигла заданной величины или некоторого значения, после которого перестала уменьшаться.

Таблица 4 Классификационная таблица

Выборка Наблюдаемые

Спрогнозированные

Не было долгов по кредиту

Были долги по кредиту

Процент верных

прогнозов

Обучающая Не было долгов по кредиту 347 28 92,5%

Были долги по кредиту 50 74 59,7%

Общий процент 79,6% 20,4% 84,4%

Контрольная Не было долгов по кредиту 123 19 86,6%

Были долги по кредиту 32 27 45,8%

Общий процент 77,1% 22,9% 74,6%

Зависимая переменная: Факт долга по кредиту

Классификационная таблица (табл. 4) показывает практические результаты применения нейронной сети. Для каждого наблюдения спрогнозированным ответом является Были долги по кредиту при условии, что спрогнозированная псевдовероятность наблюдений больше 0.5. Для каждой выборки дается процент верных и неверных прогнозов. 74 из 124 клиентов, у которых были долги по кредиту, классифицированы правильно. 347 из 375 надежных заемщиков классифицированы правильно. Всего 84.4% наблюдений из обучающей выборки классифицированы

Page 14: Нейронные сети в банковском скоринге

верно, что соответствует 15.6% неверных прогнозов, приведенных в табл. 3. Чем выше процент корректной классификации наблюдений, тем лучше модель. Классификации, которые опираются на наблюдения, использованные для построения модели, имеют тенденцию быть излишне «оптимистическими» в том смысле, что их точность может быть завышена. Контрольная выборка помогает осуществить проверку модели: 74.6% наблюдений классифицированы верно. Нейронная сеть дает высокий процент верно классифицированных наблюдений в обучающей выборке, но при этом заметим, что она хуже работает на контрольной выборке, особенно, когда нужно дать прогноз по клиентам, которые не смогли расплатиться по кредиту (45.8% верно классифицированных наблюдений для контрольной выборки и 59.7% - для обучающей выборки). Это заставляет нас выдвинуть предположение, что произошло переобучение сети. То есть сеть не распознает или плохо распознает любые другие наблюдения, кроме обучающих. Обычно оно возникает при чрезмерной подгонке сети к обучающей выборке. Контрольная выборка используется для определения переобучения сети, при котором ошибка для обучающего множества стремится к нулю, а для проверочного - возрастает. Для проверки качества функционирования обученной сети, решения проблемы переобучения используется тестовая выборка. Возьмем часть наблюдений из обучающей выборки и определим в качестве тестовой выборки.

► Выберите в меню: Transform ► Compute Variable... ► Введите partition - rv.bernoulli(0.2) в поле Numeric Expression ► Щелкните If

► Выберите в меню: Преобразовать ► Вычислить переменную... ► Введите partition - rv.bernoulli(0.2) в поле Числовое выражение ► Щелкните Если

Page 15: Нейронные сети в банковском скоринге

► Выберите Include if case satisfies condition ► Введите partition>0 в поле для текста ► Щелкните Continue ► Щелкните OK в диалоговом окне Compute Variable

► Выберите Включить наблюдения, удовлетворяющие условию ► Введите partition>0 в поле для текста ► Щелкните Продолжить ► Щелкните OK в диалоговом окне Вычислить переменную

Page 16: Нейронные сети в банковском скоринге

В целом примерно 56% данных исторической выборки будут использованы в обучающей выборке, 14% – будут отнесены к тестовой, оставшиеся – к контрольной. Снова запускаем процедуру многослойного персептона:

► Выберите вкладку Save ► Выберите Save predicted pseudo-probability for each dependent variable ► Щелкните OK

► Выберите вкладку Сохранить ► Выберите Сохранить предсказанную псевдовероятность для каждой зависимой переменной ► Щелкните OK

Page 17: Нейронные сети в банковском скоринге

Таблица 5 Сводка результатов обработки наблюдений N Процент

Выборка Обучающая 397 56,7%

Тестовая 102 14,6%

Контрольная 201 28,7%

Валидные 700 100,0%

Исключенные 150

Всего набл. 850

На табл. 5 видно, что из 499 наблюдений, первоначально отнесенных к обучающей выборке, 102 попали в тестовую выборку. Таблица 6 Информация о сети Входной слой Факторы 1 Уровень образования

Ковариаты 1 Возраст

2 Стаж работы на данном месте

3 Срок проживания по последнему адреcу

4 Доход

5 [% долговых обязательств от дохода (x100)

6 Долг по кредитной карте Банка

7 Другие долги

Количество нейронов a 12

Метод масштабирования ковариатов Стандартизированный

Скрытый слой(и)

Количество скрытых слоев 1

Количество нейронов в скрытом слое 1a 7

Функция активации Гиперболический тангенс

Выходной слой

Зависимые перменные

1 Факт долга по кредиту

Количество нейронов 2

Функция активации Софтмакс

Функция ошибки Кросс-энтропия

a. Исключая нейроны смещения

Page 18: Нейронные сети в банковском скоринге

В табл. 6 приводится общая информация о нейронной сети. Единственное изменение по сравнению с табл. 2, в том, процедура «Автоматический выбор архитектуры» (использованы настройки по умолчанию) отобрала семь нейронов в скрытом слое.

Таблица 7 Сводка по модели Обучающая

Ошибка кросс-энтропии 164,340

Процент ошибочных прогнозов

19,9%

Правило остановки алгоритма

1 последующий шаг, на котором ошибка перестает уменьшаться

Время обучения 00:00:01,014

Тестовая Ошибка кросс-энтропии 32,816

Процент ошибочных прогнозов

12,7%

Контрольная Процент ошибочных прогнозов

20,9%

Зависимая переменная: Факт долга по кредиту

Сводка модели, приведенная в табл. 7, указывает на два положительных признака, которые говорят об улучшении модели:

Проценты неверных прогнозов стали примерно одинаковыми для обучающей, контрольной и, в меньшей степени, для тестовой выборки. Оптимально, когда проценты по всем трем выборкам примерно одинаковы.

Алгоритм оценки остановился, потому что ошибка перестала уменьшаться на каком-то шаге алгоритма.

Наше предположение о том, что первоначальная модель была переобучена, подтвердилось. Проблема переобучения была решена включением тестовой выборки.

Page 19: Нейронные сети в банковском скоринге

Таблица 8 Классификационная таблица

Выборка Наблюдаемые

Спрогнозированные

Не было долгов по кредиту

Были долги по кредиту

Процент верных

прогнозов

Обучающая Не было долгов по кредиту 266 31 89,6%

Были долги по кредиту 48 52 52,0%

Общий процент 79,1% 20,9% 80,1%

Тестовая Не было долгов по кредиту 72 6 92,3%

Были долги по кредиту 7 17 70,8%

Общий процент 77,5% 22,5% 87,3%

Контрольная Не было долгов по кредиту 124 18 87,3%

Были долги по кредиту 24 35 59,3%

Общий процент 73,6% 26,4% 79,1%

Зависимая переменная: Факт долга по кредиту

Табл. 8 показывает, что, используя для классификации значение 0.5 в качестве точки отсечения псевдовероятности, нейронная сеть значительно лучше прогнозирует «хороших» заемщиков, чем «плохих». К сожалению, единственное значение порога отсечения дает нам очень ограниченное представление о прогностической способности сети. Теперь взглянем на ROC кривую.

Page 20: Нейронные сети в банковском скоринге

Рисунок 2 ROC-кривая

ROC кривая (рис. 2) дает нам визуальное представление чувствительности и специфичности для всех возможных точек отсечения на графике, что гораздо нагляднее, чем каскад таблиц. На графике – две кривые, одна – для категории Не было долгов по кредиту и вторая – для категории Были долги по кредиту. Заметим, что этот график построен на объединенных обучающей и тестовой выборках. Чтобы построить ROC кривую для контрольной выборки, разбейте наблюдения в файле с помощью переменной разделения и запустите процедуру «ROC кривая», основываясь на сохраненных спрогнозированных псевдовероятностях.

Page 21: Нейронные сети в банковском скоринге

Таблица 9 Площадь под кривой Area

Факт долга по кредиту

Не было долгов по кредиту

,854

Были долги по кредиту

,854

Значения площади под кривой, приведенные в табл. 9, даны для каждой категории зависимой переменной. Например, для случайно отобранного «плохого» заемщика и случайно отобранного «хорошего» заемщика существует вероятность 0.854, что спрогнозированная моделью псевдовероятность дефолта будет выше для «плохого» заемщика, чем для «хорошего».

Рисунок 3 Диаграмма точности прогнозов

Page 22: Нейронные сети в банковском скоринге

Для категориальных зависимых переменных этот график (рис. 3) показывает ящичковые диаграммы спрогнозированных псевдовероятностей для объединенных обучающей и тестовой выборок. Метки на оси x соответствует фактическим категориям зависимой переменной, а легенда – спрогнозированным категориям этой переменной.

Крайняя слева ящичковая диаграмма показывает спрогнозированную псевдовероятность категории Не было долгов по кредиту для наблюдений с фактической категорией Не было долгов по кредиту. Участок ящичковой диаграммы, лежащий выше метки 0.5 по оси y, представляет собой верные прогнозы, приведенные в классификационной таблице. Участок, лежащий ниже метки 0.5 по оси y, - это неверные прогнозы. Из таблицы классификации вспомним, что сеть очень хорошо прогнозирует наблюдения в категории Не было долгов по кредиту, используя порог отсечения 0.5. Это согласуется с нашей диаграммой. На участке ниже 0.5 мы видим лишь небольшой нижний усик и несколько наблюдений с далекими или экстремальными значениями, которые неверно классифицированы.

Следующая ящичковая диаграмма показывает спрогнозированную псевдовероятность категории Были долги по кредиту для наблюдений с фактической категорией Не было долгов по кредиту. Поскольку есть лишь две категории целевой переменной две первые диаграммы симметричны относительно горизонтальной линии, которую можно провести через значение 0.5 по оси y.

Третья ящичковая диаграмма показывает спрогнозированную псевдовероятность категории Не было долгов по кредиту для наблюдений с фактической

Page 23: Нейронные сети в банковском скоринге

категорией Были долги по кредиту. Две последние диаграммы также симметричны относительно горизонтальной линии, которую можно провести через значение 0.5 по оси y.

Последняя ящичковая диаграмма показывает спрогнозированную псевдовероятность категории Были долги по кредиту для наблюдений с фактической категорией Были долги по кредиту. Участок ящичковой диаграммы, лежащий выше метки 0.5 по оси y, представляет собой верные прогнозы, приведенные в классификационной таблице. Участок, лежащий ниже метки 0.5 по оси y, - это неверные прогнозы. Из таблицы классификации вспомним, что сеть смогла верно спрогнозировать чуть больше половины наблюдений в категории Были долги по кредиту, используя порог отсечения 0.5. И мы видим, что бОльшая часть ящичка неправильно классифицирована.

Взглянув на график, нам очевидно, что уменьшая порог отсечения для классификации наблюдений как относящихся к категории Были долги по кредиту с 0.5 до приблизительно 0.3 – это примерно там, где расположены верхний край ящичка второй диаграммы и нижний край ящичка четвертой диаграммы – можно увеличить вероятность точной классификации будущих «плохих» заемщиков. Это изменение порога отсечения приведет к тому, что вторая диаграмма некорректно переклассифицирует относительно небольшое число «хороших» заемщиков в «плохих» вдоль усика. Что касается четвертой диаграммы, это снижение корректно переклассифицирует большое число «плохих» заемщиков внутри ящичка в «плохих».

Page 24: Нейронные сети в банковском скоринге

Рисунок 4 Диаграмма точности прогнозов (порог отсечения снижен до 0.3)

Рисунок 5 Кумулятивная диаграмма выигрыша

Page 25: Нейронные сети в банковском скоринге

Кривая, изображенная на рис. 5, показывает выигрыши в нашей модели. Первая точка кривой Были долги по кредиту имеет координаты 10% и 30%. Это обозначает, что если вы отсортируете все наблюдения с помощью спрогнозированной псевдовероятности Были долги по кредиту, следует ожидать, что первые 10% данных содержат примерно 30% всех наблюдений, попавших в категорию Были долги по кредиту («плохие» заемщики). Точно так же следует ожидать, что первые 20% данных содержат примерно 50% «плохих» заемщиков. Первые 30% данных должны содержать 70% «плохих» заемщиков, и так далее. 100% данных содержат все множество «плохих» заемщиков. Диагональная линия – это «идеальная» кривая. Если вы случайным образом отберете 10% всех данных, то следует ожидать «выигрыш» примерно 10% всех наблюдений, попавших в категорию Были долги по кредиту. Чем выше кривая располагается над диагональной чертой, тем больше выигрыш. Можно использовать диаграмму выигрыша, чтобы определить точку отсечения для классификации, выбрав такой процент, который бы соответствовал желаемому выигрышу. Что понимать под «желаемым» выигрышем, зависит от цены ошибок I и II рода. Какова цена отнесения «плохого» заемщика к «хорошему» (ошибка I рода)? Какова цена отнесения «хорошего» заемщика к «плохому» (ошибка II рода)? Если первостепенной является задача минимизации кредитных рисков, то можно уменьшить вероятность совершения ошибки I рода, отказав в выдаче кредита аппликантам в первых 40% наблюдений, отсортированных спрогнозированной псевдовероятностью Были долги по кредиту. Это около 90% возможных «плохих» заемщиков.

Page 26: Нейронные сети в банковском скоринге

При этом потеряем около половины обратившихся за кредитом. Если приоритетным является расширение клиентской базы, то можно уменьшить вероятность совершения ошибки II рода, отказав аппликантам в первых 10% наблюдений. Они включают в себя примерно 30% «плохих» заемщиков. Руководствуясь вышеперечисленными приоритетами, вы должны выбрать такое правило классификации заемщиков, которое даст оптимальное сочетание чувствительности и специфичности.

Рисунок 6 Диаграмма прироста

Диаграмма прироста получена из кумулятивной диаграммы выигрышей. Значения по оси y соответствуют отношению кумулятивного выигрыша кривой к исходным данным. Например, прирост в точке 10% для категории Были долги по кредиту составит 30%/10% = 3.0. Эпо позволяет по-другому взглянуть на информацию, представленную в кумулятивной диаграмме выигрышей.

Page 27: Нейронные сети в банковском скоринге

Заметим, что кумулятивная диаграмма выигрышей и диаграмма прироста строятся на объединенных обучающей и тестовой выборках.

Рисунок 7 Нормированная важность независимых переменных

График показывает, насколько сильно значение зависимой переменной, предсказанное моделью, изменяется для различных независимых переменных. График важности – это просто столбиковая диаграмма значений, отсортированных в порядке уменьшения важности. Видно, что переменные, связанные с устойчивым статусом заемщика (стаж, проживание) и его долговыми обязательствами в большей степени влияют на то, как сеть классифицирует заемщиков. При этом мы не можем сказать, какой характер носит связь между этими переменными и спрогнозированной вероятностью дефолта. Мы можем лишь предположить, что значительные долговые обязательства клиента указывают на бОльшую вероятность его дефолта. Однако для того, чтобы быть уверенным до

Page 28: Нейронные сети в банковском скоринге

конца в своих выводах, мы должны использовать показатели, которые более легко интерпретировать. Обратите внимание, что по итогам анализа в Редакторе данных/Редакторе переменных SPSS появилось две новых переменных: [MLP_PseudoProbability_1] - Predicted Pseudo-Probability for фактдолга = 0 или Псевдовероятность принадлежности к Группе со значением 0 – Не было долгов по кредиту. [MLP_PseudoProbability_2] - Predicted Pseudo-Probability for фактдолга = 1 или Псевдовероятность принадлежности к Группе со значением 1 – Были долги по кредиту. Можно посмотреть, как модель предсказала принадлежность к «хорошему»/ «плохому» заемщику по тем 700 клиентам, у которых кредит закрыт с известным результатом погашения, и 150 потенциальным клиентам (см. рис. 8).

Page 29: Нейронные сети в банковском скоринге

Рисунок 8. Прогноз кредитоспособности заемщиков