Upload
maren
View
27
Download
0
Embed Size (px)
DESCRIPTION
Uma abordagem de Mineração de Dados na Concessão de Crédito. David J. Ribeiro Icamaan B. V. Silva Victor C. M. Braz Renata Souza Centro de Informática – UFPE. Recife, 01 de julho de 2009. Sumário. Introdução Problema Mineração de Dados Modelagem Experimentos e Resultados Conclusões. - PowerPoint PPT Presentation
Citation preview
Uma abordagem de Mineração de Dados na Concessão de Crédito
David J. RibeiroIcamaan B. V. SilvaVictor C. M. Braz
Renata Souza
Centro de Informática – UFPE
Recife, 01 de julho de 2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 2
Sumário
• Introdução• Problema • Mineração de Dados• Modelagem• Experimentos e Resultados• Conclusões
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 3
Introdução
• PAKDD 2009– Conferência líder nas áreas de mineração de
dados e descoberta de conhecimento– Robustez contra a degradação causada ao longo
de alguns anos de operação comercial– Conjuntos de dados provêm do cartão de crédito
(2003-2008)
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 4
Problema
• Avaliação de risco de crédito– Grande rede de lojas brasileiras– 8 anos de operação– Taxa de aceitação de 50% para 75% neste período
• Clientes maus– Atraso maior que 60 dias
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 5
Problema
• 31 variáveis afetadas pelas imperfeições típicas dos problemas reais, como o ruído, a falta de dados, outliers
• 9 variáveis numéricas e 22 categóricas
01/07/2009
Modelagem Período Leaderboard Período Prediction
12 meses 12 meses 12 meses 12 meses 12 meses
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 6
Objetivo
• Extrair conhecimento dos dados de modelagem para obter o melhor desempenho
01/07/2009
Conjunto de Dados Modelagem Leaderboard Prediction
Número de Padrões 50.000 10.000 10.000
Intervalo de tempo 12 meses 12 meses 12 meses
Variável Alvo Rotulado Não Rotulado Não Rotulado
Prop. do Alvo 20% vs. 80% Não Revelado Não Revelado
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 7
Objetivo
01/07/2009
Team Name University, Lab or Company AUC_ROC
TDMS Tiberius Data Mining Solutions 0.6292VladN Suncorp 0.6283LatentView Analytics LatentView 0.6215Victory Victory 0.6190
Leaderboard
Team Name University, Lab or Company AUC_ROC
Equinox ANZ 0.6588Weka1 University of Waikato 0.6569Logit Tel-Aviv University, ISRAEL 0.6550CRC University of Edinburgh 0.6510
Prediction
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 8
Mineração de Dados
• Entendimento dos Dados
01/07/2009
ATRIBUTO DESCRIÇÃOAGE Idade do candidato
MARITAL_STATUS Estado civil do candidato
MONTHS_IN_THE_JOB Quantidade de meses trabalhando
FLAG_RESIDENCIAL_PHONE Indica se o candidato possui telefone residencial
ID_SHOP Identificador da loja
PERSONAL_NET_INCOME Renda
SEX Sexo
MONTHS_IN_RESIDENCE Quantidade de meses morando na atual residência
MATE_INCOME Renda do parceiro
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 9
Mineração de Dados
• Eliminação de variáveis– 10 variáveis eliminadas
• Missing Values– 2 variáveis transformada para flag– Moda ou mediana
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 10
Mineração de Dados
• Outliers– 99º Percentil
01/07/2009
ATRIBUTO OUTLIERS
AGE 238SHOP_RANK 287MONTHS_IN_RESIDENCE 547MONTHS_IN_THE_JOB 1279PERSONAL_NET_INCOME 1QUANT_ADDITIONAL_CARDS_IN_THE_APPLICATION 885
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 11
Mineração de Dados
• Importância das variáveis– KS e ROC
01/07/2009
Atributo KS2 Máx AUC_ROC
AGE 0,1912 0,3734SHOP_RANK 0,0095 0,4998MONTHS_IN_RESIDENCE 0,0489 0,4678MONTHS_IN_THE_JOB 0,1295 0,4329PERSONAL_NET_INCOME 0,0885 0,4482
12
Mineração de Dados
• Importância das variáveis– Ganho de informação
01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
Ganho Atributo GANHO Atributo
0.0375023 AGE 0.0033416 QUANT_ADDITIONAL_CARDS_IN_THE0.0318123 DISCRETIZED_AGE 0.0019563 PAYMENT_DAY0.0175899 MARITAL_STATUS 0.0013251 RESIDENCE_TYPE0.0167471 MONTHS_IN_THE_JOB 0.0010863 FLAG_FATHERS_NAME0.0132986 FLAG_RESIDENCIAL_PHONE 0.0007554 PERSONAL_REFERENCE_20.0130153 ID_SHOP 0.0005608 SHOP_RANK0.010924 PERSONAL_NET_INCOME 0.0002966 FLAG_MOTHERS_NAME0.0048649 SEX 0.0001462 FLAG_RESIDENCE_TOWN_WORKING_TOWN0.0043717 MONTHS_IN_RESIDENCE 0.0000575 FLAG_RESIDENCIAL_ADDRESS_POSTAL0.0033898 MATE_INCOME 0.0000313 FLAG_RESIDENCE_STATE_WORKING_STATE
13
Mineração de Dados
• Correlação de Pearson
01/07/2009 David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb)
RELAÇÃO ATRIBUTO VS. ATRIBUTOPEARSON
CORRELATION
AGE vs. MONTHS_IN_THE_JOB 0,358AGE vs. MONTHS_IN_RESIDENCE 0,253AGE vs. QUANT_ADDITIONAL_CARDS_IN 0,174
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 14
Classificador
• Rede Neural MLP– Backpropagation– Sigmóide Logística– Taxa de aprendizagem 0.001– Momento 0.2
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 15
Experimentos
• Monte Carlo com 10 iterações• 4-Fold Cross Validation• Área sob a curva ROC
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 16
Resultados
01/07/2009
• Iteração 1
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 17
Resultados
01/07/2009
EXPERIMENTO AUC_ROC
ITERAÇÃO 01 0.675ITERAÇÃO 02 0.671ITERAÇÃO 03 0.663ITERAÇÃO 04 0.655ITERAÇÃO 05 0.662ITERAÇÃO 06 0.670ITERAÇÃO 07 0.660ITERAÇÃO 08 0.665ITERAÇÃO 09 0.670ITERAÇÃO 10 0.672
Desempenho médio 0.666 e desvio padrão 0.0063
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 18
Teste t
• A significancia do teste foi estipulada em 1%• 10 iterações resultando em nove graus de liberdade• t0 = 2.821
• t = 7.529• Logo, com 99% de confiança rejeitamos H0
01/07/2009
H0 : µ <= 0.651H1 : µ > 0.651
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 19
Conclusões
• Resultados satisfatórios• Pouco tempo para um trabalho mais
detalhado permitindo a criação de novas variáveis
• Avaliar desempenho sobre o Leaderboard• Outros classificadores e a combinação entre
eles
01/07/2009
David J. Ribeiro(djr), Icamaan B. V. Silva (ibvs), Victor C.M. Braz (vcmb) 20
Referências
• PAKDD 2009 http://itpe.siit.tu.ac.th/papervue/front/
• C. Shearer, "The CRISP-DM model: the new blueprint for data mining“
• F. Tom, “An introduction to ROC analysis”• M.H. DeGroot, Probability and Statistics.
Addison-Wesley, 1980• W.J. Conover, Practical Nonparametric Statistics.
John Wiley & Sons,1998.
01/07/2009
Uma abordagem de Mineração de Dados na Concessão de Crédito
David J. RibeiroIcamaan B. V. SilvaVictor C. M. Braz
Renata Souza
Centro de Informática – UFPE
Recife, 01 de julho de 2009