View
220
Download
0
Category
Preview:
Citation preview
Notação de riscoApenas uma questão de ordenação multivariada?
Marta Eirô Pinto
Dissertação para a obtenção de Grau de Mestre em
Matemática e Aplicações
JúriPresidente: Prof. Doutor António Manuel Pacheco PiresOrientador: Prof. Doutora Maria da Conceição Esperança Amadoorientador: Prof. Doutora Ana Maria Nobre Vilhena Nunes Pires de Melo ParenteVogais: Prof. Doutor João António Branco
Julho 2013
Resumo
O ındice de risco (traducao do ingles, credit rating) e, hoje em dia, uma importante medida de
classificacao de paıses e empresas nos mercados internacionais. A qualidade de credito de um
paıs ou de uma empresa, definida pelas agencias de classificacao de risco, e um fator essencial
para a emissao de dıvida, e as taxas de juros desses tıtulos dependem dessa classificacao. A
metodologia aplicada pelas agencias baseia-se em modelos econometricos e opiniao de peritos
financeiros.
Com este trabalho pretende-se usar a ordenacao multivariada como base para a classificacao
de risco de credito de varios paıses. Metodos de ordenacao e de classificacao sao estudados
com o mesmo proposito. Nos procedimentos usados serao explorados diversos conceitos e a
classificacao dos paıses sera efetuada usando classificadores supervisionados e nao supervisi-
onados.
Os dados de cada paıs sao principalmente economicos e divulgados pelo Fundo Monetario
Internacional (FMI). As conclusoes extraıdas do estudo foram comparadas com as notacoes
de risco atribuıdas pela agencia Standard & Poor’s.
Palavras Chave: Arvores de decisao, analise discriminante, credit rating, ordenacao multi-
variada, regressao logıstica.
i
Abstract
The credit rating is, nowadays, an important measure of classification for countries and
companies in international markets. The credit quality of a country or a company, defined
by risk rating agencies, is an essential factor for the issuance of debt and the interest rates
on those bonds depend on this classification. The methodology applied by the agencies is
based on econometric models and opinion of financial experts.
With this work we intend to use the multivariate ordering classification as a basis for credit
risk in several countries. Ordering methods as well as classification methods are studied
with the same purpose. In the procedures used we will explore several concepts and the
classification of countries will be carried out using supervised and not supervised classifiers.
The data for each country are mainly economic and released by the International Monetary
Fund (IMF). The conclusions drawn from the study were compared with the ratings assigned
by Standard & Poor’s.
Keywords: Decision trees, discriminant analysis, credit rating, multivariate orderinging,
logistic regression.
iii
Agradecimentos
Gostaria de agradecer a Professora Conceicao Amado pelas horas despendidas e tambem o
carinho, a paciencia e o bom humor que estiveram sempre presentes. Igualmente, gostaria
de agradecer, a Professora Ana Pires que apoiou a realizacao deste trabalho e ajudou com
novas ideias e boa disposicao.
Por toda a paciencia, amor e compreensao agradeco a minha famılia e amigos.
Em particular, quero agradecer a minha melhor amiga, Veronica Martins, por ha cinco anos
atras ter dado o primeiro passo nesta amizade. Com ela aprendi mais do que os livros podem
ensinar.
Finalmente quero agradecer ao meu namorado, Pedro Santos, por todo o amor, motivacao,
orgulho, ternura e ensinamentos.
v
Indice
Resumo i
Abstract iii
Agradecimentos v
Lista de figuras xi
Lista de tabelas xiii
1 Introducao 1
1.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Credit Rating . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 Sovereign Credit Rating . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 Agencias de Rating . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Moody’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Standard & Poor’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Fitch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2 Metodologia 7
2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Ordenacao de dados multivariados . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Sub-Ordenacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
vii
2.3 Analise de Agrupamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.1 Metodos Hierarquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3.2 Metodos de Particao . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
k -Medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.4 Analise de Componentes Principais . . . . . . . . . . . . . . . . . . . . . . . 15
2.5 Metodos de Classificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.1 k-Vizinhos mais proximos - k-NN . . . . . . . . . . . . . . . . . . . . 18
2.5.2 Analise de Regressao Logıstica . . . . . . . . . . . . . . . . . . . . . 20
2.5.3 Arvores de decisao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.5.4 Analise Discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Classificacao com populacoes normais . . . . . . . . . . . . . . . . . . 26
3 Analise Preliminar dos dados 29
3.1 Variaveis em estudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2 Analise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4 Aplicacao e Resultados 41
4.1 Metodos nao supervisionados . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.1 Ordenacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.2 Convex hull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.1.3 Clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.2 Metodos de Classificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.2.1 K-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2.2 Analise Discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2.3 Regressao Logıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.3 Validacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5 Conclusao 59
viii
A Apendice 61
Bibliografia 64
ix
Lista de Figuras
3.1 Classificacao vs PIB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Classificacao vs PIB per capita . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.3 Classificacao vs Poupanca . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 Classificacao vs Dıvida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.5 Classificacao vs Saldo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.6 Classificacao vs Saldo sem EUA . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.7 PIB vs PIB per capita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.8 PIB vs Importacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.9 PIB vs Exportacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.10 PIB per capita vs Saldo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.11 Receitas vs Despesas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4.1 Quatro representacoes graficas do Convex Hull com duas variaveis . . . . . . 46
4.2 Dendrograma obtido pelo metodo de Ward com distancia Euclidiana . . . . 49
4.3 Metodo de Ward com distancia Euclidiana . . . . . . . . . . . . . . . . . . . 50
4.4 Metodo K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.5 Metodo K-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
xi
xii
Lista de Tabelas
3.1 Descricao de classificacoes atribuıdas pelas principais agencias de rating. . . 30
3.2 Estatısticas sumarias das variaveis em estudo. . . . . . . . . . . . . . . . . . 32
4.1 Tabela de ordenacao com posicao de cada paıs - Europa . . . . . . . . . . . . 43
4.2 Tabela de paıses ordenados com respectiva classificacao - Europa . . . . . . . 44
4.3 Numero de observacoes por classes agrupadas . . . . . . . . . . . . . . . . . 52
4.4 Coeficientes do Modelo F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.5 Coeficientes do Modelo G . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.6 Medidas de seleccao dos Modelos F e G . . . . . . . . . . . . . . . . . . . . . 55
4.7 Resultados de Cross validation . . . . . . . . . . . . . . . . . . . . . . . . . . 56
A.1 Tabela de ordenacao com posicao de cada paıs - America . . . . . . . . . . . 61
A.2 Tabela de ordenacao com posicao de cada paıs - Oceania . . . . . . . . . . . 62
A.3 Tabela de ordenacao com posicao de cada paıs - Asia . . . . . . . . . . . . . 62
A.4 Tabela de ordenacao com posicao de cada paıs - Africa . . . . . . . . . . . . 62
xiii
xiv
Capıtulo 1
Introducao
1.1 Introducao
O Credit Rating tem sido uma ferramenta muito importante na area dos negocios, apesar
de nem todos saberem ao certo o que significa, para que serve e, ate mesmo, porque existe.
Apesar de parecer ser um conceito de tempos modernos, o Credit Rating iniciou-se na decada
de 30. Nessa altura nao existiam agencias de notacao financeira mas o conceito era o mesmo,
analisar as contas e atribuir um nıvel de risco a cada industria para que o investidor pudesse
antever qual o risco que estaria associado.
Actualmente tornou-se uma area que gera milhoes e custa outros tantos milhoes a varios
paıses e empresas (Cantor and Packer, 1996). No mundo academico este tema e tambem
popular. Areas como a economia, a gestao, a estatıstica e a informatica interessam-se por
propor metodos que melhorem a avaliacao dos diferentes paıses e industrias.
Neste trabalho exploraremos o conceito geral de Credit Rating, explicitando o que e, quem
esta capacitado para o fazer e como e alcancado. Iremos focar com maior incidencia no Credit
Rating associado a entidades soberanas (Sovereign Credit Rating). Deste rol de entidades
soberanas estao incluıdos os paıses que iremos considerar neste trabalho. O Sovereign Credit
Rating apesar de semelhante nas suas definicoes tem algumas particularidades que iremos
descrever mais a frente.
Posteriormente, iremos explorar os metodos estatısticos que poderao ser usados na atribui-
cao da classificacao. Estes metodos sao importantes dada a sua caracterıstica objectiva de
avaliacao, apesar de, por vezes, serem descurados em prol da alegada experiencia e intuicao
dos responsaveis pela atribuicao da nota referente a cada paıs.
Neste capıtulo irao ser apresentadas as definicoes comuns de Credit Rating e de Sovereign
1
Credit Rating. O Capıtulo 2 assenta em aspectos essencialmente metodologicos. A ordenacao
multivariada e alguns metodos de classificacao supervisionada e nao supervisionada sao bre-
vemente descritas neste capıtulo. A analise preliminar dos dados e apresentada no Capıtulo
3 onde sao descritas e analisadas as variaveis em estudo. No Capıtulo 4 sao apresentados
os resultados da aplicacao dos diversos metodos aos dados do problema. Finalmente no
Capıtulo 5 descrevem-se as principais conclusoes das abordagens propostas.
1.2 Credit Rating
Podemos definir o Credit Rating como uma avaliacao feita por agencias especializadas, cha-
madas agencias de rating ou agencia de notacao financeira, que dao uma nota consoante a
”probabilidade”de nao cumprimento das obrigacoes da empresa, governo, entre outras enti-
dades. Esta avaliacao encontra-se geralmente entre as categorias AAA e D, sendo AAA a
melhor nota (associada a baixa probabilidade de nao cumprimento) e D considerada a mais
baixa das categorias que correntemente designam por ”lixo”, Mises (2010).
Apesar de aparentar ser um conceito recente e inovador o Credit Rating tem varias dezenas
de anos. Na altura, empresas, principalmente pequenas empresas e particulares, eram o
alvo principal dos avaliadores. Hoje em dia, paıses em desenvolvimento tem frequentemente
dificuldades na mobilizacao de fundos para aumentar o investimento no seu paıs. Conse-
quentemente e muito importante para estes paıses terem o acesso a fundos internacionais
e investidores. Para que isso seja possıvel, paıses em desenvolvimento necessitam de obter
uma boa nota na sua capacidade de receber credito por parte de uma ou mais agencias de
rating. Este investimento sera acordado com ambas as partes e sera, obviamente, pago com
juros.
Os juros sao outro aspecto muito importante do Credit Rating. Dado que a nota atribuıda se
baseia na opiniao da agencia em relacao a capacidade de a entidade pagar a tempo e horas,
os juros desses emprestimos irao variar. Quanto menor e a nota atribuıda por uma agencia,
maior sera a taxa de juros a pagar. Os investidores veem neste procedimento uma rede de
seguranca aos seus investimentos.
Para calculo da classificacao de cada entidade, as agencias de rating, baseiam-se nao so em
metodos estatısticos mas tambem na sua experiencia e opiniao de peritos economicos e po-
lıticos. Esta experiencia e muitas vezes utilizada para determinar que informacoes (publicas
ou privadas) devem ser tomadas em conta para a classificacao da entidade em questao. E
por esta razao que se nota um ligeiro desfasamento, de agencia para agencia, na classificacao
atribuıda a mesma entidade.
2
1.3 Sovereign Credit Rating
Sovereign vem da palavra Sovereignty que se traduz na qualidade de ter autoridade suprema
sobre uma area geografica, como um territorio. Sendo assim, o Sovereign Credit Rating e um
tipo de Credit Rating, que alem de ter em consideracao o risco economico e tambem avaliado
em relacao ao risco polıtico.
Apesar de a sociedade, em geral, considerar que o Credit Rating e algo prejudicial para
todos os paıses isso nao e totalmente verdadeiro. Como ja mencionado anteriormente, tendo
uma classificacao baixa o paıs em questao tera de pagar mais juros mas tem tambem varias
vantagens. Por exemplo para paıses classificados entre A e AAA, o Credit Rating ajuda-os
a atrair investidores atraves da transparencia, para o desenvolvimento do paıs. Neste caso
tanto ganha o paıs com o desenvolvimento como o investidor nos lucros. Para paıses em
desenvolvimento e igualmente importante que a classificacao destes paıses seja feita atraves
de agencias de rating reconhecidas internacionalmente ja que so assim conseguirao obter
emprestimos.
Para a classificacao de cada paıs e necessario o acesso das agencias a toda a informacao
referente as contas bancarias de cada estado. No entanto, a informacao que e utilizada
por cada agencia e decidida pela mesma, podendo utilizar tanto informacoes publicas como
privadas.
Muitos estudos foram realizados ate a presente data. Um desses estudos foi efectuado por
Cantor and Packer (1996). Entre outros factos, este estudo revelou que para a avaliacao de
um paıs ou empresa e consequente classificacao sao necessarios alguns dos seguintes parame-
tros:
1. Receita Per Capita;
2. Crescimento do PIB;
3. Peso da dıvida externa;
4. Historia de inflacao;
5. Historia padrao de dıvida;
6. Nıvel de desenvolvimento economico;
7. Fluxos capitais;
8. Forca do sistema financeiro.
3
O Sovereign Credit Rating assim como o Credit Rating em geral, encontra-se em constante
atualizacao. Estas atualizacoes geralmente tem efeitos significativos sobre o aumento ou
diminuicao dos juros, a atitude dos investidores ou ate no premio dos seguros. Consequen-
temente, a atribuicao de classificacoes a entidade, tais como paıses, deve ser uma tarefa a
realizar com a maior responsabilidade e exatidao, pois as consequencias podem revelar-se
bastante prejudiciais para os mesmos.
1.4 Agencias de Rating
As agencias de rating sao agencias que avaliam empresas, paıses ou indivıduos e atribui-
lhes uma classificacao mediante o seu grau de solvencia relativa (creditworthiness). Estas,
nasceram da necessidade de informacao mais barata e exata sobre os devedores. O principal
publico seriam os investidores, principalmente particulares.
No passado ano, 2012, contaram-se cerca de 140 agencias de rating. Mas ha tres que sao
consideradas as mais importantes: Standard & Poor’s, Fitch e Moodys. Destas tres agencias
falaremos mais a frente em detalhe, de momento iremos explicar de forma sucinta o processo
de atribuicao de uma classificacao a um paıs.
As agencias, depois de serem chamadas a avaliarem um paıs, enviam oficiais de dıvida sobe-
rana. Este grupo analisa toda a informacao que acha necessaria usando uma combinacao de
factores quantitativos e qualitativos. As medidas quantitativas sao usadas geralmente para
avaliar o desempenho historico do paıs. Sao assim atribuıdos diferentes pesos as diferentes
variaveis. Por exemplo, a polıtica fiscal e um elemento importante em paıses desenvolvidos
enquanto que o balanco das tendencias de pagamentos e o mais importante no caso de paı-
ses em desenvolvimento. Julgamentos qualitativos sao entao feitos para avaliar os dados no
contexto das forcas economicas, polıticas e sociais da entidade soberana.
Posteriormente, os oficiais concretizam um questionario referente a informacao privada ao
nıvel das dıvidas e capacidade de pagamento. Este questionario depende de paıs para paıs
e e elaborado por agentes especializados na situacao atual do referido paıs com o proposito
de obter informacao sensıvel nao publica. Finalmente, o grupo de trabalho prepara um
relatorio, chamado rating report, que e enviado para o comite de classificacao. Com base
neste relatorio e em toda a experiencia do comite e atribuıda uma classificacao ao paıs.
Os honorarios sao pagos pelo paıs que e avaliado. Apesar de nao terem um preco fixo,
as agencias, devido ao seu elevado investimento em termos de tempo e recursos humanos,
cobram elevadas quantias.
As tres mais importantes agencias de rating sao sediadas nos Estados Unidos da America
4
(EUA). Na Europa existem ja algumas mas com menor importancia no mercado.
Em seguida, apresenta-se uma breve descricao das tres agencias mais prestigiadas do mundo.
Moody’s
John Moody comecou por publicar uma revista chamada ”Moody’s Manual”em 1900. Co-
mecou por ser um manual com estatista basica e informacoes sobre Accoes e Tıtulos de
varias industrias, mas em apenas tres anos tornou-se uma publicacao a nıvel nacional. Ja
em 1907 deu-se o ”stock market crash”e a publicacao foi extinta. Dois anos depois, Moody
lancou outra publicacao com o acrescimo de informacao analıtica de seguros. Expandindo
esta ideia, criou a Moody’s Investors Services que providenciou, durante dez anos, ratings
para quase todas as empresas governamentais. Nos anos 70, generalizou a sua analise de
rating a empresas privadas e a bancos assim como seguradoras. Hoje em dia e uma das tres
mais importantes agencias de rating do mundo.
Standard & Poor’s
Henry Varnum Poor foi o fundador da Poor’s Publishing, nesta publicacao eram apresentados
artigos sobre economia nacional, analise de seguros, entre outros. Em 1941, Poor’s Publishing
e Standard Statistics, fundiram-se. A ultima, formada em 1906, publicava ratings das dıvidas
dos municıpios e paıs. Desta uniao resultou a Standart and Poor’s Corporation, que foi mais
tarde adquirida por outra empresa que manteve o nome S&P. Foi no fim dos anos 60 que
surgiu a S&P 500 um ındice de acoes que e uma ferramenta muito apreciada na analise de
investidores, tanto privados como publicos.
Fitch
John Knowles Fitch foi igualmente o fundador de uma companhia de publicacoes, Fitch
Publishing Company em 1913 que publicava estatısticas financeiras. Nove anos mais tarde,
Fitch introduziu a classificacao ainda hoje utilizada de AAA ate D. Com planos para se
tornar uma agencia de rating internacional, fundiu-se com a IBCA, uma empresa com origem
em Franca. Mais tarde adquiriu ainda duas empresas do ramo. Em 2004, iniciou a sua
especializacao em analise de risco, servicos de dados e financiamento da industria.
Descritos os principais conceitos de credit rating que pode ser traduzido por notacao de
risco, serao apresentadas no Capıtulo 2 as principais ferramentas estatısticas que poderao
ser usadas para criar um valor de credit rating.
5
6
Capıtulo 2
Metodologia
2.1 Introducao
A inerente caracterıstica multivariada dos objetos de estudo e o desenvolvimento da tec-
nologia de informacao tornaram a analise de dados multivariada uma importante area de
investigacao. Os problemas estatısticos com apenas uma variavel em areas como a engenha-
ria, saude, financas, entre outros, sao hoje em dia raros. A analise de dados multivariados e
assim uma area cada vez mais importante na Estatıstica, em particular, na analise de dados
economicos de paıses.
Neste capıtulo para alem de uma breve discussao sobre o conceito de ordenacao de dados
multivariados, apresentam-se alguns dos metodos de analise multivariada que podem ser
uteis para o proposito deste trabalho.
2.2 Ordenacao de dados multivariados
Quando se faz uma analise de dados multivariados a ideia base e tentar reduzir um grande
numero de variaveis a poucas dimensoes com o mınimo de perda de informacao, permitindo
a deteccao dos principais padroes de semelhanca e/ou de associacao entre as variaveis.
Como na analise de dados univariados, uma questao importante na analise multivariada e
a ordenacao dos dados. Mas, ao contrario da ordenacao univariada, nao existe uma ordem
natural de dados multivariados, tal como, Kendall (1966), observou: “order properties, . . . ,
exists only in one dimension”. No entanto, varias extensoes de conceitos de ordenacao
univariada tem sido usadas para criar uma metodologia de ordenacao multivariada. Os
conceitos usados com maior frequencia sao: centro (eg. media, mediana) e extremos.
7
Barnett (1976) discute a questao da ordenacao de dados multivariados e apresenta alguns
metodos que categoriza em: ordenacao marginal, condicional, reduzida e parcial. Estes
conceitos serao descritos brevemente em seguida.
Para alem destes procedimentos, tambem podem ser usados metodos de agrupamento e
de classificacao para se obter uma nocao de ordenacao ou sub-ordenacao dos objetos. Neste
contexto, entende-se por objeto qualquer entidade que possua um conjunto de caracterısticas,
quantitativas ou categoricas, susceptıveis de serem medidas ou avaliadas.
Antes de se prosseguir, chama-se a atencao para o facto de que o termo ordenacao em
analise multivariada tambem surge aplicado a ordenacao (importancia) das variaveis (as
caracterısticas dos objetos). Nesse sentido, a ordenacao multivariada e entendida como
qualquer procedimento que conduz a um pequeno numero de variaveis (as mais importantes)
que descrevam as relacoes entre objetos, a partir de medidas tomadas desses objetos.
Por ultimo, e apesar da ordenacao dos dados ser um natural objectivo de um analista, e
importante nao esquecer que a ordenacao esta naturalmente ligada a teoria distribucional
das estatısticas de ordem. Este aspecto nao sera desenvolvido neste trabalho.
2.2.1 Sub-Ordenacoes
Num contexto univariado a nocao de ordem e clara e bem definida. Considerando-se x1, x2,
. . . , xn uma concretizacao de uma amostra aleatoria de dimensao n proveniente de uma
variavel aleatoria X, essa amostra e ordenada por ordem crescente fazendo x(1) ≤ x(2) ≤. . . ≤ x(n), os valores ordenados, x(i), i = 1, 2, . . . , n, podem ser vistos como concretizacoes
de estatısticas ordinais.
Fixe-se alguma notacao antes da descricao dos varios procedimentos. Denote-se por x1,x2,
. . . ,xn uma concretizacao de uma amostra aleatoria de dimensao n proveniente de um vector
aleatorio p-dimensional, X. A cada componente do vector aleatorio X, Xi, estao associa-
das as observacoes xi1, xi2, . . . , xin, i = 1, 2, . . . , p, a qual sera denominada por amostra
marginal, ou amostra da componente Xi.
Como ja mencionado, a ordenacao de dados multivariados e, ate aos dias de hoje, um desafio.
Varios avancos tem sido feitos em prol da ordenacao de dados multivariados mas ate agora
nao existe uma ordenacao aceite universalmente. Barnett (1976) propoe a categorizacao em
quatro principais sub-ordenacoes. Sao elas:
• Ordenacao Marginal (M-ordering) - Nesta ordenacao a amostra x1,x2, . . . ,xn e
ordenada por componente, uma ou mais do que uma, ou seja ordenam-se as amostras
marginais. Esta ordenacao tem interesse quando o objectivo e estudar propriedades
8
das distribuicoes marginais.
• Ordenacao Condicional (C-ordering) - A ordenacao e realizada apenas em ordem
a uma das componentes. Os dados relativos as outras componentes sao simplesmente
listados de acordo com a posicao da componente ja ordenada. Esta ordenacao tem
varias aplicacoes praticas, nomeadamente em areas como a morfologia das cores (e.g.,
estudos sobre luminosidade e saturacao, (Barrera et al., 2002) e (Pitas and Tsakalides,
1991)).
• Ordenacao Reduzida (R-ordering) - Com esta ordenacao cada observacao multi-
variada e reduzida a um unico valor numerico. Este valor e, geralmente, obtido atraves
de uma metrica generalizada dada pela Equacao (2.1).
D = (x−α)TΓ−1(x−α) (2.1)
paraα e Γ escolhidos de forma conveniente; α pode ser a origem, a media ou a mediana.
Γ pode ser a matriz identidade, matriz de dispersao estocastica ou amostral (Σ ou S).
Calculadas as distancias associadas a cada observacao, a ordenacao e feita atraves dos
princıpios basicos da ordenacao univariada.
Um caso particular deste metodo baseia-se na distancia de Mahalanobis. Esta distancia
e baseada na correlacao entre as variaveis e mede a “proximidade” ou o “afastamento”
de uma observacao ao centro, Mahalanobis (1936). Em geral, a media, a mediana ou
o mınimo sao usados como centro para o calculo da distancia. No entanto, o centro
deve ser selecionado com base no problema em questao. A distancia de Mahalanobis
distingue-se da distancia euclidiana ja que tem em conta as correlacoes entre as variaveis
e e invariante a escala.
Formalmente, a distancia de Mahalanobis entre um grupo de valores com centro µ =
(µ1, µ2, µ3, . . . , µp)T e matriz de covariancias Σ para um vector multivariado x =
(x1, x2, x3, . . . , xp)T e definida pela Equacao (2.2).
DM(x) =
√(x− µ)TΣ−1(x− µ), (2.2)
onde x, µ, Σ podem ser constantes ou estocasticos.
A distancia de Mahalanobis pode ser usada apenas como metodo de ordenacao mas
pode tambem ser usada como complemento de outros metodos como por exemplo na
deteccao de outliers ou na analise de agrupamentos.
• Ordenacao Parcial (P-ordering) - A ordenacao parcial e feita atraves de um pro-
cesso cıclico. Primeiro encontra-se o convex hulll inicial (menor conjunto de pontos que
9
formam um conjunto convexo e contem todos os pontos presentes no conjunto de da-
dos inicial). Estes pontos denotados, por exemplo, como Grupo 1, sao posteriormente
eliminados e e encontrado um novo convex hull (Grupo 2). Este processo e repetido
ate todos os pontos estarem associados a um grupo. Teoricamente, esta ordenacao e
uma tecnica atrativa mas nao e computacionalmente viavel para conjuntos de dados
de grandes dimensoes.
2.3 Analise de Agrupamentos
A analise de agrupamentos (ou Cluster Analysis, em ingles) e a designacao que e atribuıda
a colecao de metodos matematicos que tem a finalidade de construir grupos, clusters, de
tal forma que objetos presentes num cluster sao similares entre eles e, tao diferentes quanto
possıvel, dos objetos presentes nos outros clusters. A construcao desses grupos obedece a
um determinado criterio.
A analise de agrupamentos aplica-se em muitas situacoes, pois pode ser usada como tecnica
exploratoria ou como metodo de classificacao nao supervisionado (i.e. sem conhecimento a
priori do grupo a que pertence cada objecto). Este metodo da analise multivariada e usado
frequentemente pois proporciona um entendimento dos dados de forma simples e util Hand
et al. (2001). Medicina, biologia, economia e marketing sao apenas alguns exemplos de areas
que utilizam a analise de agrupamentos.
A ideia base dos metodos de agrupamento e bastante simples mas a construcao desses grupos
requer uma elevada complexidade computacional. Em geral, nao e possıvel construir todos
os grupos de objetos e escolher a melhor representacao. Esta opcao so e possıvel se o numero
de objetos a agrupar for pequeno, por exemplo, se se quiser agrupar 30 objetos em 5 grupos
existem 530 ≈ 1020 possibilidades, o que torna computacionalmente inviavel o calculo de uma
configuracao otima desses objetos.
Inumeros procedimentos heurısticos que permitem obter uma boa solucao num tempo razoa-
vel tem vindo a ser propostos, (Norman, 1972). Central a todos eles e a nocao de proximidade
quer dos objetos, quer dos grupos. Um metodo de agrupamento difere de outro nas diferen-
tes nocoes de grupo, e nas diferentes nocoes de proximidade. Branco (2004) apresenta uma
excelente revisao e discussao sobre os varios metodos de agrupamento.
De uma forma geral, pode-se dizer que existem duas maneiras distintas de fazer a analise de
clusters :
• Particionar os dados de forma conveniente. Geralmente este tipo de analise e reali-
zado quando e conhecida a forma de particionar os dados. Por exemplo, quando uma
10
fabrica pretende produzir camisolas necessita de saber diferentes tamanhos tais como,
comprimento, gola, mangas, etc. Desta forma a empresa pode optimizar a producao
atraves do particionamento conveniente dos dados.
• Divisao dos dados de forma natural em subclasses. Esta e talvez a forma mais utilizada
na analise de clusters pois permite uma aprendizagem sobre a natureza dos dados e/ou
da populacao. Esta divisao desempenha um papel muito importante na forma como e
analisada e descrita a amostra.
2.3.1 Metodos Hierarquicos
Nesta classe de metodos, o agrupamento em classes procede por etapas e pode ser realizado
de duas formas diferentes:
• Divisao - onde o grupo inicial e constituıdo por todas as observacoes presentes na
base de dados. Atraves dos metodos do tipo divisivo o conjunto inicial e dividido
sucessivamente em grupos que sejam significativos.
• Aglomeracao - inicialmente existem tantos grupos como observacoes (cada observacao
origina um grupo). Atraves de um processo cıclico, cada grupo e unido ao grupo mais
proximo de forma a reduzir o numero de grupos.
A escolha entre um metodo divisivo ou aglomerativo depende apenas da preferencia do
utilizador, no entanto, essa escolha tem recaıdo, na maioria das vezes, sobre os algoritmos
aglomerativos. O facto de, geralmente, os algoritmos do tipo divisivo serem muito mais
exigente do ponto de vista computacional faz com que os mesmos sejam menos atrativos.
Seguidamente, apresentamos um algoritmo geral para os metodos aglomerativos.
Procedimento aglomerativo
1. Os n objetos iniciais formam n grupos singulares. Neste caso a dissemelhanca entre os
grupos coincide com a matriz de dissemelhancas entre objetos, D = [dij] onde dij e a
dissemelhanca entre os objetos i e j.
2. E identificado o elemento mais pequeno na matriz D, ou seja, identificam-se os dois
grupos mais semelhantes.
3. Os grupos anteriores sao unidos e sao eliminadas as colunas e linhas correspondentes
ao dois grupos unidos da matriz D. E seguidamente criada uma linha e uma coluna
referentes as dissemelhancas entre os restantes grupos e o novo grupo.
11
4. Repetem-se os passos 2. e 3. num total de n-1 vezes ate se obter um unico grupo.
A proximidade de grupos e definida com base na medida de distancia entre grupos. Esta
medida e definida atraves de um mapeamento das dissemelhancas entre objetos de cada
grupo. Para que seja possıvel calcular a dissemelhanca entre o grupo A (com nA elementos)
e o grupo B (com nB elementos) existem varios metodos, os mais populares podem ser
encontrado em Branco (2004). Explicitaremos em seguida alguns procedimentos de calculo de
dissemelhancas entre grupos, cada um deles conduz aos metodos hierarquicos aglomerativos
mais comuns.
• Metodo da ligacao simples (Single Linkage) - A distancia entre dois grupos e
definida como a distancia entre os dois objetos mais proximos que se encontram em
dois grupos diferentes, Equacao (2.3).
dAB = mini∈A,j∈B
dij (2.3)
Este metodo tem a vantagem de ser sensıvel a pequenas perturbacoes nos dados o que
traduz uma maior capacidade na deteccao de outliers.
• Metodo da ligacao completa (Complete Linkage ) - Este metodo define a distan-
cia entre grupos como sendo a distancia maxima entre dois objetos de grupos distintos,
dAB = maxi∈A,j∈B
dij. (2.4)
Este metodo produz, geralmente, grupos de tamanho razoavelmente equilibrado por-
tanto e vantajoso quando, em vez de clusters naturais se procuram grupos convenientes.
• Metodo da ligacao media (Average Measure)- A distancia entre dois grupos e
definida pela media de distancias entre todos os pares de pontos possıveis, sendo o par
constituıdo por um elemento da grupo A e outro do grupo B,
dAB =
∑nA
i=1
∑nB
j=1 dij
nAnB. (2.5)
O metodo e considerado adequado para isolar grupos de forma arredondada, elipsoidal
ou esferica uma vez que e relativamente robusto.
• Centroide (Centroid Measure)- A expressao (2.6) define a distancia entre dois
grupos como sendo a distancia entre os seus centroides.
dAB = d(xA, xB), (2.6)
12
onde xA e xB (Equacoes 2.7) sao os centroides dos grupos A e B, respectivamente.
xA =
∑i∈A xi
nA; xB =
∑i∈B xi
nB(2.7)
e xi e o vector das p observacoes do objecto i. A maior desvantagem deste metodo e
a possibilidade de aumento ou diminuicao da distancia de fusao de dois grupos, o que
torna a interpretacao difıcil.
• Metodo de Ward (Ward Method)- Este e o metodos onde a distancia entre grupos
se pode considerar mais ”completa”. Aqui o criterio de uniao de dois grupos baseia-se
na soma dos quadrados que ocorre quando os clusters A e B sao unidos (C = A ∪ B)
e e dado por,
dAB = SSWC − (SSWA + SSWB), (2.8)
onde:
SSWA =
nA∑i=1
p∑j=1
(xijA − xiA)2 SSWB =
nB∑i=1
p∑j=1
(xijB − xiB)2 (2.9)
SSWC =
nA+nB∑i=1
p∑j=1
(xijC − xjC)2
sao a soma dos quadrados dentro do grupo A, B e C, respectivamente, e xijK refere-se
a observacao do i-esimo elemento no grupo K na j-esima variavel.
Em cada passo do algoritmo sao formados todos os pares possıveis de clusters e calcu-
lado o incremento da soma dos quadrados resultante. Sao selecionados, para formar um
novo cluster, aqueles a que corresponde o melhor incremento, ou seja, os que perdem
menor informacao com a aglomeracao.
A representacao da estrutura hierarquica proveniente destes procedimentos, tanto aglome-
rativos como divisivos, e geralmente expressa por um grafico a duas dimensoes de nome
dendrograma.
O dendrograma e representado com a raiz no topo e os ramos no fundo, no caso de o
dendrograma ser representado na vertical. No caso em que o dendrograma e representado
na horizontal a raiz encontra-se no lado esquerdo e os ramos no direito. Os nos internos
representam ainda os clusters e a altura dos troncos (eixo vertical) indica a distancia a que
os mesmos se ligam.
A grande virtude do dendrograma e mostrar como os sucessivos clusters se vao formando ao
longo do processo hierarquico.
13
2.3.2 Metodos de Particao
Os metodos de particao sao procedimentos nao-hierarquicos, aplicam-se a objetos e operam
sobre uma matriz de dados, ao contrario do que acontece com os metodos hierarquicos que se
baseiam na matriz de dissemelhancas. Outra diferenca significativa e o facto de, nos metodos
de particao ser necessario que o numero de grupos, k, seja fixo a partida. Fixando-se o numero
de grupos que se pretende constituir agrupam-se os n objetos nesses k grupos e atraves de
transferencias de objetos de um grupo para outro procura-se uma boa configuracao, no
sentido de tornar os grupos homogeneos internamente e externamente heterogeneos.
De seguida apresenta-se o metodo de particao mais conhecido: o algoritmo das k-medias.
k-Medias
Este metodo caracteriza-se pela sua simplicidade e eficiencia. Para que melhor possamos
entender, seguidamente apresentamos o algoritmo.
Algoritmo K-Means:
1. Escolhe-se o numero de grupos pretendido, k ;
2. De forma aleatoria, sao escolhidos k objetos como centro de cada um dos grupos;
3. Todos os objetos sao atribuıdos ao grupo com o centro mais proximo;
4. O centroide de cada grupo e calculado fazendo a media de todos os objetos atribuıdos
a cada grupo;
5. Os centroides calculados no passo 4. sao considerados o novo centro do seu respectivo
grupo;
6. Repetem-se os passos de 2. a 5. ate que os objetos sejam atribuıdos aos mesmos
grupos consecutivamente.
Este metodo, como se pode constatar, e simples e eficaz. No entanto devem ser ressalvados
alguns aspectos importantes. No caso do passo 3., a distancia entre os objetos e centro do
grupo e, geralmente, calculada atraves da distancia Euclidiana.
Outro aspecto importante prende-se com a escolha inicial do centro de cada grupo. A
partir de pequenas mudancas na escolha inicial aleatoria dos centros, podem ser obtidos
resultados significativamente diferentes. Esta particularidade esta associada a muitas das
tecnicas de agrupamento conhecidas. Assim, para aumentar a probabilidade de encontrar
14
um mınimo global, o algoritmo deve ser executado diversas vezes com diferentes escolhas
iniciais. Finalmente deve ser escolhido o melhor resultado, sendo este o que possui menor
distancia quadratica total.
Como se descreve no algoritmo, o mesmo deve ser repetido ate que estabilize, i.e. quando
nao seja possıvel efetuar mais transferencias de objetos. Assim, quando as novas iteracoes
nao alteram o resultado final, este para e cada objecto e atribuıdo ao grupo com o centro
mais proximo. O objectivo final deste metodo e diminuir o quadrado da distancia total de
todos os objetos aos seus grupos.
2.4 Analise de Componentes Principais
Analise de Componentes principais (ou Principal Component Analysis, PCA, em ingles) e
considerado um dos resultados mais valiosos da aplicacao de algebra linear. PCA e aplicada
frequentemente em todas as areas da ciencia - da neurociencia a computacao grafica - porque
e um metodo simples e nao-parametrico de extracao da informacao relevante a partir de
conjuntos de dados complexos.
A Analise de Componentes Principais fornece uma reducao de um conjunto de dados para
uma dimensao inferior, revelando a dinamica simplificada dos mesmos que esta muitas vezes
escondida. Por norma, esta reducao origina uma representacao dos dados originais atraves da
compressao, reducao e transformacao dos dados originais. Esta tecnica combina a essencia
das variaveis atraves da criacao de um conjunto menor de novas variaveis, possıvel apenas
com a criacao de um sistema de coordenadas especial, Johnson and Wichern (2007).
Algebricamente as componentes principais sao combinacoes lineares particulares das variaveis
originais X1, X2, . . . , Xp. Geometricamente, estas combinacoes lineares representam um novo
eixo de coordenadas obtido pela rotacao do sistema original. Os novos eixos representam
direcoes de variabilidade maxima e proporcionam uma descricao simples e parcimonia da
estrutura de covariancias das variaveis originais.
Seja X = (X1, X2, . . . , Xp)T um vector aleatorio com matriz de covariancias Var(X) = Σ.
Admita-se que os valores proprios de Σ sao λ1 ≥ λ2 ≥ . . . ≥ λp ≤ 0 e os respectivos vectores
proprios associados γ1, γ2, . . . , γp. As componentes principais sao assim dadas pela Equacao
15
2.10.
Y =
Y1
Y2
. . .
Yp
=
γT1 X
γT2 X
. . .
γTp X
=
γT1γT2. . .
γTp
X =[γ1 . . . γp
]TX (2.10)
O novo sistema de eixos ,Y, e constituıdo por p vectores ortogonais. De acrescentar que a
variancia da i -esima componente principal corresponde ao i -esimo valor proprio da matriz Σ
e as componentes principais nao sao correlacionadas entre si, como podemos verificar atraves
das Equacoes (2.11) e (2.12)
Var(Yi) = Var(γTi X)
= γTi Var(X)γi
= γTi [Σγi] i = 1, . . . , k
= γTi λiγi
= λi[γTi γi
]= λi.
(2.11)
Cov(Yi, Yj) = Cov(γTi X,γTj X)
= γTi Cov(X,X)γj
= γTi[Σ γj
]∀i 6= j,
= γTi[λj γj
]= λjγ
Ti γj
= 0.
(2.12)
pois,
γTi γj =
1 se i = j
0 se i 6= j.
A proporcao de variancia explicada pela i -esima componente e dada pela equacao (2.13).
λi∑pj=1 λj
=V ar(Yi)
variabilidade total de Xi = 1, . . . , p (2.13)
Se em vez da populacao se pretender efetuar analise em componentes principais sobre uma
amostra o procedimento e analogo, substituindo a matriz de covariancias populacional pela
amostral. Geralmente, uma grande parte da variabilidade dos dados pode ser explicada
16
atraves de k componentes principais (k < p). Uma regra pratica para a escolha das k
componentes a reter e dada por:
Encontrar k : 0.8 ≤∑k
i=1 λi∑pj=1 λj
≤ 0.9.
Assim, os vectores selecionados para constituir o novo sistema de coordenadas sao as compo-
nentes principais que explicam entre 80 a 90% da variancia total dos dados originais. Estas
percentagem garantem que nao e perdida muita informacao referente aos dados originais, ao
mesmo tempo que diminui o numero de variaveis a estudar.
A analise das componentes principais e, em geral, um meio para um fim mais do que um
fim em si mesmo. Frequentemente as componentes principais sao utilizadas como input para
outros metodos tais como, analise de agrupamentos, regressao ou arvores de regressao. Mas
podem ainda ser usadas como uma tecnica de ordenacao de dados multivariados, ja que ao
usar apenas a primeira componente, a ordenacao dos dados resume-se a ordenar um conjunto
de “dados” univariados.
2.5 Metodos de Classificacao
Classificacao e o problema de identificar qual a categoria (sub-populacao), de entre um
conjunto de categorias ou grupos pre-definidos, a que um objecto pertence.
Os objetos, ou entidades, sao vectores representados por pontos num espaco multidimensio-
nal. O principal objectivo da classificacao e definir regioes nesse espaco de forma a que novos
pontos (e consequentemente as entidades correspondentes) possam ser classificados conforme
a regiao a que pertencem, o que e equivalente a dizer que permite construir uma regra es-
tatıstica (ou nao) de decisao que conduz, baseando-se nos dados observados, a identificacao
da populacao (ou grupo) a que pertence uma entidade com determinadas caracterısticas.
Formalmente, tem-se, com respeito ao universo ou populacao de interesse, C grupos/classes
bem definidos, Y1, Y2, · · · , YC , C ≥ 2. Estes grupos sao conhecidos a priori e constituem uma
particao do universo. Cada entidade/objecto do universo e caracterizada por um ponto, x =
(x1, . . . , xp), que e uma concretizacao de um vector de p variaveis aleatorias (X1, . . . , Xp)T ∈
IRp previamente definidas.
Um metodo de classificacao e o processo de determinacao de uma regra de decisao, δ, apli-
cacao de IRp em {1, 2, · · · , C}, que permita classificar as entidades e satisfaca determinado
criterio de optimalidade. Uma regra de decisao, δ, conduz a uma particao em l regioes
Rδ(1), Rδ(2), · · · , Rδ(C), tal que Rδ(i) = {x ∈ IRp : δ(x) = i}, onde δ(x) = i significa que as
entidades associadas ao vector x sao afetas ao grupo Yi.
17
O problema da classificacao coloca-se, como e obvio, quando o numero de populacoes e
superior ou igual a dois, ja que o caso igual a um pode ser encarado como uma analise de
observacoes discordantes e nao de classificacao.
Existem varios metodos de classificacao, de seguida serao descritos os utilizados neste tra-
balho.
2.5.1 k-Vizinhos mais proximos - k-NN
Este metodo e largamente usado nas mais diversas areas do conhecimento, desde a classifi-
cacao de galaxias a atribuicao de credito bancario, pois e baseado numa aprendizagem por
analogia, ou seja, parte do princıpio que se dois objetos, pertencentes ao mesmo conjunto de
dados, sao proximos entao tem caracterısticas similares.
A ideia do metodo dos k-vizinhos mais proximos (k-Nearest Neighbor, kNN, em ingles) pode
ser ilustrada pelo seguinte dito, o teste do pato. Este teste e um termo humorıstico sobre
como funciona o raciocınio indutivo. Pode ser explicado desta forma: “Se ele se parece com
um pato, nada como um pato e grasna como um pato, entao provavelmente e um pato.”
Informalmente a ideia para classificar um novo objecto e:
• encontrar os seus vizinhos mais proximos;
• responder a questao: “ A que grupo (ou classe) pertencem?”
• finalmente, classifica-lo na classe mais frequente dos seus vizinhos.
Considere-se o cenario usual, os dados de treino denotados por D = {(xi, yi)}, xi ∈ IRp,
dados de teste, valores x0 ∈ IRp e o objectivo: dado um novo x0 prever o grupo, y0.
Formalmente, tem-se o seguinte procedimento.
Algoritmo k-NN:
1. Seja k o numero de vizinhos mais proximos selecionado.
2. Para cada objecto do conjunto de teste, x0:
2.1. Computar a distancia d(x0,xi) onde (xti, yi) ∈ D ;
2.2. Selecionar Dx0 ⊆ D, o conjunto dos k objectos de treino mais proximos de
x0;
18
3. y0 = argmaxk
∑(xt
0,yi)∈Dx0I(yi, ck) onde:
I(yi, ck) =
{1 se yi = ck
0 c.c.∑(xt
0,yi)∈Dx0I(yi, ck) = ηk conta o numero de objectos em Dx0 com classe ck.
De forma sucinta, e escolhido um pequeno volume do espaco de variaveis, centrado em
x0, onde o raio e a distancia do k -esimo vizinho mais proximo. O estimador de maxima
verosimilhanca da probabilidade de um ponto no pequeno volume pertencer a cada classe e
dado pela proporcao dos pontos do conjunto de treino neste volume que pertencem a cada
classe. Localizados os k vizinhos mais proximos e respectivas classes, o metodo K-NN atribui
a nova observacao a classe com a maior probabilidade estimada, (Han and Kamber, 2006).
A proximidade dos objetos do conjunto de treino a um objecto e definida em termos de
uma metrica, que depende do tipo de variaveis. Em geral e usada a distancia Euclidiana.
Uma desvantagem desta distancia e o facto de nao atribuir nenhuma importancia relativa
as variaveis, ou seja, e dado o mesmo peso a cada uma das variaveis em questao. Outra
desvantagem e o facto desta metrica so poder ser aplicada no caso em que todas as variaveis
sao numericas. E, no entanto, possıvel utilizar outras metricas que atribuam diversos pesos
as variaveis assim como tenham em consideracao variaveis categoricas.
Tipicamente, o valor de cada variavel e normalizado antes do calculo da distancia. Este
procedimento ajuda a prevenir que as variaveis com uma maior variabilidade nao sejam
consideradas mais importante que as variaveis com menor variabilidade.
Alem da metrica a utilizar e necessario definir o numero de vizinhos mais proximos, k.
Durante a escolha do k deparamo-nos com duas opcoes:
1. No caso de escolhermos um k pequeno existe a possibilidade de se encontrar muito
“ruıdo” na vizinhanca do objeto a classificar. Neste caso o objeto e classificado de
forma incorreta e concluımos que um k maior resolveria esta situacao
2. Ao escolher um k grande, existe a possibilidade de serem incluıdos objetos perten-
centes ao conjunto de treino que nao estao muito perto e que nao interessam para a
classificacao do objeto em questao. Neste caso um k menor resolveria o problema.
O objectivo e entao encontrar o k optimo, por um lado, que nao seja pequeno de mais, pois
e sensıvel aos dados e tem variabilidade elevada, por outro lado, nao seja grande demais pois
aumenta o enviesamento. Existem varias opcoes mas como o k depende do problema em
questao e usual a elaboracao de um grafico onde estao representados varios k e a probabili-
dade de ma classificacao dos mesmos.
19
O poder do metodo k-NN tem sido demonstrado ao longo dos anos num sem numero de
domınios, no entanto, existem algumas desvantagens. E um metodo influenciado pela estru-
tura local, ja que nao se baseia num modelo mas apenas nos dados de treino. Por nao tentar
“aprender” um modelo, este tipo de metodos sao designados por “metodos preguicosos” (laizy
methods). E computacionalmente intensivo, pois necessita de calcular as distancias de todas
as vezes que o programa e executado. No caso em que o numero de variaveis e grande (e o
numero de objetos no conjunto de dados nao e elevado) o metodo tem um baixo desempenho.
Para alem disso possui a denominada maldicao da dimensionalidade, i.e. quando se analisam
dados em dimensoes elevadas o vizinho mais “proximo” pode estar muito longe, para alem
disso, o conceito de “mais proximo” torna-se sem sentido.
Uma das maiores vantagens do k-NN e a facilidade de o programar. Como se pode constatar
atraves do algoritmo acima definido, este metodo e de facil percepcao e implementacao. Para
alem disso, possui facil manuseamento de valores omissos (calculam-se apenas as distancias
entre o novo ponto e as variaveis para as quais existem observacoes). Em alguns casos, a pre-
cisao na classificacao e muito boa, principalmente quando o numero de classes e pequeno. Ao
contrario de alguns modelos, a generalizacao deste modelo para multiplas classes e bastante
direta.
Um conjunto de novos metodos tem vindo a ser desenvolvidos para acelerar a procura e di-
minuir a quantidade de memoria necessaria. Condensed Nearest Neighbor e Reduced-Nearest
Neighbor Edited Nearest Neighbor sao alguns exemplos dos novos metodos, (Hart, 1968) e
(Gates, 1972).
2.5.2 Analise de Regressao Logıstica
O modelo de regressao logıstica surge pelo desejo de modelar as probabilidades a posterior
dos C grupos, ou classes, usando funcoes lineares em x, e em simultaneo assegurando que a
sua soma seja um e se mantenham no intervalo [0, 1]. A regressao logıstica preserva a forma
linear dos limites das regioes de classificacao.
A regressao logıstica tem como objectivo produzir, a partir de um conjunto de observacoes,
um modelo que permita a predicao de valores tomados por uma variavel categorica, frequen-
temente binaria, a partir de uma serie de variaveis explicativas contınuas e/ou binarias.
Em comparacao com outros metodos de regressao, em especial a regressao linear, a regressao
logıstica distingue-se essencialmente pelo facto de a variavel resposta ser categorica. Quando
essa variavel assume apenas dois valores o modelo de regressao logıstica com p variaveis
explicativas denomina-se por binario e e definido da seguinte forma:
YT = XTβ (2.14)
20
e no caso particular do objecto i temos:
YTi = XT
i β (2.15)
onde:
β =
β0
β1...
βp−1
X =
1
X1
...
Xp−1
Xi =
1
Xi1
...
Xip−1
O valor esperado para cada i e dado por
E[ Yi ] = 1 (πi) + 0 (1− πi) = πi, (2.16)
ja que P(Yi = 1) = πi e P(Yi = 0) = 1− πi.
Podemos entao definir o modelo de regressao logıstica multipla da seguinte forma:
E[Yi ] = πi =exp(XT
i β)
1 + exp(XTi β)
,
onde
Yi v.a. independentes com distribuicao Bernoulli e valor esperado E[Yi ] = πi.
O metodo da maxima verosimilhanca e usado para estimar os parametros do modelo, sendo
necessario recorrer a metodos numericos.
Neste trabalho procuramos modelos que possam classificar um problema com varias classes
categoricas. Estes modelos tem por nome: modelos de regressao logıstica politomica. As
duas seccoes seguintes irao analisar dois modelos diferentes que classificam problemas com
mais que duas classes.
Logıstica com Resposta Nominal
Em termos teoricos, vamos assumir que existem C possıveis categorias na variavel res-
posta. Assumimos ainda que para o i -esimo objecto vao existir C variaveis binarias resposta,
Yi1, . . . ,YiC , onde:
Yij =
1 se a classe do objecto i e j ;
0 caso contrario ;e P(Yi = j) = πij
21
Como cada objecto i pode ter pertence apenas a uma classe temos:∑C
j=1 Yij = 1.
Dado que temos C categorias, iremos ter C(C − 1)/2 pares de categorias, logo, C(C − 1)/2
preditores lineares. Felizmente, nao sera necessario desenvolver todos os C(C−1)/2 modelos
de regressao logıstica, ja que e possıvel tomar uma categoria como referencia e comparar-la
com todas as outras.
Teremos entao C − 1 em vez dos C(C − 1)/2, o que diminui significativamente o numero
de calculos. A classe que geralmente e escolhida como referencia e a ultima, neste caso M.
Assim, passamos a definir o logit da j -esima classe como:
π∗ij = ln
[πijπiM
]= XT
i βj j = 1, 2, . . . , C − 1
Esta definicao de logit apenas e possıvel pois a partir dos M − 1 logits conseguimos obter
todos os outros logits. No caso de querermos comparar a categoria k com a categoria g,
podemos obter o respectivo logit de seguinte forma:
ln
[πikπig
]= ln
[πikπiC× πiCπig
]= ln
[πikπiC
]− ln
[πiCπig
]= XT
i βk −XTi βg
Dadas as C − 1 expressoes de logit definimos de forma geral a probabilidade de um objecto
i pertencer a classe j :
πij =exp(XT
i βj)
1 +∑C−1
k=1 exp(XTi βk)
j = 1, 2, . . . , C − 1
Logıstica com Resposta Ordinal
Na seccao anterior consideramos uma regressao logıstica com resposta nominal, nesta seccao
iremos considerar variaveis resposta ordinais, ou seja, categorias ordenadas. Na pratica, e
frequente a variavel resposta tomar valores categoricos ordenaveis. Por exemplo, em estudos
de opiniao, usando escalas de Likert (avaliando o grau de concordancia ou discordancia),
a severidade de doencas, ou a qualidade de um produto. Neste trabalho, as categorias
atribuıdas aos paıses pelas agencias de rating (escala de AAA e D), e claramente ordinal.
Para que seja possıvel incorporar a relacao de ordem entre as categorias da variavel resposta,
a probabilidade que anteriormente foi definida como P(Yi = j) = πij (i.e. a probabilidade de
ocorrencia da categoria j) podera ser modelada em termos de probabilidades cumulativas.
22
Considere-se o conjunto de categorias/classes {1, 2, . . . , C} representadas de forma crescente.
Definimos entao as probabilidades associadas a cada classe:
P(Yi ≤ 1) = πi1
P(Yi ≤ 2) = πi1 + πi2...
P(Yi ≤ C − 1) = πi1 + πi2 + . . .+ πiC−1
Apos alguns calculos algebricos (que podem ser encontrados em Kutner et al. (2005))obtemos
as seguintes funcoes de distribuicao cumulativas:
P(Yi ≤ 1) =exp(α1 + XT
i β)
1 + exp(α1 + XTi β)
P(Yi ≤ 2) =exp(α2 + XT
i β)
1 + exp(α2 + XTi β)
...
P(Yi ≤ C − 1) =exp(αC−1 + XT
i β)
1 + exp(αC−1 + XTi β)
onde {α1, α2, . . . , αM−1} representam os parametros de localizacao para as c = 1, 2, . . . , C−1
categorias da variavel resposta (equivalente a ordenada na origem na regressao linear).
2.5.3 Arvores de decisao
As arvores de decisao como o nome sugere sao modelos representado em forma de arvore. O
espaco das variaveis de explicativas, Xi, e particionado de forma a criar um modelo (arvore)
que consiga classificar uma nova observacao, Liaw and Wiener (2002). De forma a prever
o grupo ou classe do novo objecto, e necessario comecar no cimo da arvore (raiz) e descer
escolhendo os nos seguinte de acordo com o modelo ja elaborado ate chegar a uma das classes
(folha). Seguidamente apresenta-se um algoritmo geral para a construcao de um modelo de
arvore de decisao.
Algoritmo generalizado arvores de decisao:
1. Criar um no, v ;
2. Se todos os elementos do conjunto de dados (de treino) pertencerem a classe c, entao
o no v e uma folha que identifica a classe c; Caso contrario:
(a) Encontrar a variavel com maior valor associado ao criterio de separacao;
23
(b) Criar no contendo essa variavel;
(c) Repetir passos anteriores para todas as variaveis;
(d) Se necessario, podar a arvore de decisao gerada.
O algoritmo descrito anteriormente e basico mas essencial para que se entenda como e cons-
truıda uma arvore de decisao. Como se verifica, no passo 2.(b) deve ser calculado o valor
associado ao criterio de separacao de cada variavel. Existem varios criterios de separacao,
nomeadamente o Ganho de Informacao, Taxa de Ganho e ainda o Indice de Gini.
O ultimo passo do algoritmo e, em geral, efectuada um procedimento que se denomina por
poda. A poda e igualmente um processo associado as arvores de decisao. Como o nome
indica alguns dos nos serao eliminados pois parecem refletir anomalias, outliers, ou resultam
de overfitting. A Poda do Erro Baseado, Poda Optimal e Poda do Erro Complexo sao
algumas das tecnicas de poda mais conhecidas. Apos a aplicacao da poda e esperada uma
arvore menor e menos complexa. As arvores podadas sao geralmente mais rapidas e melhores
a classificar objetos do conjunto de teste.
De modo geral os varios modelos de arvores de decisao contem propriedades muito atrativas
na classificacao de objetos, ja que sao faceis de entender e explicar e conseguem trabalhar
com variaveis de varios tipos. Para alem disso, o tempo que demora a classificar um novo
objecto, comparado com outros metodos, e menor.
C4.5
O algoritmo C4.5 foi criado por Ross Quinlan. Este modelo pretendia ser uma atualizacao de
um outro algoritmo, o ID3 (Iterative Dichotomiser 3) que durante muitos anos foi o algoritmo
mais utilizado para a construcao de arvores de decisao e criado tambem por Quinlan (1986).
Como foi referido, a grande diferenca entre os varios algoritmos de construcao de arvores de
decisao, baseia-se na escolha do criterio de separacao e no algoritmo de poda.
Criterio de Separacao
No caso do algortimo C4.5 o criterio de separacao utilizado e a taxa de ganho, que e definida
pela equacao (2.17).
Taxa de ganho (A) =Ganho(A)
SplitInfoA(D)
=Info(D)− InfoA(D)
SplitInfoA(D),
(2.17)
onde
Info(D) = −m∑i=1
pi log2(pi) (2.18)
24
InfoA(D) = −v∑j=1
|Dj||D|× Info(Dj) (2.19)
SplitInfoA(D) = −v∑j=1
|Dj||D|× log2
(|Dj||D|
)(2.20)
e,
D - Conjuntos de dados iniciais, D = {D1, D2, . . . , Dv}, com Dj - j -particao do conjunto D
quando o mesmo e dividido atraves de uma particao da variavel X;
pi - Probabilidade de um qualquer objecto do conjunto D pertencer a classe ci;
|D|, |Dj| - Numero de elementos dos conjuntos D e Dj, respectivamente.
A taxa de ganho e uma atualizacao do criterio de separacao Ganho de Informacao, pois
normaliza os scores refletindo uma melhoria de precisao da arvore gerada, como foi provado
por Quinlan.
Poda
No algoritmo C4.5 esta implementada a poda do erro baseado. Esta poda caracteriza-se por
ser pos-poda da arvore de decisao, ou seja, realiza a sua busca por outliers e anomalias de
baixo para cima, transformando em nos as folhas que nao representam um ganho significativo.
A poda do erro baseado e dada pela expressao 2.21.
Err(T, S) = ε(T, S) + φ−1α ×
√ε(T, S)× (1− ε(T, S))
|S|, (2.21)
onde:
ε(T, S) - taxa de erro da arvore T em relacao ao conjunto S;
φ−1 - distribuicao inversa da normal padrao;
α - nıvel de significancia.
Floresta Aleatoria
Ao contrario das arvores classicas que vimos ate agora, o metodo de Floresta Aleatoria
(Random Forest (RF), em ingles), nao e definido atraves do seu criterio de separacao, nem
procedimento de poda. O RF e um metodo diferente dos metodos de construcao de arvores
de decisao, sendo um eficiente e um bom classificador, (Rokach and Maimon, 2008).
De forma simplificado, o RF cria uma serie de arvores simples, cada uma com a capacidade de
produzir uma classificacao. Apos a criacao destas arvores, um objecto (x0) sera classificado
25
por todas as arvores simples e a classificacao final sera dada pela classificado com maior
frequencia.
Algoritmo
1. Supondo que o numero de objetos do conjunto de treino e n, serao escolhidos aleato-
riamente n objetos com reposicao, a partir dos dados originais. Esta amostra sera o
conjunto de treino para o crescimento da arvore;
2. Se existem p variaveis, e definido um numero m� p tal que em cada no sao seleciona-
das m variaveis aleatoriamente. A melhor separacao nessas m variaveis e usada para
separar o no;
3. Cada uma das arvores e formada ate a sua maior extensao possıvel sem que haja poda.
Existem varias diferencas entre as arvores classicas e o RF. No caso das arvores classicas,
cada no e separado usando o melhor valor encontrado atraves do metodo de separacao, ao
passo que no RF, cada no e separado usando o melhor preditor de entre um subconjunto
aleatorio de variaveis escolhido em cada no. Apesar de parecer contra-intuitiva, esta estra-
tegia tem provado ser muito mais eficiente que a usada nas arvores classicas. Ao contrario
do caso classico onde a poda e um processo essencial, no RF nao e realizada a poda pois a
sobrestimacao nao e um acontecimento habitual.
2.5.4 Analise Discriminante
A Analise Discriminante e uma tecnica multivariada que tem por intuito determinar funcoes
das p variaveis que melhor distinguem ou discriminem os grupos ou classes a que os objetos
pertencem.
A analise discriminante baseia-se na funcao de distribuicao de probabilidade dos objectos
pertencentes a cada classe. Geralmente, a funcao de distribuicao Normal e a utilizada devido
as suas propriedades. No caso dos dados nao serem normalmente distribuıdos estes podem
ser aproximados a distribuicao Normal atraves de transformacoes. Outra opcao, que e valida
no contexto descritivo, e usar a discriminante linear de Fisher.
Classificacao com populacoes normais
Supondo que as populacoes seguem uma distribuicao normal definimos fi(x) como a fun-
cao de densidade associada a classe πi e pi sendo a probabilidade de um objecto ser bem
26
classificado como πi, i = 1, . . . , C. Temos entao:
fi(x) =1
(2π)p2 |Σ| 12
exp
[−1
2(x− µi)TΣ−1(x− µi)
](2.22)
P(k|i) =
∫Rk
fi(x) dx (2.23)
P(i|i) = 1 −g∑
k=1; k 6=i
P(k|i) (2.24)
onde P(k|i) e a probabilidade de classificar um objecto como πk sabendo que pertence a
classe πi e Rk representa o conjunto de objetos classificados como πk.
Quando as populacoes seguem distribuicao Normal e se as matrizes de covariancias das
varias classes (grupos) forem iguais, entao as regioes de classificacao otimas sao lineares,
denominando-se assim por discriminante linear. Caso as matrizes de covariancias dos varios
grupos sejam distintas a superfıcie de separacao otima e quadratica, denominado-se por
discriminante quadratica.
Seguidamente iremos usar a Probabilidade Total de Ma Classificacao (TPM) para criar uma
regra de classificacao.
TPM = P(classificar mal um objecto)
= P(classificar mal objecto pertencente a π1)+
+ . . .+ P(classificar mal objecto pertencente a πg)
= p1
∫R2∪...∪Rg
f1(x)dx + . . .+ pg
∫R1∪...∪Rg−1
fg(x)dx
(2.25)
A regra criada ira minimizar a probabilidade de ma classificacao e e dada por:
Atribuir x a πk se:
dQk (x) = arg max{dQ1 (x), dQ2 (x), . . . , dQg (x)
}onde
dQi (x) = −1
2ln |Σi| −
1
2(x− µi)TΣi
−1(x− µi) + ln pi i = 1, 2, . . . , g
Na pratica, os parametros µi e Σi sao desconhecidos e terao de ser estimados. A regra de
classificacao estimada obtida usando a probabilidade total de ma classificacao e entao dada
por:
27
Atribuir x a πk se:
dQk (x) = arg max{dQ1 (x), dQ2 (x), . . . , dQg (x)
}onde,
dQi (x) = −1
2ln |Si| −
1
2(x− xi)
TS−1i (x− xi) + ln pi i = 1, 2, . . . , g,
e
xi =1
ni
ni∑j=1
xij
Si =1
ni − 1
ni∑j=1
(xij − xi)(xij − xi)′
28
Capıtulo 3
Analise Preliminar dos dados
Os dados utilizados neste trabalho sao provenientes do Fundo Monetario Internacional (FMI)
disponıveis online em (<http://www.imf.org/), instituicao que conduz e publica duas vezes
por ano o World Economic Outlook (WEO). O WEO e um relatorio que contem a analise
e a projecao da maioria dos sistemas economicos a nıvel mundial. Este relatorio e muitas
vezes utilizado nas reunioes entre o FMI e o Comite Financeiro.
O relatorio preparado pelos analistas do FMI, tem por base uma complexa base de dados
com mais de 180 paıses e remonta ao ano 1980. Estes dados sao baseados em registos oficiais
fornecidos pelos institutos de estatıstica de cada paıs. A base de dados e atualizada sempre
que surgem dados historicos relevantes, sendo assim possıvel aceder a uma base de dados
rigorosa e em constante aperfeicoamento. Sao ainda realizadas, a cada seis meses, previsoes
dos quatro anos seguintes com base nos dados passados.
Os dados utilizados neste trabalho sao referentes a Setembro de 2011. Apesar de a base de
dados original ser constituıda por 46 variaveis, foram escolhidas, apos um estudo exaustivo,
11 variaveis que pretendem refletir a situacao economica de cada um dos 115 paıses aqui
estudados.
As classificacoes de cada paıs foram obtidas atraves de agencia de rating, Standard & Poor’s.
Estes dados foram obtidos atraves do site (<http://docs.google.com/spreadsheet/ccc?
key=0AonYZs4MzlZbdDdpVmxmVXpmUTJCcm0yYTV2UWpHOVE&hl=en#gid=2) onde podemos en-
contrar as classificacoes de todos os paıses classificados pelas tres maiores agencia de rating
do mundo. Existem vinte e duas classificacoes possıveis como podemos verificar na Tabela
3.1.
29
Tabela 3.1: Descricao de classificacoes atribuıdas pelas principais agencias de rating.
Definicao Classificacao
Excelente AAA
Bom AA+, AA, AA-
Medio Alto A+, A, A-
Medio Baixo BBB+ , BBB, BBB-
Investimento nao especulativo BB+, BB, BB-
Altamente especulativo B+, B, B-
Risco substancial CC+
Extremamente especulativo CC
Em incumprimento, com pouca expetativa de melhora CC-
Em incumprimento DDD, DD, D
Muitas das variaveis terao por base o Produto Interno Bruto (PIB) de cada um dos paıses, ja
que este e um dos indicadores mais importantes da economia de um paıs. Quando a variavel
e medida em termos da alteracao do PIB, este e medido e calculado na moeda nacional.
Iremos tambem analisar varias variaveis que se baseiam na alteracao percentual de um ano
para o outro, ou em valor monetario sempre medido em Dolares Americanos.
3.1 Variaveis em estudo
Alteracao Percentual
• PIB – Produto Interno Bruto a Precos Constantes (NGDP RPCH) - PIB a
precos constantes, este indicador mede o valor dos bens e servicos produzidos interna-
mente num determinado ano. O calculo e feito tendo em conta os valores de producao e
venda nesse mesmo perıodo, ou seja, tendo em conta a inflacao desse ano. Desta forma
e possıvel analisar o preco e as componentes de volume dos produtos separadamente.
• Inflacao – Precos Medios de Consumo (PCPIPCH) - A inflacao e o aumento
generalizado do preco ao nıvel dos bens e servicos de uma economia durante um perıodo
de tempo. Esta variavel, em particular, mede o aumento do preco medio necessario
para comprar um conjunto de bens de consumo basico (depende de paıs para paıs).
Esta variavel representa o custo de vida num perıodo e regiao definida.
30
• Importacoes – Volume de Importacoes de Bens e Servicos (TM RPCH) -
A importacao e um processo comercial e fiscal que consiste em trazer, um bem ou um
servico, do exterior para o paıs de referencia. Esta venda, assim como nas exportacoes,
pode envolver pagamentos monetarios ou em doacoes.
• Exportacoes – Volume de Exportacoes de Bens e Servicos (TX RPCH) -
A exportacao e um processo comercial e fiscal que consiste em vender um produto
fabricado no paıs de referencia para o exterior. O aumento das exportacoes contribui
para um crescimento do PIB.
Dolares Americanos
• PIB per capita – Produto Interno Bruto Per Capita a Precos Correntes
(NGDPDPC) - O PIB per capita e obtido dividindo o PIB pelo numero de habitantes
do paıs de referencia. Desta forma conseguimos obter um indicador da qualidade de
vida de um paıs. Quando apenas e analisado o PIB podemos ser induzidos em erro, por
exemplo no caso da Suıca, Noruega ou Dinamarca em que o PIB nao e muito elevado
mas e suficiente para assegurar uma excelente qualidade de vida aos poucos milhoes
de habitantes. O oposto acontece na China ou na India, em que o PIB e elevado mas
a qualidade de vida nao e, em muitos casos, aceitavel.
• Saldo – Saldo em Conta Corrente (BCA) - Esta variavel regista os ganhos e
perdas da balanca comercial, ou seja, valor lıquido das importacoes e exportacoes.
Sao igualmente registados os lucros, juros, dividendos e pagamentos de transferencia
lıquida (como por exemplo pagamentos de pensoes e ordenados a colaboradores). Esta
variavel e definida em bilioes de dolares.
Percentagem do PIB
• Investimento – Investimento Total (NID NGDP) - O investimento total regista
os gastos de negocio em activos fixos como fabricas, maquinas ou habitacoes assim como
estoques de materia-prima. E igualmente contado o investimento de capital feitos para
substituir capital gasto (investimento sobre investimento).
• Poupanca – Poupanca Nacional Bruta (NGSD NGDP) - A poupanca nacional
bruta e resultante da diferenca entre os ganhos e os gastos do governo. Geralmente,
esta quantia e depositada em instituicoes financeiras e emprestada as empresas, que a
investem, ou ao governo, que a utiliza para cobrir eventuais defices nas contas publicas.
31
• Receitas – Receitas da Administracao Publica (GGR NGDP) - A receita
publica e toda a importancia que entra nos cofres do estado por meio de impostos,
taxas, contribuicoes sociais, valores patrimoniais, entre outros.
• Despesas – Despesas da Administracao Publica (GGX NGDP) - Existem
varios tipos de despesas publicas. Nos paıses desenvolvidos, a grande maioria das
despesas centra-se no pagamento de pensoes e salarios de funcionarios publicos assim
como na manutencao do sistema publico nas areas da saude,educacao, infra-estruturas,
entre outros.
• Dıvida – Dıvida Bruta do Governo (GGXWDG NGDP) - Quando as receitas
nao fazem face as despesas, o governo necessita de pedir dinheiro emprestado - dıvida
publica. Esta dıvida pode ser a nıvel interno, subsidiado por empresas particulares ou
a nıvel externo, instituicoes como o Banco Central Europeu.
Apresentamos em seguida a Tabela 3.2 com a analise descritiva de cada uma das variaveis
onde podemos encontrar as seguintes estatısticas sumarias: Mınimo, 10 Quartil, Mediana,
Media, 30 Quartil e Maximo.
Tabela 3.2: Estatısticas sumarias das variaveis em estudo.
Variavel Min 1◦ Q Mediana Media 3◦ Q Max
PIB -4.0 1.7 3.8 4.2 6.5 16.6
PIB per capita 439.2 3591.7 9008.7 17416.3 25296.1 105509.3
Investimento 11.0 18.7 21.6 22.5 24.8 50.7
Poupanca -5.2 14.8 21.5 21.6 25.7 56.8
Inflacao -2.4 1.7 3.3 4.2 5.7 28.2
Importacoes -20.2 2.0 9.9 10.4 16.2 41.1
Exportacoes -21.8 4.0 8.4 10.4 15.9 115.7
Receitas 11.3 23.3 30.2 31.3 39.2 65.6
Despesas 14.6 26.5 33.3 34.7 43.4 65.6
Dıvida 5.4 29.6 1.1 49.5 61.4 215.3
Saldo -470.9 -2.8 -0.6 2.4 3.8 305.3
32
3.2 Analise descritiva
Classificacao vs PIB a precos constantes
Como podemos observar pela Figura 3.1, atraves da variavel PIB a precos constantes nao
e possıvel uma distincao clara entre paıses com boas e mas classificacoes. Podemos, no
entanto, encontrar alguns paıses que se distinguem claramente de entre os paıses com a mesma
classificacao como e o caso de Singapura, Catar e o Paraguai. Cada um na sua classificacao,
distingue-se pelo aumento abruto do PIB. A Islandia e a Grecia sao, em contradicao, os
paıses que apresentam uma diminuicao mais acentuada do PIB, ambos sofreram uma grave
crise economica em 2008 e 2010, respectivamente.
●
●
●
●
AAA AA+ AA AA− A+ A A− BBB+ BBB− BB BB− B+ B B− CC
05
1015
Classificação vs PIB a preços constantes
Classificações
PIB
a p
reço
s co
nsta
ntes
(Alte
raçã
o pe
rcen
tual
)
Argentina
Benin
Bosnia.and.Herzegovina
Botswana
Bulgaria
Burkina.Faso
Chile
Cyprus
Greece
Hong.Kong.SAR
Iceland
India
Ireland
Jamaica
Japan
Korea
Kuwait
New.ZealandNorway
Pakistan
Paraguay
Qatar
Romania
Serbia
Singapore
Slovak.Republic
Spain
Sweden
Taiwan.Province.of.China
Thailand
Trinidad.and.Tobago
Turkey
United.States
Uruguay
Venezuela
Vietnam
Figura 3.1: Classificacao vs PIB
Classificacao vs PIB per capita
Os paıses com melhores classificacao apresentam um PIB per capita mais elevado que os paı-
ses com menor classificacao (Figura 3.2). Ao analisar melhor, os paıses que sao classificados
a baixo de BBB apresentam um PIB per capita reduzido, a excepcao da Islandia e Grecia
que se comportam como outliers nesta seccao. Podemos ainda evidenciar que paıses como
o Luxemburgo e a Noruega apresentam-se como os que tem valores de PIB per capita mais
elevados isto deve-se ao facto de serem paıses desenvolvidos e com um PIB satisfatorio mas
com poucos habitantes comparados com os restantes paıses.
33
●
●
●
●
● ●
●
AAA AA+ AA AA− A+ A A− BBB+ BBB− BB BB− B+ B B− CC
0e+
004e
+04
8e+
04
Classificação vs PIB per capita
Classificações
PIB
per
cap
ita(U
.S. d
olla
rs)
Argentina
Bahrain
Bangladesh
Botswana Bulgaria
Burkina.Faso
Chile
China
Cyprus
Estonia
Greece
Grenada
Hong.Kong.SAR
Iceland
India Indonesia
Ireland
Italy
Japan
Lebanon
Luxembourg
Mozambique
New.Zealand
Norway
PakistanPhilippines
Portugal
Qatar
Slovak.RepublicSlovenia
Switzerland
Thailand
Turkey
United.States
Uruguay Venezuela
Figura 3.2: Classificacao vs PIB per capita.
Classificacao vs Poupanca
Os tres paıses mais poupados tem classificacoes de AAA e AA enquanto que tres dos paıses
menos poupados apresentam classificacoes B, B- e CC. Apesar disto, nao conseguimos ob-
servar uma tendencia clara entre as classificacoes e a taxa de poupanca. O Catar e o paıs
que mais poupa, cerca de 60% do PIB.
A diminuicao acentuada da taxa de poupanca teve como reflexo o aumento exponencial do
defice e da dıvida externa, (APS, 2012). Esta afirmacao, presente no relatorio elaborado pela
Associacao Portuguesa de Seguradores, pode ser um indicativo em casos como a Grecia e a
Islandia que, em 2011, pouparam o equivalente a 4.5% e 4.2% do seu PIB, respectivamente.
●
●
●
●
●
●
●
●
AAA AA+ AA AA− A+ A A− BBB+ BBB− BB BB− B+ B B− CC
010
2030
4050
Classificação vs Poupança nacional bruta
Classificações
Pou
panç
a na
cion
al b
ruta
(%P
IB) Azerbaijan
The.Bahamas
Belarus
Belgium
Benin
Chile
China
Cyprus
Ecuador
El.Salvador
FijiFrance
Gabon
Greece
Grenada
Guatemala
Hong.Kong.SAR
Iceland
India
Japan
Kazakhstan
Lithuania
Macedonia
Malaysia
Malta
Montenegro
Nigeria
Norway Oman
Pakistan
Papua.New.Guinea
Philippines
Qatar
Singapore
Slovak.RepublicSpain
Thailand
United.KingdomUnited.States
Uruguay
Venezuela
Figura 3.3: Classificacao vs Poupanca.
34
Classificacao vs Dıvida
A partir da observacao da Figura 3.4 podemos constatar que a maioria dos paıses tem uma
dıvida muito alta em relacao ao seu PIB. O Japao e um exemplo muito claro de que os paıses
com uma dıvida muito elevada nao sao sinonimos de ma classificacao, assim como Singapura
e os EUA. Este facto e, de alguma forma, pouco perceptıvel, ja que a dıvida e uma das
principais razoes pelas quais a maioria dos paıses entra em bancarrota. Italia, Irlanda ou
Espanha sao disso exemplo.
●
●
●
●
● ●
AAA AA+ AA AA− A+ A A− BBB+ BBB− BB BB− B+ B B− CC
050
100
150
200
Classificação vs Dívida bruta do governo
Classificações
Dív
ida
brut
a do
gov
erno
(%
PIB
)
Azerbaijan
Barbados
Belize
BotswanaCameroon
Cape.Verde
Chile
Cyprus
Ecuador
Egypt
El.Salvador
Gabon
Greece
Grenada
Guatemala
Ireland
Italy
Jamaica
Japan
KazakhstanKuwait
Lebanon
Luxembourg
Mexico
New.Zealand
Oman ParaguayPeru
Saudi.Arabia
Singapore
Slovak.Republic
South.Africa
Spain
United.States
Uruguay
Figura 3.4: Classificacao vs Dıvida.
Classificacao vs Saldo
A variavel Saldo em Conta Corrente, e apresentada em Bilioes de Dolares Americanos. Como
podemos verificar a grande maioria dos paıses possui saldo perto de zero (Figura 3.5). Existe
no entanto um caso muito particular, os Estado Unidos da America, que se destacam por
possuir o saldo em conta corrente de cerca de 470 bilioes de dolares negativos. Esta observacao
comporta-se claramente como um outlier.
Assim, apresentamos a Figura 3.6 referente ao Saldo em conta corrente de todos os paıses
excepto os E.U.A. Verifica-se assim, que os paıses classificados como AA- sao os que possuem
mais saldo em conta corrente. Paıses como Italia, Espanha e Reino Unido destacam-se por
terem saldo em conta corrente muito negativos (cerca de 70 bilioes de dolares negativos).
35
●
● ●
●
●
●●
● ●
●
● ●●● ●
AAA AA+ AA AA− A+ A A− BBB+ BBB− BB BB− B+ B B− CC
−40
0−
200
020
0
Classificação vs Saldo em conta corrente
Classificações
Sal
do e
m c
onta
cor
rent
e (U
.S. d
olla
rs [b
illio
ns])
Azerbaijan
Belarus
Belgium BelizeChile
China
Dominican.Republic
Germany
GreeceGrenadaHungary
IndiaItaly
KazakhstanKoreaKuwait Malaysia
Mexico
Nigeria
Pakistan
Philippines
Poland Romania
Russia
Slovak.Republic South.Africa
Spain
Taiwan.Province.of.ChinaThailand
TurkeyUnited.Kingdom
United.States
Venezuela
Vietnam
Figura 3.5: Classificacao vs Saldo.
●
●●
●
●
●●
● ●
●
●●●●
●
AAA AA+ AA AA− A+ A A− BBB+ BBB− BB BB− B+ B B− CC
010
020
030
0
Classificação vs Saldo em conta corrente (sem EUA)
Classificações
Sal
do e
m c
onta
cor
rent
e (U
.S. d
olla
rs [b
illio
ns])
Azerbaijan
Belarus
Belgium BelizeChile
China
Dominican.Republic
Germany
Greece
GrenadaHungary
IndiaItaly
Kazakhstan
KoreaKuwait
Malaysia
MexicoNew.Zealand
Nigeria
Pakistan
Philippines
PolandRomania
Russia
Slovak.RepublicSloveniaSouth.Africa
Spain
Switzerland
Thailand
TurkeyUnited.Kingdom
Uruguay
Venezuela
Figura 3.6: Classificacao vs Saldo sem EUA
PIB vs PIB per Capita
Atraves da Figura 3.7 podemos concluir que a grande maioria dos paıses aumentou percentual
o seu PIB. Alem disso podemos encontrar, dois grupos distintos. O primeiro grupo e o grupo
dos paıses muito bem classificados, como o Luxemburgo ou a Noruega que apesar de nao
terem aumentado o seu PIB significativamente sao dos paıses cujo PIB per capita e mais
elevado. O segundo grupo e dos paıses que diminuıram o seu PIB e que possuem das piores
classificacoes possıveis e onde encontramos a Irlanda, Grecia, Venezuela e Romenia.
36
●
●
●
●
●
●●
●
●
●
●
●● ●
●●
●
●
●●●
●
●
●
●● ●
●
●
●
●
●● ●●
●
●
●●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ●●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
0 5 10 15
0e+
004e
+04
8e+
04
PIB vs PIB per capita
PIB [Alteração percentual]
PIB
per
cap
ita [U
.S. d
olla
rs]
Australia[AAA]
The.Bahamas[BBB+]
Barbados[BBB−]
Bosnia.and.Herzegovina[B+]Bulgaria[BBB] China[AA−]
Croatia[BBB−]
Cyprus[A−]
Denmark[AAA]
Fiji[B−]
France[AAA]
Greece[CC]
Grenada[B−]
Hong.Kong.SAR[AAA]
Iceland[BBB−]
India[BBB−]
Ireland[BBB+]
Italy[A]
Jamaica[B−]
Japan[AA−]
Latvia[BB+]
Luxembourg[AAA]
Macedonia[BB]
Malta[A]
Netherlands[AAA]
New.Zealand[AA+]
Norway[AAA]
Paraguay[B+]
Portugal[BBB−]
Qatar[AA]
Romania[BB+]
Serbia[BB]
Singapore[AAA]
Slovenia[AA]
Spain[AA]
Sweden[AAA]
Switzerland[AAA]
Taiwan.Province.of.China[AA−]Trinidad.and.Tobago[A]
United.Arab.Emirates[AA]
United.Kingdom[AAA]
Venezuela[BB−]
Figura 3.7: PIB vs PIB per capita
PIB vs Importacoes e PIB vs Exportacoes.
Atualmente, as exportacoes sao uma parte muito importante de qualquer economia. Quando
um paıs esta em dificuldades economicas, esta importancia aumenta exponencialmente ja que
geralmente, ha uma perda de poder de compra a nıvel nacional que pode, de certa forma,
ser compensada pelo aumento de exportacoes para paıses financeiramente bem. Podemos
observar na Figura 3.9 que com o aumento da exportacoes existe um aumento do PIB. O
oposto e tambem comprovado, quando a economia esta em queda as exportacoes diminuem,
casos da Irlanda, Islandia e Grecia.
O mesmo pode ser evidenciado no caso da Importacoes (Figura 3.8). E possıvel identificar,
que com o aumento das importacoes existe tambem um ligeiro aumento da alteracao do PIB.
Esta conclusao nao e totalmente desapropriada, ja que quando os paıses crescem, tem mais
dinheiro e as importacoes aumentam de forma natural como e o caso do Brasil, Singapura
ou Catar.
37
●
●
●
●
●
●
●
●
●
●
●
●● ●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
● ●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
●● ●
●●
●
●●
●
●●
●
●●
●
●
●●
●
●
●
●
●●
●●●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
0 5 10 15
−20
−10
010
2030
40
PIB vs Importação
PIB
Impo
rtaç
ão
China[AA−]
Greece[CC]
Iceland[BBB−]
India[BBB−]
Jamaica[B−]
Paraguay[B+]
Qatar[AA]Romania[BB+]
Singapore[AAA]
Taiwan.Province.of.China[AA−]
Trinidad.and.Tobago[A]
Figura 3.8: PIB vs Importacoes.
●
●
●●
●●
●
●
●
●●●
●
●●
●
●
●
●
●
●
● ●●
●
●
●
● ●
●
●●
●●
●●
●●●
●●
●
●
●
●
●●
●●
●
●
●●
●●
●
●
●
●
●
●●●
●
●
●
●
●
●
●
●●
●
●
●
● ●●
●●
●
●
●
●
●
●
●
●
●
● ●
●●
●●
●●
●●
●
●●
●
●
● ● ●
●
●●
●● ●
●
●
0 5 10 15
−20
020
4060
8010
012
0
PIB vs Exportações
Exportações
PIB
Albania[B+]
Benin[B]
Burkina.Faso[B]
Cambodia[B+]China[AA−]
Ghana[B]
Greece[CC]
Grenada[B−]Iceland[BBB−]
India[BBB−]
Jamaica[B−]
Macedonia[BB] Paraguay[B+]
Qatar[AA]
Romania[BB+]Singapore[AAA]
Taiwan.Province.of.China[AA−]
Venezuela[BB−]
Figura 3.9: PIB vs Exportacoes.
PIB per capita vs Saldo.
Existem 15 paıses classificados com a melhor classificacao possıvel, AAA. Na Figura 3.10
verificamos que existe uma clara distincao entre estes e todos os outros paıses classificados.
Existe uma quantidade muito grande de paıses cujo Saldo aproxima-se do zero (inclusive
muitos paıses classificados com AAA) a grande diferenca esta no PIB per capita. Atraves
desta variavel podemos verificar que os paıses que possuem um PIB per capita superior a
30000 Dolares estao bem classificados. Existem, no entanto, excepcoes como e o caso da
Islandia e da Grecia.
38
● ●
●
●●●●● ●●
●●● ● ● ●
●
●●●●
●
● ●
●
● ● ● ●●●
●●●● ●● ●
●
●●
●
●●
●●●●● ●
●
● ●●
●
●
●
● ●●● ●
●● ● ●●●
●●● ●●●
●
●●
●
●● ●● ● ●●● ●
●
●
● ●
● ●
●
● ●●
●
● ●●
●
●● ●●
●
● ● ●
●
●
●●
●
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
−40
0−
200
020
0
PIB per capita vs Saldo
PIB per capita
Sal
do
Australia[AAA]
Belgium[AA+]
Canada[AAA]
China[AA−]
Cyprus[A−]Finland[AAA]
France[AAA]
Germany[AAA]
Greece[CC]
Iceland[BBB−]Israel[A]
Italy[A]
Japan[AA−]
Kuwait[AA]
Luxembourg[AAA]
Netherlands[AAA]Norway[AAA]
Qatar[AA]
Singapore[AAA]
Sweden[AAA]
Switzerland[AAA]
United.Arab.Emirates[AA]
United.Kingdom[AAA]
United.States[AA+]
Figura 3.10: PIB per capita vs Saldo
Receitas vs Despesas
A grande maioria dos paıses, como podemos constatar, tem mais despesas que receitas. No
entanto, os poucos paıses que se situam na metade inferior do Figura 3.11 - mais receitas
que despesas - possuem em geral uma boa classificacao. Temos tambem que alguns paıses
classificados como AAA, encontram-se muito perto da recta onde as receitas e as despesas
representam a mesma percentagem de PIB. Paıses como a Irlanda e a Grecia destacam-se
por terem uma diferenca significativa entre as receitas e as despesas.
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●
● ●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●●
●●●
●
●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
10 20 30 40 50 60 70
1020
3040
5060
70
Receitas vs Despesas
Receitas
Des
pesa
s
10 20 30 40 50 60 70
1020
3040
5060
70
Receitas
Des
pesa
s
Azerbaijan[BB+]
Belgium[AA+]
Bolivia[B+]
Bosnia.and.Herzegovina[B+]
Cape.Verde[B+]
Denmark[AAA]
Estonia[A]
Finland[AAA]
France[AAA]
Greece[CC]
Guatemala[BB]
India[BBB−]
Ireland[BBB+]
Kuwait[AA]
Mongolia[BB−]
Norway[AAA]
Oman[A]
Papua.New.Guinea[B+]
Saudi.Arabia[AA−]
Singapore[AAA]
Sweden[AAA]
United.Arab.Emirates[AA]
United.States[AA+]
Figura 3.11: Receitas vs Despesas
39
Capıtulo 4
Aplicacao e Resultados
Neste capıtulo iremos apresentar os resultados obtidos atraves da aplicacao dos metodos
anteriormente referidos. Os resultados sao divididos em duas seccoes, por metodos nao
supervisionados, i.e, nao se tem nenhum conhecimento sobre o grupo a que cada paıs pertence
e metodos supervisionados, onde se tem esse conhecimento.
Nas proximas seccoes comecaremos por apresentar uma breve descricao dos modelos seguido
dos resultados e analise. Finalmente apresentamos a validacao dos metodos.
4.1 Metodos nao supervisionados
4.1.1 Ordenacao
Alem dos metodos que serao descritos seguidamente, outros foram explorado mas optou-
se por nao apresentar os resultados por nao terem sido relevantes. Em situacoes em que
foi considerado pertinente, os metodos alem de serem aplicados aos dados originais foram
igualmente aplicados aos dados normalizados. Apresentamos entao os primeiros metodos
estudados:
Metodo A - Ordenacao atraves da aplicacao da Distancia de Mahalanobis. A media foi
utilizada como ponto de referencia e a matriz de covariancias usada foi a referente aos dados
originais.
Metodo B - Ordenacao atraves da aplicacao da Distancia de Mahalanobis. A mediana foi
utilizada como ponto de referencia e a matriz de covariancias usada foi a referente aos dados
originais.
Metodo C - Ordenacao atraves da aplicacao da Distancia de Mahalanobis. O mınimo foi
41
utilizada como ponto de referencia e a matriz de covariancias usada foi a referente aos dados
normalizados.
Metodo D - Ordenacao da primeira componente principal dos dados normalizados.
Metodo E - Ordenacao da primeira componente principal dos dados transformados.
A divisao dos resultados em tabelas com base na sua localizacao geografica foi a solucao
encontrada para a analise dos resultados ser mais perceptıvel. Assim, existem cinco tabelas
correspondentes a cada um dos continentes - Europa, America, Asia, Africa e Oceania. Aqui
apenas apresentaremos a tabela referente a Europa (Tabela 4.1), sendo que as restantes se
encontram no Apendice A.
Nesta primeira tabela encontramos os paıses ordenados por ordem alfabetica na primeira
coluna, seguida da posicao atribuıda por cada um dos metodos. Apesar de esta interpretacao
ser de difıcil objectividade podemos verificar que todos os paıses europeus classificados com a
melhor classificacao possıvel (AAA) estao separados por mais de 71 posicoes. A unica excecao
encontra-se no Reino Unido cuja diferenca e de 37 posicoes. Como podemos constatar esta
tabela nao nos da muitas indicacoes praticas sobre os resultados. Assim decidimos construir
outra tabela que nos ajude. Neste caso em vez de colocarmos as posicoes de cada paıs,
ordenamo-lo segundo cada uma das classificacoes dos mesmos metodos. Obtemos assim a
Tabela 4.2.
42
Tabela 4.1: Tabela de ordenacao com posicao de cada paıs - Europa
Europa Metodo A Metodo B Metodo C Metodo D Metodo E
Albania 64◦ 40◦ 56◦ 64◦ 42◦
Austria 15◦ 24◦ 43◦ 13◦ 95◦
Azerbaijan 104◦ 76◦ 79◦ 60◦ 99◦
Belarus 97◦ 105◦ 105◦ 82◦ 16◦
Belgium 26◦ 13◦ 46◦ 9◦ 91◦
Bosnia.Herzegovina 52◦ 38◦ 18◦ 18◦ 39◦
Bulgaria 45◦ 54◦ 10◦ 36◦ 57◦
Croatia 31◦ 84◦ 1◦ 27◦ 56◦
Cyprus 16◦ 22◦ 22◦ 15◦ 28◦
Czech.Republic 10◦ 19◦ 32◦ 45◦ 18◦
Denmark 54◦ 47◦ 35◦ 4◦ 100◦
Estonia 36◦ 17◦ 33◦ 41◦ 75◦
Finland 39◦ 39◦ 64◦ 12◦ 83◦
France 29◦ 43◦ 31◦ 5◦ 9◦
Georgia 58◦ 80◦ 95◦ 63◦ 38◦
Germany 93◦ 27◦ 57◦ 28◦ 114◦
Greece 85◦ 97◦ 7◦ 1◦ 11◦
Hungary 34◦ 51◦ 42◦ 21◦ 77◦
Iceland 78◦ 106◦ 13◦ 3◦ 33◦
Ireland 112◦ 104◦ 51◦ 2◦ 69◦
Italy 74◦ 30◦ 29◦ 10◦ 3◦
Kazakhstan 53◦ 78◦ 92◦ 104◦ 86◦
Latvia 73◦ 89◦ 3◦ 35◦ 76◦
Lithuania 32◦ 52◦ 15◦ 40◦ 74◦
Luxembourg 107◦ 7◦ 36◦ 14◦ 87◦
Macedonia 24◦ 41◦ 12◦ 66◦ 70◦
Malta 18◦ 11◦ 30◦ 26◦ 50◦
Montenegro 99◦ 67◦ 53◦ 20◦ 32◦
Netherlands 28◦ 53◦ 25◦ 19◦ 107◦
Norway 102◦ 81◦ 24◦ 11◦ 108◦
Poland 7◦ 3◦ 61◦ 38◦ 13◦
Portugal 40◦ 23◦ 26◦ 6◦ 12◦
Romania 67◦ 98◦ 23◦ 48◦ 17◦
Russia 65◦ 42◦ 69◦ 75◦ 111◦
Serbia 13◦ 61◦ 45◦ 33◦ 27◦
Slovak.Republic 9◦ 12◦ 52◦ 56◦ 29◦
Slovenia 5◦ 33◦ 21◦ 29◦ 60◦
Spain 30◦ 69◦ 9◦ 24◦ 4◦
Sweden 56◦ 66◦ 85◦ 25◦ 102◦
Switzerland 82◦ 21◦ 20◦ 34◦ 112◦
Turkey 66◦ 101◦ 107◦ 73◦ 8◦
Ukraine 57◦ 75◦ 87◦ 43◦ 25◦
United.Kingdom 22◦ 9◦ 39◦ 16◦ 2◦
43
Tabela 4.2: Tabela de paıses ordenados com respectiva classificacao - Europa
Metodo A Metodo B Metodo C Metodo D Metodo E
Slovenia(AA) Poland (A-) Croatia (BBB-) Greece (CC) United.Kingdom (AAA)
Poland(A-) Luxembourg (AAA) Latvia (BB+) Ireland (BBB+) Italy (A)
Slovak.Republic(A+) United.Kingdom (AAA) Greece (CC) Iceland (BBB-) Spain (AA)
Czech.Republic(A) Malta (A) Spain (AA) Denmark (AAA) Turkey (BB)
Serbia(BB) Slovak.Republic (A+) Bulgaria (BBB) France (AAA) France (AAA)
Austria(AAA) Belgium (AA+) Macedonia (BB) Portugal (BBB-) Greece (CC)
Cyprus(A-) Estonia (A) Iceland (BBB-) Belgium (AA+) Portugal (BBB-)
Malta(A) Czech.Republic (A) Lithuania (BBB) Italy (A) Poland (A-)
United.Kingdom(AAA) Switzerland (AAA) Bosnia.Herzegovina (B+) Norway (AAA) Belarus (B)
Macedonia(BB) Cyprus (A-) Switzerland (AAA) Finland (AAA) Romania (BB+)
Belgium(AA+) Portugal (BBB-) Slovenia (AA) Austria (AAA) Czech.Republic (A)
Netherlands(AAA) Austria (AAA) Cyprus (A-) Luxembourg (AAA) Ukraine (B+)
France(AAA) Germany (AAA) Romania (BB+) Cyprus (A-) Serbia (BB)
Spain(AA) Italy (A) Norway (AAA) United.Kingdom (AAA) Cyprus (A-)
Croatia(BBB-) Slovenia (AA) Netherlands (AAA) Bosnia.Herzegovina (B+) Slovak.Republic (A+)
Lithuania(BBB) Bosnia.Herzegovina (B+) Portugal (BBB-) Netherlands (AAA) Montenegro (BB)
Hungary(BBB-) Finland (AAA) Italy (A) Montenegro (BB) Iceland (BBB-)
Estonia(A) Albania (B+) Malta (A) Hungary (BBB-) Georgia (B+)
Finland(AAA) Macedonia (BB) France (AAA) Spain (AA) Bosnia.Herzegovina (B+)
Portugal(BBB-) Russia (BBB) Czech.Republic (A) Sweden (AAA) Albania (B+)
Bulgaria(BBB) France (AAA) Estonia (A) Malta (A) Malta (A)
Bosnia.Herzegovina(B+) Denmark (AAA) Denmark (AAA) Croatia (BBB-) Croatia (BBB-)
Kazakhstan(BBB) Hungary (BBB-) Luxembourg (AAA) Germany (AAA) Bulgaria (BBB)
Denmark(AAA) Lithuania (BBB) United.Kingdom (AAA) Slovenia (AA) Slovenia (AA)
Sweden(AAA) Netherlands (AAA) Hungary (BBB-) Serbia (BB) Ireland (BBB+)
Ukraine(B+) Bulgaria (BBB) Austria (AAA) Switzerland (AAA) Macedonia (BB)
Georgia(B+) Serbia (BB) Serbia (BB) Latvia (BB+) Lithuania (BBB)
Albania(B+) Sweden (AAA) Belgium (AA+) Bulgaria (BBB) Estonia (A)
Russia(BBB) Montenegro (BB) Ireland (BBB+) Poland (A-) Latvia (BB+)
Turkey(BB) Spain (AA) Slovak.Republic (A+) Lithuania (BBB) Hungary (BBB-)
Romania(BB+) Ukraine (B+) Montenegro (BB) Estonia (A) Finland (AAA)
Latvia(BB+) Azerbaijan (BB+) Albania (B+) Ukraine (B+) Kazakhstan (BBB)
Italy(A) Kazakhstan (BBB) Germany (AAA) Czech.Republic (A) Luxembourg (AAA)
Iceland(BBB-) Georgia (B+) Poland (A-) Romania (BB+) Belgium (AA+)
Switzerland(AAA) Norway (AAA) Finland (AAA) Slovak.Republic (A+) Austria (AAA)
Greece(CC) Croatia (BBB-) Russia (BBB) Azerbaijan (BB+) Azerbaijan (BB+)
Germany(AAA) Latvia (BB+) Azerbaijan (BB+) Georgia (B+) Denmark (AAA)
Belarus(B) Greece (CC) Sweden (AAA) Albania (B+) Sweden (AAA)
Montenegro(BB) Romania (BB+) Ukraine (B+) Macedonia (BB) Netherlands (AAA)
Norway(AAA) Turkey (BB) Kazakhstan (BBB) Turkey (BB) Norway (AAA)
Azerbaijan(BB+) Ireland (BBB+) Georgia (B+) Russia (BBB) Russia (BBB)
Luxembourg(AAA) Belarus (B) Belarus (B) Belarus (B) Switzerland (AAA)
Ireland(BBB+) Iceland (BBB-) Turkey (BB) Kazakhstan (BBB) Germany (AAA)
44
4.1.2 Convex hull
O convex hull, ou P-Ordering, e um metodo de ordenacao multivariada e encontra o menor
conjunto de pontos que formam um conjunto convexo e contem todos os pontos presentes
no conjunto de dados inicial, a este conjunto chamamos o primeiro convex hull. Conhecido
o primeiro conjunto convexo e encontrado o segundo e assim sucessivamente ate todos os
objetos fazerem parte de um dos conjuntos convexos.
Quando o problema possui duas ou tres variaveis, este metodo proporciona uma ferramenta
de visualizacao muito poderosa. Nestes casos e possıvel visualizar os pontos que fazem parte
de cada um dos conjuntos convexos.
No nosso caso, dado que temos onze variaveis, a visualizacao dos conjuntos convexos e quase
impossıvel. Para que obtivessemos uma representacao grafica deste modelo selecionamos
duas variaveis que explicam cerca de 80 % da variabilidade dos dados. Sao elas: Produto
Interno Bruto Per Capita a Precos Correntes (NGDPDPC) e Inflacao a Precos Medios de
Consumo (PCPIPCH). Apos a criacao do programa no software R e da aplicacao dos dados,
obtivemos doze conjuntos convexos, quatro deles estao representado na Figura 4.1.
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
05
1015
2025
Primeiro Convex Hull
Produto Interno Bruto
Infla
ção
Burkina.Faso(B)
Guinea(B+)
Latvia(BB)
Luxembourg(AAA)
Mozambique(B+)
Qatar(AA−)
Venezuela(BB−)
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
05
1015
2025
Quinto Convex Hull
Produto Interno Bruto
Infla
ção
Argentina(B−)
The.Bahamas(BBB+)Croatia(BBB)
Iceland(BBB−)
Lithuania(BBB)
Netherlands(AAA)
Papua.New.Guinea(B+)
Peru(BBB−)
Sweden(AAA)
Vietnam(BB)
45
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
05
1015
2025
Nono Convex Hull
Produto Interno Bruto
Infla
ção
Bahrain(A)
Botswana(A−)
France(AAA)
Greece(BB+)
Italy(A+)
Jordan(BB)Poland(A−)
Slovenia(AA)
Uruguay(BB−)
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05
05
1015
2025
Último Convex Hull
Produto Interno BrutoIn
flaçã
o
Korea(A)Mexico(BBB)Oman(A)
Figura 4.1: Quatro representacoes graficas do Convex Hull com duas variaveis
Como podemos constatar os paıses dentro de cada um dos convexos possuem classificacoes
bastante distintas. No entanto, em todos podemos encontrar paıses com classificacoes verdes
assim como vermelhas, o que e de esperar ja que cada novo convexo engloba todos os objetos
que ainda nao pertencem a um convexo e como ja verificamos na seccao anterior os paıses
que possuem um PIB elevado sao geralmente os mais bem classificados. Assim os paıses que
se encontram mais a direita do grafico (maior PIB), tem por norma uma boa classificacao.
De forma similar, os paıses mais a esquerda (menor PIB) possuem pior classificacao.
Seguidamente apresentamos, em forma de lista, os treze conjuntos convexos formados a partir
da aplicacao dos cento e quinze paıses e as onze variaveis:
1◦ Convex Hull - Paraguay (B+), India (BBB-), Burkina.Faso (B), Mozambique (B+),
Benin (B), Fiji (B-), Jamaica (B-), Greece (CC), Iceland (BBB-), Luxembourg (AAA),
Qatar(AA).
2◦ Convex Hull - China (AA-), Nigeria (B+), Bangladesh (BB-), Uganda (B+), Cameroon
(B), Bosnia.Herzegovina (B+), Romania (BB+), Norway (AAA), Singapore (AAA).
46
3◦ Convex Hull - Peru (BBB-), Ghana (B), Cambodia (B+), Senegal (B+), Pakistan
(B-), Honduras (B), El.Salvador (BB-), Grenada(B-), Venezuela (BB-), Ireland (BBB+),
United.Arab.Emirates (AA), Switzerland (AAA), Sweden (AAA), Taiwan.Province.of.China
(AA-).
4◦ Convex Hull - Sri.Lanka (B+), Papua.New.Guinea (B+), Vietnam (BB-), Kenya (B+),
Guatemala (BB), Serbia (BB), Bulgaria (BBB), Croatia (BBB-), Denmark (AAA), Australia
(AAA), Hong.Kong.SAR (AAA), Argentina (B+).
5◦ Convex Hull - Philippines (BB), Bolivia (B+), Macedonia (BB), Latvia (BB+), Spain
(AA), Netherlands (AAA), United.States (AA+), Japan (AA-), Uruguay (BB+), Turkey
(BB).
6◦ Convex Hull - Mongolia (BB-), Morocco (BBB-), Jordan (BB), Trinidad.and.Tobago
(A), France (AAA), Austria (AAA), Canada (AAA), Finland (AAA), Brazil (BBB-), Thai-
land (BBB+).
7◦ Convex Hull - Georgia (B+), Egypt (BB), Ukraine (B+), Belize (B), Barbados (BBB-
), New.Zealand (AA+), Belgium (AA+), Germany (AAA), Korea (A), Panama (BBB-),
Belarus (B), Dominican.Republic (B+).
8◦ Convex Hull - Botswana (A-), Indonesia (BB+), Cape.Verde (B+), Albania (B+), Tu-
nisia (BBB-), Montenegro (BB), Lithuania (BBB), Hungary (BBB-), The.Bahamas (BBB+),
Cyprus (A-), Italy (A), United.Kingdom (AAA), Kuwait (AA), Israel (A), Kazakhstan
(BBB).
9◦ Convex Hull - Ecuador (B-), South.Africa (BBB+), Portugal (BBB-), Slovenia (AA),
Bahrain (BBB), Lebanon (B), Malaysia (A-).
10◦ Convex Hull - Azerbaijan (BB+), Colombia (BBB-), Estonia (A), Malta (A), Oman
(A), Chile (A+), Gabon (BB-).
11◦ Convex Hull - Suriname (B+), Czech.Republic (A), Saudi.Arabia (AA-), Mexico
(BBB).
12◦ Convex Hull - Poland (A-), Slovak.Republic (A+), Costa.Rica (BB).
13◦ Convex Hull - Russia (BBB).
A visualizacao grafica deste problema nao e possıvel, no entanto podemos fazer uma analise
semelhante ao caso das duas variaveis.
Em cada um dos convexos, a excecao do ultimo, podemos encontrar paıses bem classificados,
assim como paıses no vermelho. Podemos entao concluir que existem areas distintas para
paıses bem e mal classificados.
47
Para trabalho futuro indicamos a procura das condicoes e restricoes associadas as onze va-
riaveis para a classificacao de paıses de forma mais competente.
4.1.3 Clusters
Existe um largo espetro de tecnicas de clustering hierarquico. Estas podem ser divididas em
duas categorias: divisivas ou aglomerativas. Podem ainda considerar varias distancias, como
a Euclidiana ou de Manhattan. Contudo, a representacao hierarquica proveniente destes
procedimentos e geralmente expressa por um dendrograma.
Metodo Ward
O metodo escolhido para dividir em clusters os dados do problema em mao foi o metodo de
Ward pois foi o que se apresentou mais completo e a distancia escolhida foi a Euclidiana. O
numero de classes (seis) baseou-se no facto de estarmos a trabalhar com seis classes diferentes.
Assim criamos o dendrograma presente na Figura 4.2.
Dado que existem muitas observacoes nao e possıvel ver com clareza que paıses sao atribuıdos
a cada cluster apesar da linha a vermelho que nos indica a distancia a que os mesmos foram
separados.
A opcao encontrada para melhor visualizar os dados foi a criacao de seis histogramas que
representam o numero de paıses classificados nas diferentes classes. Apresentamos assim os
histogramas do cluster 2, cluster 3 e do cluster 4, Figura 4.3. Atraves dos clusters verifica-
se que existe uma clara separacao dos paıses com boa e ma classificacao, clusters 3 e 4,
respectivamente. Ja atraves do cluster 2 vemos que existem paıses classificados como BBB
e B que se encontram no mesmo grupo que os paıses com boas classificacao. Pode-se assim
concluir que estes paıses sao outliers.
48
Figura 4.2: Dendrograma obtido pelo metodo de Ward com distancia Euclidiana
49
AAA AA A BBB BB B
Cluster 2
Classificação
Núm
ero
de p
aíse
s
01
23
4
AAA AA A BBB BB B
Cluster 3
Classificação
Núm
ero
de p
aíse
s
02
46
8
AAA AA A BBB BB B
Cluster 4
Classificação
Núm
ero
de p
aíse
s
05
1015
2025
Figura 4.3: Representacao grafica do numero de paıses em tres dos seis clusters criados atraves
do Metodo de Ward com a distancia Euclidiana
K-Means
O K-Means e um metodo de clustering de particao e nao tem qualquer tipo de representacao
grafica pre-definida. Deste modo, foi adoptada a mesma visualizacao grafica que no metodo
anterior, criando seis histogramas que representam o numero de paıses classificados nas
diferentes classes, em cada cluster. Sao assim apresentados os histogramas do cluster 2,
cluster 4 e do cluster 5, Figura 4.4. Os paıses com classificacoes AAA ou AA encontram-se,
na sua grande maioria no cluster 4 da mesma forma os paıses classificados como BB ou B,
sao encontrados no cluster 5.
50
AAA AA A BBB BB B
Cluster 2
Classificação
Núm
ero
de p
aíse
s
01
23
4
AAA AA A BBB BB B
Cluster 4
Classificação
Núm
ero
de p
aíse
s
02
46
810
AAA AA A BBB BB B
Cluster 5
Classificação
Núm
ero
de p
aíse
s
05
1015
2025
Figura 4.4: Representacao grafica do numero de paıses em tres dos seis clusters criados atraves
do Metodo K-Means
4.2 Metodos de Classificacao
Nesta seccao apresentam-se os resultados obtidos aquando da aplicam dos metodos de clas-
sificacao ao conjunto de dados em estudo. Existem problemas a nıvel numerico que podem
ocorrer quando algumas classes nao tem observacoes suficientes. Assim, optou-se por agrupar
algumas classes e reduzir o numero de variaveis de dezassete para seis, Tabela 4.3.
51
Tabela 4.3: Numero de observacoes por classes agrupadas
Classes Classes Agru-
padas
Numero de
Observacoes
Classes Classes Agru-
padas
Numero de
Observacoes
AAA } AAA 15
BBB+
BBB
BBB-
BBB 22
AA+
AA
AA-
AA 12
BB+
BB
BB-
BB 20
A+
A
A-
A 14
B+
B
B-
CC
B 32
Ainda de referir que para efeitos de validacao usamos a tecnica de cross validation que
explicaremos mais a frente.
4.2.1 K-NN
O metodo dos k -vizinhos mais proximos e um metodo de classificacao muito utilizado quando
existem poucas classes. Atraves deste metodo e possıvel classificar um novo objecto com base
na classificacao, ja atribuıda, dos vizinhos mais proximos. Apesar de este metodo ser de
simples implementacao, tal como o estudo dos resultados, existem algumas condicionantes,
pois o numero de vizinhos mais proximos, k, tem de ser escolhido previamente.
Para que fosse feita uma escolha bem estruturada do numero de vizinhos, k, a ter em con-
sideracao para classificar um elemento elaboramos, o grafico da Figura 4.5. Este grafico
apresenta o erro de classificacao quando sao considerados entre um a dez vizinhos (k).
52
●
●●
●
●
●●
●●
●
2 4 6 8 10
0.4
0.5
0.6
0.7
0.8
0.9
1.0
K−NN
k
Bem
cla
ssifi
cado
s
Figura 4.5: Metodo K-NN
No caso em que o numero de vizinhos e um, podemos observar que o metodo classifica
todos os elementos de forma correta. Este resultado que parece ser indicador de um sobre-
ajustamento, (overfitting, em ingles), criando um modelo que classifica os dados (de treino)
100% corretamente.
Na seccao da validacao apresentamos os resultados associado a este metodos, onde os erros de
classificacao em cada uma das amostragens e estudada e comparada com os outros metodos
de classificacao.
4.2.2 Analise Discriminante
A Analise Discriminante Linear e a Quadratica foram os dois metodos de Analise Discrimi-
nante aplicados aos dados do problema. No caso Linear, o modelo assume que as matrizes
de covariancias entre as diferentes classes sao similares. Existe no entanto a possibilidade
de aplicar o metodo mesmo que as covariancias sejam distintas. Foi o que aconteceu neste
problema, onde apesar de as matrizes de covariancia nao serem identicas nao eram muito
53
distintas. Ao assumir que as covariancias seriam igual criamos um modelo que foi testado e
validado atraves da tecnica cross validation.
A Analise Discriminante Quadratica, que nao assume a igualdade entre matrizes de covari-
ancias, foi igualmente aplicada aos dados do problema. Esta tecnica, apesar de em teoria ser
mais adequada para os nossos dados torna-se insustentavel pois temos demasiadas categorias
para poucas observacoes. Assim, ao dividir os dados em conjunto de treino e teste o numero
de observacoes presentes em cada classe diminui para um numero muito pequeno (classes
com seis ou menos observacoes) tornando impossıvel a aplicacao deste modelo. Foi apenas
possıvel criar um modelo baseado nos dados originais.
4.2.3 Regressao Logıstica
A Regressao Logıstica e usualmente associada a um problema com duas classes. No entanto,
existem metodos de regressao logıstica que nao so sao capazes de resolver problemas com mais
de duas variaveis como conseguem, se for o caso, incorporar a ordem das classes - regressao
logıstica ordinal. Para o nosso problema esta e uma ferramenta util pois sabemos que as
classificacoes tem uma ordem associada. Existe tambem o metodo de regressao logıstica que
considera mais que uma classe nominal - Modelo de Regressao Logıstica Politomica.
Ambos os metodos foram considerados e estudados, no entanto, apresentamos apenas os
resultados da regressao logıstica ordinal pois e o modelo mais apropriado aos nossos dados e
alem de que revela melhores resultados que a regressao logıstica nominal.
O comando polr do software R proporciona-nos um output rapido e eficiente do nosso metodo
de regressao logıstica ordinal. Dois modelos foram testados, o primeiro (Modelo F, Tabela
4.4) teve em consideracao todas as variaveis associada ao problema. O segundo modelo
(Modelo G, Tabela 4.5) foi encontrado atraves do metodo de seleccao stepwise. Este metodo
de selecao caracteriza-se por criar modelos adicionando ou eliminando variaveis consoante
sejam mais ou menos ”importantes”, respectivamente. Em cada novo modelo criado e cal-
culado o criterio de selecao AIC (Akaike’s Information Criterion) e e selecionado o modelo
que apresenta menor AIC.
54
Tabela 4.4: Coeficientes do Modelo F
Variavel Coeficiente
NGDP RPCH -0.0082
NGDPDPC -0.0002
NID NGDP 0.0107
NGSD NGDP -0.0938
PCPIPCH 0.0932
TM RPCH -0.0232
TX RPCH 0.0130
GGR NGDP 0.0745
GGX NGDP -0.0990
GGXWDG NGDP 0.0153
BCA -0.0043
Intercept Coeficiente
AAA|AA -10.05
AA|A -7.45
A|BBB -5.59
BBB|BB -3.62
BB|B -2.12
Tabela 4.5: Coeficientes do Modelo G
Variavel Coeficiente
NGDPDPC -0.0002
NGSD NGDP -0.0784
PCPIPCH - 0.0760
GGXWDG NGDP 0.0108
Intercept Coeficiente
AAA|AA -8.93
AA|A -6.35
A|BBB -4.51
BBB|BB -2.64
BB|B -1.25
Tabela 4.6: Medidas de seleccao dos Modelos F e G
Deviance AIC
Modelo F 249.4588 281.4588
Modelo G 255.3707 273.3707
Como seria de esperar, o criterio AIC e menor no Modelo G. Este facto e importante para a
selecao do melhor modelo possıvel. Neste caso indica-nos que as variaveis mais “importantes”
sao: PIB Per Capita, Poupanca Nacional Bruta, Inflacao e Dıvida.
4.3 Validacao
Dividindo os dados em conjunto de teste e treino, foi possıvel a criacao de cada um dos
metodos usando o conjunto de treino e testa-lo atraves do conjunto de teste. Para uma
55
maior abrangencia usaram-se quatro separacoes diferentes.
O nosso primeiro conjunto de treino e constituıdo por 100% dos dados sendo o conjunto
de teste igualmente a amostra inicial completa. Seguidamente separamos os dados atraves
de uma amostragem estratificada, ou seja, em vez de dividir os dados de forma completa-
mente aleatoria, dividimos os dados com base nas suas classes. Foi entao possıvel obter uma
amostragem onde existe a mesma percentagem de objetos de cada classe.
O conjunto de treino e teste dividem-se em 90% vs 10%, 75% vs 25% e 50% vs 50%, respecti-
vamente. De referir ainda que os conjuntos de treino e teste, consoante as percentagens, sao
sempre os mesmos. Conseguimos desta forma comparar, entre os varios metodos, a proba-
bilidade estimada de bem classificar, ja que os mesmos dados foram usados nos teste. Estes
conjuntos foram gerados recorrendo ao comando sample presente no software R 4.7.
Tabela 4.7: Resultados de Cross validation
100% 90% - 10% 75% - 25% 50% - 50%
K-NN 0.64 0.33 0.36 0.35
LDA 0.55 0.25 0.36 0.38
QDA 0.91 - - -
Logıstica Ordinal 0.58 0.25 0.21 -
Logıstica Ordinal c/ stepwise 0.56 0.5 0.29 0.52
RandomForest 1 0.5 0.39 0.46
Como podemos verificar na Tabela 4.7, de entre os varios metodos apresentados, o que obtem
maior probabilidade estimada de bem classificar as observacoes usando como conjunto de
teste, o conjunto de teste, e o metodo RandomForest. O overfittig e uma das explicacoes
mais razoaveis para que a estimativa da probabilidade de bem classificar seja 1. Explicacao
essa, que e apoiada pelos resultados seguintes quando, ao considerar o conjunto de treino
90% dos dados iniciais, a probabilidade estimada de bem classificar diminui para 0,5.
Apesar de a estimativa da probabilidade de bem classificar um novo objecto diminuir para
metade, o metodo RandomForest continua a ser o melhor em termos de erro de ma classifi-
cacao quando usamos 90% e 75% dos dados iniciais como conjunto de treino.
O metodo Logıstica Ordinal c/ stepwise pode ser considerado o segundo melhor a ser aplicado
a este problema. Como podemos verificar este metodo distingue-se quando a amostragem
e mais reduzida sendo o melhor metodo de classificacao quando o conjunto de treino e
representado por metade dos dados originais.
56
Ainda de referir que dois dos metodos apresentado (QDA e Logıstica Ordinal) nao apresen-
tam valores em alguns dos casos. Este facto deve-se a reduzida quantidade de amostras no
conjunto de treino, para algumas variaveis. Assim nao foi possıvel calcular, computacional-
mente, a probabilidade estimada de bem classificar.
57
58
Capıtulo 5
Conclusao
Com a elaboracao deste trabalho conseguimos entender melhor o conceito de Credit Rating
e mais especificamente, o de Sovereign Credit Rating. Em ambos os casos, sao medidas de
classificacao de extrema importancia no mundo financeiro. A classificacao e atribuıda por
agencias de notacao financeira que tiram partido dos metodos estatısticos assim como de
outros factores, nomeadamente polıtico-sociais.
Entender como podera ser efetuada a classificacao dos paıses, em termos de qualidade de
credito, foi o objectivo deste trabalho. Para isso, aplicaram-se varios metodos de estatıstica
multivariada a um conjunto de dados fornecidos pelo Fundo Monetario Internacional, mas
nem todos com sucesso, quando comparados os resultados com os das agencias de rating.
Inicialmente o estudo do problema incidiu sobre os metodos de ordenacao e agrupamento,
portanto uma perspectiva nao supervionada para a analise do problema. Ou seja, a clas-
sificacao dos paıses foi realizada de maneira automatica, sem considerar previamente as
caracterısticas dos paıses para direcionar a classificacao. Atraves dos metodos de ordenacao
e agrupamento pouco ou nada e possıvel concluir sobre os modelos utilizados pelas agencias
de notacao financeira para classificar paıses. As conclusoes retiradas pelos metodos aplicados
aos dados dos problemas levam a crer que grande parte da decisao sobre a avaliacao a atri-
buir nao se baseia apenas nos valores financeiros quantitativos de cada entidade soberana.
Quando se aplicou a ordenacao reduzida usando a distancia de Mahalanobis aos dados par-
ticionados por classes, consegue-se perceber que existe uma grande variabilidade nos paıses
classificados como AAA. Sendo esta categoria a mais importante seria expectavel encontrar
um grupo restrito com pouca variabilidade, o que nao acontece na realidade.
Numa perspectiva supervisionada, i.e., usando o conhecimento da avaliacao de cada paıs,
usaram-se, entre outros metodos de classificacao, a regressao logıstica e as arvores de decisao.
Foram estes ultimos modelo de classificacao que tiveram melhor desempenho. A aplicacao
59
de metodos de classificacao tornou-se essencial para apreender se os paıses com a mesma
classificacao possuem, ou nao, as mesmas caracterısticas. Ao contrario do que seria de
esperar, existem paıses que estao muito bem classificados mas que possuem caracterısticas
similares a paıses com classificacoes menos boas.
Apesar de terem sido estudados diversos modelos para a atribuicao de um valor a qualidade
de credito de um paıs, ainda ha trabalho que pode ser realizado. Metodos como Multidimen-
sional Scaling, Correspondence Analysis ou Detrended Correspondence Analysis poderao ser
aplicados a este problema. A inclusao de variaveis que reflitam o estado polıtico das entidades
soberanas e tambem um fator a ter em consideracao em trabalho futuro.
60
Apendice A
Apendice
Tabela A.1: Tabela de ordenacao com posicao de cada paıs - America
Metodo1 Metodo3.5 Metodo4.5 Metodo7 Metodo8
[BBB-]Colombia [BBB-]Colombia [BBB+]Bahamas [BBB-]Barbados [AA+]United.States
[BBB]Mexico [AAA]Canada [BB-]El.Salvador [AA+]United.States [AAA]Canada
[B+]Suriname [B-]Ecuador [B-]Grenada [B-]Jamaica [BBB-]Brazil
[B]Honduras [BBB]Mexico [B]Belize [AAA]Canada [BBB-]Colombia
[B-]Ecuador [B]Honduras [BB]Guatemala [B-]Grenada [B+]Dominican.Republic
[AAA]Canada [B+]Bolivia [BBB-]Barbados [A]Trinidad.and.Tobago [BBB-]Panama
[BB+]Uruguay [AA+]United.States [B]Honduras [B]Belize [BBB]Mexico
[B]Belize [B]Belize [BBB-]Colombia [BB-]Venezuela [BBB-]Peru
[BBB-]Peru [BB]Costa.Rica [AA+]United.States [BBB+]Bahamas [B-]Ecuador
[BB-]El.Salvador [A+]Chile [AAA]Canada [B+]Bolivia [B-]Grenada
[B+]Bolivia [B+]Suriname [B-]Ecuador [BB-]El.Salvador [B-]Jamaica
[BB]Costa.Rica [BB]Guatemala [B+]Bolivia [B]Honduras [BBB-]Barbados
[BBB-]Barbados [BB-]El.Salvador [BB]Costa.Rica [B-]Ecuador [BBB+]Bahamas
[A+]Chile [BBB-]Barbados [A+]Chile [BBB-]Brazil [B]Honduras
[BB]Guatemala [BBB+]Bahamas [BBB]Mexico [BBB-]Colombia [BB]Costa.Rica
[B+]Dominican.Republic [BBB-]Brazil [B+]Suriname [BB+]Uruguay [BB-]El.Salvador
[BBB+]Bahamas [BBB-]Panama [B-]Jamaica [B+]Suriname [BB]Guatemala
[BBB-]Brazil [BBB-]Peru [A]Trinidad.and.Tobago [BB]Guatemala [BB+]Uruguay
[B+]Argentina [B+]Dominican.Republic [BBB-]Panama [BBB-]Panama [B+]Paraguay
[BBB-]Panama [B-]Grenada [BBB-]Peru [B+]Argentina [B]Belize
[B-]Grenada [BB+]Uruguay [BBB-]Brazil [BBB]Mexico [B+]Suriname
[B+]Paraguay [A]Trinidad.and.Tobago [B+]Dominican.Republic [B+]Dominican.Republic [B+]Bolivia
[B-]Jamaica [B+]Argentina [BB+]Uruguay [A+]Chile [B+]Argentina
[A]Trinidad.and.Tobago [B-]Jamaica [B+]Argentina [BB]Costa.Rica [A+]Chile
[BB-]Venezuela [B+]Paraguay [B+]Paraguay [BBB-]Peru [A]Trinidad.and.Tobago
[AA+]United.States [BB-]Venezuela [BB-]Venezuela [B+]Paraguay [BB-]Venezuela
61
Tabela A.2: Tabela de ordenacao com posicao de cada paıs - Oceania
Metodo1 Metodo3.5 Metodo4.5 Metodo7 Metodo8
[AA+][AA+]New.Zealand [AAA]Australia [AA+]New.Zealand [AA+]New.Zealand [AAA]Australia
[B-]B-Fiji [AA+]New.Zealand [B-]Fiji [AAA]Australia [AA+]New.Zealand
[AAA]AAAAustralia [B-]Fiji [AAA]Australia [B-]Fiji [B+]Papua.New.Guinea
[B+]B+Papua.New.Guinea [B+]Papua.New.Guinea [B+]Papua.New.Guinea [B+]Papua.New.Guinea [B-]Fiji
Tabela A.3: Tabela de ordenacao com posicao de cada paıs - Asia
Metodo1 Metodo3.5 Metodo4.5 Metodo7 Metodo8
[BB]Jordan [BB]Jordan [AA]United.Arab.Emirates [AA-]Japan [BBB-]India
[A]Israel [A]Oman [BB]Jordan [A]Israel [B-]Pakistan
[BBB+]Thailand [BBB]Bahrain [A]Oman [AA]Kuwait [B]Lebanon
[A]Korea [A]Korea [BBB]Bahrain [AA]United.Arab.Emirates [BB-]Vietnam
[BB]Philippines [A]Israel [AA-]Japan [AA-]Saudi.Arabia [BB]Jordan
[BBB]Bahrain [AAA]Hong.Kong.SAR [A]Korea [BB]Jordan [B+]Cambodia
[AAA]Hong.Kong.SAR [AA-]Saudi.Arabia [BB+]Indonesia [B]Lebanon [BB-]Mongolia
[BB-]Bangladesh [BB+]Indonesia [A]Israel [A]Oman [BBB]Bahrain
[A]Oman [B+]Cambodia [AAA]Hong.Kong.SAR [BBB]Bahrain [BB-]Bangladesh
[A-]Malaysia [BBB+]Thailand [AA]Kuwait [B-]Pakistan [A]Oman
[B+]Cambodia [AA-]Japan [B+]Cambodia [A-]Malaysia [A]Israel
[AA-]Taiwan.Province.of.China [BB]Philippines [AA-]Saudi.Arabia [B+]Cambodia [BB+]Indonesia
[BB-]Vietnam [A-]Malaysia [A-]Malaysia [AAA]Hong.Kong.SAR [BB]Philippines
[B-]Pakistan [BB-]Bangladesh [B-]Pakistan [BB-]Vietnam [AA]United.Arab.Emirates
[AA-]Saudi.Arabia [AA]United.Arab.Emirates [BB-]Bangladesh [A]Korea [AAA]Hong.Kong.SAR
[BB+]Indonesia [B]Lebanon [BBB+]Thailand [BB-]Mongolia [BBB+]Thailand
[BBB-]India [B-]Pakistan [BB]Philippines [BBB+]Thailand [A-]Malaysia
[B]Lebanon [AA]Kuwait [B]Lebanon [BB]Philippines [A]Korea
[AA]United.Arab.Emirates [BB-]Vietnam [BB-]Vietnam [AAA]Singapore [AA]Qatar
[AAA]Singapore [AA-]Taiwan.Province.of.China [AA-]Taiwan.Province.of.China [AA]Qatar [AA]Kuwait
[BB-]Mongolia [AA-]China [AA-]China [BB-]Bangladesh [AA-]Taiwan.Province.of.China
[AA]Qatar [BB-]Mongolia [BB-]Mongolia [AA-]Taiwan.Province.of.China [AAA]Singapore
[AA-]China [BBB-]India [BBB-]India [BBB-]India [AA-]Saudi.Arabia
[AA]Kuwait [AAA]Singapore [AAA]Singapore [BB+]Indonesia [AA-]Japan
[AA-]Japan [AA]Qatar [AA]Qatar [AA-]China [AA-]China
Tabela A.4: Tabela de ordenacao com posicao de cada paıs - Africa
Metodo1 Metodo3.5 Metodo4.5 Metodo7 Metodo8
[BBB+]South.Africa [BBB+]South.Africa [B]Cameroon [B]Benin [BBB+]South.Africa
[B+]Kenya [BBB-]Tunisia [B]Benin [BB]Egypt [BB]Egypt
[BBB-]Tunisia [B]Cameroon [BBB+]South.Africa [BBB+]South.Africa [BBB-]Morocco
[B+]Sri.Lanka [B+]Kenya [BBB-]Tunisia [B+]Mozambique [B+]Kenya
[BB-]Gabon [B]Benin [B+]Senegal [BBB-]Tunisia [B]Ghana
[B+]Senegal [B+]Senegal [BBB-]Morocco [B+]Cape.Verde [BBB-]Tunisia
[A-]Botswana [BB-]Gabon [BB-]Gabon [B+]Kenya [B+]Uganda
[B]Cameroon [BBB-]Morocco [B+]Kenya [B]Cameroon [B+]Mozambique
[B+]Uganda [B+]Sri.Lanka [B+]Cape.Verde [B+]Senegal [B]Benin
[BBB-]Morocco [B+]Cape.Verde [B+]Uganda [BBB-]Morocco [B]Cameroon
[BB]Egypt [A-]Botswana [B]Burkina.Faso [A-]Botswana [A-]Botswana
[B]Benin [B+]Uganda [B+]Sri.Lanka [B+]Uganda [B+]Senegal
[B+]Cape.Verde [BB]Egypt [A-]Botswana [BB-]Gabon [B+]Sri.Lanka
[B+]Mozambique [B]Burkina.Faso [BB]Egypt [B+]Nigeria [B]Burkina.Faso
[B+]Nigeria [B]Ghana [B]Ghana [B+]Sri.Lanka [B+]Cape.Verde
[B]Ghana [B+]Nigeria [B+]Mozambique [B]Ghana [BB-]Gabon
[B]Burkina.Faso [B+]Mozambique [B+]Nigeria [B]Burkina.Faso [B+]Nigeria
62
64
Bibliografia
Barnett, V. (1976). The ordering of multivariate data. Journal of the Royal Statistical Society
A 139, 319–354.
Barrera, J. L., Plataniotis, K. N. and Venetsanopoulos, A. N. (2002). Qca implementation of
a multichannel filter for image processing. Mathematical Problems in Engineering , 87–99.
Branco, J. (2004). Uma introducao a analise de clusters. Sociedade Portuguesa de Estatıstica.
Cantor, R. and Packer, F. (1996). Determinants and impact of sovereign credit ratings.
Economic Policy Review 2.
Gates, G. W. (1972). The reduced nearest neighbor rule. IEEE Trans. Inform. Theory IT-
18, 431–433.
Han, J. and Kamber, M. (2006). Data Mining: Concepts and Techniques (1 ed.). Morgan
Kaufmann Publishers.
Hand, D. J., Mannila, H. and Smyth, P. (2001). Principles of Data Mining (1 ed.). U.S.A.:
The MIT Press.
Hart, P. E. (1968). The condensed nearest neighbor rule. IEEE Trans. Inform. Theory IT-
14, 515–516.
Johnson, R. A. and Wichern, D. W. (2007). Applied Multivariate Statistical Analysis. Pearson
Prentice Hall.
Kendall, M. G. (1966). Discrimination and classification. Krishnaiah Its , 165–184.
Kutner, M. H., Nachtsheim, C. J., Neter, J. and Li, W. (2005). Applied Linear Statistical
Models (5 ed.). McGraw.Hill Irwin.
Liaw, A. and Wiener, M. (2002). Classi
cation and regression by randomforest. R News 2/3, 18–22.
65
Mahalanobis, P. C. (1936). On the generalized distance in statistics. Proceedings of the
National Institute of Sciences of India 12, 49–55.
Mises, L. v. (2010). The Theory of Money and Credit. U.S.A.: Pacific Publishing Studio.
Norman, J. M. (1972). Heuristic Procedure in Dynamic Progrmaming. U.K.: Manchester
University Press.
Pitas, I. and Tsakalides, P. (1991). Multivariate ordering in color image filtering. IEEE
Trans. Technology , 247–296.
Quinlan, J. R. (1986). Induction of decision trees. Mach. Learn 1, 81–106.
Rokach, L. and Maimon, O. (2008). Data Mining with Decision Trees - Theory and Appli-
cations. World Scienti
c Publishing.
66
Recommended