Notação de risco Apenas uma questão de ordenação multivariada? · Notação de risco Apenas...

Notação de riscoApenas uma questão de ordenação multivariada?

Marta Eirô Pinto

Dissertação para a obtenção de Grau de Mestre em

Matemática e Aplicações

JúriPresidente: Prof. Doutor António Manuel Pacheco PiresOrientador: Prof. Doutora Maria da Conceição Esperança Amadoorientador: Prof. Doutora Ana Maria Nobre Vilhena Nunes Pires de Melo ParenteVogais: Prof. Doutor João António Branco

Julho 2013

Resumo

O ındice de risco (traducao do ingles, credit rating) e, hoje em dia, uma importante medida de

classificacao de paıses e empresas nos mercados internacionais. A qualidade de credito de um

paıs ou de uma empresa, definida pelas agencias de classificacao de risco, e um fator essencial

para a emissao de dıvida, e as taxas de juros desses tıtulos dependem dessa classificacao. A

metodologia aplicada pelas agencias baseia-se em modelos econometricos e opiniao de peritos

financeiros.

Com este trabalho pretende-se usar a ordenacao multivariada como base para a classificacao

de risco de credito de varios paıses. Metodos de ordenacao e de classificacao sao estudados

com o mesmo proposito. Nos procedimentos usados serao explorados diversos conceitos e a

classificacao dos paıses sera efetuada usando classificadores supervisionados e nao supervisi-

onados.

Os dados de cada paıs sao principalmente economicos e divulgados pelo Fundo Monetario

Internacional (FMI). As conclusoes extraıdas do estudo foram comparadas com as notacoes

de risco atribuıdas pela agencia Standard & Poor’s.

Palavras Chave: Arvores de decisao, analise discriminante, credit rating, ordenacao multi-

variada, regressao logıstica.

Abstract

The credit rating is, nowadays, an important measure of classification for countries and

companies in international markets. The credit quality of a country or a company, defined

by risk rating agencies, is an essential factor for the issuance of debt and the interest rates

on those bonds depend on this classification. The methodology applied by the agencies is

based on econometric models and opinion of financial experts.

With this work we intend to use the multivariate ordering classification as a basis for credit

risk in several countries. Ordering methods as well as classification methods are studied

with the same purpose. In the procedures used we will explore several concepts and the

classification of countries will be carried out using supervised and not supervised classifiers.

The data for each country are mainly economic and released by the International Monetary

Fund (IMF). The conclusions drawn from the study were compared with the ratings assigned

by Standard & Poor’s.

Keywords: Decision trees, discriminant analysis, credit rating, multivariate orderinging,

logistic regression.

Agradecimentos

Gostaria de agradecer a Professora Conceicao Amado pelas horas despendidas e tambem o

carinho, a paciencia e o bom humor que estiveram sempre presentes. Igualmente, gostaria

de agradecer, a Professora Ana Pires que apoiou a realizacao deste trabalho e ajudou com

novas ideias e boa disposicao.

Por toda a paciencia, amor e compreensao agradeco a minha famılia e amigos.

Em particular, quero agradecer a minha melhor amiga, Veronica Martins, por ha cinco anos

atras ter dado o primeiro passo nesta amizade. Com ela aprendi mais do que os livros podem

ensinar.

Finalmente quero agradecer ao meu namorado, Pedro Santos, por todo o amor, motivacao,

orgulho, ternura e ensinamentos.

Indice

Resumo i

Abstract iii

Agradecimentos v

Lista de figuras xi

Lista de tabelas xiii

1 Introducao 1

1.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Credit Rating . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Sovereign Credit Rating . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.4 Agencias de Rating . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Moody’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Standard & Poor’s . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Fitch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2 Metodologia 7

2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Ordenacao de dados multivariados . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2.1 Sub-Ordenacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3 Analise de Agrupamentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3.1 Metodos Hierarquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.2 Metodos de Particao . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

k -Medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.4 Analise de Componentes Principais . . . . . . . . . . . . . . . . . . . . . . . 15

2.5 Metodos de Classificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.5.1 k-Vizinhos mais proximos - k-NN . . . . . . . . . . . . . . . . . . . . 18

2.5.2 Analise de Regressao Logıstica . . . . . . . . . . . . . . . . . . . . . 20

2.5.3 Arvores de decisao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.5.4 Analise Discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . 26

Classificacao com populacoes normais . . . . . . . . . . . . . . . . . . 26

3 Analise Preliminar dos dados 29

3.1 Variaveis em estudo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.2 Analise descritiva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4 Aplicacao e Resultados 41

4.1 Metodos nao supervisionados . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.1.1 Ordenacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.1.2 Convex hull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.1.3 Clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.2 Metodos de Classificacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.2.1 K-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.2.2 Analise Discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2.3 Regressao Logıstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4.3 Validacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5 Conclusao 59

A Apendice 61

Bibliografia 64

Lista de Figuras

3.1 Classificacao vs PIB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2 Classificacao vs PIB per capita . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3 Classificacao vs Poupanca . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.4 Classificacao vs Dıvida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.5 Classificacao vs Saldo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.6 Classificacao vs Saldo sem EUA . . . . . . . . . . . . . . . . . . . . . . . . . 36

3.7 PIB vs PIB per capita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.8 PIB vs Importacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.9 PIB vs Exportacoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.10 PIB per capita vs Saldo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3.11 Receitas vs Despesas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

4.1 Quatro representacoes graficas do Convex Hull com duas variaveis . . . . . . 46

4.2 Dendrograma obtido pelo metodo de Ward com distancia Euclidiana . . . . 49

4.3 Metodo de Ward com distancia Euclidiana . . . . . . . . . . . . . . . . . . . 50

4.4 Metodo K-Means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.5 Metodo K-NN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

Lista de Tabelas

3.1 Descricao de classificacoes atribuıdas pelas principais agencias de rating. . . 30

3.2 Estatısticas sumarias das variaveis em estudo. . . . . . . . . . . . . . . . . . 32

4.1 Tabela de ordenacao com posicao de cada paıs - Europa . . . . . . . . . . . . 43

4.2 Tabela de paıses ordenados com respectiva classificacao - Europa . . . . . . . 44

4.3 Numero de observacoes por classes agrupadas . . . . . . . . . . . . . . . . . 52

4.4 Coeficientes do Modelo F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.5 Coeficientes do Modelo G . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.6 Medidas de seleccao dos Modelos F e G . . . . . . . . . . . . . . . . . . . . . 55

4.7 Resultados de Cross validation . . . . . . . . . . . . . . . . . . . . . . . . . . 56

A.1 Tabela de ordenacao com posicao de cada paıs - America . . . . . . . . . . . 61

A.2 Tabela de ordenacao com posicao de cada paıs - Oceania . . . . . . . . . . . 62

A.3 Tabela de ordenacao com posicao de cada paıs - Asia . . . . . . . . . . . . . 62

A.4 Tabela de ordenacao com posicao de cada paıs - Africa . . . . . . . . . . . . 62

Capıtulo 1

Introducao

1.1 Introducao

O Credit Rating tem sido uma ferramenta muito importante na area dos negocios, apesar

de nem todos saberem ao certo o que significa, para que serve e, ate mesmo, porque existe.

Apesar de parecer ser um conceito de tempos modernos, o Credit Rating iniciou-se na decada

de 30. Nessa altura nao existiam agencias de notacao financeira mas o conceito era o mesmo,

analisar as contas e atribuir um nıvel de risco a cada industria para que o investidor pudesse

antever qual o risco que estaria associado.

Actualmente tornou-se uma area que gera milhoes e custa outros tantos milhoes a varios

paıses e empresas (Cantor and Packer, 1996). No mundo academico este tema e tambem

popular. Areas como a economia, a gestao, a estatıstica e a informatica interessam-se por

propor metodos que melhorem a avaliacao dos diferentes paıses e industrias.

Neste trabalho exploraremos o conceito geral de Credit Rating, explicitando o que e, quem

esta capacitado para o fazer e como e alcancado. Iremos focar com maior incidencia no Credit

Rating associado a entidades soberanas (Sovereign Credit Rating). Deste rol de entidades

soberanas estao incluıdos os paıses que iremos considerar neste trabalho. O Sovereign Credit

Rating apesar de semelhante nas suas definicoes tem algumas particularidades que iremos

descrever mais a frente.

Posteriormente, iremos explorar os metodos estatısticos que poderao ser usados na atribui-

cao da classificacao. Estes metodos sao importantes dada a sua caracterıstica objectiva de

avaliacao, apesar de, por vezes, serem descurados em prol da alegada experiencia e intuicao

dos responsaveis pela atribuicao da nota referente a cada paıs.

Neste capıtulo irao ser apresentadas as definicoes comuns de Credit Rating e de Sovereign

Credit Rating. O Capıtulo 2 assenta em aspectos essencialmente metodologicos. A ordenacao

multivariada e alguns metodos de classificacao supervisionada e nao supervisionada sao bre-

vemente descritas neste capıtulo. A analise preliminar dos dados e apresentada no Capıtulo

3 onde sao descritas e analisadas as variaveis em estudo. No Capıtulo 4 sao apresentados

os resultados da aplicacao dos diversos metodos aos dados do problema. Finalmente no

Capıtulo 5 descrevem-se as principais conclusoes das abordagens propostas.

1.2 Credit Rating

Podemos definir o Credit Rating como uma avaliacao feita por agencias especializadas, cha-

madas agencias de rating ou agencia de notacao financeira, que dao uma nota consoante a

”probabilidade”de nao cumprimento das obrigacoes da empresa, governo, entre outras enti-

dades. Esta avaliacao encontra-se geralmente entre as categorias AAA e D, sendo AAA a

melhor nota (associada a baixa probabilidade de nao cumprimento) e D considerada a mais

baixa das categorias que correntemente designam por ”lixo”, Mises (2010).

Apesar de aparentar ser um conceito recente e inovador o Credit Rating tem varias dezenas

de anos. Na altura, empresas, principalmente pequenas empresas e particulares, eram o

alvo principal dos avaliadores. Hoje em dia, paıses em desenvolvimento tem frequentemente

dificuldades na mobilizacao de fundos para aumentar o investimento no seu paıs. Conse-

quentemente e muito importante para estes paıses terem o acesso a fundos internacionais

e investidores. Para que isso seja possıvel, paıses em desenvolvimento necessitam de obter

uma boa nota na sua capacidade de receber credito por parte de uma ou mais agencias de

rating. Este investimento sera acordado com ambas as partes e sera, obviamente, pago com

juros.

Os juros sao outro aspecto muito importante do Credit Rating. Dado que a nota atribuıda se

baseia na opiniao da agencia em relacao a capacidade de a entidade pagar a tempo e horas,

os juros desses emprestimos irao variar. Quanto menor e a nota atribuıda por uma agencia,

maior sera a taxa de juros a pagar. Os investidores veem neste procedimento uma rede de

seguranca aos seus investimentos.

Para calculo da classificacao de cada entidade, as agencias de rating, baseiam-se nao so em

metodos estatısticos mas tambem na sua experiencia e opiniao de peritos economicos e po-

lıticos. Esta experiencia e muitas vezes utilizada para determinar que informacoes (publicas

ou privadas) devem ser tomadas em conta para a classificacao da entidade em questao. E

por esta razao que se nota um ligeiro desfasamento, de agencia para agencia, na classificacao

atribuıda a mesma entidade.

1.3 Sovereign Credit Rating

Sovereign vem da palavra Sovereignty que se traduz na qualidade de ter autoridade suprema

sobre uma area geografica, como um territorio. Sendo assim, o Sovereign Credit Rating e um

tipo de Credit Rating, que alem de ter em consideracao o risco economico e tambem avaliado

em relacao ao risco polıtico.

Apesar de a sociedade, em geral, considerar que o Credit Rating e algo prejudicial para

todos os paıses isso nao e totalmente verdadeiro. Como ja mencionado anteriormente, tendo

uma classificacao baixa o paıs em questao tera de pagar mais juros mas tem tambem varias

vantagens. Por exemplo para paıses classificados entre A e AAA, o Credit Rating ajuda-os

a atrair investidores atraves da transparencia, para o desenvolvimento do paıs. Neste caso

tanto ganha o paıs com o desenvolvimento como o investidor nos lucros. Para paıses em

desenvolvimento e igualmente importante que a classificacao destes paıses seja feita atraves

de agencias de rating reconhecidas internacionalmente ja que so assim conseguirao obter

emprestimos.

Para a classificacao de cada paıs e necessario o acesso das agencias a toda a informacao

referente as contas bancarias de cada estado. No entanto, a informacao que e utilizada

por cada agencia e decidida pela mesma, podendo utilizar tanto informacoes publicas como

privadas.

Muitos estudos foram realizados ate a presente data. Um desses estudos foi efectuado por

Cantor and Packer (1996). Entre outros factos, este estudo revelou que para a avaliacao de

um paıs ou empresa e consequente classificacao sao necessarios alguns dos seguintes parame-

1. Receita Per Capita;

2. Crescimento do PIB;

3. Peso da dıvida externa;

4. Historia de inflacao;

5. Historia padrao de dıvida;

6. Nıvel de desenvolvimento economico;

7. Fluxos capitais;

8. Forca do sistema financeiro.

O Sovereign Credit Rating assim como o Credit Rating em geral, encontra-se em constante

atualizacao. Estas atualizacoes geralmente tem efeitos significativos sobre o aumento ou

diminuicao dos juros, a atitude dos investidores ou ate no premio dos seguros. Consequen-

temente, a atribuicao de classificacoes a entidade, tais como paıses, deve ser uma tarefa a

realizar com a maior responsabilidade e exatidao, pois as consequencias podem revelar-se

bastante prejudiciais para os mesmos.

1.4 Agencias de Rating

As agencias de rating sao agencias que avaliam empresas, paıses ou indivıduos e atribui-

lhes uma classificacao mediante o seu grau de solvencia relativa (creditworthiness). Estas,

nasceram da necessidade de informacao mais barata e exata sobre os devedores. O principal

publico seriam os investidores, principalmente particulares.

No passado ano, 2012, contaram-se cerca de 140 agencias de rating. Mas ha tres que sao

consideradas as mais importantes: Standard & Poor’s, Fitch e Moodys. Destas tres agencias

falaremos mais a frente em detalhe, de momento iremos explicar de forma sucinta o processo

de atribuicao de uma classificacao a um paıs.

As agencias, depois de serem chamadas a avaliarem um paıs, enviam oficiais de dıvida sobe-

rana. Este grupo analisa toda a informacao que acha necessaria usando uma combinacao de

factores quantitativos e qualitativos. As medidas quantitativas sao usadas geralmente para

avaliar o desempenho historico do paıs. Sao assim atribuıdos diferentes pesos as diferentes

variaveis. Por exemplo, a polıtica fiscal e um elemento importante em paıses desenvolvidos

enquanto que o balanco das tendencias de pagamentos e o mais importante no caso de paı-

ses em desenvolvimento. Julgamentos qualitativos sao entao feitos para avaliar os dados no

contexto das forcas economicas, polıticas e sociais da entidade soberana.

Posteriormente, os oficiais concretizam um questionario referente a informacao privada ao

nıvel das dıvidas e capacidade de pagamento. Este questionario depende de paıs para paıs

e e elaborado por agentes especializados na situacao atual do referido paıs com o proposito

de obter informacao sensıvel nao publica. Finalmente, o grupo de trabalho prepara um

relatorio, chamado rating report, que e enviado para o comite de classificacao. Com base

neste relatorio e em toda a experiencia do comite e atribuıda uma classificacao ao paıs.

Os honorarios sao pagos pelo paıs que e avaliado. Apesar de nao terem um preco fixo,

as agencias, devido ao seu elevado investimento em termos de tempo e recursos humanos,

cobram elevadas quantias.

As tres mais importantes agencias de rating sao sediadas nos Estados Unidos da America

(EUA). Na Europa existem ja algumas mas com menor importancia no mercado.

Em seguida, apresenta-se uma breve descricao das tres agencias mais prestigiadas do mundo.

Moody’s

John Moody comecou por publicar uma revista chamada ”Moody’s Manual”em 1900. Co-

mecou por ser um manual com estatista basica e informacoes sobre Accoes e Tıtulos de

varias industrias, mas em apenas tres anos tornou-se uma publicacao a nıvel nacional. Ja

em 1907 deu-se o ”stock market crash”e a publicacao foi extinta. Dois anos depois, Moody

lancou outra publicacao com o acrescimo de informacao analıtica de seguros. Expandindo

esta ideia, criou a Moody’s Investors Services que providenciou, durante dez anos, ratings

para quase todas as empresas governamentais. Nos anos 70, generalizou a sua analise de

rating a empresas privadas e a bancos assim como seguradoras. Hoje em dia e uma das tres

mais importantes agencias de rating do mundo.

Standard & Poor’s

Henry Varnum Poor foi o fundador da Poor’s Publishing, nesta publicacao eram apresentados

artigos sobre economia nacional, analise de seguros, entre outros. Em 1941, Poor’s Publishing

e Standard Statistics, fundiram-se. A ultima, formada em 1906, publicava ratings das dıvidas

dos municıpios e paıs. Desta uniao resultou a Standart and Poor’s Corporation, que foi mais

tarde adquirida por outra empresa que manteve o nome S&P. Foi no fim dos anos 60 que

surgiu a S&P 500 um ındice de acoes que e uma ferramenta muito apreciada na analise de

investidores, tanto privados como publicos.

John Knowles Fitch foi igualmente o fundador de uma companhia de publicacoes, Fitch

Publishing Company em 1913 que publicava estatısticas financeiras. Nove anos mais tarde,

Fitch introduziu a classificacao ainda hoje utilizada de AAA ate D. Com planos para se

tornar uma agencia de rating internacional, fundiu-se com a IBCA, uma empresa com origem

em Franca. Mais tarde adquiriu ainda duas empresas do ramo. Em 2004, iniciou a sua

especializacao em analise de risco, servicos de dados e financiamento da industria.

Descritos os principais conceitos de credit rating que pode ser traduzido por notacao de

risco, serao apresentadas no Capıtulo 2 as principais ferramentas estatısticas que poderao

ser usadas para criar um valor de credit rating.

Capıtulo 2

Metodologia

2.1 Introducao

A inerente caracterıstica multivariada dos objetos de estudo e o desenvolvimento da tec-

nologia de informacao tornaram a analise de dados multivariada uma importante area de

investigacao. Os problemas estatısticos com apenas uma variavel em areas como a engenha-

ria, saude, financas, entre outros, sao hoje em dia raros. A analise de dados multivariados e

assim uma area cada vez mais importante na Estatıstica, em particular, na analise de dados

economicos de paıses.

Neste capıtulo para alem de uma breve discussao sobre o conceito de ordenacao de dados

multivariados, apresentam-se alguns dos metodos de analise multivariada que podem ser

uteis para o proposito deste trabalho.

2.2 Ordenacao de dados multivariados

Quando se faz uma analise de dados multivariados a ideia base e tentar reduzir um grande

numero de variaveis a poucas dimensoes com o mınimo de perda de informacao, permitindo

a deteccao dos principais padroes de semelhanca e/ou de associacao entre as variaveis.

Como na analise de dados univariados, uma questao importante na analise multivariada e

a ordenacao dos dados. Mas, ao contrario da ordenacao univariada, nao existe uma ordem

natural de dados multivariados, tal como, Kendall (1966), observou: “order properties, . . . ,

exists only in one dimension”. No entanto, varias extensoes de conceitos de ordenacao

univariada tem sido usadas para criar uma metodologia de ordenacao multivariada. Os

conceitos usados com maior frequencia sao: centro (eg. media, mediana) e extremos.

Barnett (1976) discute a questao da ordenacao de dados multivariados e apresenta alguns

metodos que categoriza em: ordenacao marginal, condicional, reduzida e parcial. Estes

conceitos serao descritos brevemente em seguida.

Para alem destes procedimentos, tambem podem ser usados metodos de agrupamento e

de classificacao para se obter uma nocao de ordenacao ou sub-ordenacao dos objetos. Neste

contexto, entende-se por objeto qualquer entidade que possua um conjunto de caracterısticas,

quantitativas ou categoricas, susceptıveis de serem medidas ou avaliadas.

Antes de se prosseguir, chama-se a atencao para o facto de que o termo ordenacao em

analise multivariada tambem surge aplicado a ordenacao (importancia) das variaveis (as

caracterısticas dos objetos). Nesse sentido, a ordenacao multivariada e entendida como

qualquer procedimento que conduz a um pequeno numero de variaveis (as mais importantes)

que descrevam as relacoes entre objetos, a partir de medidas tomadas desses objetos.

Por ultimo, e apesar da ordenacao dos dados ser um natural objectivo de um analista, e

importante nao esquecer que a ordenacao esta naturalmente ligada a teoria distribucional

das estatısticas de ordem. Este aspecto nao sera desenvolvido neste trabalho.

2.2.1 Sub-Ordenacoes

Num contexto univariado a nocao de ordem e clara e bem definida. Considerando-se x1, x2,

. . . , xn uma concretizacao de uma amostra aleatoria de dimensao n proveniente de uma

variavel aleatoria X, essa amostra e ordenada por ordem crescente fazendo x(1) ≤ x(2) ≤. . . ≤ x(n), os valores ordenados, x(i), i = 1, 2, . . . , n, podem ser vistos como concretizacoes

de estatısticas ordinais.

Fixe-se alguma notacao antes da descricao dos varios procedimentos. Denote-se por x1,x2,

. . . ,xn uma concretizacao de uma amostra aleatoria de dimensao n proveniente de um vector

aleatorio p-dimensional, X. A cada componente do vector aleatorio X, Xi, estao associa-

das as observacoes xi1, xi2, . . . , xin, i = 1, 2, . . . , p, a qual sera denominada por amostra

marginal, ou amostra da componente Xi.

Como ja mencionado, a ordenacao de dados multivariados e, ate aos dias de hoje, um desafio.

Varios avancos tem sido feitos em prol da ordenacao de dados multivariados mas ate agora

nao existe uma ordenacao aceite universalmente. Barnett (1976) propoe a categorizacao em

quatro principais sub-ordenacoes. Sao elas:

• Ordenacao Marginal (M-ordering) - Nesta ordenacao a amostra x1,x2, . . . ,xn e

ordenada por componente, uma ou mais do que uma, ou seja ordenam-se as amostras

marginais. Esta ordenacao tem interesse quando o objectivo e estudar propriedades

das distribuicoes marginais.

• Ordenacao Condicional (C-ordering) - A ordenacao e realizada apenas em ordem

a uma das componentes. Os dados relativos as outras componentes sao simplesmente

listados de acordo com a posicao da componente ja ordenada. Esta ordenacao tem

varias aplicacoes praticas, nomeadamente em areas como a morfologia das cores (e.g.,

estudos sobre luminosidade e saturacao, (Barrera et al., 2002) e (Pitas and Tsakalides,

1991)).

• Ordenacao Reduzida (R-ordering) - Com esta ordenacao cada observacao multi-

variada e reduzida a um unico valor numerico. Este valor e, geralmente, obtido atraves

de uma metrica generalizada dada pela Equacao (2.1).

D = (x−α)TΓ−1(x−α) (2.1)

paraα e Γ escolhidos de forma conveniente; α pode ser a origem, a media ou a mediana.

Γ pode ser a matriz identidade, matriz de dispersao estocastica ou amostral (Σ ou S).

Calculadas as distancias associadas a cada observacao, a ordenacao e feita atraves dos

princıpios basicos da ordenacao univariada.

Um caso particular deste metodo baseia-se na distancia de Mahalanobis. Esta distancia

e baseada na correlacao entre as variaveis e mede a “proximidade” ou o “afastamento”

de uma observacao ao centro, Mahalanobis (1936). Em geral, a media, a mediana ou

o mınimo sao usados como centro para o calculo da distancia. No entanto, o centro

deve ser selecionado com base no problema em questao. A distancia de Mahalanobis

distingue-se da distancia euclidiana ja que tem em conta as correlacoes entre as variaveis

e e invariante a escala.

Formalmente, a distancia de Mahalanobis entre um grupo de valores com centro µ =

(µ1, µ2, µ3, . . . , µp)T e matriz de covariancias Σ para um vector multivariado x =

(x1, x2, x3, . . . , xp)T e definida pela Equacao (2.2).

DM(x) =

√(x− µ)TΣ−1(x− µ), (2.2)

onde x, µ, Σ podem ser constantes ou estocasticos.

A distancia de Mahalanobis pode ser usada apenas como metodo de ordenacao mas

pode tambem ser usada como complemento de outros metodos como por exemplo na

deteccao de outliers ou na analise de agrupamentos.

• Ordenacao Parcial (P-ordering) - A ordenacao parcial e feita atraves de um pro-

cesso cıclico. Primeiro encontra-se o convex hulll inicial (menor conjunto de pontos que

formam um conjunto convexo e contem todos os pontos presentes no conjunto de da-

dos inicial). Estes pontos denotados, por exemplo, como Grupo 1, sao posteriormente

eliminados e e encontrado um novo convex hull (Grupo 2). Este processo e repetido

ate todos os pontos estarem associados a um grupo. Teoricamente, esta ordenacao e

uma tecnica atrativa mas nao e computacionalmente viavel para conjuntos de dados

de grandes dimensoes.

2.3 Analise de Agrupamentos

A analise de agrupamentos (ou Cluster Analysis, em ingles) e a designacao que e atribuıda

a colecao de metodos matematicos que tem a finalidade de construir grupos, clusters, de

tal forma que objetos presentes num cluster sao similares entre eles e, tao diferentes quanto

possıvel, dos objetos presentes nos outros clusters. A construcao desses grupos obedece a

um determinado criterio.

A analise de agrupamentos aplica-se em muitas situacoes, pois pode ser usada como tecnica

exploratoria ou como metodo de classificacao nao supervisionado (i.e. sem conhecimento a

priori do grupo a que pertence cada objecto). Este metodo da analise multivariada e usado

frequentemente pois proporciona um entendimento dos dados de forma simples e util Hand

et al. (2001). Medicina, biologia, economia e marketing sao apenas alguns exemplos de areas

que utilizam a analise de agrupamentos.

A ideia base dos metodos de agrupamento e bastante simples mas a construcao desses grupos

requer uma elevada complexidade computacional. Em geral, nao e possıvel construir todos

os grupos de objetos e escolher a melhor representacao. Esta opcao so e possıvel se o numero

de objetos a agrupar for pequeno, por exemplo, se se quiser agrupar 30 objetos em 5 grupos

existem 530 ≈ 1020 possibilidades, o que torna computacionalmente inviavel o calculo de uma

configuracao otima desses objetos.

Inumeros procedimentos heurısticos que permitem obter uma boa solucao num tempo razoa-

vel tem vindo a ser propostos, (Norman, 1972). Central a todos eles e a nocao de proximidade

quer dos objetos, quer dos grupos. Um metodo de agrupamento difere de outro nas diferen-

tes nocoes de grupo, e nas diferentes nocoes de proximidade. Branco (2004) apresenta uma

excelente revisao e discussao sobre os varios metodos de agrupamento.

De uma forma geral, pode-se dizer que existem duas maneiras distintas de fazer a analise de

clusters :

• Particionar os dados de forma conveniente. Geralmente este tipo de analise e reali-

zado quando e conhecida a forma de particionar os dados. Por exemplo, quando uma

fabrica pretende produzir camisolas necessita de saber diferentes tamanhos tais como,

comprimento, gola, mangas, etc. Desta forma a empresa pode optimizar a producao

atraves do particionamento conveniente dos dados.

• Divisao dos dados de forma natural em subclasses. Esta e talvez a forma mais utilizada

na analise de clusters pois permite uma aprendizagem sobre a natureza dos dados e/ou

da populacao. Esta divisao desempenha um papel muito importante na forma como e

analisada e descrita a amostra.

2.3.1 Metodos Hierarquicos

Nesta classe de metodos, o agrupamento em classes procede por etapas e pode ser realizado

de duas formas diferentes:

• Divisao - onde o grupo inicial e constituıdo por todas as observacoes presentes na

base de dados. Atraves dos metodos do tipo divisivo o conjunto inicial e dividido

sucessivamente em grupos que sejam significativos.

• Aglomeracao - inicialmente existem tantos grupos como observacoes (cada observacao

origina um grupo). Atraves de um processo cıclico, cada grupo e unido ao grupo mais

proximo de forma a reduzir o numero de grupos.

A escolha entre um metodo divisivo ou aglomerativo depende apenas da preferencia do

utilizador, no entanto, essa escolha tem recaıdo, na maioria das vezes, sobre os algoritmos

aglomerativos. O facto de, geralmente, os algoritmos do tipo divisivo serem muito mais

exigente do ponto de vista computacional faz com que os mesmos sejam menos atrativos.

Seguidamente, apresentamos um algoritmo geral para os metodos aglomerativos.

Procedimento aglomerativo

1. Os n objetos iniciais formam n grupos singulares. Neste caso a dissemelhanca entre os

grupos coincide com a matriz de dissemelhancas entre objetos, D = [dij] onde dij e a

dissemelhanca entre os objetos i e j.

2. E identificado o elemento mais pequeno na matriz D, ou seja, identificam-se os dois

grupos mais semelhantes.

3. Os grupos anteriores sao unidos e sao eliminadas as colunas e linhas correspondentes

ao dois grupos unidos da matriz D. E seguidamente criada uma linha e uma coluna

referentes as dissemelhancas entre os restantes grupos e o novo grupo.

4. Repetem-se os passos 2. e 3. num total de n-1 vezes ate se obter um unico grupo.

A proximidade de grupos e definida com base na medida de distancia entre grupos. Esta

medida e definida atraves de um mapeamento das dissemelhancas entre objetos de cada

grupo. Para que seja possıvel calcular a dissemelhanca entre o grupo A (com nA elementos)

e o grupo B (com nB elementos) existem varios metodos, os mais populares podem ser

encontrado em Branco (2004). Explicitaremos em seguida alguns procedimentos de calculo de

dissemelhancas entre grupos, cada um deles conduz aos metodos hierarquicos aglomerativos

mais comuns.

• Metodo da ligacao simples (Single Linkage) - A distancia entre dois grupos e

definida como a distancia entre os dois objetos mais proximos que se encontram em

dois grupos diferentes, Equacao (2.3).

dAB = mini∈A,j∈B

dij (2.3)

Este metodo tem a vantagem de ser sensıvel a pequenas perturbacoes nos dados o que

traduz uma maior capacidade na deteccao de outliers.

• Metodo da ligacao completa (Complete Linkage ) - Este metodo define a distan-

cia entre grupos como sendo a distancia maxima entre dois objetos de grupos distintos,

dAB = maxi∈A,j∈B

dij. (2.4)

Este metodo produz, geralmente, grupos de tamanho razoavelmente equilibrado por-

tanto e vantajoso quando, em vez de clusters naturais se procuram grupos convenientes.

• Metodo da ligacao media (Average Measure)- A distancia entre dois grupos e

definida pela media de distancias entre todos os pares de pontos possıveis, sendo o par

constituıdo por um elemento da grupo A e outro do grupo B,

j=1 dij

nAnB. (2.5)

O metodo e considerado adequado para isolar grupos de forma arredondada, elipsoidal

ou esferica uma vez que e relativamente robusto.

• Centroide (Centroid Measure)- A expressao (2.6) define a distancia entre dois

grupos como sendo a distancia entre os seus centroides.

dAB = d(xA, xB), (2.6)

onde xA e xB (Equacoes 2.7) sao os centroides dos grupos A e B, respectivamente.

∑i∈A xi

nA; xB =

∑i∈B xi

nB(2.7)

e xi e o vector das p observacoes do objecto i. A maior desvantagem deste metodo e

a possibilidade de aumento ou diminuicao da distancia de fusao de dois grupos, o que

torna a interpretacao difıcil.

• Metodo de Ward (Ward Method)- Este e o metodos onde a distancia entre grupos

se pode considerar mais ”completa”. Aqui o criterio de uniao de dois grupos baseia-se

na soma dos quadrados que ocorre quando os clusters A e B sao unidos (C = A ∪ B)

e e dado por,

dAB = SSWC − (SSWA + SSWB), (2.8)

SSWA =

nA∑i=1

p∑j=1

(xijA − xiA)2 SSWB =

nB∑i=1

p∑j=1

(xijB − xiB)2 (2.9)

SSWC =

nA+nB∑i=1

p∑j=1

(xijC − xjC)2

sao a soma dos quadrados dentro do grupo A, B e C, respectivamente, e xijK refere-se

a observacao do i-esimo elemento no grupo K na j-esima variavel.

Em cada passo do algoritmo sao formados todos os pares possıveis de clusters e calcu-

lado o incremento da soma dos quadrados resultante. Sao selecionados, para formar um

novo cluster, aqueles a que corresponde o melhor incremento, ou seja, os que perdem

menor informacao com a aglomeracao.

A representacao da estrutura hierarquica proveniente destes procedimentos, tanto aglome-

rativos como divisivos, e geralmente expressa por um grafico a duas dimensoes de nome

dendrograma.

O dendrograma e representado com a raiz no topo e os ramos no fundo, no caso de o

dendrograma ser representado na vertical. No caso em que o dendrograma e representado

na horizontal a raiz encontra-se no lado esquerdo e os ramos no direito. Os nos internos

representam ainda os clusters e a altura dos troncos (eixo vertical) indica a distancia a que

os mesmos se ligam.

A grande virtude do dendrograma e mostrar como os sucessivos clusters se vao formando ao

longo do processo hierarquico.

2.3.2 Metodos de Particao

Os metodos de particao sao procedimentos nao-hierarquicos, aplicam-se a objetos e operam

sobre uma matriz de dados, ao contrario do que acontece com os metodos hierarquicos que se

baseiam na matriz de dissemelhancas. Outra diferenca significativa e o facto de, nos metodos

de particao ser necessario que o numero de grupos, k, seja fixo a partida. Fixando-se o numero

de grupos que se pretende constituir agrupam-se os n objetos nesses k grupos e atraves de

transferencias de objetos de um grupo para outro procura-se uma boa configuracao, no

sentido de tornar os grupos homogeneos internamente e externamente heterogeneos.

De seguida apresenta-se o metodo de particao mais conhecido: o algoritmo das k-medias.

k-Medias

Este metodo caracteriza-se pela sua simplicidade e eficiencia. Para que melhor possamos

entender, seguidamente apresentamos o algoritmo.

Algoritmo K-Means:

1. Escolhe-se o numero de grupos pretendido, k ;

2. De forma aleatoria, sao escolhidos k objetos como centro de cada um dos grupos;

3. Todos os objetos sao atribuıdos ao grupo com o centro mais proximo;

4. O centroide de cada grupo e calculado fazendo a media de todos os objetos atribuıdos

a cada grupo;

5. Os centroides calculados no passo 4. sao considerados o novo centro do seu respectivo

grupo;

6. Repetem-se os passos de 2. a 5. ate que os objetos sejam atribuıdos aos mesmos

grupos consecutivamente.

Este metodo, como se pode constatar, e simples e eficaz. No entanto devem ser ressalvados

alguns aspectos importantes. No caso do passo 3., a distancia entre os objetos e centro do

grupo e, geralmente, calculada atraves da distancia Euclidiana.

Outro aspecto importante prende-se com a escolha inicial do centro de cada grupo. A

partir de pequenas mudancas na escolha inicial aleatoria dos centros, podem ser obtidos

resultados significativamente diferentes. Esta particularidade esta associada a muitas das

tecnicas de agrupamento conhecidas. Assim, para aumentar a probabilidade de encontrar

um mınimo global, o algoritmo deve ser executado diversas vezes com diferentes escolhas

iniciais. Finalmente deve ser escolhido o melhor resultado, sendo este o que possui menor

distancia quadratica total.

Como se descreve no algoritmo, o mesmo deve ser repetido ate que estabilize, i.e. quando

nao seja possıvel efetuar mais transferencias de objetos. Assim, quando as novas iteracoes

nao alteram o resultado final, este para e cada objecto e atribuıdo ao grupo com o centro

mais proximo. O objectivo final deste metodo e diminuir o quadrado da distancia total de

todos os objetos aos seus grupos.

2.4 Analise de Componentes Principais

Analise de Componentes principais (ou Principal Component Analysis, PCA, em ingles) e

considerado um dos resultados mais valiosos da aplicacao de algebra linear. PCA e aplicada

frequentemente em todas as areas da ciencia - da neurociencia a computacao grafica - porque

e um metodo simples e nao-parametrico de extracao da informacao relevante a partir de

conjuntos de dados complexos.

A Analise de Componentes Principais fornece uma reducao de um conjunto de dados para

uma dimensao inferior, revelando a dinamica simplificada dos mesmos que esta muitas vezes

escondida. Por norma, esta reducao origina uma representacao dos dados originais atraves da

compressao, reducao e transformacao dos dados originais. Esta tecnica combina a essencia

das variaveis atraves da criacao de um conjunto menor de novas variaveis, possıvel apenas

com a criacao de um sistema de coordenadas especial, Johnson and Wichern (2007).

Algebricamente as componentes principais sao combinacoes lineares particulares das variaveis

originais X1, X2, . . . , Xp. Geometricamente, estas combinacoes lineares representam um novo

eixo de coordenadas obtido pela rotacao do sistema original. Os novos eixos representam

direcoes de variabilidade maxima e proporcionam uma descricao simples e parcimonia da

estrutura de covariancias das variaveis originais.

Seja X = (X1, X2, . . . , Xp)T um vector aleatorio com matriz de covariancias Var(X) = Σ.

Admita-se que os valores proprios de Σ sao λ1 ≥ λ2 ≥ . . . ≥ λp ≤ 0 e os respectivos vectores

proprios associados γ1, γ2, . . . , γp. As componentes principais sao assim dadas pela Equacao

γT1 X

γT2 X

γTp X

γT1γT2. . .

X =[γ1 . . . γp

]TX (2.10)

O novo sistema de eixos ,Y, e constituıdo por p vectores ortogonais. De acrescentar que a

variancia da i -esima componente principal corresponde ao i -esimo valor proprio da matriz Σ

e as componentes principais nao sao correlacionadas entre si, como podemos verificar atraves

das Equacoes (2.11) e (2.12)

Var(Yi) = Var(γTi X)

= γTi Var(X)γi

= γTi [Σγi] i = 1, . . . , k

= γTi λiγi

= λi[γTi γi

]= λi.

(2.11)

Cov(Yi, Yj) = Cov(γTi X,γTj X)

= γTi Cov(X,X)γj

= γTi[Σ γj

]∀i 6= j,

= γTi[λj γj

]= λjγ

Ti γj

(2.12)

γTi γj =

1 se i = j

0 se i 6= j.

A proporcao de variancia explicada pela i -esima componente e dada pela equacao (2.13).

λi∑pj=1 λj

=V ar(Yi)

variabilidade total de Xi = 1, . . . , p (2.13)

Se em vez da populacao se pretender efetuar analise em componentes principais sobre uma

amostra o procedimento e analogo, substituindo a matriz de covariancias populacional pela

amostral. Geralmente, uma grande parte da variabilidade dos dados pode ser explicada

atraves de k componentes principais (k < p). Uma regra pratica para a escolha das k

componentes a reter e dada por:

Encontrar k : 0.8 ≤∑k

i=1 λi∑pj=1 λj

≤ 0.9.

Assim, os vectores selecionados para constituir o novo sistema de coordenadas sao as compo-

nentes principais que explicam entre 80 a 90% da variancia total dos dados originais. Estas

percentagem garantem que nao e perdida muita informacao referente aos dados originais, ao

mesmo tempo que diminui o numero de variaveis a estudar.

A analise das componentes principais e, em geral, um meio para um fim mais do que um

fim em si mesmo. Frequentemente as componentes principais sao utilizadas como input para

outros metodos tais como, analise de agrupamentos, regressao ou arvores de regressao. Mas

podem ainda ser usadas como uma tecnica de ordenacao de dados multivariados, ja que ao

usar apenas a primeira componente, a ordenacao dos dados resume-se a ordenar um conjunto

de “dados” univariados.

2.5 Metodos de Classificacao

Classificacao e o problema de identificar qual a categoria (sub-populacao), de entre um

conjunto de categorias ou grupos pre-definidos, a que um objecto pertence.

Os objetos, ou entidades, sao vectores representados por pontos num espaco multidimensio-

nal. O principal objectivo da classificacao e definir regioes nesse espaco de forma a que novos

pontos (e consequentemente as entidades correspondentes) possam ser classificados conforme

a regiao a que pertencem, o que e equivalente a dizer que permite construir uma regra es-

tatıstica (ou nao) de decisao que conduz, baseando-se nos dados observados, a identificacao

da populacao (ou grupo) a que pertence uma entidade com determinadas caracterısticas.

Formalmente, tem-se, com respeito ao universo ou populacao de interesse, C grupos/classes

bem definidos, Y1, Y2, · · · , YC , C ≥ 2. Estes grupos sao conhecidos a priori e constituem uma

particao do universo. Cada entidade/objecto do universo e caracterizada por um ponto, x =

(x1, . . . , xp), que e uma concretizacao de um vector de p variaveis aleatorias (X1, . . . , Xp)T ∈

IRp previamente definidas.

Um metodo de classificacao e o processo de determinacao de uma regra de decisao, δ, apli-

cacao de IRp em {1, 2, · · · , C}, que permita classificar as entidades e satisfaca determinado

criterio de optimalidade. Uma regra de decisao, δ, conduz a uma particao em l regioes

Rδ(1), Rδ(2), · · · , Rδ(C), tal que Rδ(i) = {x ∈ IRp : δ(x) = i}, onde δ(x) = i significa que as

entidades associadas ao vector x sao afetas ao grupo Yi.

O problema da classificacao coloca-se, como e obvio, quando o numero de populacoes e

superior ou igual a dois, ja que o caso igual a um pode ser encarado como uma analise de

observacoes discordantes e nao de classificacao.

Existem varios metodos de classificacao, de seguida serao descritos os utilizados neste tra-

balho.

2.5.1 k-Vizinhos mais proximos - k-NN

Este metodo e largamente usado nas mais diversas areas do conhecimento, desde a classifi-

cacao de galaxias a atribuicao de credito bancario, pois e baseado numa aprendizagem por

analogia, ou seja, parte do princıpio que se dois objetos, pertencentes ao mesmo conjunto de

dados, sao proximos entao tem caracterısticas similares.

A ideia do metodo dos k-vizinhos mais proximos (k-Nearest Neighbor, kNN, em ingles) pode

ser ilustrada pelo seguinte dito, o teste do pato. Este teste e um termo humorıstico sobre

como funciona o raciocınio indutivo. Pode ser explicado desta forma: “Se ele se parece com

um pato, nada como um pato e grasna como um pato, entao provavelmente e um pato.”

Informalmente a ideia para classificar um novo objecto e:

• encontrar os seus vizinhos mais proximos;

• responder a questao: “ A que grupo (ou classe) pertencem?”

• finalmente, classifica-lo na classe mais frequente dos seus vizinhos.

Considere-se o cenario usual, os dados de treino denotados por D = {(xi, yi)}, xi ∈ IRp,

dados de teste, valores x0 ∈ IRp e o objectivo: dado um novo x0 prever o grupo, y0.

Formalmente, tem-se o seguinte procedimento.

Algoritmo k-NN:

1. Seja k o numero de vizinhos mais proximos selecionado.

2. Para cada objecto do conjunto de teste, x0:

2.1. Computar a distancia d(x0,xi) onde (xti, yi) ∈ D ;

2.2. Selecionar Dx0 ⊆ D, o conjunto dos k objectos de treino mais proximos de

3. y0 = argmaxk

∑(xt

0,yi)∈Dx0I(yi, ck) onde:

I(yi, ck) =

{1 se yi = ck

0 c.c.∑(xt

0,yi)∈Dx0I(yi, ck) = ηk conta o numero de objectos em Dx0 com classe ck.

De forma sucinta, e escolhido um pequeno volume do espaco de variaveis, centrado em

x0, onde o raio e a distancia do k -esimo vizinho mais proximo. O estimador de maxima

verosimilhanca da probabilidade de um ponto no pequeno volume pertencer a cada classe e

dado pela proporcao dos pontos do conjunto de treino neste volume que pertencem a cada

classe. Localizados os k vizinhos mais proximos e respectivas classes, o metodo K-NN atribui

a nova observacao a classe com a maior probabilidade estimada, (Han and Kamber, 2006).

A proximidade dos objetos do conjunto de treino a um objecto e definida em termos de

uma metrica, que depende do tipo de variaveis. Em geral e usada a distancia Euclidiana.

Uma desvantagem desta distancia e o facto de nao atribuir nenhuma importancia relativa

as variaveis, ou seja, e dado o mesmo peso a cada uma das variaveis em questao. Outra

desvantagem e o facto desta metrica so poder ser aplicada no caso em que todas as variaveis

sao numericas. E, no entanto, possıvel utilizar outras metricas que atribuam diversos pesos

as variaveis assim como tenham em consideracao variaveis categoricas.

Tipicamente, o valor de cada variavel e normalizado antes do calculo da distancia. Este

procedimento ajuda a prevenir que as variaveis com uma maior variabilidade nao sejam

consideradas mais importante que as variaveis com menor variabilidade.

Alem da metrica a utilizar e necessario definir o numero de vizinhos mais proximos, k.

Durante a escolha do k deparamo-nos com duas opcoes:

1. No caso de escolhermos um k pequeno existe a possibilidade de se encontrar muito

“ruıdo” na vizinhanca do objeto a classificar. Neste caso o objeto e classificado de

forma incorreta e concluımos que um k maior resolveria esta situacao

2. Ao escolher um k grande, existe a possibilidade de serem incluıdos objetos perten-

centes ao conjunto de treino que nao estao muito perto e que nao interessam para a

classificacao do objeto em questao. Neste caso um k menor resolveria o problema.

O objectivo e entao encontrar o k optimo, por um lado, que nao seja pequeno de mais, pois

e sensıvel aos dados e tem variabilidade elevada, por outro lado, nao seja grande demais pois

aumenta o enviesamento. Existem varias opcoes mas como o k depende do problema em

questao e usual a elaboracao de um grafico onde estao representados varios k e a probabili-

dade de ma classificacao dos mesmos.

O poder do metodo k-NN tem sido demonstrado ao longo dos anos num sem numero de

domınios, no entanto, existem algumas desvantagens. E um metodo influenciado pela estru-

tura local, ja que nao se baseia num modelo mas apenas nos dados de treino. Por nao tentar

“aprender” um modelo, este tipo de metodos sao designados por “metodos preguicosos” (laizy

methods). E computacionalmente intensivo, pois necessita de calcular as distancias de todas

as vezes que o programa e executado. No caso em que o numero de variaveis e grande (e o

numero de objetos no conjunto de dados nao e elevado) o metodo tem um baixo desempenho.

Para alem disso possui a denominada maldicao da dimensionalidade, i.e. quando se analisam

dados em dimensoes elevadas o vizinho mais “proximo” pode estar muito longe, para alem

disso, o conceito de “mais proximo” torna-se sem sentido.

Uma das maiores vantagens do k-NN e a facilidade de o programar. Como se pode constatar

atraves do algoritmo acima definido, este metodo e de facil percepcao e implementacao. Para

alem disso, possui facil manuseamento de valores omissos (calculam-se apenas as distancias

entre o novo ponto e as variaveis para as quais existem observacoes). Em alguns casos, a pre-

cisao na classificacao e muito boa, principalmente quando o numero de classes e pequeno. Ao

contrario de alguns modelos, a generalizacao deste modelo para multiplas classes e bastante

direta.

Um conjunto de novos metodos tem vindo a ser desenvolvidos para acelerar a procura e di-

minuir a quantidade de memoria necessaria. Condensed Nearest Neighbor e Reduced-Nearest

Neighbor Edited Nearest Neighbor sao alguns exemplos dos novos metodos, (Hart, 1968) e

(Gates, 1972).

2.5.2 Analise de Regressao Logıstica

O modelo de regressao logıstica surge pelo desejo de modelar as probabilidades a posterior

dos C grupos, ou classes, usando funcoes lineares em x, e em simultaneo assegurando que a

sua soma seja um e se mantenham no intervalo [0, 1]. A regressao logıstica preserva a forma

linear dos limites das regioes de classificacao.

A regressao logıstica tem como objectivo produzir, a partir de um conjunto de observacoes,

um modelo que permita a predicao de valores tomados por uma variavel categorica, frequen-

temente binaria, a partir de uma serie de variaveis explicativas contınuas e/ou binarias.

Em comparacao com outros metodos de regressao, em especial a regressao linear, a regressao

logıstica distingue-se essencialmente pelo facto de a variavel resposta ser categorica. Quando

essa variavel assume apenas dois valores o modelo de regressao logıstica com p variaveis

explicativas denomina-se por binario e e definido da seguinte forma:

YT = XTβ (2.14)

e no caso particular do objecto i temos:

YTi = XT

i β (2.15)

β1...

βp−1

Xp−1

Xip−1

O valor esperado para cada i e dado por

E[ Yi ] = 1 (πi) + 0 (1− πi) = πi, (2.16)

ja que P(Yi = 1) = πi e P(Yi = 0) = 1− πi.

Podemos entao definir o modelo de regressao logıstica multipla da seguinte forma:

E[Yi ] = πi =exp(XT

1 + exp(XTi β)

Yi v.a. independentes com distribuicao Bernoulli e valor esperado E[Yi ] = πi.

O metodo da maxima verosimilhanca e usado para estimar os parametros do modelo, sendo

necessario recorrer a metodos numericos.

Neste trabalho procuramos modelos que possam classificar um problema com varias classes

categoricas. Estes modelos tem por nome: modelos de regressao logıstica politomica. As

duas seccoes seguintes irao analisar dois modelos diferentes que classificam problemas com

mais que duas classes.

Logıstica com Resposta Nominal

Em termos teoricos, vamos assumir que existem C possıveis categorias na variavel res-

posta. Assumimos ainda que para o i -esimo objecto vao existir C variaveis binarias resposta,

Yi1, . . . ,YiC , onde:

1 se a classe do objecto i e j ;

0 caso contrario ;e P(Yi = j) = πij

Como cada objecto i pode ter pertence apenas a uma classe temos:∑C

j=1 Yij = 1.

Dado que temos C categorias, iremos ter C(C − 1)/2 pares de categorias, logo, C(C − 1)/2

preditores lineares. Felizmente, nao sera necessario desenvolver todos os C(C−1)/2 modelos

de regressao logıstica, ja que e possıvel tomar uma categoria como referencia e comparar-la

com todas as outras.

Teremos entao C − 1 em vez dos C(C − 1)/2, o que diminui significativamente o numero

de calculos. A classe que geralmente e escolhida como referencia e a ultima, neste caso M.

Assim, passamos a definir o logit da j -esima classe como:

π∗ij = ln

[πijπiM

i βj j = 1, 2, . . . , C − 1

Esta definicao de logit apenas e possıvel pois a partir dos M − 1 logits conseguimos obter

todos os outros logits. No caso de querermos comparar a categoria k com a categoria g,

podemos obter o respectivo logit de seguinte forma:

[πikπig

[πikπiC× πiCπig

[πikπiC

]− ln

[πiCπig

i βk −XTi βg

Dadas as C − 1 expressoes de logit definimos de forma geral a probabilidade de um objecto

i pertencer a classe j :

πij =exp(XT

i βj)

1 +∑C−1

k=1 exp(XTi βk)

j = 1, 2, . . . , C − 1

Logıstica com Resposta Ordinal

Na seccao anterior consideramos uma regressao logıstica com resposta nominal, nesta seccao

iremos considerar variaveis resposta ordinais, ou seja, categorias ordenadas. Na pratica, e

frequente a variavel resposta tomar valores categoricos ordenaveis. Por exemplo, em estudos

de opiniao, usando escalas de Likert (avaliando o grau de concordancia ou discordancia),

a severidade de doencas, ou a qualidade de um produto. Neste trabalho, as categorias

atribuıdas aos paıses pelas agencias de rating (escala de AAA e D), e claramente ordinal.

Para que seja possıvel incorporar a relacao de ordem entre as categorias da variavel resposta,

a probabilidade que anteriormente foi definida como P(Yi = j) = πij (i.e. a probabilidade de

ocorrencia da categoria j) podera ser modelada em termos de probabilidades cumulativas.

Considere-se o conjunto de categorias/classes {1, 2, . . . , C} representadas de forma crescente.

Definimos entao as probabilidades associadas a cada classe:

P(Yi ≤ 1) = πi1

P(Yi ≤ 2) = πi1 + πi2...

P(Yi ≤ C − 1) = πi1 + πi2 + . . .+ πiC−1

Apos alguns calculos algebricos (que podem ser encontrados em Kutner et al. (2005))obtemos

as seguintes funcoes de distribuicao cumulativas:

P(Yi ≤ 1) =exp(α1 + XT

1 + exp(α1 + XTi β)

P(Yi ≤ 2) =exp(α2 + XT

1 + exp(α2 + XTi β)

P(Yi ≤ C − 1) =exp(αC−1 + XT

1 + exp(αC−1 + XTi β)

onde {α1, α2, . . . , αM−1} representam os parametros de localizacao para as c = 1, 2, . . . , C−1

categorias da variavel resposta (equivalente a ordenada na origem na regressao linear).

2.5.3 Arvores de decisao

As arvores de decisao como o nome sugere sao modelos representado em forma de arvore. O

espaco das variaveis de explicativas, Xi, e particionado de forma a criar um modelo (arvore)

que consiga classificar uma nova observacao, Liaw and Wiener (2002). De forma a prever

o grupo ou classe do novo objecto, e necessario comecar no cimo da arvore (raiz) e descer

escolhendo os nos seguinte de acordo com o modelo ja elaborado ate chegar a uma das classes

(folha). Seguidamente apresenta-se um algoritmo geral para a construcao de um modelo de

arvore de decisao.

Algoritmo generalizado arvores de decisao:

1. Criar um no, v ;

2. Se todos os elementos do conjunto de dados (de treino) pertencerem a classe c, entao

o no v e uma folha que identifica a classe c; Caso contrario:

(a) Encontrar a variavel com maior valor associado ao criterio de separacao;

(b) Criar no contendo essa variavel;

(c) Repetir passos anteriores para todas as variaveis;

(d) Se necessario, podar a arvore de decisao gerada.

O algoritmo descrito anteriormente e basico mas essencial para que se entenda como e cons-

truıda uma arvore de decisao. Como se verifica, no passo 2.(b) deve ser calculado o valor

associado ao criterio de separacao de cada variavel. Existem varios criterios de separacao,

nomeadamente o Ganho de Informacao, Taxa de Ganho e ainda o Indice de Gini.

O ultimo passo do algoritmo e, em geral, efectuada um procedimento que se denomina por

poda. A poda e igualmente um processo associado as arvores de decisao. Como o nome

indica alguns dos nos serao eliminados pois parecem refletir anomalias, outliers, ou resultam

de overfitting. A Poda do Erro Baseado, Poda Optimal e Poda do Erro Complexo sao

algumas das tecnicas de poda mais conhecidas. Apos a aplicacao da poda e esperada uma

arvore menor e menos complexa. As arvores podadas sao geralmente mais rapidas e melhores

a classificar objetos do conjunto de teste.

De modo geral os varios modelos de arvores de decisao contem propriedades muito atrativas

na classificacao de objetos, ja que sao faceis de entender e explicar e conseguem trabalhar

com variaveis de varios tipos. Para alem disso, o tempo que demora a classificar um novo

objecto, comparado com outros metodos, e menor.

O algoritmo C4.5 foi criado por Ross Quinlan. Este modelo pretendia ser uma atualizacao de

um outro algoritmo, o ID3 (Iterative Dichotomiser 3) que durante muitos anos foi o algoritmo

mais utilizado para a construcao de arvores de decisao e criado tambem por Quinlan (1986).

Como foi referido, a grande diferenca entre os varios algoritmos de construcao de arvores de

decisao, baseia-se na escolha do criterio de separacao e no algoritmo de poda.

Criterio de Separacao

No caso do algortimo C4.5 o criterio de separacao utilizado e a taxa de ganho, que e definida

pela equacao (2.17).

Taxa de ganho (A) =Ganho(A)

SplitInfoA(D)

=Info(D)− InfoA(D)

SplitInfoA(D),

(2.17)

Info(D) = −m∑i=1

pi log2(pi) (2.18)

InfoA(D) = −v∑j=1

|Dj||D|× Info(Dj) (2.19)

SplitInfoA(D) = −v∑j=1

|Dj||D|× log2

(|Dj||D|

)(2.20)

D - Conjuntos de dados iniciais, D = {D1, D2, . . . , Dv}, com Dj - j -particao do conjunto D

quando o mesmo e dividido atraves de uma particao da variavel X;

pi - Probabilidade de um qualquer objecto do conjunto D pertencer a classe ci;

|D|, |Dj| - Numero de elementos dos conjuntos D e Dj, respectivamente.

A taxa de ganho e uma atualizacao do criterio de separacao Ganho de Informacao, pois

normaliza os scores refletindo uma melhoria de precisao da arvore gerada, como foi provado

por Quinlan.

No algoritmo C4.5 esta implementada a poda do erro baseado. Esta poda caracteriza-se por

ser pos-poda da arvore de decisao, ou seja, realiza a sua busca por outliers e anomalias de

baixo para cima, transformando em nos as folhas que nao representam um ganho significativo.

A poda do erro baseado e dada pela expressao 2.21.

Err(T, S) = ε(T, S) + φ−1α ×

√ε(T, S)× (1− ε(T, S))

|S|, (2.21)

ε(T, S) - taxa de erro da arvore T em relacao ao conjunto S;

φ−1 - distribuicao inversa da normal padrao;

α - nıvel de significancia.

Floresta Aleatoria

Ao contrario das arvores classicas que vimos ate agora, o metodo de Floresta Aleatoria

(Random Forest (RF), em ingles), nao e definido atraves do seu criterio de separacao, nem

procedimento de poda. O RF e um metodo diferente dos metodos de construcao de arvores

de decisao, sendo um eficiente e um bom classificador, (Rokach and Maimon, 2008).

De forma simplificado, o RF cria uma serie de arvores simples, cada uma com a capacidade de

produzir uma classificacao. Apos a criacao destas arvores, um objecto (x0) sera classificado

por todas as arvores simples e a classificacao final sera dada pela classificado com maior

frequencia.

Algoritmo

1. Supondo que o numero de objetos do conjunto de treino e n, serao escolhidos aleato-

riamente n objetos com reposicao, a partir dos dados originais. Esta amostra sera o

conjunto de treino para o crescimento da arvore;

2. Se existem p variaveis, e definido um numero m� p tal que em cada no sao seleciona-

das m variaveis aleatoriamente. A melhor separacao nessas m variaveis e usada para

separar o no;

3. Cada uma das arvores e formada ate a sua maior extensao possıvel sem que haja poda.

Existem varias diferencas entre as arvores classicas e o RF. No caso das arvores classicas,

cada no e separado usando o melhor valor encontrado atraves do metodo de separacao, ao

passo que no RF, cada no e separado usando o melhor preditor de entre um subconjunto

aleatorio de variaveis escolhido em cada no. Apesar de parecer contra-intuitiva, esta estra-

tegia tem provado ser muito mais eficiente que a usada nas arvores classicas. Ao contrario

do caso classico onde a poda e um processo essencial, no RF nao e realizada a poda pois a

sobrestimacao nao e um acontecimento habitual.

2.5.4 Analise Discriminante

A Analise Discriminante e uma tecnica multivariada que tem por intuito determinar funcoes

das p variaveis que melhor distinguem ou discriminem os grupos ou classes a que os objetos

pertencem.

A analise discriminante baseia-se na funcao de distribuicao de probabilidade dos objectos

pertencentes a cada classe. Geralmente, a funcao de distribuicao Normal e a utilizada devido

as suas propriedades. No caso dos dados nao serem normalmente distribuıdos estes podem

ser aproximados a distribuicao Normal atraves de transformacoes. Outra opcao, que e valida

no contexto descritivo, e usar a discriminante linear de Fisher.

Classificacao com populacoes normais

Supondo que as populacoes seguem uma distribuicao normal definimos fi(x) como a fun-

cao de densidade associada a classe πi e pi sendo a probabilidade de um objecto ser bem

classificado como πi, i = 1, . . . , C. Temos entao:

fi(x) =1

(2π)p2 |Σ| 12

2(x− µi)TΣ−1(x− µi)

](2.22)

P(k|i) =

fi(x) dx (2.23)

P(i|i) = 1 −g∑

k=1; k 6=i

P(k|i) (2.24)

onde P(k|i) e a probabilidade de classificar um objecto como πk sabendo que pertence a

classe πi e Rk representa o conjunto de objetos classificados como πk.

Quando as populacoes seguem distribuicao Normal e se as matrizes de covariancias das

varias classes (grupos) forem iguais, entao as regioes de classificacao otimas sao lineares,

denominando-se assim por discriminante linear. Caso as matrizes de covariancias dos varios

grupos sejam distintas a superfıcie de separacao otima e quadratica, denominado-se por

discriminante quadratica.

Seguidamente iremos usar a Probabilidade Total de Ma Classificacao (TPM) para criar uma

regra de classificacao.

TPM = P(classificar mal um objecto)

= P(classificar mal objecto pertencente a π1)+

+ . . .+ P(classificar mal objecto pertencente a πg)

∫R2∪...∪Rg

f1(x)dx + . . .+ pg

∫R1∪...∪Rg−1

fg(x)dx

(2.25)

A regra criada ira minimizar a probabilidade de ma classificacao e e dada por:

Atribuir x a πk se:

dQk (x) = arg max{dQ1 (x), dQ2 (x), . . . , dQg (x)

dQi (x) = −1

2ln |Σi| −

2(x− µi)TΣi

−1(x− µi) + ln pi i = 1, 2, . . . , g

Na pratica, os parametros µi e Σi sao desconhecidos e terao de ser estimados. A regra de

classificacao estimada obtida usando a probabilidade total de ma classificacao e entao dada

Atribuir x a πk se:

dQk (x) = arg max{dQ1 (x), dQ2 (x), . . . , dQg (x)

}onde,

dQi (x) = −1

2ln |Si| −

2(x− xi)

TS−1i (x− xi) + ln pi i = 1, 2, . . . , g,

ni∑j=1

ni − 1

ni∑j=1

(xij − xi)(xij − xi)′

Capıtulo 3

Analise Preliminar dos dados

Os dados utilizados neste trabalho sao provenientes do Fundo Monetario Internacional (FMI)

disponıveis online em (<http://www.imf.org/), instituicao que conduz e publica duas vezes

por ano o World Economic Outlook (WEO). O WEO e um relatorio que contem a analise

e a projecao da maioria dos sistemas economicos a nıvel mundial. Este relatorio e muitas

vezes utilizado nas reunioes entre o FMI e o Comite Financeiro.

O relatorio preparado pelos analistas do FMI, tem por base uma complexa base de dados

com mais de 180 paıses e remonta ao ano 1980. Estes dados sao baseados em registos oficiais

fornecidos pelos institutos de estatıstica de cada paıs. A base de dados e atualizada sempre

que surgem dados historicos relevantes, sendo assim possıvel aceder a uma base de dados

rigorosa e em constante aperfeicoamento. Sao ainda realizadas, a cada seis meses, previsoes

dos quatro anos seguintes com base nos dados passados.

Os dados utilizados neste trabalho sao referentes a Setembro de 2011. Apesar de a base de

dados original ser constituıda por 46 variaveis, foram escolhidas, apos um estudo exaustivo,

11 variaveis que pretendem refletir a situacao economica de cada um dos 115 paıses aqui

estudados.

As classificacoes de cada paıs foram obtidas atraves de agencia de rating, Standard & Poor’s.

Estes dados foram obtidos atraves do site (<http://docs.google.com/spreadsheet/ccc?

key=0AonYZs4MzlZbdDdpVmxmVXpmUTJCcm0yYTV2UWpHOVE&hl=en#gid=2) onde podemos en-

contrar as classificacoes de todos os paıses classificados pelas tres maiores agencia de rating

do mundo. Existem vinte e duas classificacoes possıveis como podemos verificar na Tabela

Tabela 3.1: Descricao de classificacoes atribuıdas pelas principais agencias de rating.

Definicao Classificacao

Excelente AAA

Bom AA+, AA, AA-

Medio Alto A+, A, A-

Medio Baixo BBB+ , BBB, BBB-

Investimento nao especulativo BB+, BB, BB-

Altamente especulativo B+, B, B-

Risco substancial CC+

Extremamente especulativo CC

Em incumprimento, com pouca expetativa de melhora CC-

Em incumprimento DDD, DD, D

Muitas das variaveis terao por base o Produto Interno Bruto (PIB) de cada um dos paıses, ja

que este e um dos indicadores mais importantes da economia de um paıs. Quando a variavel

e medida em termos da alteracao do PIB, este e medido e calculado na moeda nacional.

Iremos tambem analisar varias variaveis que se baseiam na alteracao percentual de um ano

para o outro, ou em valor monetario sempre medido em Dolares Americanos.

3.1 Variaveis em estudo

Alteracao Percentual

• PIB – Produto Interno Bruto a Precos Constantes (NGDP RPCH) - PIB a

precos constantes, este indicador mede o valor dos bens e servicos produzidos interna-

mente num determinado ano. O calculo e feito tendo em conta os valores de producao e

venda nesse mesmo perıodo, ou seja, tendo em conta a inflacao desse ano. Desta forma

e possıvel analisar o preco e as componentes de volume dos produtos separadamente.

• Inflacao – Precos Medios de Consumo (PCPIPCH) - A inflacao e o aumento

generalizado do preco ao nıvel dos bens e servicos de uma economia durante um perıodo

de tempo. Esta variavel, em particular, mede o aumento do preco medio necessario

para comprar um conjunto de bens de consumo basico (depende de paıs para paıs).

Esta variavel representa o custo de vida num perıodo e regiao definida.

• Importacoes – Volume de Importacoes de Bens e Servicos (TM RPCH) -

A importacao e um processo comercial e fiscal que consiste em trazer, um bem ou um

servico, do exterior para o paıs de referencia. Esta venda, assim como nas exportacoes,

pode envolver pagamentos monetarios ou em doacoes.

• Exportacoes – Volume de Exportacoes de Bens e Servicos (TX RPCH) -

A exportacao e um processo comercial e fiscal que consiste em vender um produto

fabricado no paıs de referencia para o exterior. O aumento das exportacoes contribui

para um crescimento do PIB.

Dolares Americanos

• PIB per capita – Produto Interno Bruto Per Capita a Precos Correntes

(NGDPDPC) - O PIB per capita e obtido dividindo o PIB pelo numero de habitantes

do paıs de referencia. Desta forma conseguimos obter um indicador da qualidade de

vida de um paıs. Quando apenas e analisado o PIB podemos ser induzidos em erro, por

exemplo no caso da Suıca, Noruega ou Dinamarca em que o PIB nao e muito elevado

mas e suficiente para assegurar uma excelente qualidade de vida aos poucos milhoes

de habitantes. O oposto acontece na China ou na India, em que o PIB e elevado mas

a qualidade de vida nao e, em muitos casos, aceitavel.

• Saldo – Saldo em Conta Corrente (BCA) - Esta variavel regista os ganhos e

perdas da balanca comercial, ou seja, valor lıquido das importacoes e exportacoes.

Sao igualmente registados os lucros, juros, dividendos e pagamentos de transferencia

lıquida (como por exemplo pagamentos de pensoes e ordenados a colaboradores). Esta

variavel e definida em bilioes de dolares.

Percentagem do PIB

• Investimento – Investimento Total (NID NGDP) - O investimento total regista

os gastos de negocio em activos fixos como fabricas, maquinas ou habitacoes assim como

estoques de materia-prima. E igualmente contado o investimento de capital feitos para

substituir capital gasto (investimento sobre investimento).

• Poupanca – Poupanca Nacional Bruta (NGSD NGDP) - A poupanca nacional

bruta e resultante da diferenca entre os ganhos e os gastos do governo. Geralmente,

esta quantia e depositada em instituicoes financeiras e emprestada as empresas, que a

investem, ou ao governo, que a utiliza para cobrir eventuais defices nas contas publicas.

• Receitas – Receitas da Administracao Publica (GGR NGDP) - A receita

publica e toda a importancia que entra nos cofres do estado por meio de impostos,

taxas, contribuicoes sociais, valores patrimoniais, entre outros.

• Despesas – Despesas da Administracao Publica (GGX NGDP) - Existem

varios tipos de despesas publicas. Nos paıses desenvolvidos, a grande maioria das

despesas centra-se no pagamento de pensoes e salarios de funcionarios publicos assim

como na manutencao do sistema publico nas areas da saude,educacao, infra-estruturas,

entre outros.

• Dıvida – Dıvida Bruta do Governo (GGXWDG NGDP) - Quando as receitas

nao fazem face as despesas, o governo necessita de pedir dinheiro emprestado - dıvida

publica. Esta dıvida pode ser a nıvel interno, subsidiado por empresas particulares ou

a nıvel externo, instituicoes como o Banco Central Europeu.

Apresentamos em seguida a Tabela 3.2 com a analise descritiva de cada uma das variaveis

onde podemos encontrar as seguintes estatısticas sumarias: Mınimo, 10 Quartil, Mediana,

Media, 30 Quartil e Maximo.

Tabela 3.2: Estatısticas sumarias das variaveis em estudo.

Variavel Min 1◦ Q Mediana Media 3◦ Q Max

PIB -4.0 1.7 3.8 4.2 6.5 16.6

PIB per capita 439.2 3591.7 9008.7 17416.3 25296.1 105509.3

Investimento 11.0 18.7 21.6 22.5 24.8 50.7

Poupanca -5.2 14.8 21.5 21.6 25.7 56.8

Inflacao -2.4 1.7 3.3 4.2 5.7 28.2

Importacoes -20.2 2.0 9.9 10.4 16.2 41.1

Exportacoes -21.8 4.0 8.4 10.4 15.9 115.7

Receitas 11.3 23.3 30.2 31.3 39.2 65.6

Despesas 14.6 26.5 33.3 34.7 43.4 65.6

Dıvida 5.4 29.6 1.1 49.5 61.4 215.3

Saldo -470.9 -2.8 -0.6 2.4 3.8 305.3

3.2 Analise descritiva

Classificacao vs PIB a precos constantes

Como podemos observar pela Figura 3.1, atraves da variavel PIB a precos constantes nao

e possıvel uma distincao clara entre paıses com boas e mas classificacoes. Podemos, no

entanto, encontrar alguns paıses que se distinguem claramente de entre os paıses com a mesma

classificacao como e o caso de Singapura, Catar e o Paraguai. Cada um na sua classificacao,

distingue-se pelo aumento abruto do PIB. A Islandia e a Grecia sao, em contradicao, os

paıses que apresentam uma diminuicao mais acentuada do PIB, ambos sofreram uma grave

crise economica em 2008 e 2010, respectivamente.

AAA AA+ AA AA− A+ A A− BBB+ BBB− BB BB− B+ B B− CC

Classificação vs PIB a preços constantes

Classificações

raçã

Argentina

Bosnia.and.Herzegovina

Botswana

Bulgaria

Burkina.Faso

Cyprus

Greece

Hong.Kong.SAR

Iceland

Ireland

Jamaica

Kuwait

New.ZealandNorway

Pakistan

Paraguay

Romania

Serbia

Singapore

Slovak.Republic

Sweden

Taiwan.Province.of.China

Thailand

Trinidad.and.Tobago

Turkey

United.States

Uruguay

Venezuela

Vietnam

Figura 3.1: Classificacao vs PIB

Classificacao vs PIB per capita

Os paıses com melhores classificacao apresentam um PIB per capita mais elevado que os paı-

ses com menor classificacao (Figura 3.2). Ao analisar melhor, os paıses que sao classificados

a baixo de BBB apresentam um PIB per capita reduzido, a excepcao da Islandia e Grecia

que se comportam como outliers nesta seccao. Podemos ainda evidenciar que paıses como

o Luxemburgo e a Noruega apresentam-se como os que tem valores de PIB per capita mais

elevados isto deve-se ao facto de serem paıses desenvolvidos e com um PIB satisfatorio mas

com poucos habitantes comparados com os restantes paıses.

● ●

Classificação vs PIB per capita

Classificações

Argentina

Bahrain

Bangladesh

Botswana Bulgaria

Burkina.Faso

Cyprus

Estonia

Greece

Grenada

Hong.Kong.SAR

Iceland

India Indonesia

Ireland

Lebanon

Luxembourg

Mozambique

New.Zealand

Norway

PakistanPhilippines

Portugal

Slovak.RepublicSlovenia

Switzerland

Thailand

Turkey

United.States

Uruguay Venezuela

Figura 3.2: Classificacao vs PIB per capita.

Classificacao vs Poupanca

Os tres paıses mais poupados tem classificacoes de AAA e AA enquanto que tres dos paıses

menos poupados apresentam classificacoes B, B- e CC. Apesar disto, nao conseguimos ob-

servar uma tendencia clara entre as classificacoes e a taxa de poupanca. O Catar e o paıs

que mais poupa, cerca de 60% do PIB.

A diminuicao acentuada da taxa de poupanca teve como reflexo o aumento exponencial do

defice e da dıvida externa, (APS, 2012). Esta afirmacao, presente no relatorio elaborado pela

Associacao Portuguesa de Seguradores, pode ser um indicativo em casos como a Grecia e a

Islandia que, em 2011, pouparam o equivalente a 4.5% e 4.2% do seu PIB, respectivamente.

Classificação vs Poupança nacional bruta

Classificações

IB) Azerbaijan

The.Bahamas

Belarus

Belgium

Cyprus

Ecuador

El.Salvador

FijiFrance

Greece

Grenada

Guatemala

Hong.Kong.SAR

Iceland

Kazakhstan

Lithuania

Macedonia

Malaysia

Montenegro

Nigeria

Norway Oman

Pakistan

Papua.New.Guinea

Philippines

Singapore

Slovak.RepublicSpain

Thailand

United.KingdomUnited.States

Uruguay

Venezuela

Figura 3.3: Classificacao vs Poupanca.

Classificacao vs Dıvida

A partir da observacao da Figura 3.4 podemos constatar que a maioria dos paıses tem uma

dıvida muito alta em relacao ao seu PIB. O Japao e um exemplo muito claro de que os paıses

com uma dıvida muito elevada nao sao sinonimos de ma classificacao, assim como Singapura

e os EUA. Este facto e, de alguma forma, pouco perceptıvel, ja que a dıvida e uma das

principais razoes pelas quais a maioria dos paıses entra em bancarrota. Italia, Irlanda ou

Espanha sao disso exemplo.

● ●

Classificação vs Dívida bruta do governo

Classificações

Azerbaijan

Barbados

Belize

BotswanaCameroon

Cape.Verde

Cyprus

Ecuador

El.Salvador

Greece

Grenada

Guatemala

Ireland

Jamaica

KazakhstanKuwait

Lebanon

Luxembourg

Mexico

New.Zealand

Oman ParaguayPeru

Saudi.Arabia

Singapore

Slovak.Republic

South.Africa

United.States

Uruguay

Figura 3.4: Classificacao vs Dıvida.

Classificacao vs Saldo

A variavel Saldo em Conta Corrente, e apresentada em Bilioes de Dolares Americanos. Como

podemos verificar a grande maioria dos paıses possui saldo perto de zero (Figura 3.5). Existe

no entanto um caso muito particular, os Estado Unidos da America, que se destacam por

possuir o saldo em conta corrente de cerca de 470 bilioes de dolares negativos. Esta observacao

comporta-se claramente como um outlier.

Assim, apresentamos a Figura 3.6 referente ao Saldo em conta corrente de todos os paıses

excepto os E.U.A. Verifica-se assim, que os paıses classificados como AA- sao os que possuem

mais saldo em conta corrente. Paıses como Italia, Espanha e Reino Unido destacam-se por

terem saldo em conta corrente muito negativos (cerca de 70 bilioes de dolares negativos).

● ●

●●

● ●

● ●●● ●

Classificação vs Saldo em conta corrente

Classificações

Azerbaijan

Belarus

Belgium BelizeChile

Dominican.Republic

Germany

GreeceGrenadaHungary

IndiaItaly

KazakhstanKoreaKuwait Malaysia

Mexico

Nigeria

Pakistan

Philippines

Poland Romania

Russia

Slovak.Republic South.Africa

Taiwan.Province.of.ChinaThailand

TurkeyUnited.Kingdom

United.States

Venezuela

Vietnam

Figura 3.5: Classificacao vs Saldo.

●●

● ●

●●●●

Classificação vs Saldo em conta corrente (sem EUA)

Classificações

Azerbaijan

Belarus

Belgium BelizeChile

Dominican.Republic

Germany

Greece

GrenadaHungary

IndiaItaly

Kazakhstan

KoreaKuwait

Malaysia

MexicoNew.Zealand

Nigeria

Pakistan

Philippines

PolandRomania

Russia

Slovak.RepublicSloveniaSouth.Africa

Switzerland

Thailand

TurkeyUnited.Kingdom

Uruguay

Venezuela

Figura 3.6: Classificacao vs Saldo sem EUA

PIB vs PIB per Capita

Atraves da Figura 3.7 podemos concluir que a grande maioria dos paıses aumentou percentual

o seu PIB. Alem disso podemos encontrar, dois grupos distintos. O primeiro grupo e o grupo

dos paıses muito bem classificados, como o Luxemburgo ou a Noruega que apesar de nao

terem aumentado o seu PIB significativamente sao dos paıses cujo PIB per capita e mais

elevado. O segundo grupo e dos paıses que diminuıram o seu PIB e que possuem das piores

classificacoes possıveis e onde encontramos a Irlanda, Grecia, Venezuela e Romenia.

●●

●● ●

●●

●●●

●● ●

●● ●●

●●

● ●●

●●

● ●●

●●

0 5 10 15

PIB vs PIB per capita

PIB [Alteração percentual]

ita [U

Australia[AAA]

The.Bahamas[BBB+]

Barbados[BBB−]

Bosnia.and.Herzegovina[B+]Bulgaria[BBB] China[AA−]

Croatia[BBB−]

Cyprus[A−]

Denmark[AAA]

Fiji[B−]

France[AAA]

Greece[CC]

Grenada[B−]

Hong.Kong.SAR[AAA]

Iceland[BBB−]

India[BBB−]

Ireland[BBB+]

Italy[A]

Jamaica[B−]

Japan[AA−]

Latvia[BB+]

Luxembourg[AAA]

Macedonia[BB]

Malta[A]

Netherlands[AAA]

New.Zealand[AA+]

Norway[AAA]

Paraguay[B+]

Portugal[BBB−]

Qatar[AA]

Romania[BB+]

Serbia[BB]

Singapore[AAA]

Slovenia[AA]

Spain[AA]

Sweden[AAA]

Switzerland[AAA]

Taiwan.Province.of.China[AA−]Trinidad.and.Tobago[A]

United.Arab.Emirates[AA]

United.Kingdom[AAA]

Venezuela[BB−]

Figura 3.7: PIB vs PIB per capita

PIB vs Importacoes e PIB vs Exportacoes.

Atualmente, as exportacoes sao uma parte muito importante de qualquer economia. Quando

um paıs esta em dificuldades economicas, esta importancia aumenta exponencialmente ja que

geralmente, ha uma perda de poder de compra a nıvel nacional que pode, de certa forma,

ser compensada pelo aumento de exportacoes para paıses financeiramente bem. Podemos

observar na Figura 3.9 que com o aumento da exportacoes existe um aumento do PIB. O

oposto e tambem comprovado, quando a economia esta em queda as exportacoes diminuem,

casos da Irlanda, Islandia e Grecia.

O mesmo pode ser evidenciado no caso da Importacoes (Figura 3.8). E possıvel identificar,

que com o aumento das importacoes existe tambem um ligeiro aumento da alteracao do PIB.

Esta conclusao nao e totalmente desapropriada, ja que quando os paıses crescem, tem mais

dinheiro e as importacoes aumentam de forma natural como e o caso do Brasil, Singapura

ou Catar.

●● ●●

●●

● ●●

●●

●● ●

●●

●●●

● ●

0 5 10 15

PIB vs Importação

China[AA−]

Greece[CC]

Iceland[BBB−]

India[BBB−]

Jamaica[B−]

Paraguay[B+]

Qatar[AA]Romania[BB+]

Singapore[AAA]

Taiwan.Province.of.China[AA−]

Trinidad.and.Tobago[A]

Figura 3.8: PIB vs Importacoes.

●●

●●●

●●

● ●●

● ●

●●

●●●

●●

●●●

●●

● ●●

●●

● ●

●●

● ● ●

●●

●● ●

0 5 10 15

PIB vs Exportações

Exportações

Albania[B+]

Benin[B]

Burkina.Faso[B]

Cambodia[B+]China[AA−]

Ghana[B]

Greece[CC]

Grenada[B−]Iceland[BBB−]

India[BBB−]

Jamaica[B−]

Macedonia[BB] Paraguay[B+]

Qatar[AA]

Romania[BB+]Singapore[AAA]

Taiwan.Province.of.China[AA−]

Venezuela[BB−]

Figura 3.9: PIB vs Exportacoes.

PIB per capita vs Saldo.

Existem 15 paıses classificados com a melhor classificacao possıvel, AAA. Na Figura 3.10

verificamos que existe uma clara distincao entre estes e todos os outros paıses classificados.

Existe uma quantidade muito grande de paıses cujo Saldo aproxima-se do zero (inclusive

muitos paıses classificados com AAA) a grande diferenca esta no PIB per capita. Atraves

desta variavel podemos verificar que os paıses que possuem um PIB per capita superior a

30000 Dolares estao bem classificados. Existem, no entanto, excepcoes como e o caso da

Islandia e da Grecia.

● ●

●●●●● ●●

●●● ● ● ●

●●●●

● ●

● ● ● ●●●

●●●● ●● ●

●●

●●●●● ●

● ●●

● ●●● ●

●● ● ●●●

●●● ●●●

●●

●● ●● ● ●●● ●

● ●

● ●●

●● ●●

● ● ●

●●

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

PIB per capita vs Saldo

PIB per capita

Australia[AAA]

Belgium[AA+]

Canada[AAA]

China[AA−]

Cyprus[A−]Finland[AAA]

France[AAA]

Germany[AAA]

Greece[CC]

Iceland[BBB−]Israel[A]

Italy[A]

Japan[AA−]

Kuwait[AA]

Luxembourg[AAA]

Netherlands[AAA]Norway[AAA]

Qatar[AA]

Singapore[AAA]

Sweden[AAA]

Switzerland[AAA]

United.Kingdom[AAA]

United.States[AA+]

Figura 3.10: PIB per capita vs Saldo

Receitas vs Despesas

A grande maioria dos paıses, como podemos constatar, tem mais despesas que receitas. No

entanto, os poucos paıses que se situam na metade inferior do Figura 3.11 - mais receitas

que despesas - possuem em geral uma boa classificacao. Temos tambem que alguns paıses

classificados como AAA, encontram-se muito perto da recta onde as receitas e as despesas

representam a mesma percentagem de PIB. Paıses como a Irlanda e a Grecia destacam-se

por terem uma diferenca significativa entre as receitas e as despesas.

●●

● ●

●●

●●●

● ●

●●

10 20 30 40 50 60 70

Receitas vs Despesas

Receitas

10 20 30 40 50 60 70

Receitas

Azerbaijan[BB+]

Belgium[AA+]

Bolivia[B+]

Bosnia.and.Herzegovina[B+]

Cape.Verde[B+]

Denmark[AAA]

Estonia[A]

Finland[AAA]

France[AAA]

Greece[CC]

Guatemala[BB]

India[BBB−]

Ireland[BBB+]

Kuwait[AA]

Mongolia[BB−]

Norway[AAA]

Oman[A]

Papua.New.Guinea[B+]

Saudi.Arabia[AA−]

Singapore[AAA]

Sweden[AAA]

United.States[AA+]

Figura 3.11: Receitas vs Despesas

Capıtulo 4

Aplicacao e Resultados

Neste capıtulo iremos apresentar os resultados obtidos atraves da aplicacao dos metodos

anteriormente referidos. Os resultados sao divididos em duas seccoes, por metodos nao

supervisionados, i.e, nao se tem nenhum conhecimento sobre o grupo a que cada paıs pertence

e metodos supervisionados, onde se tem esse conhecimento.

Nas proximas seccoes comecaremos por apresentar uma breve descricao dos modelos seguido

dos resultados e analise. Finalmente apresentamos a validacao dos metodos.

4.1 Metodos nao supervisionados

4.1.1 Ordenacao

Alem dos metodos que serao descritos seguidamente, outros foram explorado mas optou-

se por nao apresentar os resultados por nao terem sido relevantes. Em situacoes em que

foi considerado pertinente, os metodos alem de serem aplicados aos dados originais foram

igualmente aplicados aos dados normalizados. Apresentamos entao os primeiros metodos

estudados:

Metodo A - Ordenacao atraves da aplicacao da Distancia de Mahalanobis. A media foi

utilizada como ponto de referencia e a matriz de covariancias usada foi a referente aos dados

originais.

Metodo B - Ordenacao atraves da aplicacao da Distancia de Mahalanobis. A mediana foi

originais.

Metodo C - Ordenacao atraves da aplicacao da Distancia de Mahalanobis. O mınimo foi

normalizados.

Metodo D - Ordenacao da primeira componente principal dos dados normalizados.

Metodo E - Ordenacao da primeira componente principal dos dados transformados.

A divisao dos resultados em tabelas com base na sua localizacao geografica foi a solucao

encontrada para a analise dos resultados ser mais perceptıvel. Assim, existem cinco tabelas

correspondentes a cada um dos continentes - Europa, America, Asia, Africa e Oceania. Aqui

apenas apresentaremos a tabela referente a Europa (Tabela 4.1), sendo que as restantes se

encontram no Apendice A.

Nesta primeira tabela encontramos os paıses ordenados por ordem alfabetica na primeira

coluna, seguida da posicao atribuıda por cada um dos metodos. Apesar de esta interpretacao

ser de difıcil objectividade podemos verificar que todos os paıses europeus classificados com a

melhor classificacao possıvel (AAA) estao separados por mais de 71 posicoes. A unica excecao

encontra-se no Reino Unido cuja diferenca e de 37 posicoes. Como podemos constatar esta

tabela nao nos da muitas indicacoes praticas sobre os resultados. Assim decidimos construir

outra tabela que nos ajude. Neste caso em vez de colocarmos as posicoes de cada paıs,

ordenamo-lo segundo cada uma das classificacoes dos mesmos metodos. Obtemos assim a

Tabela 4.2.

Tabela 4.1: Tabela de ordenacao com posicao de cada paıs - Europa

Europa Metodo A Metodo B Metodo C Metodo D Metodo E

Albania 64◦ 40◦ 56◦ 64◦ 42◦

Austria 15◦ 24◦ 43◦ 13◦ 95◦

Azerbaijan 104◦ 76◦ 79◦ 60◦ 99◦

Belarus 97◦ 105◦ 105◦ 82◦ 16◦

Belgium 26◦ 13◦ 46◦ 9◦ 91◦

Bosnia.Herzegovina 52◦ 38◦ 18◦ 18◦ 39◦

Bulgaria 45◦ 54◦ 10◦ 36◦ 57◦

Croatia 31◦ 84◦ 1◦ 27◦ 56◦

Cyprus 16◦ 22◦ 22◦ 15◦ 28◦

Czech.Republic 10◦ 19◦ 32◦ 45◦ 18◦

Denmark 54◦ 47◦ 35◦ 4◦ 100◦

Estonia 36◦ 17◦ 33◦ 41◦ 75◦

Finland 39◦ 39◦ 64◦ 12◦ 83◦

France 29◦ 43◦ 31◦ 5◦ 9◦

Georgia 58◦ 80◦ 95◦ 63◦ 38◦

Germany 93◦ 27◦ 57◦ 28◦ 114◦

Greece 85◦ 97◦ 7◦ 1◦ 11◦

Hungary 34◦ 51◦ 42◦ 21◦ 77◦

Iceland 78◦ 106◦ 13◦ 3◦ 33◦

Ireland 112◦ 104◦ 51◦ 2◦ 69◦

Italy 74◦ 30◦ 29◦ 10◦ 3◦

Kazakhstan 53◦ 78◦ 92◦ 104◦ 86◦

Latvia 73◦ 89◦ 3◦ 35◦ 76◦

Lithuania 32◦ 52◦ 15◦ 40◦ 74◦

Luxembourg 107◦ 7◦ 36◦ 14◦ 87◦

Macedonia 24◦ 41◦ 12◦ 66◦ 70◦

Malta 18◦ 11◦ 30◦ 26◦ 50◦

Montenegro 99◦ 67◦ 53◦ 20◦ 32◦

Netherlands 28◦ 53◦ 25◦ 19◦ 107◦

Norway 102◦ 81◦ 24◦ 11◦ 108◦

Poland 7◦ 3◦ 61◦ 38◦ 13◦

Portugal 40◦ 23◦ 26◦ 6◦ 12◦

Romania 67◦ 98◦ 23◦ 48◦ 17◦

Russia 65◦ 42◦ 69◦ 75◦ 111◦

Serbia 13◦ 61◦ 45◦ 33◦ 27◦

Slovak.Republic 9◦ 12◦ 52◦ 56◦ 29◦

Slovenia 5◦ 33◦ 21◦ 29◦ 60◦

Spain 30◦ 69◦ 9◦ 24◦ 4◦

Sweden 56◦ 66◦ 85◦ 25◦ 102◦

Switzerland 82◦ 21◦ 20◦ 34◦ 112◦

Turkey 66◦ 101◦ 107◦ 73◦ 8◦

Ukraine 57◦ 75◦ 87◦ 43◦ 25◦

United.Kingdom 22◦ 9◦ 39◦ 16◦ 2◦

Tabela 4.2: Tabela de paıses ordenados com respectiva classificacao - Europa

Metodo A Metodo B Metodo C Metodo D Metodo E

Slovenia(AA) Poland (A-) Croatia (BBB-) Greece (CC) United.Kingdom (AAA)

Poland(A-) Luxembourg (AAA) Latvia (BB+) Ireland (BBB+) Italy (A)

Slovak.Republic(A+) United.Kingdom (AAA) Greece (CC) Iceland (BBB-) Spain (AA)

Czech.Republic(A) Malta (A) Spain (AA) Denmark (AAA) Turkey (BB)

Serbia(BB) Slovak.Republic (A+) Bulgaria (BBB) France (AAA) France (AAA)

Austria(AAA) Belgium (AA+) Macedonia (BB) Portugal (BBB-) Greece (CC)

Cyprus(A-) Estonia (A) Iceland (BBB-) Belgium (AA+) Portugal (BBB-)

Malta(A) Czech.Republic (A) Lithuania (BBB) Italy (A) Poland (A-)

United.Kingdom(AAA) Switzerland (AAA) Bosnia.Herzegovina (B+) Norway (AAA) Belarus (B)

Macedonia(BB) Cyprus (A-) Switzerland (AAA) Finland (AAA) Romania (BB+)

Belgium(AA+) Portugal (BBB-) Slovenia (AA) Austria (AAA) Czech.Republic (A)

Netherlands(AAA) Austria (AAA) Cyprus (A-) Luxembourg (AAA) Ukraine (B+)

France(AAA) Germany (AAA) Romania (BB+) Cyprus (A-) Serbia (BB)

Spain(AA) Italy (A) Norway (AAA) United.Kingdom (AAA) Cyprus (A-)

Croatia(BBB-) Slovenia (AA) Netherlands (AAA) Bosnia.Herzegovina (B+) Slovak.Republic (A+)

Lithuania(BBB) Bosnia.Herzegovina (B+) Portugal (BBB-) Netherlands (AAA) Montenegro (BB)

Hungary(BBB-) Finland (AAA) Italy (A) Montenegro (BB) Iceland (BBB-)

Estonia(A) Albania (B+) Malta (A) Hungary (BBB-) Georgia (B+)

Finland(AAA) Macedonia (BB) France (AAA) Spain (AA) Bosnia.Herzegovina (B+)

Portugal(BBB-) Russia (BBB) Czech.Republic (A) Sweden (AAA) Albania (B+)

Bulgaria(BBB) France (AAA) Estonia (A) Malta (A) Malta (A)

Bosnia.Herzegovina(B+) Denmark (AAA) Denmark (AAA) Croatia (BBB-) Croatia (BBB-)

Kazakhstan(BBB) Hungary (BBB-) Luxembourg (AAA) Germany (AAA) Bulgaria (BBB)

Denmark(AAA) Lithuania (BBB) United.Kingdom (AAA) Slovenia (AA) Slovenia (AA)

Sweden(AAA) Netherlands (AAA) Hungary (BBB-) Serbia (BB) Ireland (BBB+)

Ukraine(B+) Bulgaria (BBB) Austria (AAA) Switzerland (AAA) Macedonia (BB)

Georgia(B+) Serbia (BB) Serbia (BB) Latvia (BB+) Lithuania (BBB)

Albania(B+) Sweden (AAA) Belgium (AA+) Bulgaria (BBB) Estonia (A)

Russia(BBB) Montenegro (BB) Ireland (BBB+) Poland (A-) Latvia (BB+)

Turkey(BB) Spain (AA) Slovak.Republic (A+) Lithuania (BBB) Hungary (BBB-)

Romania(BB+) Ukraine (B+) Montenegro (BB) Estonia (A) Finland (AAA)

Latvia(BB+) Azerbaijan (BB+) Albania (B+) Ukraine (B+) Kazakhstan (BBB)

Italy(A) Kazakhstan (BBB) Germany (AAA) Czech.Republic (A) Luxembourg (AAA)

Iceland(BBB-) Georgia (B+) Poland (A-) Romania (BB+) Belgium (AA+)

Switzerland(AAA) Norway (AAA) Finland (AAA) Slovak.Republic (A+) Austria (AAA)

Greece(CC) Croatia (BBB-) Russia (BBB) Azerbaijan (BB+) Azerbaijan (BB+)

Germany(AAA) Latvia (BB+) Azerbaijan (BB+) Georgia (B+) Denmark (AAA)

Belarus(B) Greece (CC) Sweden (AAA) Albania (B+) Sweden (AAA)

Montenegro(BB) Romania (BB+) Ukraine (B+) Macedonia (BB) Netherlands (AAA)

Norway(AAA) Turkey (BB) Kazakhstan (BBB) Turkey (BB) Norway (AAA)

Azerbaijan(BB+) Ireland (BBB+) Georgia (B+) Russia (BBB) Russia (BBB)

Luxembourg(AAA) Belarus (B) Belarus (B) Belarus (B) Switzerland (AAA)

Ireland(BBB+) Iceland (BBB-) Turkey (BB) Kazakhstan (BBB) Germany (AAA)

4.1.2 Convex hull

O convex hull, ou P-Ordering, e um metodo de ordenacao multivariada e encontra o menor

conjunto de pontos que formam um conjunto convexo e contem todos os pontos presentes

no conjunto de dados inicial, a este conjunto chamamos o primeiro convex hull. Conhecido

o primeiro conjunto convexo e encontrado o segundo e assim sucessivamente ate todos os

objetos fazerem parte de um dos conjuntos convexos.

Quando o problema possui duas ou tres variaveis, este metodo proporciona uma ferramenta

de visualizacao muito poderosa. Nestes casos e possıvel visualizar os pontos que fazem parte

de cada um dos conjuntos convexos.

No nosso caso, dado que temos onze variaveis, a visualizacao dos conjuntos convexos e quase

impossıvel. Para que obtivessemos uma representacao grafica deste modelo selecionamos

duas variaveis que explicam cerca de 80 % da variabilidade dos dados. Sao elas: Produto

Interno Bruto Per Capita a Precos Correntes (NGDPDPC) e Inflacao a Precos Medios de

Consumo (PCPIPCH). Apos a criacao do programa no software R e da aplicacao dos dados,

obtivemos doze conjuntos convexos, quatro deles estao representado na Figura 4.1.

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

Primeiro Convex Hull

Produto Interno Bruto

Burkina.Faso(B)

Guinea(B+)

Latvia(BB)

Luxembourg(AAA)

Mozambique(B+)

Qatar(AA−)

Venezuela(BB−)

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

Quinto Convex Hull

Argentina(B−)

The.Bahamas(BBB+)Croatia(BBB)

Iceland(BBB−)

Lithuania(BBB)

Netherlands(AAA)

Papua.New.Guinea(B+)

Peru(BBB−)

Sweden(AAA)

Vietnam(BB)

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

Nono Convex Hull

Bahrain(A)

Botswana(A−)

France(AAA)

Greece(BB+)

Italy(A+)

Jordan(BB)Poland(A−)

Slovenia(AA)

Uruguay(BB−)

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05

Último Convex Hull

Produto Interno BrutoIn

flaçã

Korea(A)Mexico(BBB)Oman(A)

Figura 4.1: Quatro representacoes graficas do Convex Hull com duas variaveis

Como podemos constatar os paıses dentro de cada um dos convexos possuem classificacoes

bastante distintas. No entanto, em todos podemos encontrar paıses com classificacoes verdes

assim como vermelhas, o que e de esperar ja que cada novo convexo engloba todos os objetos

que ainda nao pertencem a um convexo e como ja verificamos na seccao anterior os paıses

que possuem um PIB elevado sao geralmente os mais bem classificados. Assim os paıses que

se encontram mais a direita do grafico (maior PIB), tem por norma uma boa classificacao.

De forma similar, os paıses mais a esquerda (menor PIB) possuem pior classificacao.

Seguidamente apresentamos, em forma de lista, os treze conjuntos convexos formados a partir

da aplicacao dos cento e quinze paıses e as onze variaveis:

1◦ Convex Hull - Paraguay (B+), India (BBB-), Burkina.Faso (B), Mozambique (B+),

Benin (B), Fiji (B-), Jamaica (B-), Greece (CC), Iceland (BBB-), Luxembourg (AAA),

Qatar(AA).

2◦ Convex Hull - China (AA-), Nigeria (B+), Bangladesh (BB-), Uganda (B+), Cameroon

(B), Bosnia.Herzegovina (B+), Romania (BB+), Norway (AAA), Singapore (AAA).

3◦ Convex Hull - Peru (BBB-), Ghana (B), Cambodia (B+), Senegal (B+), Pakistan

(B-), Honduras (B), El.Salvador (BB-), Grenada(B-), Venezuela (BB-), Ireland (BBB+),

United.Arab.Emirates (AA), Switzerland (AAA), Sweden (AAA), Taiwan.Province.of.China

(AA-).

4◦ Convex Hull - Sri.Lanka (B+), Papua.New.Guinea (B+), Vietnam (BB-), Kenya (B+),

Guatemala (BB), Serbia (BB), Bulgaria (BBB), Croatia (BBB-), Denmark (AAA), Australia

(AAA), Hong.Kong.SAR (AAA), Argentina (B+).

5◦ Convex Hull - Philippines (BB), Bolivia (B+), Macedonia (BB), Latvia (BB+), Spain

(AA), Netherlands (AAA), United.States (AA+), Japan (AA-), Uruguay (BB+), Turkey

6◦ Convex Hull - Mongolia (BB-), Morocco (BBB-), Jordan (BB), Trinidad.and.Tobago

(A), France (AAA), Austria (AAA), Canada (AAA), Finland (AAA), Brazil (BBB-), Thai-

land (BBB+).

7◦ Convex Hull - Georgia (B+), Egypt (BB), Ukraine (B+), Belize (B), Barbados (BBB-

), New.Zealand (AA+), Belgium (AA+), Germany (AAA), Korea (A), Panama (BBB-),

Belarus (B), Dominican.Republic (B+).

8◦ Convex Hull - Botswana (A-), Indonesia (BB+), Cape.Verde (B+), Albania (B+), Tu-

nisia (BBB-), Montenegro (BB), Lithuania (BBB), Hungary (BBB-), The.Bahamas (BBB+),

Cyprus (A-), Italy (A), United.Kingdom (AAA), Kuwait (AA), Israel (A), Kazakhstan

(BBB).

9◦ Convex Hull - Ecuador (B-), South.Africa (BBB+), Portugal (BBB-), Slovenia (AA),

Bahrain (BBB), Lebanon (B), Malaysia (A-).

10◦ Convex Hull - Azerbaijan (BB+), Colombia (BBB-), Estonia (A), Malta (A), Oman

(A), Chile (A+), Gabon (BB-).

11◦ Convex Hull - Suriname (B+), Czech.Republic (A), Saudi.Arabia (AA-), Mexico

(BBB).

12◦ Convex Hull - Poland (A-), Slovak.Republic (A+), Costa.Rica (BB).

13◦ Convex Hull - Russia (BBB).

A visualizacao grafica deste problema nao e possıvel, no entanto podemos fazer uma analise

semelhante ao caso das duas variaveis.

Em cada um dos convexos, a excecao do ultimo, podemos encontrar paıses bem classificados,

assim como paıses no vermelho. Podemos entao concluir que existem areas distintas para

paıses bem e mal classificados.

Para trabalho futuro indicamos a procura das condicoes e restricoes associadas as onze va-

riaveis para a classificacao de paıses de forma mais competente.

4.1.3 Clusters

Existe um largo espetro de tecnicas de clustering hierarquico. Estas podem ser divididas em

duas categorias: divisivas ou aglomerativas. Podem ainda considerar varias distancias, como

a Euclidiana ou de Manhattan. Contudo, a representacao hierarquica proveniente destes

procedimentos e geralmente expressa por um dendrograma.

Metodo Ward

O metodo escolhido para dividir em clusters os dados do problema em mao foi o metodo de

Ward pois foi o que se apresentou mais completo e a distancia escolhida foi a Euclidiana. O

numero de classes (seis) baseou-se no facto de estarmos a trabalhar com seis classes diferentes.

Assim criamos o dendrograma presente na Figura 4.2.

Dado que existem muitas observacoes nao e possıvel ver com clareza que paıses sao atribuıdos

a cada cluster apesar da linha a vermelho que nos indica a distancia a que os mesmos foram

separados.

A opcao encontrada para melhor visualizar os dados foi a criacao de seis histogramas que

representam o numero de paıses classificados nas diferentes classes. Apresentamos assim os

histogramas do cluster 2, cluster 3 e do cluster 4, Figura 4.3. Atraves dos clusters verifica-

se que existe uma clara separacao dos paıses com boa e ma classificacao, clusters 3 e 4,

respectivamente. Ja atraves do cluster 2 vemos que existem paıses classificados como BBB

e B que se encontram no mesmo grupo que os paıses com boas classificacao. Pode-se assim

concluir que estes paıses sao outliers.

Figura 4.2: Dendrograma obtido pelo metodo de Ward com distancia Euclidiana

AAA AA A BBB BB B

Cluster 2

Classificação

AAA AA A BBB BB B

Cluster 3

Classificação

AAA AA A BBB BB B

Cluster 4

Classificação

Figura 4.3: Representacao grafica do numero de paıses em tres dos seis clusters criados atraves

do Metodo de Ward com a distancia Euclidiana

K-Means

O K-Means e um metodo de clustering de particao e nao tem qualquer tipo de representacao

grafica pre-definida. Deste modo, foi adoptada a mesma visualizacao grafica que no metodo

anterior, criando seis histogramas que representam o numero de paıses classificados nas

diferentes classes, em cada cluster. Sao assim apresentados os histogramas do cluster 2,

cluster 4 e do cluster 5, Figura 4.4. Os paıses com classificacoes AAA ou AA encontram-se,

na sua grande maioria no cluster 4 da mesma forma os paıses classificados como BB ou B,

sao encontrados no cluster 5.

AAA AA A BBB BB B

Cluster 2

Classificação

AAA AA A BBB BB B

Cluster 4

Classificação

AAA AA A BBB BB B

Cluster 5

Classificação

Figura 4.4: Representacao grafica do numero de paıses em tres dos seis clusters criados atraves

do Metodo K-Means

4.2 Metodos de Classificacao

Nesta seccao apresentam-se os resultados obtidos aquando da aplicam dos metodos de clas-

sificacao ao conjunto de dados em estudo. Existem problemas a nıvel numerico que podem

ocorrer quando algumas classes nao tem observacoes suficientes. Assim, optou-se por agrupar

algumas classes e reduzir o numero de variaveis de dezassete para seis, Tabela 4.3.

Tabela 4.3: Numero de observacoes por classes agrupadas

Classes Classes Agru-

Numero de

Observacoes

Classes Classes Agru-

Numero de

Observacoes

AAA } AAA 15

BBB 22

Ainda de referir que para efeitos de validacao usamos a tecnica de cross validation que

explicaremos mais a frente.

4.2.1 K-NN

O metodo dos k -vizinhos mais proximos e um metodo de classificacao muito utilizado quando

existem poucas classes. Atraves deste metodo e possıvel classificar um novo objecto com base

na classificacao, ja atribuıda, dos vizinhos mais proximos. Apesar de este metodo ser de

simples implementacao, tal como o estudo dos resultados, existem algumas condicionantes,

pois o numero de vizinhos mais proximos, k, tem de ser escolhido previamente.

Para que fosse feita uma escolha bem estruturada do numero de vizinhos, k, a ter em con-

sideracao para classificar um elemento elaboramos, o grafico da Figura 4.5. Este grafico

apresenta o erro de classificacao quando sao considerados entre um a dez vizinhos (k).

●●

2 4 6 8 10

K−NN

Figura 4.5: Metodo K-NN

No caso em que o numero de vizinhos e um, podemos observar que o metodo classifica

todos os elementos de forma correta. Este resultado que parece ser indicador de um sobre-

ajustamento, (overfitting, em ingles), criando um modelo que classifica os dados (de treino)

100% corretamente.

Na seccao da validacao apresentamos os resultados associado a este metodos, onde os erros de

classificacao em cada uma das amostragens e estudada e comparada com os outros metodos

de classificacao.

4.2.2 Analise Discriminante

A Analise Discriminante Linear e a Quadratica foram os dois metodos de Analise Discrimi-

nante aplicados aos dados do problema. No caso Linear, o modelo assume que as matrizes

de covariancias entre as diferentes classes sao similares. Existe no entanto a possibilidade

de aplicar o metodo mesmo que as covariancias sejam distintas. Foi o que aconteceu neste

problema, onde apesar de as matrizes de covariancia nao serem identicas nao eram muito

distintas. Ao assumir que as covariancias seriam igual criamos um modelo que foi testado e

validado atraves da tecnica cross validation.

A Analise Discriminante Quadratica, que nao assume a igualdade entre matrizes de covari-

ancias, foi igualmente aplicada aos dados do problema. Esta tecnica, apesar de em teoria ser

mais adequada para os nossos dados torna-se insustentavel pois temos demasiadas categorias

para poucas observacoes. Assim, ao dividir os dados em conjunto de treino e teste o numero

de observacoes presentes em cada classe diminui para um numero muito pequeno (classes

com seis ou menos observacoes) tornando impossıvel a aplicacao deste modelo. Foi apenas

possıvel criar um modelo baseado nos dados originais.

4.2.3 Regressao Logıstica

A Regressao Logıstica e usualmente associada a um problema com duas classes. No entanto,

existem metodos de regressao logıstica que nao so sao capazes de resolver problemas com mais

de duas variaveis como conseguem, se for o caso, incorporar a ordem das classes - regressao

logıstica ordinal. Para o nosso problema esta e uma ferramenta util pois sabemos que as

classificacoes tem uma ordem associada. Existe tambem o metodo de regressao logıstica que

considera mais que uma classe nominal - Modelo de Regressao Logıstica Politomica.

Ambos os metodos foram considerados e estudados, no entanto, apresentamos apenas os

resultados da regressao logıstica ordinal pois e o modelo mais apropriado aos nossos dados e

alem de que revela melhores resultados que a regressao logıstica nominal.

O comando polr do software R proporciona-nos um output rapido e eficiente do nosso metodo

de regressao logıstica ordinal. Dois modelos foram testados, o primeiro (Modelo F, Tabela

4.4) teve em consideracao todas as variaveis associada ao problema. O segundo modelo

(Modelo G, Tabela 4.5) foi encontrado atraves do metodo de seleccao stepwise. Este metodo

de selecao caracteriza-se por criar modelos adicionando ou eliminando variaveis consoante

sejam mais ou menos ”importantes”, respectivamente. Em cada novo modelo criado e cal-

culado o criterio de selecao AIC (Akaike’s Information Criterion) e e selecionado o modelo

que apresenta menor AIC.

Tabela 4.4: Coeficientes do Modelo F

Variavel Coeficiente

NGDP RPCH -0.0082

NGDPDPC -0.0002

NID NGDP 0.0107

NGSD NGDP -0.0938

PCPIPCH 0.0932

TM RPCH -0.0232

TX RPCH 0.0130

GGR NGDP 0.0745

GGX NGDP -0.0990

GGXWDG NGDP 0.0153

BCA -0.0043

Intercept Coeficiente

AAA|AA -10.05

AA|A -7.45

A|BBB -5.59

BBB|BB -3.62

BB|B -2.12

Tabela 4.5: Coeficientes do Modelo G

Variavel Coeficiente

NGDPDPC -0.0002

NGSD NGDP -0.0784

PCPIPCH - 0.0760

GGXWDG NGDP 0.0108

Intercept Coeficiente

AAA|AA -8.93

AA|A -6.35

A|BBB -4.51

BBB|BB -2.64

BB|B -1.25

Tabela 4.6: Medidas de seleccao dos Modelos F e G

Deviance AIC

Modelo F 249.4588 281.4588

Modelo G 255.3707 273.3707

Como seria de esperar, o criterio AIC e menor no Modelo G. Este facto e importante para a

selecao do melhor modelo possıvel. Neste caso indica-nos que as variaveis mais “importantes”

sao: PIB Per Capita, Poupanca Nacional Bruta, Inflacao e Dıvida.

4.3 Validacao

Dividindo os dados em conjunto de teste e treino, foi possıvel a criacao de cada um dos

metodos usando o conjunto de treino e testa-lo atraves do conjunto de teste. Para uma

maior abrangencia usaram-se quatro separacoes diferentes.

O nosso primeiro conjunto de treino e constituıdo por 100% dos dados sendo o conjunto

de teste igualmente a amostra inicial completa. Seguidamente separamos os dados atraves

de uma amostragem estratificada, ou seja, em vez de dividir os dados de forma completa-

mente aleatoria, dividimos os dados com base nas suas classes. Foi entao possıvel obter uma

amostragem onde existe a mesma percentagem de objetos de cada classe.

O conjunto de treino e teste dividem-se em 90% vs 10%, 75% vs 25% e 50% vs 50%, respecti-

vamente. De referir ainda que os conjuntos de treino e teste, consoante as percentagens, sao

sempre os mesmos. Conseguimos desta forma comparar, entre os varios metodos, a proba-

bilidade estimada de bem classificar, ja que os mesmos dados foram usados nos teste. Estes

conjuntos foram gerados recorrendo ao comando sample presente no software R 4.7.

Tabela 4.7: Resultados de Cross validation

100% 90% - 10% 75% - 25% 50% - 50%

K-NN 0.64 0.33 0.36 0.35

LDA 0.55 0.25 0.36 0.38

QDA 0.91 - - -

Logıstica Ordinal 0.58 0.25 0.21 -

Logıstica Ordinal c/ stepwise 0.56 0.5 0.29 0.52

RandomForest 1 0.5 0.39 0.46

Como podemos verificar na Tabela 4.7, de entre os varios metodos apresentados, o que obtem

maior probabilidade estimada de bem classificar as observacoes usando como conjunto de

teste, o conjunto de teste, e o metodo RandomForest. O overfittig e uma das explicacoes

mais razoaveis para que a estimativa da probabilidade de bem classificar seja 1. Explicacao

essa, que e apoiada pelos resultados seguintes quando, ao considerar o conjunto de treino

90% dos dados iniciais, a probabilidade estimada de bem classificar diminui para 0,5.

Apesar de a estimativa da probabilidade de bem classificar um novo objecto diminuir para

metade, o metodo RandomForest continua a ser o melhor em termos de erro de ma classifi-

cacao quando usamos 90% e 75% dos dados iniciais como conjunto de treino.

O metodo Logıstica Ordinal c/ stepwise pode ser considerado o segundo melhor a ser aplicado

a este problema. Como podemos verificar este metodo distingue-se quando a amostragem

e mais reduzida sendo o melhor metodo de classificacao quando o conjunto de treino e

representado por metade dos dados originais.

Ainda de referir que dois dos metodos apresentado (QDA e Logıstica Ordinal) nao apresen-

tam valores em alguns dos casos. Este facto deve-se a reduzida quantidade de amostras no

conjunto de treino, para algumas variaveis. Assim nao foi possıvel calcular, computacional-

mente, a probabilidade estimada de bem classificar.

Capıtulo 5

Conclusao

Com a elaboracao deste trabalho conseguimos entender melhor o conceito de Credit Rating

e mais especificamente, o de Sovereign Credit Rating. Em ambos os casos, sao medidas de

classificacao de extrema importancia no mundo financeiro. A classificacao e atribuıda por

agencias de notacao financeira que tiram partido dos metodos estatısticos assim como de

outros factores, nomeadamente polıtico-sociais.

Entender como podera ser efetuada a classificacao dos paıses, em termos de qualidade de

credito, foi o objectivo deste trabalho. Para isso, aplicaram-se varios metodos de estatıstica

multivariada a um conjunto de dados fornecidos pelo Fundo Monetario Internacional, mas

nem todos com sucesso, quando comparados os resultados com os das agencias de rating.

Inicialmente o estudo do problema incidiu sobre os metodos de ordenacao e agrupamento,

portanto uma perspectiva nao supervionada para a analise do problema. Ou seja, a clas-

sificacao dos paıses foi realizada de maneira automatica, sem considerar previamente as

caracterısticas dos paıses para direcionar a classificacao. Atraves dos metodos de ordenacao

e agrupamento pouco ou nada e possıvel concluir sobre os modelos utilizados pelas agencias

de notacao financeira para classificar paıses. As conclusoes retiradas pelos metodos aplicados

aos dados dos problemas levam a crer que grande parte da decisao sobre a avaliacao a atri-

buir nao se baseia apenas nos valores financeiros quantitativos de cada entidade soberana.

Quando se aplicou a ordenacao reduzida usando a distancia de Mahalanobis aos dados par-

ticionados por classes, consegue-se perceber que existe uma grande variabilidade nos paıses

classificados como AAA. Sendo esta categoria a mais importante seria expectavel encontrar

um grupo restrito com pouca variabilidade, o que nao acontece na realidade.

Numa perspectiva supervisionada, i.e., usando o conhecimento da avaliacao de cada paıs,

usaram-se, entre outros metodos de classificacao, a regressao logıstica e as arvores de decisao.

Foram estes ultimos modelo de classificacao que tiveram melhor desempenho. A aplicacao

de metodos de classificacao tornou-se essencial para apreender se os paıses com a mesma

classificacao possuem, ou nao, as mesmas caracterısticas. Ao contrario do que seria de

esperar, existem paıses que estao muito bem classificados mas que possuem caracterısticas

similares a paıses com classificacoes menos boas.

Apesar de terem sido estudados diversos modelos para a atribuicao de um valor a qualidade

de credito de um paıs, ainda ha trabalho que pode ser realizado. Metodos como Multidimen-

sional Scaling, Correspondence Analysis ou Detrended Correspondence Analysis poderao ser

aplicados a este problema. A inclusao de variaveis que reflitam o estado polıtico das entidades

soberanas e tambem um fator a ter em consideracao em trabalho futuro.

Apendice A

Apendice

Tabela A.1: Tabela de ordenacao com posicao de cada paıs - America

Metodo1 Metodo3.5 Metodo4.5 Metodo7 Metodo8

[BBB-]Colombia [BBB-]Colombia [BBB+]Bahamas [BBB-]Barbados [AA+]United.States

[BBB]Mexico [AAA]Canada [BB-]El.Salvador [AA+]United.States [AAA]Canada

[B+]Suriname [B-]Ecuador [B-]Grenada [B-]Jamaica [BBB-]Brazil

[B]Honduras [BBB]Mexico [B]Belize [AAA]Canada [BBB-]Colombia

[B-]Ecuador [B]Honduras [BB]Guatemala [B-]Grenada [B+]Dominican.Republic

[AAA]Canada [B+]Bolivia [BBB-]Barbados [A]Trinidad.and.Tobago [BBB-]Panama

[BB+]Uruguay [AA+]United.States [B]Honduras [B]Belize [BBB]Mexico

[B]Belize [B]Belize [BBB-]Colombia [BB-]Venezuela [BBB-]Peru

[BBB-]Peru [BB]Costa.Rica [AA+]United.States [BBB+]Bahamas [B-]Ecuador

[BB-]El.Salvador [A+]Chile [AAA]Canada [B+]Bolivia [B-]Grenada

[B+]Bolivia [B+]Suriname [B-]Ecuador [BB-]El.Salvador [B-]Jamaica

[BB]Costa.Rica [BB]Guatemala [B+]Bolivia [B]Honduras [BBB-]Barbados

[BBB-]Barbados [BB-]El.Salvador [BB]Costa.Rica [B-]Ecuador [BBB+]Bahamas

[A+]Chile [BBB-]Barbados [A+]Chile [BBB-]Brazil [B]Honduras

[BB]Guatemala [BBB+]Bahamas [BBB]Mexico [BBB-]Colombia [BB]Costa.Rica

[B+]Dominican.Republic [BBB-]Brazil [B+]Suriname [BB+]Uruguay [BB-]El.Salvador

[BBB+]Bahamas [BBB-]Panama [B-]Jamaica [B+]Suriname [BB]Guatemala

[BBB-]Brazil [BBB-]Peru [A]Trinidad.and.Tobago [BB]Guatemala [BB+]Uruguay

[B+]Argentina [B+]Dominican.Republic [BBB-]Panama [BBB-]Panama [B+]Paraguay

[BBB-]Panama [B-]Grenada [BBB-]Peru [B+]Argentina [B]Belize

[B-]Grenada [BB+]Uruguay [BBB-]Brazil [BBB]Mexico [B+]Suriname

[B+]Paraguay [A]Trinidad.and.Tobago [B+]Dominican.Republic [B+]Dominican.Republic [B+]Bolivia

[B-]Jamaica [B+]Argentina [BB+]Uruguay [A+]Chile [B+]Argentina

[A]Trinidad.and.Tobago [B-]Jamaica [B+]Argentina [BB]Costa.Rica [A+]Chile

[BB-]Venezuela [B+]Paraguay [B+]Paraguay [BBB-]Peru [A]Trinidad.and.Tobago

[AA+]United.States [BB-]Venezuela [BB-]Venezuela [B+]Paraguay [BB-]Venezuela

Tabela A.2: Tabela de ordenacao com posicao de cada paıs - Oceania

[AA+][AA+]New.Zealand [AAA]Australia [AA+]New.Zealand [AA+]New.Zealand [AAA]Australia

[B-]B-Fiji [AA+]New.Zealand [B-]Fiji [AAA]Australia [AA+]New.Zealand

[AAA]AAAAustralia [B-]Fiji [AAA]Australia [B-]Fiji [B+]Papua.New.Guinea

[B+]B+Papua.New.Guinea [B+]Papua.New.Guinea [B+]Papua.New.Guinea [B+]Papua.New.Guinea [B-]Fiji

Tabela A.3: Tabela de ordenacao com posicao de cada paıs - Asia

[BB]Jordan [BB]Jordan [AA]United.Arab.Emirates [AA-]Japan [BBB-]India

[A]Israel [A]Oman [BB]Jordan [A]Israel [B-]Pakistan

[BBB+]Thailand [BBB]Bahrain [A]Oman [AA]Kuwait [B]Lebanon

[A]Korea [A]Korea [BBB]Bahrain [AA]United.Arab.Emirates [BB-]Vietnam

[BB]Philippines [A]Israel [AA-]Japan [AA-]Saudi.Arabia [BB]Jordan

[BBB]Bahrain [AAA]Hong.Kong.SAR [A]Korea [BB]Jordan [B+]Cambodia

[AAA]Hong.Kong.SAR [AA-]Saudi.Arabia [BB+]Indonesia [B]Lebanon [BB-]Mongolia

[BB-]Bangladesh [BB+]Indonesia [A]Israel [A]Oman [BBB]Bahrain

[A]Oman [B+]Cambodia [AAA]Hong.Kong.SAR [BBB]Bahrain [BB-]Bangladesh

[A-]Malaysia [BBB+]Thailand [AA]Kuwait [B-]Pakistan [A]Oman

[B+]Cambodia [AA-]Japan [B+]Cambodia [A-]Malaysia [A]Israel

[AA-]Taiwan.Province.of.China [BB]Philippines [AA-]Saudi.Arabia [B+]Cambodia [BB+]Indonesia

[BB-]Vietnam [A-]Malaysia [A-]Malaysia [AAA]Hong.Kong.SAR [BB]Philippines

[B-]Pakistan [BB-]Bangladesh [B-]Pakistan [BB-]Vietnam [AA]United.Arab.Emirates

[AA-]Saudi.Arabia [AA]United.Arab.Emirates [BB-]Bangladesh [A]Korea [AAA]Hong.Kong.SAR

[BB+]Indonesia [B]Lebanon [BBB+]Thailand [BB-]Mongolia [BBB+]Thailand

[BBB-]India [B-]Pakistan [BB]Philippines [BBB+]Thailand [A-]Malaysia

[B]Lebanon [AA]Kuwait [B]Lebanon [BB]Philippines [A]Korea

[AA]United.Arab.Emirates [BB-]Vietnam [BB-]Vietnam [AAA]Singapore [AA]Qatar

[AAA]Singapore [AA-]Taiwan.Province.of.China [AA-]Taiwan.Province.of.China [AA]Qatar [AA]Kuwait

[BB-]Mongolia [AA-]China [AA-]China [BB-]Bangladesh [AA-]Taiwan.Province.of.China

[AA]Qatar [BB-]Mongolia [BB-]Mongolia [AA-]Taiwan.Province.of.China [AAA]Singapore

[AA-]China [BBB-]India [BBB-]India [BBB-]India [AA-]Saudi.Arabia

[AA]Kuwait [AAA]Singapore [AAA]Singapore [BB+]Indonesia [AA-]Japan

[AA-]Japan [AA]Qatar [AA]Qatar [AA-]China [AA-]China

Tabela A.4: Tabela de ordenacao com posicao de cada paıs - Africa

[BBB+]South.Africa [BBB+]South.Africa [B]Cameroon [B]Benin [BBB+]South.Africa

[B+]Kenya [BBB-]Tunisia [B]Benin [BB]Egypt [BB]Egypt

[BBB-]Tunisia [B]Cameroon [BBB+]South.Africa [BBB+]South.Africa [BBB-]Morocco

[B+]Sri.Lanka [B+]Kenya [BBB-]Tunisia [B+]Mozambique [B+]Kenya

[BB-]Gabon [B]Benin [B+]Senegal [BBB-]Tunisia [B]Ghana

[B+]Senegal [B+]Senegal [BBB-]Morocco [B+]Cape.Verde [BBB-]Tunisia

[A-]Botswana [BB-]Gabon [BB-]Gabon [B+]Kenya [B+]Uganda

[B]Cameroon [BBB-]Morocco [B+]Kenya [B]Cameroon [B+]Mozambique

[B+]Uganda [B+]Sri.Lanka [B+]Cape.Verde [B+]Senegal [B]Benin

[BBB-]Morocco [B+]Cape.Verde [B+]Uganda [BBB-]Morocco [B]Cameroon

[BB]Egypt [A-]Botswana [B]Burkina.Faso [A-]Botswana [A-]Botswana

[B]Benin [B+]Uganda [B+]Sri.Lanka [B+]Uganda [B+]Senegal

[B+]Cape.Verde [BB]Egypt [A-]Botswana [BB-]Gabon [B+]Sri.Lanka

[B+]Mozambique [B]Burkina.Faso [BB]Egypt [B+]Nigeria [B]Burkina.Faso

[B+]Nigeria [B]Ghana [B]Ghana [B+]Sri.Lanka [B+]Cape.Verde

[B]Ghana [B+]Nigeria [B+]Mozambique [B]Ghana [BB-]Gabon

[B]Burkina.Faso [B+]Mozambique [B+]Nigeria [B]Burkina.Faso [B+]Nigeria

Bibliografia

Barnett, V. (1976). The ordering of multivariate data. Journal of the Royal Statistical Society

A 139, 319–354.

Barrera, J. L., Plataniotis, K. N. and Venetsanopoulos, A. N. (2002). Qca implementation of

a multichannel filter for image processing. Mathematical Problems in Engineering , 87–99.

Branco, J. (2004). Uma introducao a analise de clusters. Sociedade Portuguesa de Estatıstica.

Cantor, R. and Packer, F. (1996). Determinants and impact of sovereign credit ratings.

Economic Policy Review 2.

Gates, G. W. (1972). The reduced nearest neighbor rule. IEEE Trans. Inform. Theory IT-

18, 431–433.

Han, J. and Kamber, M. (2006). Data Mining: Concepts and Techniques (1 ed.). Morgan

Kaufmann Publishers.

Hand, D. J., Mannila, H. and Smyth, P. (2001). Principles of Data Mining (1 ed.). U.S.A.:

The MIT Press.

Hart, P. E. (1968). The condensed nearest neighbor rule. IEEE Trans. Inform. Theory IT-

14, 515–516.

Johnson, R. A. and Wichern, D. W. (2007). Applied Multivariate Statistical Analysis. Pearson

Prentice Hall.

Kendall, M. G. (1966). Discrimination and classification. Krishnaiah Its , 165–184.

Kutner, M. H., Nachtsheim, C. J., Neter, J. and Li, W. (2005). Applied Linear Statistical

Models (5 ed.). McGraw.Hill Irwin.

Liaw, A. and Wiener, M. (2002). Classi

cation and regression by randomforest. R News 2/3, 18–22.

Mahalanobis, P. C. (1936). On the generalized distance in statistics. Proceedings of the

National Institute of Sciences of India 12, 49–55.

Mises, L. v. (2010). The Theory of Money and Credit. U.S.A.: Pacific Publishing Studio.

Norman, J. M. (1972). Heuristic Procedure in Dynamic Progrmaming. U.K.: Manchester

University Press.

Pitas, I. and Tsakalides, P. (1991). Multivariate ordering in color image filtering. IEEE

Trans. Technology , 247–296.

Quinlan, J. R. (1986). Induction of decision trees. Mach. Learn 1, 81–106.

Rokach, L. and Maimon, O. (2008). Data Mining with Decision Trees - Theory and Appli-

cations. World Scienti

c Publishing.

Notação de risco Apenas uma questão de ordenação multivariada? · Notação de risco Apenas...

Documents

Notação Musical

NOTAÇÃO CIENTÍFICA.pptx

ANALISE ´ ESTATISTICA MULTIVARIADA · Analise Estat´ ´ıstica Multivariada Analise de Vari´ ância Multivariada (MANOVA) Parte 1: Comparações emparelhadas Equivalentemente,

03 notação científica

A Distribuição Normal Multivariada - Unicampcnaber/aula_DNM_Ana_Multi_2S_2017.pdf · A Distribui˘c~ao Normal Multivariada. Distribui˘c~ao Normal multivariada Dizemos que Y = (Y

Estadistica Multivariada

Calibração multivariada 2

Notação Vetorial

ANALISE ´ ESTATISTICA MULTIVARIADA - im.ufrj.brim.ufrj.br/ralph/multivariada/aula_07.pdf · Analise Estat´ ´ıstica Multivariada Analise Fatorial´ Introduc¸˜ao O proposito fundamental

Geoestatistica multivariada

Algoritmos de ordenação Ordenação em tempo linear

Resumo Notação Final

ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS …ufrrj.br/institutos/it/deng/varella/Downloads/multivariada aplicada... · estatística multivariada que estuda a separação de objetos

Gradiente e regressão multivariada - w3.ualg.ptw3.ualg.pt/~jvo/ufc-ml-2013/mlufc2013t4.pdf · 9 Notação: = nº de características = entrada (característica) do conjunto de treino

Processamento Coseqüencial e ordenação de arquivos grandes Ordenação Externa

Estatística multivariada

multivariada - ufla

APLICAÇÃO DE ANÁLISE ESTATÍSTICA MULTIVARIADA NO …...análise multivariada, por exemplo, análise exploratória de dados e calibração multivariada, podem ser usados para obter

10 -Geoestadística Multivariada

NOTAÇÃO CIENTÌFICA.pdf