Correlação Ordinal Pearson Prof. Ivan Balducci FOSJC / Unesp

Preview:

Citation preview

Correlação Ordinal Correlação Ordinal PearsonPearson

Prof. Ivan Balducci

FOSJC / Unesp

Idéias importantes na pesquisa:

VARIÁVELRELAÇÃO

A Estatística preocupa-se com a relação entre as

variáveis

CorrelaçãoO que se pode dizer sobre a intensidade do

relacionamento entre x e y ?

A magnitude refere-se à força de associação entre x e y. Por exemplo:

Correlação Interpretação

r = 0.00 Não há relacionamento entre x e y

r = 0.20 Baixo relacionamento entre x e y

r = 0.40 Moderado relacianamento entre x e y

r = 0.70 Alto relacionamento entre x e y

r = 1.00 Perfeita correspondência entre x e y

Revisão: Pearson

Y

X

Coeficiente de correlação de Pearson não deve ser usado quando o relacionamento entre X e Y é não-linear

Antes de calcular o coeficiente de correlaçãoDeve-se observar o diagrama de dispersão para verificar se o

relacionamento é linear

Relacionamento

Forte Fraco

. .. .

.. . .

..

.

.

.

.

.

.

Pearson

Y

X

Nenhum RelacionamentoPearson

Correlação Positiva Linear

x x

yy y

x(a) Positiva (b) Forte

positiva(c) Perfeita positiva

Pearson

Correlação Negativa Linear

x x

yy y

x(d) Negative (e) Strong

negative(f) Perfect

negative

Pearson

Correlação Não Linear

x x

yy

(g) Nenhuma Correlação (h) Correlação Não linear

Pearson

nxy – (x)(y)

n(x2) – (x)2 n(y2) – (y)2r =

•Calculadoras Científicas (estatística)

podem calcular r

Fórmula do Coeficiente de Correlação Linear para dados não “rankeados”

Pearson

Correlação não é Causa

O simples fato que duas variáveis se correlacionam não significa que uma seja a causa da outra.

A correlação entre a proporção de Crimes e o número de Igrejas na cidade é

r = +0.89

Significa, então, que quanto mais igrejas teremos mais crimes?

CORRELAÇÃO NÃO É CAUSA

Correlação ordinal de Pearson medida de associação

É para dados em posição

Valor entre –1.00 e +1.00

nxy – (x)(y)

n(x2) – (x)2 n(y2) – (y)2r =

•Calculadoras Científicas (estatística)

podem calcular rs

se entrarmos com os dados “rankeados”

Fórmula do Coeficiente de Correlação Linear para dados “rankeados”

Pearson

Fórmula simplificada para o cálculo de r

)1N(N

D61r

2

2

Onde… r é o coeficiente de correlação

D é a diferença entre posições de valores correspondentes de X e Y

N é o número de pares dos valores dados

indica a soma de todos os pares de valores dados

• A fórmula simplificada (aproximada) foi desenvolvida por Spearman em 1906. Ela é igual a equação de Pearson para dados rankeados, quando não houver empates

nxy – (x)(y)

n(x2) – (x)2 n(y2) – (y)2r =

Fórmula de Pearson

Valores de r próximos de -1 ou 1 indicam uma forte associação linear

e valores próximos de 0 indicam uma falta de associação

linear.

Interpretação de r

)1N(N

D61r

2

2

Fórmula aproximada para o cálculo de r (quando houver empates)

Fórmula exata para o cálculo de r (quando não houver empates)

Exemplo: Dados Sem transformação

Suponha que tenhamos as medições médias da Largura e Profundidade

de um rio em 10 posições ao longo de seu curso

Queremos saber se as duas variáveis estão correlacionadas

X: Largura (Width) Y: Profundidade (Depth)

11 1.1

9 1.3

15 1.2

12 1.0

10 1.4

8 0.9

16 1.4

13 1.3

20 1.5

11 0.8

Exemplo: Dados Sem transformação

10(153,10) – (125)(11.90)

10(1681)–(125)2 10(14,65) – (11,90)2r =

nxy – (x)(y)

n(x2) – (x)2 n(y2) – (y)2r =

r = 0,571 … dados originais

Fórmula de Pearson

Pearson

Exemplo: dados agora ordenados.

Suponha que tenhamos as medições médias da Width e Depth de um

rio em 10 posições ao longo de seu curso

Queremos saber se as duas variáveis estão correlacionadas

X: Largura (Width) Y: Profundidade (Depth)

11 4.5º 1.1 4º

9 2º 1.3 6.5º

15 8º 1.2 5º

12 6º 1.0 3º

10 3º 1.4 8º

8 1º 0.9 2º

16 9º 1.4 9º

13 7º 1.3 6.5º

20 10º 1.5 10º

11 4.5º 0.8 1º

Empate. Exº: para a largura, 11 m ocupa a posição 4ª e 5ª, assim cada valor recebe o rank de (4+5)/2 = 4.5

nxy – (x)(y)

n(x2) – (x)2 n(y2) – (y)2r =

Dados em rank

r = 0,530 … dados ordenados (“rankeados”)

10(346) – (55)(55)

10(384,5)–(55)2 10(384,5)–()2r = = r = 0,530

Pearson

Exemplo: Uso da fórmula simplificada

Suponha que tenhamos as medições médias da Largura e Profundidade

de um rio em 10 posições ao longo de seu curso

Queremos saber se as duas variáveis estão correlacionadas

Width Rank Depth Rank D D2

*11 m 4.5 1.1 m 4 0.5 0.25 9 2 *1.3 6.5 4.5 20.25 15 8 1.2 5 3 9 12 6 1.0 3 3 9 10 3 1.4 8 5 25 8 1 0.9 2 1 1 16 9 1.4 9 0 0

13 7 *1.3 6.5 0.5 0.25

20 10 1.5 10 0 0

*11 4.5 0.8 110 3.5.5.5 12.25 12.25

)1N(N

D61r

2

2

* empate

Width Rank Depth Rank D D2

11 m 4.5 1.1 m 4 0.5 0.25 9 2 1.3 6.5 4.5 20.25 15 8 1.2 5 3 9 12 6 1.0 3 3 9 10 3 1.4 8 5 25 8 1 0.9 2 1 1 16 9 1.5 9 0 0 13 7 1.3 6.5 0.5 0.25 20 10 1.6 10 0 0

11 4.5 0.8 1 3.5 12.25.5 12.25

Quando houver dados iguais, então, recebem a mesma posição (média dos ranks para os dois valores)

Exº.: Para a largura, 11 m ocupa a posição 4ª e 5ª, assim cada valor recebe o rank de (4+5)/2 = 4.5

)1N(N

D61r

2

2

Os dados são classificados (rankeados) do menor (1) ao maior (10)

Width Rank Depth Rank D D2

11 m 4.5 1.1 m 4 0.5 0.25 9 2 1.3 6.5 4.5 20.25 15 8 1.2 5 3 9 12 6 1.0 3 3 9 10 3 1.4 8 5 25 8 1 0.9 2 1 1 16 9 1.5 9 0 0 13 7 1.3 6.5 0.5 0.25 20 10 1.6 10 0 0

11 4.5 0.8 1 3.5 12.25

Calculamos a diferença (D) e (D2) entre os ranks para cada par

Aplicamos a fórmula simplificada (N=10)

534.0990

4621

)1100(10

77 x 61

r

)1N(N

D61r

2

2

= 77

Positivo e moderado

)1N(N

D61r

2

2

534.0

990

4621

)1100(10

77 x 61

r

nxy – (x)(y)

n(x2) – (x)2 n(y2) – (y)2r =

r = 0,530

Na presença de empates diferem os resultados

=

nxy – (x)(y)

n(x2) – (x)2 n(y2) – (y)2r =

r = 0,571

=Dados em rank

Dados originais

Fórmula de Spearman

Pearson

Pearson

Spearman

Quanto maior o nº de empates maior o desacordo

Exemplo SEM empates. Competição. Dados ordenados.

Fotografias Fotógrafo Fotógrafo Produto Somas

Nº da foto João (X) Pedro (Y) XY

1 2 4 8 XY = 189

2 5 3 15 x = 36

3 3 2 6 y = 36

4 6 6 36 y2 = 204

5 1 1 1 x2 = 204

6 4 8 32 N = 8

7 7 5 35

8 8 7 56

8(189) – (36)(36)

8() – ()2 8() – ()2r = = 216/335,99 0,6428=

Pearson

Exemplo. Competição: dados ordenados SEM empates

Fotografias Fotógrafo Fotógrafo Diferença (Diferença)2

João (X) Pedro (Y) d d2

1 2 4 2 4

2 5 3 2 4

3 3 2 1 1

4 6 6 0 0

5 1 1 0 0

6 4 8 4 16

7 7 5 2 4

8 8 7 1 1

)1N(N

D61r

2

2

6428.0

504

1801

)164(8

30 x 61

r

Spearman

OBSERVAÇÕES SOBRE

O USO DA FÓRMULA SIMPLIFICADA

)1N(N

D61r

2

2

Fórmula desenvolvida por Spearman em 1906

para facilitar as contas da fórmula de Pearson

Dennis Roberts and R. Kunst. “A case against the continuing use of the Spearman rank-order correlation formula”. Psychological

Reports, 66, pp. 339-349 (1990)

The use of the Spearman rank-order correlation should stop...

Spearman’s original formula is only exact where there are no

tied values on the original X and Y variables. In this case, and

only in this case, is the Spearman formula equivalent to the

Pearson formula on the same ranked scores. Of course, there

are formulas in the literature that correct this problem and

provide a correlation value on the ranks as if there were no ties.

Lost in this shuffle however, is the fact

that if these correction formulas are used, then the result is

not a Spearman rank-order correlation value anymore,

but rather, the Pearson correlation on the ranks.

Unfortunately, the common jargon in this case is to (still) say

that we have a Spearman rank-order correlation, corrected

for tied ranks.

However this terminology is incorrect.

Of course, the most direct way to have solved this problem would

have been to use the Pearson formula on the ranks in the first place

(never using the term “Spearman”) and not attempting to modify in

some way the original Spearman formula.

In this context, Spearman formula is merely a short-cut expedient to

what used to be a more cumbersome way to calculate correlations on

ranks with the Pearson formula. However, the rationale for providing a

short-cut expedient that was legitimately relevant in earlier times no

longer has any validity...

Dennis M. Roberts: A Note on the Continuing Use of the Spearman Rank-Order Correlation.

The Pennsylvania State University. Febr 1991.

Correlação ordinal de Pearson

Termos que devem ser familiares

Empates

Correlação ordinal Spearman