Upload
internet
View
117
Download
0
Embed Size (px)
Citation preview
1/39
Modelagem Estatística
Associação e Correlação
2/39
Dados Categorizados
Sexo: Masculino, Feminino
Estação: Verão, Outono, Inverno, Primavera
Calvície: Calvo, Não calvo
Personalidade: Pessimista, Otimista
Humor: Sorridente, Sério
3/39
Associação
Um dos objetivos mais comuns em pesquisas com dados categorizados é verificar se duas ou mais variáveis apresentam-se associadas.
A associação entre duas ou mais variáveis implica que o conhecimento de uma altera a probabilidade de algum resultado da outra.
4/39
Associação
Por exemplo, se uma pessoa é calva, sabemos que, provavelmente, esta pessoa é um homem. Assim, as variáveis sexo e calvície encontram-se associadas.
5/39
Mulheres Sorriem Mais
“Esta é a conclusão de um trabalho acadêmico de uma psicóloga de São Paulo. A constatação saiu da comparação de 623 fotografias coletadas junto a amigos e familiares da pesquisadora. Nas fotos, mulheres de diferentes faixas de idade apareciam sorrindo mais do que os homens...”
Super Interessante, setembro de 1994.
6/39
Pessimismo Deixa Careca
“Uma empresa japonesa de cosméticos constatou que homens pessimistas têm cabelos mais fracos e tendem a ficar carecas. Foram entrevistados 733 homens entre 15 e 59 anos de idade em Tóquio. Resultado: 51% dos que se consideravam pessimistas disseram que seus cabelos estavam ficando fracos, enquanto 47% dos otimistas percebiam algum sinal de calvície.
Super Interessante, setembro de 1994.
7/39
Associação e Relação Causal
O fato de duas variáveis estarem associadas não implica que uma delas seja a causa da outra. Pode existir outra(s) variável(is) influenciando as duas.
8/39
Teste Qui-quadrado
Testa a significância da associação entre duas variáveis categorizadas.
Exemplo: Personalidade X tendência à calvície.
9/39
Teste Qui-quadradoHipóteses
Ho: Personalidade e calvície são variáveis independentes na população em estudo.
H1: Existe associação entre as variáveis personalidade e calvície, na população em estudo.
10/39
Teste Qui-quadrado
Persona- Calvícielidade Careca Cabeludo TotalOtimista 155
47%17553%
330100%
Pessimista 20651%
19749%
403100%
Total 36149%
37251%
733100%
Dados:
11/39
Teste Qui-quadrado
Estatística do Teste:
O - valores observados.
E - valores esperados sob a hi- pótese de independência entre as variáveis.
Eij =(total da linha i) (total da coluna j)
(total geral)
2 =(Oij - Eij )2
Eij
i j
12/39
Exemplo
Persona- Calvícielidade Careca Cabeludo TotalOtimista 162,5
49%167,551%
330100%
Pessimista 198,549%
204,551%
403100%
Total 36149%
37251%
733100%
Valores esperados:
13/39
Exemplo
Persona- Calvícielidade Careca CabeludoOtimista 0,35 0,34Pessimista 0,28 0,28
Contribuições do 2:
2 = 0,35 + 0,34 + 0,28 + 0,28 = 1,25
14/39
Distribuição de Referência
Distribuição qui-quadrado, com (l-1).(c-1) graus de liberdade, onde l é o número de linhas e c é o número de colunas.
No exemplo, (2-1).(2-1) = 1 grau de liberdade.
15/39
Observações
Teste válido se os valores esperados das caselas forem grandes (todos acima de 10).
16/39
Coeficiente de Contingência de
Pearson
C = k.2
(k - 1).(n + 2)
k - menor valor entre o número de linhas (l) e o número de colunas (c)
0 < C < 1
Variáveis independentes
Variáveis perfeitamenteassociadas
17/39
Exemplo
Com os dados do exemplo apresentado:
C = (2).(
(1).(733 + ) = 0,058
18/39
Análise do grau de relacionamento entre duas variáveis quantitativas.
Correlação
19/39
Correlação:Exemplos
Renda e consumo.
Salário e produtividade de funcionários.
Risco e rentabilidade de ações.
Renda familiar e número de filhos.
20/39
Correlação:Exemplos
Peso e altura de pessoas.
Volume de produção e custos.
Gastos com prevenção de defeitos e falhas nos produtos.
21/39
Exemplo
Dados de 12 municípios de SC.
22/39
Exemplo
Variáveis observadas:– População do município, em 1000
habitantes.– População urbana, em 1000 habitantes.– % de população urbana.– taxa de crescimento demográfico, em %.– taxa de mortalidade infantil: coeficiente
de mortalidade por 1000 nascidos vivos.– taxa de alfabetização, em %.
23/39
muni-cípio
popu-lação
popul.urbana
% pop.urbana
taxa decrescim.
taxa mort.infantil
taxa dealfabet.
1 101 94 93 3,19 37 852 193 181 94 4,60 27 903 42 39 94 2,78 38 854 304 292 96 6,46 25 875 42 32 76 1,99 67 756 152 126 83 1,89 63 787 55 36 66 2,92 41 818 105 77 73 5,32 13 759 68 25 37 2,71 28 84
10 219 186 85 3,11 17 8711 129 116 90 3,11 32 8512 42 33 78 1,21 32 77
Exemplo
24/39
população residente x população urbana
0
100
200
300
0 100 200 300 400
população residente (x 1000)
po
pu
laçã
o u
rban
a (x
100
0)Diagrama de
Dispersão
25/39
população residente x taxa de crescimento
Diagrama de Dispersão
0
2
4
6
8
0 100 200 300 400
população residente (x 1000)
tax
a d
e c
res
cim
en
to
de
mo
grá
fic
o
26/39
taxa de crescimento x taxa mortalidade infantil
0
20
40
60
80
0 2 4 6 8taxa de crescimento demográficota
xa d
e m
ort
alid
ade
infa
nti
lDiagrama de
Dispersão
27/39
% de pop. urbana x taxa de mortalidade infantil
Diagrama de Dispersão
0
20
40
60
80
30 50 70 90 110
% de população urbana
tax
a d
e m
ort
alid
ad
e
infa
nti
l
28/39
% de população urbana x taxa de alfabetização
Diagrama de Dispersão
70
75
80
85
90
70 80 90 100
% de população urbana
taxa
de
a
lfab
etiz
açã
o
30 40 50 60
29/39
Correlação não Linear
Y
X
30/39
Coeficiente de Correlação de
Pearson
Descrição da correlação linear entre 2
variáveis quantitativas.
Para a construção do coeficiente,
primeiramente deve-se padronizar as duas
variáveis (X e Y).
31/39Coeficiente de Correlação de
Pearson
Com isso, a origem dos eixos é deslocada para o ponto médio (X, Y) e as unidades de medida são desconsideradas.
xSXx
'x
ySYy
'y
32/39
Y
X
Y’
X’Y
X
Coeficiente de Correlação de
Pearson
33/39
Sinal do produto (x’ y’)
X’
Y’
++ --
Coeficiente de Correlação de
Pearson
34/39
Correlação Linear Positiva
(x’ y’) > 0
X’
Y’
35/39
Correlação Linear Negativa
(x’ y’) < 0
X’
Y’
36/39
Falta de Correlação Linear
(x’ y’) = 0
X’
Y’
37/39
ou
r = (x’.y’)
n - 1
r = n.x.y) - (x).(y)
n.x2) - (x)2 n.y2) - (y)2
Coeficiente de Correlação de
Pearson
38/39
< <-1 r 1
-1 0 1
correlaçãonegativaperfeita
não existecorrelaçãolinear
correlaçãopositivaperfeita
Coeficiente de Correlação de
Pearson
39/39Teste de Significância
sobre r
Ho: As variáveis X e Y não são correlacionadasH1: As variáveis X e Y são correlacionadas
Distribuição de referência: distribuição t de Student com (n - 2) graus de liberdade.
Estatística do teste:
2r1
2nrt