Upload
alessandro-leitao
View
300
Download
33
Embed Size (px)
DESCRIPTION
Estatística Descritiva (Medidas Sumárias)
Citation preview
1
1
Aula 2
� Estatística Descritiva (Medidas Sumárias)
Prof. Cosme Marcelo Furtado Passos da Silva
2
Medidas de Tendência Central
Caracterizam o conjunto de dados por valoresque representem todos os outros valores da amostra.
É uma forma de resumir o conjunto de dadosem um único valor.
• Média
• Mediana
• Moda
2
3
Média (Média Aritmética)
• Leva em conta todos os n elementos da amostra.
• Somam-se todos os n valores da amostra e divide-se
pela quantidade total de valores n da amostra.
•OBS:O valor da média não necessariamente pertence
ao conjunto original de valores.
4
Seja x uma variável utilizada para representar
os valores observados do Volume Expiratório Forçado
FEV1 (volume de ar que pode ser expelido do pulmão
depois de um segundo de esforço constante).
Média (Média Aritmética)
Exemplo:
3
5
Média Aritmética
x1 = 2,30x2 = 2,15x3 = 3,50x4 = 2,60x5 = 2,75x6 = 2,82x7 = 4,05x8 = 2,25x9 = 2,68x10 = 3,00x11 = 4,02x12 = 2,85x13 = 3,38
+ + + += =
=
K1 2 3 13 38,3513 13
2,95 litros.
x x x xx
6
Sejam n valores de x (x1, x2, ..., xn), a média
aritmética é expressa por:
Média Aritmética
n
xxx
n
x
x n
n
i
i+++
==
∑=
...211
4
7
X fi
x1 f1
x2 f2
.
.xk fk
Total n
Média AritméticaTabela de Freqüência
X fi Xfi
x1 f1 x1f1
x2 f2 x2f2
.
.xk fk xkfk
Total n
= =
=
= =
∑ ∑
∑
1 1
1
k k
i i i ii i
k
ii
x f x fx
nf
8
= =
=
= =
∑ ∑
∑
1 1
1
k k
i i i ii i
k
ii
x f x fx
nf
Média AritméticaTabela de Freqüência
5
9
No. de filhosX fi
0 4
1 5
2 7
3 3
5 1
Total 20
Média AritméticaTabela de Freqüência
Exemplo
10
No. de filhosX fi Xfi
0 4 0
1 5 5
2 7 14
3 3 9
5 1 5
Total 20 33
= =33 1,6520
x
Média AritméticaTabela de Freqüência
Exemplo
= =
=
= =
∑ ∑
∑
1 1
1
k k
i i i ii i
k
ii
x f x fx
nf
6
11
Média para Dados Agrupados
� Em algumas situações temosapenas os dados agrupados emuma distribuição defreqüência.
� Ex: Distribuição de níveisséricos de colesterol parahomens dos EUA, com idadeentre 24 e 34 anos, 1976-1980.
� A média é obtida assumindoque os valores em cadaintervalo são iguais ao seuponto médio -> aproximação...
Nível de Colesterol (mg/100ml) N
80-119 13
120-159 150
160-199 442
200-239 229
240-279 115
280-319 34
320-359 9
360-399 5
Total 1067
fi
12
� Para encontrarmos amédia dos dadosagrupados, multiplicamoso ponto médio (mi) de cadaintervalo pela freqüênciacorrespondente. Somamosesses valores e dividimospelo total do número deobservações
Nível de
colesterol
fi Ponto
médio (mi)
80-119 13 99,5
120-159 150 139,5
160-199 442 179,5
200-239 299 219,5
240-279 115 259,5
280-319 34 299,5
320-359 9 339,5
360-399 5 379,5
TOTAL 1067
Média para Dados Agrupados
∑
∑
=
==k
i
i
k
i
ii
f
fm
x
1
1
7
13
Média para Dados Agrupados
Nível de
colesterol
fi Ponto médio
80-119 13 99,5
120-159 150 139,5
160-199 442 179,5
200-239 299 219,5
240-279 115 259,5
280-319 34 299,5
320-359 9 339,5
360-399 5 379,5
TOTAL 1067
∑
∑
=
==k
i
i
k
i
ii
f
fm
x
1
1
[ ]... )(219,5x115 )(179,5x442 (139,5x15) (99,5x13)1067
1++++
=x
14
Média - Robustez
A média aritmética não é uma medida robusta,pois é influenciada por valores extremos.
Tomando o primeiro exemplo, imagine que o valor4,02 tenha sido digitado como 40,2:
2.3, 2.15, 3.50, 2.60, 2.75, 2.82,4.05, 2.25, 2.68, 3.00, 40.2, 2.85
8
15
Média anterior=2,95 litros
Média atual=5,73 litros
1( )x
2( )x
≈2 12x x
Média - Robustez
16
Mediana
A mediana é uma medida mais robusta, pois é menossensível a valores atípicos.
A mediana é o valor da distribuição que divide adistribuição ao meio.
50% das observações ficam acima da mediana e 50% ficam abaixo.
9
17
Para se calcular a mediana é preciso ordenar osvalores:
A posição da mediana é dada pelo elemento de ordem:(n+1)/2 se n for ímparx1 x2 x3 (3+1)/2= 2, ou seja, elemento de ordem 2: x2
Mediana
Se n for par, o valor da mediana é dado pela médiados elementos de ordem n/2 e (n+2)/2:
x1 x2 x3 x4
2
32 xxmd
+=
18
Como ilustração, considere os valores ordenados de dois conjuntos de dados:
1 2 5 6 7
No primeiro conjunto n é ímpar. Logo, a mediana édada pelo valor que ocupa a terceira posição(5+1)/2, que é igual a 5.
(1)
Mediana
10
19
No segundo conjunto o valor mediano é dado pela médiaaritmética dos valores que ocupam a posição (n/2) e(n+2)/2, ou seja, posição 3 e 4
Logo, a mediana (md) é:5 6
5,52
md+
= =
Mediana
(2)
1, 2, 5, 6, 7, 7
20
2.15, 2.25, 2.30, 2.60, 2.68, 2.75,2.82, 2.85, 3.00, 3.38, 4.02, 4.05
2.15, 2.25, 2.30, 2.60, 2.68, 2.75,2.82, 2.85, 3.00, 3.38, 4.05, 40.2
(1)
(2)
Não se alterou com o valor atípico
Mediana - Robustez
785,22
57,5
2
82,275,2mdmd 21 ==
+==
11
21
Moda
• Valores que mais aparecem na amostra (mais
freqüentes).
• A moda sempre pertence ao conjunto original de
valores.
Unimodal
moda = 5
22
Bimodal
modas = 2 e 6
Amodal
Moda
12
23
Moda
Valores que ocorrem mais freqüentemente.
24
Qual medida escolher???Mediana versus Média
13
25
Qual medida escolher???Mediana versus Média
Média
• Medida mais usada na prática.
• Facilidade de tratamento estatístico (propriedades interessantes).
• Muito influenciada por valores extremos (outliers).
Mediana
• Não é tão influenciada por valores extremos,
• Desvantagem: utiliza no máximo dois valores da amostra.
26
Mediana versus Média
Qual medida escolher???
14
27
Qual medida escolher???Moda versus Média e Mediana
Moda é interessante quando as variáveis tratadas têm distribuição defreqüências bimodais ou multimodais.
28
Forma da Distribuição de Freqüências e Medidas de Tendência Central
15
29
à direitaà direita
à esquerda
30
Medidas de Variabilidade
Além da informação do valor representativo do conjunto de valores
da amostra (medidas de tendência central), é importante expressar
a variabilidade desses valores em relação a uma determinada
referência.
• Amplitude Total
• Variância
• Desvio-padrão
• Coeficiente de Variação
16
31
Medidas de Variabilidade
32
Amplitude Total
Diferença entre o valor máximo e o valor mínimo de um conjunto
de dados.
Exemplo:
17
33
Amplitude Total
Medida grosseira!!!
34
Medidas de Dispersão
Variância e Desvio-padrão
A variância mede a variabilidade ao redor da média.
( )2
2
1( ) .
ni
xi
x xVar xn
σ=
−= = ∑
18
35
Variância e Desvio-padrão
Quando estamos trabalhando com amostra, avariância é dada por:
( )2
2
1( ) .
1
ni
xi
x xVar x sn=
−= =
−∑
O desvio-padrão é dado pela raiz quadrada da variância.
36
O desvio-padrão possui a mesma unidade de
medida que os dados originais.
Desvio-padrão
19
37
Indivíduo
1 2,30 -0,65 0,4225
2 2,15 -0,80 0,6400
3 3,50 0,55 0,3025
4 2,60 -0,35 0,1225
5 2,75 -0,20 0,0400
6 2,82 -0,13 0,0169
7 4,05 1,10 1,2100
8 2,25 -0,70 0,4900
9 2,68 -0,27 0,0729
10 3,00 0,05 0,0025
11 4,02 1,07 1,1449
12 2,85 -0,10 0,0100
13 3,38 0,43 0,1849
Total 38,35 0 4,6596
ix
ix x− ( )2
ix x−
Cálculo da Variância
38
( )( )
2132
1
2
12,95
13 1
4,65960,39 litros .
12
i
i
s x=
= −−
= =
∑
20,39 litros 0,62 litros.s = =
Variância e Desvio-padrão
20
39
� Novamente assumimosque todas as observaçõesde um intervalo sãoiguais ao ponto médio dointervalo (mi)
1
)(
1
1
2
2
−
×−
=
∑
∑
=
=
k
i
i
k
i
ii
f
fxm
s
Variância e Desvio-padrãoDados agrupados
Nível de
colesterol
fi Ponto
médio (mi)
80-119 13 99,5
120-159 150 139,5
160-199 442 179,5
200-239 299 219,5
240-279 115 259,5
280-319 34 299,5
320-359 9 339,5
360-399 5 379,5
TOTAL 1067
40
Variância e Desvio-padrão
21
41
Quando o s é grande ou pequeno?
Um desvio-padrão de 10 unidades é grande ou pequeno????
1) Se a média é 10.000 → desvio é pequeno.
2) Se a média é 100 → desvio é grande.
→ Magnitude em relação à média.
1) Desvio corresponde a 0,1% da média: 10 / 10.000.
2) Desvio corresponde a 10% da média: 10 / 100.
42
Coeficiente de Variação
Média
padrãoDesvioCV
−=
• Quanto menor é o coeficiente de variação de um conjunto dedados, menor é a sua variabilidade. Medida Adimensional.
Índice relativo de dispersão: expressa a variabilidade sem ainfluência da ordem de grandeza da variável.
22
43
Coeficiente de Variação
44
Regra do Desvio-padrão (Distribuições Simétricas)
23
45
Outras Medidas de Posição
Posição de um indivíduo no conjunto de dados: mostrada pelo
percentil, contando-se (em percentagem) quantos indivíduos no
conjunto têm valores menores que deste indivíduo.
• Percentis
• Escores Padronizados
46
O percentil de ordem k (onde k é qualquer valor entre 0 e
100), denotado por Pk, é o valor tal que k% dos valores do
conjunto de dados são menores ou iguais a ele.
• Percentis: 10, 20, 30, ..., 90 → Decis
• Percentil 25 → Primeiro quartil (Q1)
• Percentil 50 → Segundo quartil (Q2) → Mediana
• Percentil 75 → Terceiro quartil (Q3)
Percentis
24
47
Percentis
48
2069, 2581, 2759, 2834, 28382841, 3031, 3101, 3200, 32453248, 3260, 3265, 3314, 33233484, 3541, 3609, 3649, 4146
Conjuntos de peso ao nascer de 20 recém-nascidos
P10=? 10% abaixo e 90% acima
L=(10/100)x(20)=2;Como L é inteiro, tiramos a média entre oelemento L = 2 e L+1 =3
P10=(2581+2759)/2=2670 g
Percentis
Interpretação...
25
49
P90=?L=[(90/100)x20]=18; L é inteiro, logo tiramos média entre L=18 e L+1=19;
18o da esquerda para direita – 360919o da direita para esquerda - 3649
P90=[(3609+3649)/2]=3629 g
Percentis
Interpretação...
50
Percentis
26
51
Escores Padronizados
Medidas que, calculadas para cada observação do conjunto de
dados, nos permitem fazer comparações entre valores de variáveis
medidas em escalas diferentes.
52Em um teste, qual foi o aluno de melhor desempenho? E o de pior?
Escores Padronizados
27
53
Para um dado aluno, em qual teste ele se saiu melhor em relação à
turma?
Escores Padronizados
54
Escores Padronizados
28
55
Escores Padronizados
56
Escores Padronizados
29
57
Escores Padronizados
581º Flávia e 20º Luiza
Escores Padronizados
30
59
• Gráfico que detecta valores discrepantes (outliers).
• Utiliza os quartis: Q1, Q2 e Q3.
• Valores mínimo e máximo do conjunto de dados.
• DIQ = Q3 – Q1
Variáveis Contínuas - Boxplot
60
Variáveis Contínuas - Boxplot
DIQ5,1QeriorsupLimite 3 ×+=
DIQ5,1QeriorinfLimite 1 ×−=
31
61
Variáveis Contínuas - Boxplot
62
Variáveis Contínuas - Boxplot
32
63
Variáveis Contínuas - Boxplot
Contagem de
linfócitos TCD4 em
pacientes em remissão de
doença de Hodgkin e em
remissão de malignidades
disseminadas não Hodgkin.
64
1) Soares, J F; Siqueira, A L. Introdução à Estatística Médica. Coopmed Editora Médica, 2a
edição, 2002, Belo Horizonte, MG.
2) Magalhães, M. N.; Lima, A. C. P (2005). Noções de Probabilidade e Estatística. 6ª ed. Edusp.
São Paulo.
3) Silva, Nilsa Nunes (2004). Amostragem Probabilística: Um curso introdutório. Edusp. Brasil.
4) Mood, A. M. et al. 1974. Introduction to the Theory of Statistics. 3. ed. Tokyo, McGraw-Hill
Kogakusha.
5) Triola, M.F. Introdução à Estatística. Rio de Janeiro: LTC Editora, 1999
6) Pagano, M., e Gauvreau, K. Princípios de Bioestatística, Segunda Edição São Paulo: Thomson,
2004
7) Venables WN, Ripley, BD (2002). Moderns Applied Statistics with S. Fourth Edition. Springer.
8) Venables WN, Smith DM, et al. (2002). An introduction to R: notes on R: a programming
environment for data. Bristol, Network Theory
9) Dalgaard, P. (2002) Introductory Statistics with R. Springer.
Bibliografia