32
1 1 Aula 2 Estatística Descritiva (Medidas Sumárias) Prof. Cosme Marcelo Furtado Passos da Silva 2 Medidas de Tendência Central Caracterizam o conjunto de dados por valores que representem todos os outros valores da amostra. É uma forma de resumir o conjunto de dados em um único valor. • Média • Mediana • Moda

Estatística Descritiva (Medidas Sumárias)

Embed Size (px)

DESCRIPTION

Estatística Descritiva (Medidas Sumárias)

Citation preview

Page 1: Estatística Descritiva (Medidas Sumárias)

1

1

Aula 2

� Estatística Descritiva (Medidas Sumárias)

Prof. Cosme Marcelo Furtado Passos da Silva

2

Medidas de Tendência Central

Caracterizam o conjunto de dados por valoresque representem todos os outros valores da amostra.

É uma forma de resumir o conjunto de dadosem um único valor.

• Média

• Mediana

• Moda

Page 2: Estatística Descritiva (Medidas Sumárias)

2

3

Média (Média Aritmética)

• Leva em conta todos os n elementos da amostra.

• Somam-se todos os n valores da amostra e divide-se

pela quantidade total de valores n da amostra.

•OBS:O valor da média não necessariamente pertence

ao conjunto original de valores.

4

Seja x uma variável utilizada para representar

os valores observados do Volume Expiratório Forçado

FEV1 (volume de ar que pode ser expelido do pulmão

depois de um segundo de esforço constante).

Média (Média Aritmética)

Exemplo:

Page 3: Estatística Descritiva (Medidas Sumárias)

3

5

Média Aritmética

x1 = 2,30x2 = 2,15x3 = 3,50x4 = 2,60x5 = 2,75x6 = 2,82x7 = 4,05x8 = 2,25x9 = 2,68x10 = 3,00x11 = 4,02x12 = 2,85x13 = 3,38

+ + + += =

=

K1 2 3 13 38,3513 13

2,95 litros.

x x x xx

6

Sejam n valores de x (x1, x2, ..., xn), a média

aritmética é expressa por:

Média Aritmética

n

xxx

n

x

x n

n

i

i+++

==

∑=

...211

Page 4: Estatística Descritiva (Medidas Sumárias)

4

7

X fi

x1 f1

x2 f2

.

.xk fk

Total n

Média AritméticaTabela de Freqüência

X fi Xfi

x1 f1 x1f1

x2 f2 x2f2

.

.xk fk xkfk

Total n

= =

=

= =

∑ ∑

1 1

1

k k

i i i ii i

k

ii

x f x fx

nf

8

= =

=

= =

∑ ∑

1 1

1

k k

i i i ii i

k

ii

x f x fx

nf

Média AritméticaTabela de Freqüência

Page 5: Estatística Descritiva (Medidas Sumárias)

5

9

No. de filhosX fi

0 4

1 5

2 7

3 3

5 1

Total 20

Média AritméticaTabela de Freqüência

Exemplo

10

No. de filhosX fi Xfi

0 4 0

1 5 5

2 7 14

3 3 9

5 1 5

Total 20 33

= =33 1,6520

x

Média AritméticaTabela de Freqüência

Exemplo

= =

=

= =

∑ ∑

1 1

1

k k

i i i ii i

k

ii

x f x fx

nf

Page 6: Estatística Descritiva (Medidas Sumárias)

6

11

Média para Dados Agrupados

� Em algumas situações temosapenas os dados agrupados emuma distribuição defreqüência.

� Ex: Distribuição de níveisséricos de colesterol parahomens dos EUA, com idadeentre 24 e 34 anos, 1976-1980.

� A média é obtida assumindoque os valores em cadaintervalo são iguais ao seuponto médio -> aproximação...

Nível de Colesterol (mg/100ml) N

80-119 13

120-159 150

160-199 442

200-239 229

240-279 115

280-319 34

320-359 9

360-399 5

Total 1067

fi

12

� Para encontrarmos amédia dos dadosagrupados, multiplicamoso ponto médio (mi) de cadaintervalo pela freqüênciacorrespondente. Somamosesses valores e dividimospelo total do número deobservações

Nível de

colesterol

fi Ponto

médio (mi)

80-119 13 99,5

120-159 150 139,5

160-199 442 179,5

200-239 299 219,5

240-279 115 259,5

280-319 34 299,5

320-359 9 339,5

360-399 5 379,5

TOTAL 1067

Média para Dados Agrupados

=

==k

i

i

k

i

ii

f

fm

x

1

1

Page 7: Estatística Descritiva (Medidas Sumárias)

7

13

Média para Dados Agrupados

Nível de

colesterol

fi Ponto médio

80-119 13 99,5

120-159 150 139,5

160-199 442 179,5

200-239 299 219,5

240-279 115 259,5

280-319 34 299,5

320-359 9 339,5

360-399 5 379,5

TOTAL 1067

=

==k

i

i

k

i

ii

f

fm

x

1

1

[ ]... )(219,5x115 )(179,5x442 (139,5x15) (99,5x13)1067

1++++

=x

14

Média - Robustez

A média aritmética não é uma medida robusta,pois é influenciada por valores extremos.

Tomando o primeiro exemplo, imagine que o valor4,02 tenha sido digitado como 40,2:

2.3, 2.15, 3.50, 2.60, 2.75, 2.82,4.05, 2.25, 2.68, 3.00, 40.2, 2.85

Page 8: Estatística Descritiva (Medidas Sumárias)

8

15

Média anterior=2,95 litros

Média atual=5,73 litros

1( )x

2( )x

≈2 12x x

Média - Robustez

16

Mediana

A mediana é uma medida mais robusta, pois é menossensível a valores atípicos.

A mediana é o valor da distribuição que divide adistribuição ao meio.

50% das observações ficam acima da mediana e 50% ficam abaixo.

Page 9: Estatística Descritiva (Medidas Sumárias)

9

17

Para se calcular a mediana é preciso ordenar osvalores:

A posição da mediana é dada pelo elemento de ordem:(n+1)/2 se n for ímparx1 x2 x3 (3+1)/2= 2, ou seja, elemento de ordem 2: x2

Mediana

Se n for par, o valor da mediana é dado pela médiados elementos de ordem n/2 e (n+2)/2:

x1 x2 x3 x4

2

32 xxmd

+=

18

Como ilustração, considere os valores ordenados de dois conjuntos de dados:

1 2 5 6 7

No primeiro conjunto n é ímpar. Logo, a mediana édada pelo valor que ocupa a terceira posição(5+1)/2, que é igual a 5.

(1)

Mediana

Page 10: Estatística Descritiva (Medidas Sumárias)

10

19

No segundo conjunto o valor mediano é dado pela médiaaritmética dos valores que ocupam a posição (n/2) e(n+2)/2, ou seja, posição 3 e 4

Logo, a mediana (md) é:5 6

5,52

md+

= =

Mediana

(2)

1, 2, 5, 6, 7, 7

20

2.15, 2.25, 2.30, 2.60, 2.68, 2.75,2.82, 2.85, 3.00, 3.38, 4.02, 4.05

2.15, 2.25, 2.30, 2.60, 2.68, 2.75,2.82, 2.85, 3.00, 3.38, 4.05, 40.2

(1)

(2)

Não se alterou com o valor atípico

Mediana - Robustez

785,22

57,5

2

82,275,2mdmd 21 ==

+==

Page 11: Estatística Descritiva (Medidas Sumárias)

11

21

Moda

• Valores que mais aparecem na amostra (mais

freqüentes).

• A moda sempre pertence ao conjunto original de

valores.

Unimodal

moda = 5

22

Bimodal

modas = 2 e 6

Amodal

Moda

Page 12: Estatística Descritiva (Medidas Sumárias)

12

23

Moda

Valores que ocorrem mais freqüentemente.

24

Qual medida escolher???Mediana versus Média

Page 13: Estatística Descritiva (Medidas Sumárias)

13

25

Qual medida escolher???Mediana versus Média

Média

• Medida mais usada na prática.

• Facilidade de tratamento estatístico (propriedades interessantes).

• Muito influenciada por valores extremos (outliers).

Mediana

• Não é tão influenciada por valores extremos,

• Desvantagem: utiliza no máximo dois valores da amostra.

26

Mediana versus Média

Qual medida escolher???

Page 14: Estatística Descritiva (Medidas Sumárias)

14

27

Qual medida escolher???Moda versus Média e Mediana

Moda é interessante quando as variáveis tratadas têm distribuição defreqüências bimodais ou multimodais.

28

Forma da Distribuição de Freqüências e Medidas de Tendência Central

Page 15: Estatística Descritiva (Medidas Sumárias)

15

29

à direitaà direita

à esquerda

30

Medidas de Variabilidade

Além da informação do valor representativo do conjunto de valores

da amostra (medidas de tendência central), é importante expressar

a variabilidade desses valores em relação a uma determinada

referência.

• Amplitude Total

• Variância

• Desvio-padrão

• Coeficiente de Variação

Page 16: Estatística Descritiva (Medidas Sumárias)

16

31

Medidas de Variabilidade

32

Amplitude Total

Diferença entre o valor máximo e o valor mínimo de um conjunto

de dados.

Exemplo:

Page 17: Estatística Descritiva (Medidas Sumárias)

17

33

Amplitude Total

Medida grosseira!!!

34

Medidas de Dispersão

Variância e Desvio-padrão

A variância mede a variabilidade ao redor da média.

( )2

2

1( ) .

ni

xi

x xVar xn

σ=

−= = ∑

Page 18: Estatística Descritiva (Medidas Sumárias)

18

35

Variância e Desvio-padrão

Quando estamos trabalhando com amostra, avariância é dada por:

( )2

2

1( ) .

1

ni

xi

x xVar x sn=

−= =

−∑

O desvio-padrão é dado pela raiz quadrada da variância.

36

O desvio-padrão possui a mesma unidade de

medida que os dados originais.

Desvio-padrão

Page 19: Estatística Descritiva (Medidas Sumárias)

19

37

Indivíduo

1 2,30 -0,65 0,4225

2 2,15 -0,80 0,6400

3 3,50 0,55 0,3025

4 2,60 -0,35 0,1225

5 2,75 -0,20 0,0400

6 2,82 -0,13 0,0169

7 4,05 1,10 1,2100

8 2,25 -0,70 0,4900

9 2,68 -0,27 0,0729

10 3,00 0,05 0,0025

11 4,02 1,07 1,1449

12 2,85 -0,10 0,0100

13 3,38 0,43 0,1849

Total 38,35 0 4,6596

ix

ix x− ( )2

ix x−

Cálculo da Variância

38

( )( )

2132

1

2

12,95

13 1

4,65960,39 litros .

12

i

i

s x=

= −−

= =

20,39 litros 0,62 litros.s = =

Variância e Desvio-padrão

Page 20: Estatística Descritiva (Medidas Sumárias)

20

39

� Novamente assumimosque todas as observaçõesde um intervalo sãoiguais ao ponto médio dointervalo (mi)

1

)(

1

1

2

2

×−

=

=

=

k

i

i

k

i

ii

f

fxm

s

Variância e Desvio-padrãoDados agrupados

Nível de

colesterol

fi Ponto

médio (mi)

80-119 13 99,5

120-159 150 139,5

160-199 442 179,5

200-239 299 219,5

240-279 115 259,5

280-319 34 299,5

320-359 9 339,5

360-399 5 379,5

TOTAL 1067

40

Variância e Desvio-padrão

Page 21: Estatística Descritiva (Medidas Sumárias)

21

41

Quando o s é grande ou pequeno?

Um desvio-padrão de 10 unidades é grande ou pequeno????

1) Se a média é 10.000 → desvio é pequeno.

2) Se a média é 100 → desvio é grande.

→ Magnitude em relação à média.

1) Desvio corresponde a 0,1% da média: 10 / 10.000.

2) Desvio corresponde a 10% da média: 10 / 100.

42

Coeficiente de Variação

Média

padrãoDesvioCV

−=

• Quanto menor é o coeficiente de variação de um conjunto dedados, menor é a sua variabilidade. Medida Adimensional.

Índice relativo de dispersão: expressa a variabilidade sem ainfluência da ordem de grandeza da variável.

Page 22: Estatística Descritiva (Medidas Sumárias)

22

43

Coeficiente de Variação

44

Regra do Desvio-padrão (Distribuições Simétricas)

Page 23: Estatística Descritiva (Medidas Sumárias)

23

45

Outras Medidas de Posição

Posição de um indivíduo no conjunto de dados: mostrada pelo

percentil, contando-se (em percentagem) quantos indivíduos no

conjunto têm valores menores que deste indivíduo.

• Percentis

• Escores Padronizados

46

O percentil de ordem k (onde k é qualquer valor entre 0 e

100), denotado por Pk, é o valor tal que k% dos valores do

conjunto de dados são menores ou iguais a ele.

• Percentis: 10, 20, 30, ..., 90 → Decis

• Percentil 25 → Primeiro quartil (Q1)

• Percentil 50 → Segundo quartil (Q2) → Mediana

• Percentil 75 → Terceiro quartil (Q3)

Percentis

Page 24: Estatística Descritiva (Medidas Sumárias)

24

47

Percentis

48

2069, 2581, 2759, 2834, 28382841, 3031, 3101, 3200, 32453248, 3260, 3265, 3314, 33233484, 3541, 3609, 3649, 4146

Conjuntos de peso ao nascer de 20 recém-nascidos

P10=? 10% abaixo e 90% acima

L=(10/100)x(20)=2;Como L é inteiro, tiramos a média entre oelemento L = 2 e L+1 =3

P10=(2581+2759)/2=2670 g

Percentis

Interpretação...

Page 25: Estatística Descritiva (Medidas Sumárias)

25

49

P90=?L=[(90/100)x20]=18; L é inteiro, logo tiramos média entre L=18 e L+1=19;

18o da esquerda para direita – 360919o da direita para esquerda - 3649

P90=[(3609+3649)/2]=3629 g

Percentis

Interpretação...

50

Percentis

Page 26: Estatística Descritiva (Medidas Sumárias)

26

51

Escores Padronizados

Medidas que, calculadas para cada observação do conjunto de

dados, nos permitem fazer comparações entre valores de variáveis

medidas em escalas diferentes.

52Em um teste, qual foi o aluno de melhor desempenho? E o de pior?

Escores Padronizados

Page 27: Estatística Descritiva (Medidas Sumárias)

27

53

Para um dado aluno, em qual teste ele se saiu melhor em relação à

turma?

Escores Padronizados

54

Escores Padronizados

Page 28: Estatística Descritiva (Medidas Sumárias)

28

55

Escores Padronizados

56

Escores Padronizados

Page 29: Estatística Descritiva (Medidas Sumárias)

29

57

Escores Padronizados

581º Flávia e 20º Luiza

Escores Padronizados

Page 30: Estatística Descritiva (Medidas Sumárias)

30

59

• Gráfico que detecta valores discrepantes (outliers).

• Utiliza os quartis: Q1, Q2 e Q3.

• Valores mínimo e máximo do conjunto de dados.

• DIQ = Q3 – Q1

Variáveis Contínuas - Boxplot

60

Variáveis Contínuas - Boxplot

DIQ5,1QeriorsupLimite 3 ×+=

DIQ5,1QeriorinfLimite 1 ×−=

Page 31: Estatística Descritiva (Medidas Sumárias)

31

61

Variáveis Contínuas - Boxplot

62

Variáveis Contínuas - Boxplot

Page 32: Estatística Descritiva (Medidas Sumárias)

32

63

Variáveis Contínuas - Boxplot

Contagem de

linfócitos TCD4 em

pacientes em remissão de

doença de Hodgkin e em

remissão de malignidades

disseminadas não Hodgkin.

64

1) Soares, J F; Siqueira, A L. Introdução à Estatística Médica. Coopmed Editora Médica, 2a

edição, 2002, Belo Horizonte, MG.

2) Magalhães, M. N.; Lima, A. C. P (2005). Noções de Probabilidade e Estatística. 6ª ed. Edusp.

São Paulo.

3) Silva, Nilsa Nunes (2004). Amostragem Probabilística: Um curso introdutório. Edusp. Brasil.

4) Mood, A. M. et al. 1974. Introduction to the Theory of Statistics. 3. ed. Tokyo, McGraw-Hill

Kogakusha.

5) Triola, M.F. Introdução à Estatística. Rio de Janeiro: LTC Editora, 1999

6) Pagano, M., e Gauvreau, K. Princípios de Bioestatística, Segunda Edição São Paulo: Thomson,

2004

7) Venables WN, Ripley, BD (2002). Moderns Applied Statistics with S. Fourth Edition. Springer.

8) Venables WN, Smith DM, et al. (2002). An introduction to R: notes on R: a programming

environment for data. Bristol, Network Theory

9) Dalgaard, P. (2002) Introductory Statistics with R. Springer.

Bibliografia