Upload
tranliem
View
213
Download
0
Embed Size (px)
Citation preview
Universidade Federal de Minas GeraisInstituto de Ciências ExatasDepartamento de Estatística
Princípios de Bioestatística
Aula 3
Análise Descritiva: Medidas de Tendência Central
Medidas de Variabilidade
Como resumir os dados de uma variável quantitativa?
Medidas de Tendência Central
Identificam o elemento típico da variável.
Medidas de Variabilidade
Síntese Númerica
Quantificam a dispersão (variabilidade) dos valores.
Medidas de Tendência Central
Se todas as seis pessoas tivessem o mesmo peso, qual deveria ser este valor para não exceder a carga máxima exceder a carga máxima permitida ?
Média Aritmética
O peso médio deve ser de 70 Kg.
Medidas de Tendência Central
Qual é o valor de peso que separa a metade mais leve da metade mais pesada no elevador? 40
9860elevador?
Mediana
4098
70
60
7555
40 55 60 70 75 98
O peso mediano é 65 Kg
9855
Medidas de Tendência Central
Qual é peso mais frequente dentre os ocupantes do elevador?
4098
5560
55
75
Moda
40
A moda de peso é 55 Kg
Média Aritmética Simples
Alguma Notação
n número de indivíduos no conjunto de dados
ix valor da i-ésima observação do conjunto de dados,i = 1, 2, 3,..., n
Soma de todas as observações da amostra
tamanho da amostra=
∑ ix soma de todas as observações da amostra (a letra grega Σ é o símbolo que indica soma).
Xé o símbolo usado para representar a média aritmética simples.
X =n
xi∑
Média Aritmética Simples
No conjunto de dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ), temos n = 6,
x1 = 3 x2 = 4.5 x3 = 5.5 x4 = 2.5 x5 = 1.3 x6 = 6
22.83.8
6X = =
x1 = 3 x2 = 4.5 x3 = 5.5 x4 = 2.5 x5 = 1.3 x6 = 6
∑ ix = 3 + 4.5 + 5.5 + 2.5 + 1.3 + 6 = 22.8 e
Identifica qual seria contribuição típica de cada elemento do conjunto de dados se todos contribuíssem igualmente.
Mediana
n é ímpar
Dados ( 2 ; 3.3 ; 2.5 ; 5.6 ; 5 ; 4.3 ; 3.2 ).Ordenando os valores (2 ; 2.5 ; 3.2 ; 3.3 ; 4.3 ; 5 ; 5.6).O valor do meio é o 3.3 . A mediana é o valor 3.3.
Existe um só “valor do
meio”
Valor que divide o conjunto de dados ordenados em duas partes com o mesmo número de observações.
n é par
Dados ( 3 ; 4.5 ; 5.5 ; 2.5 ; 1.3 ; 6 ).Ordenando os valores (1.3 ; 2.5 ; 3 ; 4.5 ; 5.5 ; 6)Os valores do meio são 3 e 4.5. A mediana é (3 + 4.5)/2 = 3.75.
Existem dois “valores do
meio”
Moda
Valor mais frequente do
Conjunto de dados unimodal
0,8
1,3
1,8
1 2 3 4 5
1,3
1,8
Valor mais frequente do conjunto de dados 0,8
1,3
1 2 3 4 5 6 7 8 9
Conjunto de dados bimodal
11,11,21,31,41,51,6
1 2 3 4 5 6 7 8 9
Conjunto de dados amodal
Média versus Mediana
A Média Aritmética é muito influenciada pela presença de valores extremos no conjunto de dados
A Mediana é mais robusta à presença destes valores discrepantesvalores discrepantes
Exemplo: conjunto de dados (2 , 2.25 , 3.5 , 3.75 , 4 , 9).
A média é 4.08 e a mediana é 3.63 .
Sem o valor 9, a média é 3.10 e a mediana é 3.5 .
Média versus Mediana
Representação gráfica do salário dos funcionários de uma empresa (em salários-mínimos) [Reis e Reis, 2001]
Situação I: dados completos:
Média = 24.6 SMMediana = 4 SM
Situação II: sem os quatro valores maisaltos:
Média = 9.8 SMMediana = 3 SM
Moda versus Mediana e Média
Exemplo: Considere uma pesquisa de opinião na qual foi perguntado a 26 pessoas de baixa renda:
“Incluindo crianças e adultos, que tamanho de família você acha ideal?”
Tamanho ideal da família 1 2 3 4 5 6 7 8 9 10
Freqüência da resposta 1 2 6 2 1 2 3 6 2 1Freqüência da resposta 1 2 6 2 1 2 3 6 2 1
Média = Mediana = 6 pessoas
Modas = 3 e 8 pessoas[Reis e Reis, 2001]
10
Forma da distribuição de frequências e as posições relativas das medidas de tendência central.
Simétricamoda = mediana = média
Assimétrica com concentração à esquerda
Assimétrica com concentração à direita
moda < mediana < média
moda > mediana > média
Resumindo: Medidas de Tendência Central
Média Aritmética
Identifica qual seria contribuição típica de cada elemento do conjunto de dados se todos contribuíssem igualmente.
Moda
Mediana
contribuíssem igualmente.
Valor mais frequente do conjunto de dados
Valor que divide o conjunto de dados em duas partes com o mesmo número de observações.
Medidas de Variabilidade
Identificar o elemento típico (tendência central) de um conjunto de dados não é suficiente para caracterizá-lo.
Dois conjuntos de dados podem ter a mesma Dois conjuntos de dados podem ter a mesma tendência central, mas serem diferentes um do outro.
É necessário quantificar a dispersão em torno do elemento típico , ou seja, quantificar a variabilidadede um conjunto de dados.
O experimento das balanças:
duas balanças pesam repetidamente uma esfera de 1000 gramas
Balança A
Balança B
1000 11001050950900Peso (em gramas) [Reis e Reis, 2001]
Como quantificar as diferenças entre as medições das duas balanças?
Alternativa: diferença entre o valor máximo e o mínimo das medições.
Balança A: 1040g – 945g = 95g
Balança B: 1095g – 895g = 200g.
AT = Máximo – Mínimo
Amplitude Total
A Amplitude Total é uma medida simples de variabilidade, porém é muito grosseira.
AT = 100 – 2 = 98
Só considera os extremos do conjunto de dados.
AT1 = 100 – 2 = 98
AT2 = 100 – 2 = 98
Precisamos de uma medida de dispersão que considere todos os elementos do conjunto de dados.
Idéia: Calcular a distância de cada valor do conjunto de dados até o elemento típico desse conjunto.
( )ix x− Medida de distância mais simples entre dois valores
1
( )n
ii
x x
n=
−∑ Distância “típica” de cada elemento até o valor médio
Coluna 1 Coluna 2 Coluna 3
Xi
1
1.5
2
3.5
Soma �
Média � 40/10 = 4
3.5
4
4
4.5
6
6.5
7
40
Problema: é sempre zero1
( )n
ii
x x=
−∑
Coluna 1 Coluna 2 Coluna 3
Xi
1 -3
1.5 -2.5
2 -2
3.5 -0.5
( )ix x−
Solução: eliminar o sinal dos desvios negativos
Soma �
Média � 40/10 = 4 0/10 = 0
3.5 -0.5
4 0
4 0
4.5 0.5
6 2
6.5 2.5
7 3
40 0
negativos
Como: elevando todos os desvios ao quadrado
Coluna 1 Coluna 2 Coluna 3
Xi
1 -3 9
1.5 -2.5 6.25
2 -2 4
3.5 -0.5 0.25
Nova medida de dispersão
( )ix x− 2( )ix x−
Soma �
Média � 40/10 = 4 0/10 = 0 39/9 = 4.3
3.5 -0.5 0.25
4 0 0
4 0 0
4.5 0.5 0.25
6 2 4
6.5 2.5 6.25
7 3 9
40 0 39
2
1
( )
1
n
ii
x x
n=
−
−
∑
dispersão
variância
Problema :
é uma média de desvios ao quadrado
2
1
( ) ( 1)n
ii
x x n=
− −∑
� Unidade de medida foi alterada
cm � cm2
pessoas � pessoas2 (!!)
toneladas � toneladas2 (!!)
Solução: voltar às unidades originais usando a operação inversa � raiz quadrada
2
1
( )
1
n
ii
x x
n=
−
−
∑ � Desvio-Padrão
O Desvio -Padrão representa o desvio típicodos elementos do conjunto de dados até seu centro (a média)
No exemplo anterior: (1.0 , 1.5 , 2.0 , 3.5 , 4.0 , 4.0 , 4.5 , 6.0 , 6.5 , 7.0)
Média = 4.0Desvio-Padrão:
394.3 2.1s = = =
−
O Desvio-Padrão (s) será usado como “padrão de desvio ”
Desvio-Padrão: 4.3 2.110 1
s = = =−
s = 0 s = 0.2
s = 1.0 s = 1.5
s = 2.1 s = 2.7
s = 1.5
Mesmo valor da Amplitude Total, mas variabilidades diferentes:
s = 1.9
Voltando ao exemplo das balanças …
10 medições da balança A
999.6 983.0 1018.4 990.0 1004.4 1009.9 991.8 1001.9 999.9 1003.0
10 medições da balança B
985.0 961.0 989.8 1012.2 984.2 1029.3 1010.3 1020.0 979.9 1030.0
960 970 980 990 1000 1010 1020 1030
AB
Peso (em gramas)
(999.6 + 983.0 + ... + 999.9 + 1003.0)X 1000.19 gramas
10A = =
(985.0 + 961.0 + ... + 979.9 + 1030.0)X 1000.17 gramas
10B = =
( )2 2(999.6-1000.19) + ... + (1003.0-1000.19) )10.14 gramas
9As = =
( )2 2(985.0-1000.17) + ... + (1030.0-1000.17) )23.37 gramas
9Bs = =
O desvio-padrão serve para quantificar variabilidade de um conjunto de dados:
Quanto maior a variabilidade dos valores,
Para que serve o Desvio -Padrão?
Quanto maior a variabilidade dos valores, maior será o desvio-padrão.
Mas… um desvio-padrão igual a 10 é grande ou pequeno ?
s=10 significa muita dispersão se X=100
s=10 significa pouca dispersão se X=1000
100.1 (10%)
100= 10
0.01 (1%)1000
=
Para termos idéia da magnitude do valor do desvio-padrão, é necessário verificar o quanto ele ocupa da escala de medida, representada pela média...
Coeficiente de Variação (CV)
O Coeficiente de Variação não tem unidade de medida.
Podemos usar o CV para comparar a variabilidade (dispersão) de grupos diferentes e até de variáveis diferentes.
Comparando a homogeneidade de grupos e variáveis diferentes
Duhn, 2001
O desvio-padrão serve para quantificar a distância entre um elemento e o valor típico (média) de seu grupo.
Para que serve o Desvio -Padrão ?
Exemplo: o valor 5.0 está longe ou perto do valor típico do Exemplo: o valor 5.0 está longe ou perto do valor típico do conjunto de dados?
5.0 4.0 1.00.48
2.1 2.1
− = =
O valor 5.0 está 0.48 desvios-padrão acima da média
Questão: Em um tempo fixo, um atleta correu 431m a mais do que a médiado grupo de atletas. O desempenho dele bom ou muito bom ?
Média do grupo = 1558 m
Desempenho dele = 1989 m
1989 m – 1558 m = 431 m
s =327 metros
4311.32
327=
4310.78
550=431
0.78550
=
Muito bom!
Bom
s =550 metros
Regra do Desvio-Padrão para Distribuição Simétrica
[Reis e Reis, 2001]
Nunca descreva a variável usando apenas as medidas síntese.
Sempre faça o gráfico!
Grupo Média DP ATA 10.3 3.5 14.3B 10.3 3.7 14.3
Grupo Média DP AT Median A 10.3 3.5 14.3 9.3B 10.3 3.7 14.3 11.4
Grupo Mínimo MáximoA 5.9 20.2B 0.8 15.0
Grupo Média DP AT Median A 10.3 3.5 14.3 9.3B 10.3 3.7 14.3 11.4