Transcript
Page 1: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

Estatística descritiva básica: Medidas de tendência central

ACH2021 – Tratamento e

Análise de Dados e Informações

Marcelo de Souza Lauretto

[email protected]

www.each.usp.br/lauretto

*Parte do conteúdo desta apresentação é baseada nos slides da Profa. Patrícia Rufino Oliveira

Page 2: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

Introdução

• Tabelas e gráficos são formas convenientes de sumarizar a forma geral de uma distribuição de valores de uma forma facilmente compreensível.

• Contudo, frequentemente se necessita sumarizar a distribuição de forma mais condensada.

• Duas estatística adicionais extremamente úteis: 1. Medidas de tendência central: fornecem uma ideia do caso médio

típico na distribuição. • Ex: "O salário inicial médio para programadores em São Paulo é de R$

3.800,00 mensais."

2. Medidas de dispersão: fornecem uma ideia da variabilidade ou heterogeneidade na distribuição. • Ex: "O salário inicial para programadores em São Paulo varia de R$

3.000,00 a R$ 4.500,00."

• (próximas aulas)

Page 3: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

Moda

• A moda de uma distribuição de escores é o valor que ocorre mais frequentemente. – Ex: no conjunto de escores 58, 82, 82, 90, 98, a moda é 82 porque

ocorre duas vezes, enquanto os demais escores ocorrem apenas uma vez.

• Útil para sumarizar variáveis qualitativas. – Ex: preferências de religiões (dados fictícios)

Moda da distribuição: Protestante

Page 4: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Limitações da moda: – Algumas distribuições não possuem moda;

• Ex:

Page 5: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Limitações da moda: – Algumas distribuições possuem tantas modas que a estatística deixa

de ter significado.

– Ex: distribuição de escores de testes.

• Modas: 55,66,78,82,90,97. Qual dessas representa um valor "típico"?

Page 6: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Limitações da moda: – Em variáveis quantitativas ou qualitativas ordinais, a moda pode não

ser central na distribuição como um todo.

– Ex: distribuição de escores de testes.

• Moda: 93; esse valor é um bom representante da distribuição?

Page 7: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

Mediana

• A mediana é o valor situado exatamente no centro de uma distribuição de escores.

• Mais precisamente, a mediana é o escore do caso que está exatamente no meio da distribuição: – Metade dos casos têm escores maiores do que a mediana e metade

dos casos têm escores mais baixos do que a mediana.

– Exemplo: Se a mediana da renda familiar anual de uma comunidade é $ 45.000, então metade das famílias ganha mais do que R$ 45.000 e metade ganha menos.

Page 8: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Cálculo da mediana: – Ordene os escores em ordem crescente (ou decrescente)

– Se o número de elementos (n) for ímpar:

• A mediana será o elemento localizado exatamente no centro.

• O índice do elemento central é dado por (n+1) / 2.

– Se o número de elementos (n) for par:

• A mediana será exatamente o valor central dos dois casos do meio da distribuição.

• Os índices do primeiro e do segundo casos centrais são dados por n/2 e n/2 + 1.

• Por exemplo, se n=14, a mediana é o escore situado no centro dos escores do sétimo e oitavo casos.

Page 9: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Cálculo da mediana - exemplos:

Cálculo da mediana com sete casos (n ímpar)

Cálculo da mediana com oito casos (n par)

Page 10: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Cálculo da mediana para dados organizados em tabelas de frequências: a) Calcula-se inicialmente a posição do elemento original dos dados

correspondente à mediana;

b) Determinada a posição da mediana, localiza-se na tabela de frequências a linha que contém essa posição.

• Ex: em um grupo de 36 turmas, as frequências de turmas por número de alunos reprovados foi a observada abaixo. Qual a mediana das reprovações?

Número de alunos reprovados por turma

Frequência Frequência acumulada

0 1 1

1 5 6

2 8 14

3 13 27

4 7 34

5 0 34

6 2 36

• Como n=36 é par, a mediana é a média dos elementos de ordem (36/2)=18 e (36/2)+1=19.

• Analisando as frequências acu- muladas na tabela ao lado, conclui-se que a mediana tem valor 3.

Contém o 18º e o 19º elementos

Page 11: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Cálculo da mediana para dados agrupados em classes: – Determina-se a linha da tabela que contém a mediana na tabela de

forma similar àquela mostrada no slide anterior (cálculo da mediana para dados organizados em tabelas de frequências);

– Uma vez determinada a classe, deve-se calcular o valor da mediana por método de interpolação.

• Ex: distribuição das notas obtidas por candidatos em um vestibular.

Page 12: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Após calcular a posição da mediana, localiza-se, a partir das frequências acumuladas na tabela, a classe na qual a mesma se encontra.

Page 13: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• O valor da mediana é obtido aplicando-se a fórmula:

𝑀𝑑 = 𝐿ℎ +𝑎

𝑓ℎ

𝑛

2− 𝐹ℎ−1

onde:

– ℎ = linha da tabela que contém a mediana;

– 𝐿ℎ = limite inferior da classe que contém a mediana;

– a = amplitude do intervalo de classe;

– 𝑓ℎ = frequência da classe que contém a mediana;

– 𝑛 = quantidade total de elementos;

– 𝐹ℎ−1 = Frequência acumulada até a classe anterior à classe que contém a mediana.

Page 14: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e
Page 15: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

Outras medidas de posição: percentis, decis, quartis

• A mediana pertence a uma classe de estatísticas que medem posição ou locação.

• Frequentemente, é útil localizar outros pontos também: – Podemos querer, por exemplo, encontrar os escores que dividem a

distribuição em quatro partes, ou o ponto abaixo do qual um certo percentual dos casos se encontram.

– Uma aplicação típica dessas medidas são os escores em testes padronizados.

• "Um escore de 476 é maior do que 46% dos escores."

Page 16: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

Percentis

• Uma estatística comumente utilizada para reportar posições é o percentil, que identifica o ponto abaixo do qual uma porcentagem específica dos casos se encontram. – Ex: Se um escore de 476 é reportado como o 46º percentil, isso

significa que 46% dos casos têm escores abaixo desse valor.

– Percentis comuns: 5%, 10%, 25%, 50% (mediana), 75%, 90%, 95%.

Page 17: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Cálculo do k-ésimo percentil: 1. Ordene os escores em ordem.

2. Em seguida, multiplique k por cento pelo número total de casos mais um (n+1):

3. Se o valor resultante for um número inteiro:

• Então o k-ésimo percentil será o R-ésimo elemento do rol de escores.

Se o valor resultante não for um número inteiro o k-ésimo percentil é obtido por interpolação:

• Denote por IR a porção inteira de R, e por FR a porção fracionária de R. Por exemplo, se R=2.25, então IR=2 e FR=0.25.

• Denote por XIR e XIR+1 os escores das posições IR e IR+1, respectivamente.

• O k-ésimo percentil será computado como:

OBS: O 100º percentil corresponderá ao maior escore.

)1(100

nk

R

) (percentil ésimo 1 IRIRIR XXFRXk

Page 18: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Exemplo 1: Calcular o 37º percentil de uma amostra de 78 elementos: – Ordenamos a amostra em ordem crescente;

– Calculamos R:

– IR = 29, FR=0.23

– O 37º percentil corresponderá a 23/100 da distância entre o 29º e o 30º casos:

23.29)178(100

37)1(

100 n

kR

) (23.0 29302937 XXXP

Page 19: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Exemplo 2: Calcular o 25º percentil da amostra representada na tabela ao lado (já em ordem crescente): – Calculamos R:

– IR = 2, FR=0.25

– O 25º percentil corresponderá a 25/100 da distância entre o 2º e o 3º casos:

• OBS: Pela definição acima, o cálculo da mediana é um caso particular. Por exemplo, a mediana da tabela ao lado é dada por:

25.2)18(100

25)1(

100 n

kR

P25  = X2 + 0.25 (X3 - X2 )

= 5+ 0.25(7- 5) = 5.5

R=50

100(8+1) = 4.5

P50  = X4 + 0.5 (X5 - X4 )

= 8+ 0.5(9 -8) = 8.5

Page 20: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

Percentis especiais: decis, quartis, quintis

• Pela definição, percentis dividem a distribuição de escores em centésimos. Alguns tipos especiais de percentis são descritos abaixo.

• Os quartis são bastante populares, e dividem a distribuição de escores em 4 partes (ver figura abaixo). – O 1º, 2º e 3º quartis correspondem ao 25º, 50º e 75º percentis,

respectivamente. São denotados usualmente por Q1, Q2 e Q3.

• Os Decis dividem a distribuição de escores em décimos. – Assim, o 1º decil é o ponto abaixo do qual 10% dos casos se situam, e

é equivalente ao 1º percentil, ou seja, P10.

– Raciocínio análogo serve para o 2º, 3º, ..., 10º decil.

Page 21: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Os Quintis dividem a população em cinco partes: – O 1º, 2º, 3º e 4º quintis correspondem ao 20º, 40º, 60º e 80º percentis,

respectivamente.

• OBS: Os percentis (incluindo seus casos particulares: mediana, quartis, etc) podem ser aplicados sobre variáveis quantitativas ou qualitativas ordinais.

Page 22: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Alguns exemplos de aplicação de percentis, quintis e decis são encontrados nos relatórios – Estatísticas de renda no repositório do IPEA:

www.ipeadata.gov.br social Temas Renda:

– Exemplos:

• Renda - razão entre a renda dos 20% mais ricos e a renda dos 20% mais pobres

• Renda domiciliar - participação dos 40% mais pobres

• Renda domiciliar - participação por décimo da população - 1º

• Renda domiciliar - participação por quintil - 1º

– Discuta como os indicadores exemplificados acima são calculados.

Page 23: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

Média

• A média é a medida de tendência central mais comumente utilizada para descrever resumidamente uma distribuição de frequência.

• Esta estatística representa o escore médio de uma distribuição observada.

• É usualmente denotada por 𝑋 .

Page 24: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

Média aritmética simples

• É dada pela divisão entre a soma dos escores observados (x1, x2, ... , xn) e o número total de observações (n):

𝑋 = 𝑥𝑖

𝑛𝑖=1

𝑛

• Este tipo de média é calculado quando os valores não estão tabulados, ou seja, quando os escores são conhecidos individualmente.

• Ex: Suponha uma mostra de 10 crianças de 5 anos de idade, com dados referentes a seus pesos (em Kg): – 23.0, 20.0, 22.0, 19.0, 25.0, 28.2, 24.0, 21.0, 27.0, 21.0.

– 𝑋 = 𝑥𝑖

𝑛𝑖=1

𝑛=

23+20+22+19+25+28.2+24+21+27+21

10≅ 23.0

Page 25: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

Média aritmética ponderada

• É a média aritmética calculada quando os dados estão agrupados em distribuições de frequência.

• Os valores x1, x2, ... , xn são ponderados pelas respectivas frequências absolutas f1, f2, ... , fn:

𝑋 = 𝑓𝑖 𝑥𝑖

𝑛𝑖=1

𝑛

onde n é a soma das frequências: 𝑛 = 𝑓𝑗𝑛𝑗=1 .

Page 26: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Exemplo 1 (dados não agrupados em classes):

• 𝑋 = 𝑓𝑖 𝑥𝑖

𝑛𝑖=1

𝑛=

0×3+2×1+4×2+2×3+1×4+1×5

13=

25

13= 1.92 ≅ 2.0

• Cada criança de 7 anos de idade da amostra observada tem, em média, 2 cáries.

No de dentes careados (xi) No de crianças (fi) fi xi

0 3 0

1 2 2

2 4 8

3 2 6

4 1 4

5 1 5

Total 13 25

Número de cáries em crianças de 7 anos de idade. Candeias, 1990.

Fonte: (dados hipotéticos)

Page 27: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Exemplo 2 (tabela de distribuição de dados agrupados em classes):

• Qual era a idade média dos pacientes de Aids na Bahia em 1993?

𝑋 = 𝑓𝑖 𝑥𝑖𝑛𝑖=1

𝑛=

2500

80≅ 31.2 anos.

Casos de Aids segundo faixa etária. Bahia, 1993.

Fonte: (dados hipotéticos)

Page 28: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Sensibilidade da média a valores extremos: – Quando uma distribuição possui alguns escores extremamente altos

(isso é denominado de assimetria positiva), o valor numérico da média aritmética será maior do que o da mediana;

– Quando uma distribuição possui alguns escores extremamente baixos (assimetria negativa), o valor numérico da média será menor do que o da mediana.

Page 29: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Sensibilidade da média a valores extremos: – A média e a mediana somente terão os mesmos valores numéricos

quando a distribuição da população é simétrica.

Page 30: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• Sensibilidade da média a valores extremos: – Exemplo: considere a tabela abaixo, em que os escores nas colunas 1 e

3 são quase iguais, exceto o último.

– Para os escores da coluna 1, a média e a mediana são iguais (25);

– Para os escores da coluna 3, a mediana é 25, enquanto a média é 718.

Page 31: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

Resumo: medidas de tendência central e aplicações

• As três medidas de tendência central apresentadas têm um objetivo comum. Cada uma retrata alguma informação sobre o valor mais típico ou representativo em uma distribuição.

• A moda reporta o escore mais comum e é adotada mais apropriadamente com variáveis qualitativas nominais.

• A mediana (Md) reporta o escore que está exatamente no centro da distribuição. É mais apropriado com: – variáveis qualitativas ordinais;

– variáveis quantitativas com distribuição assimétrica.

Page 32: Estatística descritiva básica: Medidas de tendência central · Estatística descritiva básica: ... nos slides da Profa. Patrícia Rufino Oliveira . Introdução • Tabelas e

• A média (𝑋 ), a medida mais frequentemente usada, reporta o escore mais típico. É adotada mais apropriadamente com variáveis quantitativas (exceto quando sua distribuição é altamente assimétrica).

• Obs: – É usual adotar a média para variáveis qualitativas ordinais nas

situações as classes são representadas por números (p.ex. variáveis representando escalas de avaliação ou escalas de gravidade de doenças).

– A motivação é que a média é considerada mais flexível do que a mediana, e também porque muitos métodos estatísticos são baseados em médias.

– Todavia, a rigor, em uma variável ordinal nem sempre se pode considerar que as distâncias de escore para escore são iguais (p.ex. a distância do escore “1” para o escore “2” não é necessariamente igual à distância do escore “2” para “3”) e portanto as operações de soma e divisão utilizadas no cálculo da média não são conceitualmente indicadas.


Recommended