Upload
mort
View
67
Download
0
Embed Size (px)
DESCRIPTION
Estatística descritiva. Também designada Análise exploratória de dados ou Análise preliminar de dados. Estatística descritiva vs inferencial. Estatística Descritiva: conjunto de métodos estatísticos que visam sumariar e descrever os atributos mais proeminentes aos dados. - PowerPoint PPT Presentation
Citation preview
1
Estatística descritiva
Também designada
Análise exploratória de dados ou Análise preliminar de dados
2
Estatística descritiva vs inferencial Estatística Descritiva: conjunto de métodos
estatísticos que visam sumariar e descrever os atributos mais proeminentes aos dados.
Estatística Inferencial: conjunto de métodos estatísticos que visam caracterizar (ou inferir sobre) uma população a partir de uma parte dela (a amostra).
3
Estatísticas ou medidas amostrais Estatística ou medida amostral: uma medida
numérica que descreve alguma característica de uma amostra. É habitualmente representada por letras latinas. Por exemplo: x (média), s (desvio padrão), r (coeficiente de correlação)
Amostra
Estatística / medida amostral
xx
4
Parâmetros
Parâmetro: uma medida numérica que descreve alguma característica de uma população. É habitualmente representado por letras gregas. Por exemplo: μ (média), σ (desvio padrão), ρ (coeficiente de correlação)
População
Parâmetro
5
Ferramentas de Estatística Descritiva Cálculo numérico de medidas amostrais.
Resumo e descrição global dos dados através da construção de tabelas e de gráficos.
Análise e interpretação dos resultados obtidos.
6
Medidas amostrais
Tendência ou localização central: média (mean), mediana (median), moda (mode), média aparada (trimmed mean).
7
Medidas amostrais
Localização relativa: Mínimo (minimum), Máximo (maximum), Quantil (quantile), Quartil (quartile), Percentil (percentile).
8
Medidas amostrais
Dispersão: amplitude (range), distância inter-quartil (inter-quartile range), variância (variance), desvio padrão (standard deviation), coeficiente de variação (coefficient of variation),
9
Medidas amostrais
Assimetria: Coeficiente de assimetria (skweness).
10
Tabelas de frequências
Tabelas que resumem a informação contida na amostra, ordenando os seus valores e agrupando-os em classes (de valores repetidos ou de valores distribuídos por intervalos).
11
Gráficos
Gráficos de frequências Histogramas Caixas de bigodes ou diagramas de
extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de dispersão (scatterplot)
12
Descrição resumida das várias ferramentas de Estatística descritiva
13
Ordenação e tabela de frequências Tipos de frequências:
Frequência absoluta Frequência relativa Frequência absoluta acumulada Frequência relativa acumulada
Uma tabela de frequências é uma tabela onde figuram os valores de pelo menos um destes tipos de frequências.
14
Tabela de frequências Exemplo de uma tabela produzida pelo SPSS:
Durante um ano contabilizou-se diariamente o nº de golfinhos
presos nas redes dos pescadores das águas Açoreanas. nº de golfinhos presos num dia
37 14,4 14,4 14,4
45 17,5 17,5 31,9
84 32,7 32,7 64,6
52 20,2 20,2 84,8
23 8,9 8,9 93,8
11 4,3 4,3 98,1
2 ,8 ,8 98,8
1 ,4 ,4 99,2
1 ,4 ,4 99,6
1 ,4 ,4 100,0
257 100,0 100,0
0
1
2
3
4
5
6
8
9
13
Total
ValidFrequency Percent Valid Percent
CumulativePercent
15
Medidas amostrais
Tendência ou localização central: média (mean), mediana (median), moda (mode), média aparada (trimmed mean).
16
Medidas de localização central: Média Média: Numa amostra de n observações, x1, x2, …, xn
Se os dados estiverem agrupados (k valores distintos)
onde fi designa a frequência absoluta de xi* (ou a frequência absoluta
da classe com marca xi* no caso de dados agrupados em classes)
n
x
n
x
n
xxxx i
n
ii
n
121 ...
n
fx
n
fx
n
fxfxfxx ii
k
iii
nn
*
1
**
2*21
*1 ...
17
Medidas de localização central: Média A média pode ser pensada como o centro de massa
dos valores das observações, ie, o ponto de equilibrio após dispormos as observações sobre uma régua.
Pontos afastados ou erros nas observações podem afastar a média do grosso das observações.
18
A mediana á a observação central, depois de ordenada a amostra. Se a amostra tiver dimensão ímpar, coincide com a observação central. Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.4 a mediana é .Se a amostra tiver dimensão par, a mediana toma o valor da média das duas observações mais centrais.Exemplo: Na amostra 0.3; 0.7; 0.9; 1.1 a mediana é .
A mediana é mais robusta que a média a erros ou a observações afastadas.
Medidas de localização central: Mediana
2.1
0.8
19
Medidas de localização central: Média aparada
Uma média aparada não é mais do que uma “mistura” entre os conceitos de média e mediana por forma a combinar as qualidades de ambas.
Uma média aparada é uma média que é calculada excluindo uma certa proporção de observações em cada extremo da amostra.
20
Medidas de localização central: Moda A moda é o valor mais frequente de uma amostra. Ao contrário do que acontece com a mediana e a
média, uma amostra pode possuir mais do que uma moda.
Moda
21
Medidas de localização central: Moda
A moda é a única medida de localização central que pode ser utilizada para dados numa escala nominal.
A moda pode não ter significado, especialmente em dados de natureza contínua ou em dados discretos com poucas observações repetidas!
Quando os dados estão agrupados em classes podemos falar da classe modal, ou seja, da classe com maior frequência.
22
Medidas amostrais
Localização relativa: Mínimo (minimum), Máximo (maximum), Quantil (quantile), Quartil (quartile), Percentil (percentile).
23
Medidas de localização relativa: Mínimo e Máximo
Mínimo – é o valor mais reduzido da amostra Máximo – é o valor mais elevado da amostra
24
Medidas de localização relativa: Quartis Quartis – são os valores (Q1, Q2 e Q3) que
dividem a amostra, depois de ordenada, em quatro partes iguais (ou o mais iguais possível). Q2 coincide com a mediana.
25
Medidas de localização relativa: Quantis e Percentis Quantil de ordem p (0≤ p ≤ 1)– é um valor, xp,
que divide a amostra em duas partes, tal que à esquerda de xp está a proporção p da amostra e à direita a proporção 1-p.
Percentil de ordem p (p vai de 1 a 100) - é o mesmo que um quantil mas em que a proporção é dada em percentagem.
26
Medidas amostrais
Dispersão: amplitude (range), distância inter-quartil (inter-quartile range), variância (variance), desvio padrão (standard deviation), coeficiente de variação (coefficient of variation),
27
Medidas de dispersão: Amplitude A amplitude de uma amostra é a diferença
entre o máximo e o mínimo.
Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.3 a amplitude é . 2.3 - 1.2 = 1.1
28
Medidas de dispersão: Distância inter-quartil
Distância inter-quartil – é a diferença entre o 3º e o 1º quartis, Q3 - Q1.
No intervalo que vai de Q1 a Q3 encontram-se 50% das observações (as mais centrais).
29
Medidas de dispersão: variância A variância é a média dos quadrados dos desvios
das observações em relação à média da amostra.
Habitualmente considera-se uma versão corrigida da variância
30
Medidas de dispersão: desvio padrão A variância não vem representada na mesma unidade das
observações. Se tomarmos a raiz quadrada da variância obtemos o desvio padrão que também é uma medida de dispersão e vem na mesma unidade das observações.
Nos programas de estatística e nas máquinas de calcular o que aparece são as versões corrigidas da variância e do desvio padrão.
O desvio padrão e a variância podem ser fortemente afectados por erros ou observações muito afastadas.
31
Medidas de dispersão: coeficiente de variação O Coeficiente de variação é a razão entre o desvio
padrão e a média, v = s / x.
Trata-se de uma medida relativa de dispersão e por isso não tem unidades.
32
Medidas amostrais: assimetria
Coeficiente de assimetria – é uma medida que assume o valor zero quando a distribuição de frequências da amostra é completamente simétrica e assume valores diferentes de zero (positivos ou negativos) quando a distribuição não é simétrica.
Atenção que numa amostra é quase impossível observar simetria pura. Por isso o coeficiente de assimetria assume valores quase sempre diferentes de zero. Para termos uma ideia se a assimetria é relevante devemos comparar o valor do coeficiente com o erro associado. Se o coeficiente não exceder 2 ou 3 vezes o erro, o seu valor não será muito relevante, especialmente quando queremos extrapolar para a população.
33
Medidas amostrais: assimetria Uma distribuição possui assimetria positiva
(alternativamente negativa) quando existe uma concentração de valores na zona de valores mais reduzidos (alternativamente elevados) da amostra.
Assimetria positiva Quase simetria Assimetria negativa
Coef.ass. >0 Coef.ass. ~ 0 Coef.ass. <0
34
Medidas amostrais: assimetria A assimetria também pode ser avaliada comparando
os valores da média, mediana e moda (desde que esta última faça sentido).
Assimetria positiva:
moda < mediana < média
moda médiamediana
35
Medidas amostrais: assimetriaAssimetria negativa: média < mediana < moda
Simetria pura: média = mediana = moda
Simetria aproximada: média ~ mediana ~ moda
36
Gráficos
Gráficos de frequências Histogramas Caixas de bigodes ou diagramas de
extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de dispersão (scatterplot)
37
Histogramas
O histograma é um gráfico que reflecte a forma da distribuição de frequências da amostra. Também procura reflectir a estrutura (forma) da população de onde foi retirada a amostra.
Para construir um histograma é necessário primeiro repartir os dados por classes e depois calcular as respectivas frequências. O histograma é um gráfico de frequências construído a partir desta tabela de frequências (por classes). Os histogramas são particularmente úteis para variáveis contínuas ou variáveis com poucos valores repetidos.
38
Histogramas
A apresentação do histograma depende muito do número de classes considerado. Um número muito grande de classes produz um histograma com demasiada irregularidade, enquanto um histograma com um número demasiado reduzido de classes oculta a forma da distribuição (perde-se demasiada informação).
39
Histogramas
Poucas classes Muitas
classes
40
Gráficos de frequências
Gráficos de frequências são gráficos de barras que traduzem graficamente o conteúdo da tabela de frequências. Os mais habituais são os gráficos de frequências absolutas ou relativas, mas também podemos construir gráficos de frequências absolutas ou relativas acumuladas.
Os gráficos de frequências (não acumuladas) são apropriados para dados qualitativos ou numéricos discretos (ou que se comportam como tal). Quando as frequências absolutas são reduzidas e a gama de valores da amostra é dispersa os gráficos de frequências tornam-se pouco interessantes (muito irregulares).
41
Gráficos de frequências
Chama-se função de distribuição empírica à função cuja imagem gráfica é o gráfico de frequências relativas acumuladas.
Exemplo:
0 1 2 3
x
0%
25%
50%
75%
100%
42
Caixas de bigodes
Pode ser encarada como a representação gráfica de algumas medidas de localização:
mediana
Q1 Q3 outliers e extremos
43
Caixas de bigodes
Mínimo da amostra mas não menos de Q1-1.5(Q3-Q1)
Máximo da amostra mas não mais de Q3+1.5(Q3-Q1)
44
Caixa de bigodes
Algumas caixas têm os bigodes até ao mínimo e máximo e não têm representados outliers.
As caixas de bigodes dão informação sobre A localização central: mediana Outras localizações: 1º e 3º quartis e mínimo e
máximo. Dispersão: amplitude e distância inter-quartil Assimetria: posição relativa da mediana na caixa,
comprimento dos bigodes.
45
Caixas de bigodes
Assimetria positiva Assimetria negativaSimetria
46
Caixa de bigodes comparativas As caixas de bigodes também são úteis para
comparar várias amostras num mesmo gráfico, caixas de bigodes comparativas.
47
Caixas de bigodes comparativas Exercício 3 da folha 2:
48
Diagramas de caule e folha Representa os dados, separando cada valor em
duas partes: o caule (valor à esquerda do traço vertical) e a folha (algarismo à direita do traço vertical)
Exemplo:(10.5 10.7 10.8
11.0 11.0 11.1
11.2 11.3 11.4
11.4 11.7 12.0
12.9 12.9 13.3
13.7 13.8 14.0
14.1)
diametro Stem-and-Leaf Plot
Frequency Stem & Leaf
3,00 10 . 578 8,00 11 . 00123447 3,00 12 . 099 3,00 13 . 378 2,00 14 . 01
Stem width: 1,00 Each leaf: 1 case(s)
49
Diagramas de caule e folha
Outro exemplo:
(63 64 65 66
66 69 71 71 72
………
…....85 86 87)
Devemos multiplicar cada
valor por 10 para recuperar
os dados.
altura Stem-and-Leaf Plot
Frequency Stem & Leaf
2,00 6 . 34 4,00 6 . 5669 6,00 7 . 112244 8,00 7 . 55566789 9,00 8 . 000001123 3,00 8 . 567
Stem width: 10,00 Each leaf: 1 case(s)
50
Formas de distribuições
Os gráficos de frequências, histogramas, diagramas de caule-e-folhas (e em parte as caixas de bigodes) dão-nos informação quanto à forma da distribuição dos dados (e consequentemente da população de onde foram retirados)
Existem distribuições de vários tipos:
unimodais, bimodais e multimodais
51
Formas de distribuições
Exemplo:
unimodal bimodal
52
Diagramas de dispersão
Os diagramas de dispersão são gráficos que permitem relacionar duas variáveis entre si.
Representam-se pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y
53
Diagramas de dispersão
Exemplo: pesos e comprimentos de 414 recém-nascidos.
54
Matrix de diagramas de dispersão Exercício 4 da folha 2: Árvores