View
277
Download
0
Category
Preview:
Citation preview
Prof.ª Sheila Regina Oro
Projeto “Recursos Educacionais Digitais”
Autores: Bruno Baierle e Maurício Furigo
PROBABILIDADE E ESTATÍSTICA
ESTATÍSTICA DESCRITIVA
ESTATÍSTICA DESCRITIVA
A Estatística Descritiva fornece um resumo dos
dados experimentais:
Medidas centrais: média, moda e mediana;
Medidas de dispersão: variância, desvio padrão e
coeficiente de variação, assimetria e curtose;
Medidas de posição: Percentis, Quartis e Boxplot.
MÉDIA ARITMÉTICA AMOSTRAL(𝑥)
Considera todos os elementos da amostra e o
número de elementos.
𝑥 = 𝑖=1𝑛 𝑥𝑖
𝑛
Onde:
𝑥𝑖: cada observação na amostra;
𝑛: número de observações da amostra.
A média é influenciada por dados extremos
(valores máximos e mínimos).
MÉDIA ARITMÉTICA POPULACIONAL(μ)
A média aritmética da população é a soma dos
valores na população, dividida pelo tamanho da
população;
𝜇 = 𝑖=1𝑁 𝑥𝑖𝑁
Onde:
𝑁: tamanho da população;
𝑥𝑖: i-ésimo valor da variável x;
MODA
A Moda é o valor que mais se repete em umaamostra;
Conjuntos de dados com uma moda sãodenominados unimodais;
Se o conjunto possuir duas modas, é denominadobimodal;
Nem todo conjunto de dados possui moda, quandoisso ocorre, o conjunto é denominado amodal;
MODA
Ex: Encontre a moda nos seguintes conjuntos de
dados:
A: 2, 6, 4, 9, 13, 2, 4, 9, 8, 2;
B: 2, 9, 8, 6, 4, 6, 3, 2;
C: 2, 6, 8, 4, 9, 10, 1, 5.
MEDIANA
A Mediana é o valor que ocupa a posição central;
Ex: Determine a mediana dos seguintes conjunto:
A: 2, 6, 8, 4, 9, 13, 6, 8, 12;
A: 2, 4, 6, 6, 8, 8, 9, 12, 13;
B: 2, 6, 3, 4, 13, 15, 18, 14;
B: 2, 3, 4, 6, 13, 14, 15, 18;
mediana=6+13
2= 9,5
AMPLITUDE
A amplitude dos dados é igual ao maior valor
menos o menor valor;
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 = 𝑋𝑚𝑎𝑖𝑜𝑟 − 𝑋𝑚𝑒𝑛𝑜𝑟
VARIÂNCIA AMOSTRAL(𝑠2)
Fornece a unidade do valor apresentado comoo seu quadrado, o que dificulta, ou impossibilitainterpretação lógica, sendo usadas apenas paracomparação entre conjuntos de dados. Para finsinterpretativos usa-se o desvio padrão.
𝑠2 =1
𝑛 − 1
𝑖=1
𝑛
(𝑥𝑖 − 𝑥)2
Onde:
𝑥𝑖: i-ésimo valor da variável x;
𝑥: média aritmética;
𝑛: tamanho da amostra;
DESVIO PADRÃO AMOSTRAL(s)
Apresenta quanto o valor da média está distante
dos dados do conjunto;
Tanto para a variância como para o desvio padrão,
quanto menor seu valor, mais concentrados estão
os dados, e mais representativo é o valor da média;
𝑠 =2𝑠2
Onde:
𝑆2: variância dos dados.
DESVIO PADRÃO AMOSTRAL(s)
Considerando os resultados a seguir, qual dos dois
conjuntos de dados são mais concentrados?
𝑥𝐴 = 2,97 𝑥𝐵 = 0,67
𝑠𝐵 = 1,20 𝑠𝐵 = 0,5
VARIÂNCIA POPULACIONAL(σ²)
É usada quando não se conhece todas as
observações da amostra;
σ²=1
𝑁
𝑖=1
𝑁
(𝑥𝑖 − μ)²
Onde:
𝑁: tamanho da população;
𝑥: observação na amostra;
μ: média populacional.
DESVIO PADRÃO POPULACIONAL(σ)
O desvio padrão da população é a raiz quadrada
da variância da população;
σ = 𝑖=1𝑁 (𝑥𝑖−𝜇)²
𝑁, ou 𝜎 = 𝜎²
Onde:
𝑁: tamanho da população;
𝜇: média aritmética da população;
𝑥: observação na amostra.
COEFICIENTE DE VARIAÇÃO(CV)
Representa a dispersão real do conjunto de dados.
𝐶𝑉 =𝑠
𝑥∗ 100
Onde:
𝑠: desvio padrão;
𝑥: média aritmética.
COEFICIENTE DE VARIAÇÃO
Se CV≤30%: os dados são homogêneos;
Se CV≥30%: os dados são heterogêneos;
Dados homogêneos: concentração aceitável (pode-
se realizar comparações entre médias e demais
estudos estatísticos);
Dados heterogêneos: dispersão considerável (os
demais estudos estatísticos ficam comprometidos).
ASSIMETRIA
A assimetria representa a concentração dos valores
em um dos extremos da distribuição;
Neste caso, a distribuição se comporta de forma
simétrica, onde 𝑥 = 𝑀𝑜𝑑𝑎 = 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 .
ASSIMETRIA
Assimetria positiva;
𝑥 > 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 > 𝑀𝑜𝑑𝑎.
ASSIMETRIA
Assimetria negativa;
𝑥 < 𝑀𝑒𝑑𝑖𝑎𝑛𝑎 < 𝑀𝑜𝑑𝑎.
ASSIMETRIA
O coeficiente de assimetria pode ser calculado da
seguinte maneira:
𝐴𝑠𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 = 𝑥 − 𝑀𝑜
𝑠
Onde:
𝑥: média amostral;
𝑀𝑜: moda;
𝑠: desvio padrão.
ASSIMETRIA
Caso trate-se de uma amostra amodal, o
coeficiente de assimetria pode ser determinado
utilizando a mediana:
𝐴𝑠𝑠𝑖𝑚𝑒𝑡𝑟𝑖𝑎 =3 ∗ ( 𝑥 − 𝑀𝑑)
𝑠Onde:
𝑀𝑑: mediana;
𝑥: média amostral;
𝑠: desvio padrão.
ASSIMETRIA
A assimetria pode ser determinada também
considerando-se os quartis:
𝐴𝑠 =𝑄3 + 𝑄1 − 2𝑀𝑑
𝑄3 − 𝑄1Onde:
𝑄3 e 𝑄1: 3º e 1º quartis;
𝑀𝑑: mediana.
ASSIMETRIA
Equação de simetria usada pelos softwares Minitab
e Excel:
𝐴𝑠 =𝑛
(𝑛 − 1)(𝑛 − 2)
𝑖=1
𝑛𝑥𝑖 − 𝑥
𝑠
3
Onde:
𝑛: tamanho da amostra;
𝑥𝑖: i-ésima observação da amostra;
𝑥: média amostral;
𝑠: desvio padrão amostral.
ASSIMETRIA
Nas distribuições considera-se:
Simétrica:
𝐴𝑠 < 0,15;
Assimétrica moderada:
0,15 ≤ 𝐴𝑠 < 1;
Fortemente Assimétrica:
𝐴𝑠 ≥ 1.
CURTOSE
A curtose representa o grau de achatamento da
distribuição;
É determinado por:
𝑘 =1
2∗(𝑄3 − 𝑄1)
𝑃90 − 𝑃10Onde:
𝑄3 e 𝑄1: 3º e 1º quartis;
𝑃90 e 𝑃10: 10º e 90º percentis.
CURTOSE
O coeficiente de curtose para a distribuição normal
é 0,263. A curva de distribuição normal é
denominada Mesocúrtica.
CURTOSE
Quando o coeficiente de curtose 𝑘 < 0,263, a curva
é mais alongada, denominada Leptocurtica.
CURTOSE
Quando o coeficiente de curtose 𝑘 > 0,263 , a
distribuição é mais achatada, denominada
Platicurtica.
QUARTIS
Os Quartis dividem os dados em quatro partes
iguais;
Primeiro Quartil: 25% dos valores são menores ou
iguais a 𝑄1, e 75% são maiores ou iguais a 𝑄1.
Terceiro Quartil: 25% dos valores são maiores ou
iguais a 𝑄3, e 75% dos valores são menores ou
iguais a 𝑄3.
QUARTIS
Q1Q2
medianaQ3
25% dos
dados
50% dos
dados
75% dos
dados
QUARTIS
𝑄1 = 𝑥 𝑛+14+ 0,75 𝑥 𝑛+1
4+1−𝑥 𝑛+1
4
𝑄3 = 𝑥 3𝑛+34+ 0,25 𝑥 3𝑛+3
4+1−𝑥 3𝑛+3
4
Onde:
𝑛: tamanho da amostra;
𝑥:
O Segundo Quartil 𝑄2= Mediana.
AMPLITUDE INTERQUARTIL
A amplitude interquartil corresponde a diferença
entre o terceiro quartil e o primeiro quartil;
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑞𝑢𝑎𝑟𝑡𝑖𝑙 = 𝑄3 − 𝑄1
PERCENTIL
Para determinar o percentil podemos encontrar a
posição que ele ocupa dentro do conjunto de
dados;
𝑝𝑜𝑠𝑖çã𝑜 =𝑝(𝑛 + 1)
100
Ex. 𝑃90 =90(37+1)
100= 34,2
𝑃90 = 0,9 ∗ 1,57 + 0,1 ∗ 1,6 = 1,573
BOXPLOT
É um gráfico desenhado a partir dos valores de 𝑄1,𝑄3, mediana, máximo e mínimo;
É útil para avaliar concentração dos dados entre
estas medidas e para identificar valores atípicos ao
conjunto de dados (ponto discrepante);
É usado também para analisar a variabilidade e a
simetria dos dados.
BOXPLOT
BOXPLOT
BOXPLOT
Percebe-se a existência de um ponto discrepante no gráfico,que pode influenciar os resultados estatísticos.
EXEMPLO
(Landim) Os dados para este exemplo provém de
uma jazida de carvão, localizada no município de
Sapopema-PR, na qual foram obtidos valores para
as variáveis espessura da camada de carvão, teor
de enxofre, teor de cinzas e rendimento para a
obtenção de um produto lavrado com 20% de
cinzas. Como descrito por Cava (1985) e Landim et
al. (1988), esse depósito situa-se a cerca de 20 km
a noroeste de Figueira, no noroeste do Estado do
Paraná, em sedimentos da parte inferior do
Membro Triunfo da Formação Rio Bonito.
TABELA DE DADOSPontos X Y Espessura Cinzas Enxofre Rendimento a 20%
13 1 5 0,8 38,6 15,2 0,81
10 2 5 0,72 22,6 6,1 0,83
14 4 5 0,69 39 7,9 0,67
54 3 4,5 0,8 37,1 10,1 0,99
42 4,5 4,5 0,73 40,8 4,9 0,81
55 0,5 4 1,19 34,1 7,21 1,32
43 1,5 4 0,94 25 5,79 1,32
40 2,5 4 0,96 29,3 7,92 1,12
41 3,5 4 1,05 33 7,03 1,19
26 5 4 1,32 29,7 7,32 1,37
16 1 3,5 1,02 33,7 8,1 0,91
20 2 3,5 1,2 26,13 7,4 1,64
25 3 3,5 1,1 25,41 8,6 1,49
11 4 3,5 1,18 22,8 6 1,4
34 6 3,5 1,3 19,1 8,1 2,13
47 1,5 3 1,55 35,1 7,93 1,75
45 2,5 3 1,57 16,9 6,31 1,9
44 3,5 3 1,3 20,5 6,27 1,89
TABELA DE DADOSPontos X Y Espessura Cinzas Enxofre Rendimento a 20%
49 0,5 2,5 1,18 39,1 5,74 1,3
2 1,5 2,5 1,4 38,6 8,68 1,43
1 2 2,5 1,3 27,5 7,75 1,55
3 2,5 2,5 1,5 25,4 6,87 2,03
12 4 2,5 1,4 24,3 6,9 1,59
5 1,5 2 1,85 57,4 5,6 1,15
4 2,5 2 1,2 22 7,46 1,77
8 3 2 1,23 27 5,99 1,57
39 4 2 1,3 32,1 8,07 1,46
46 0,5 1,5 1,62 36,8 5,24 1,77
37 1,5 1,5 2,09 19,5 5,34 1,21
6 2 1,5 1,6 47,8 5,93 1,44
7 2,5 1,5 1,4 43,1 5,6 1,18
50 3 1,5 1,41 36,6 8,17 1,48
38 3,5 1,5 1,38 39,6 5,12 1,3
57 4 1,5 1,04 31,1 6,39 1,28
48 2 1 1,31 64,8 5,71 1,09
21 3,5 1 1,28 43,24 5,4 1,33
24 2,5 0,5 0,55 27,2 9,01 0,82
EXERCÍCIO
Realize um teste estatístico completo dos dados da
coluna de Espessura.
RESULTADOS
Média:
𝑥 =1
𝑛 𝑖=1𝑛 𝑥𝑖
𝑥 =0,18+0,72+0,69+⋯+1,28+0,55
37= 1,2286
Mediana
𝑀𝑑 = 1,28
Moda
𝑀𝑜 = 1,3
Amplitude
𝐴𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 = 2,09 − 0,55 = 1,54
RESULTADOS
Variância
𝑠² =1
𝑛−1 𝑖=1𝑛 (𝑥𝑖 − 𝑥)²
𝑠² =1
37−1∗ 0,8 − 1,2286 2 +⋯+ 0,55 − 1,2286 2 = 0,1059
Desvio Padrão
𝑠 = 𝑠² = 0,1059 = 0,3254
Observando o desvio padrão podemos afirmar que
os dados possuem uma variabilidade alta.
RESULTADOS
Coeficiente de variação
𝐶𝑉 =𝑠
𝑥∗ 100 =
0,3254
1,2286∗ 100 = 26,48
Como o coeficiente de variação calculado foi menor
que 30%, os dados podem ser considerados
homogêneos, sendo possível a realização de
comparações entre médias e os demais testes
estatísticos.
RESULTADOS
QUARTIS
𝑄1 = 𝑥 𝑛+14
+ 0,75 𝑥 𝑛+14+1−𝑥 𝑛+1
4
𝑄1 =1,04+1,02
2= 1,03
𝑄3 = 𝑥 3𝑛+34
+ 0,25 𝑥 3𝑛+34+1−𝑥 3𝑛+3
4
𝑄3 =1,4+1,4
2= 1,4
RESULTADOS
ASSIMETRIA
𝐴𝑠 = 𝑥−𝑀𝑜
𝑠=1,2286−1,3
0,3254= −0,2194
𝐴𝑠 =3∗( 𝑥−𝑀𝑑)
𝑠=3∗(1,2286−1,28)
0,3254= −0,47
𝐴𝑠 =𝑄3+𝑄1−2𝑀𝑑
𝑄3−𝑄1=1,4+1,03−(2∗1,28)
1,4−1,03= −0,35
RESULTADOS
Espessura
Fre
qu
en
cy
2,01,81,61,41,21,00,80,6
12
10
8
6
4
2
0
Mean 1,229
StDev 0,3254
N 37
Histograma para a variável EspessuraNormal
RESULTADOS
CURTOSE
𝑃90 =𝑝(𝑛+1)
100=90(37+1)
100= 34,2
𝑃10 =10(37+1)
100= 3,8
𝑃90 = 0,9 ∗ 1,57 + 0,1 ∗ 1,6 = 1,573
𝑃10 = 0,9 ∗ 0,73 + 0,1 ∗ 0,72 = 0,729
𝑘 =1
2∗𝑄3−𝑄1
𝑃90−𝑃10=1
2∗1,4−1,03
1,573−0,729= 0,22
Como 𝑘 = 0,22 < 0,263 , a curva de distribuição é
denominada Leptocurtica.
BOXPLOT ESPESSURA DA CAMADA DE
CARVÃO
No gráfico pode ser observado um outlier, podemostambém confirmar a assimetria moderada dosdados, pois o valor da média é menor que amediana.
REFERÊNCIAS
BARBETTA, Pedro A.; REIS, Marcelo. M.; BORNIA,
Antonio C. Estatística para cursos de engenharia
e informática. 3 ed. São Paulo: Editora Atlas,
2010.
SPIEGEL, Murray R. Estatística. 3 ed. São Paulo:
Pearson Makron Books, 2006.
LEVINE, David M. et al. Estatística, Teoria e
Aplicações. 6 ed. Rio de Janeiro: LTC, 2012.
LANDIM, Paulo M. B. Análise estatística de
dados geológicos. 2 ed. São Paulo: Editora
UNESP, 2003.
Recommended