Click here to load reader
Upload
thiago-toscano-ferrari
View
504
Download
21
Embed Size (px)
DESCRIPTION
Material de apoio para a disciplina de Probabilidade e Estatística, ofertado pela Faesa em Vitória/ES – 2012/2013
Citation preview
MARIA ALICE V. F. DE SOUZA
ESTATÍSTICA
APLICADA
Pensar estatisticamente será um dia, para a
eficiente prática da cidadania, tão necessário
como a habilidade de ler e escrever.
Herbert George Wells
Estatística – origens
Censo – latim censere – significa taxar
Estatística – latim status – significa estado.
A Estatística nas mãos de governantes constituiu-
se em ferramenta administrativa.
ARCE 2006 [FCC]
O processo estatístico que consiste em uma
avaliação direta de um parâmetro, utilizando-se
todos os componentes da população, denomina-
se:
a) amostragem
b) estimação
c) Censo
d) parametrização
e) correlação
Essência da Estatística: a observação
Objetivo básico: inferência (deduzir, concluir)
Importância:
Avaliar o grau de dependência entre duas
variáveis como o tempo médio de alguém
digitando e sintomas de dores nos dedos;
Avaliar o tempo médio de duração de uma aula
e o nível de atenção;
O fator previdenciário da Previdência Social;
As previsões das pesquisas eleitorais;
Conhecer o tempo médio de duração de um
sinal de trânsito vermelho e a sua paciência.
Controlar a qualidade na produção de
componentes eletrônicos;
Usos estatísticos pelas seguradoras;
Estatística É um ramo da Matemática que trata dos métodos de coleta,
organização, resumo, apresentação e análise de dados.
Estatística Descritiva
1ª etapa
Estatística
Indutiva
2ª etapa
Estatística
Coleta e
organiza os
dados.
Avalia e controla
os dados
coletados.
TERRACAP 2009 [UNIVERSA] (parte da
questão)
Julgue os itens a seguir.
III - Uma fábrica produz 100.000 lâmpadas por mês.
São sorteadas 100 lâmpadas, e essas são mantidas
acesas até queimarem, com o objetivo de calcular a
vida média desse tipo de lâmpada. A experiência, que
utiliza um subconjunto de um grupo para calcular
determinado parâmetro e admite que esse parâmetro
é válido para todo o grupo, é um problema estudado
pela estatística inferencial.
VERDADEIRO
Variável
Qualitativa Quantitativa
Nominal Ordinal Contínua Discreta
Não pode
ordenar:
•Estado civil
•Religião
•Sexo
•região
Pode
ordenar:
•Nível de
educação
•Classe
social
Contáveis:
•Idade
•Capacidadede
passageiros
•N°de filhos
Não
Contáveis:
•Peso
•Altura
•Largura
•Medida de
capacidade
PETROBRAS 2010 [CESGRANRIO]
Uma variável aleatória numérica contínua é uma variável
que possui a característica de não se poder saber a priori
o seu valor, além de ser
(A) qualitativa e de poder assumir qualquer valor dentro
do intervalo no qual está definida.
(B) qualitativa e de ser fruto de um processo de
contagem
(C) qualitativa e de ser fruto de um processo de
mensuração.
(D) quantitativa e de poder assumir qualquer valor
dentro do intervalo no qual está definida.
(E) quantitativa e de ser fruto de um processo de
contagem.
População e Amostra
População (ou Universo): é qualquer conjunto de
informações que tenham, entre si, uma
característica comum.
Ex.: conj. de todas as estaturas – população de
estaturas
conj. de todas as cores de olhos – população de
cores de olhos
Amostra : redução representativa da
população, ou seja, sem perda das
características essenciais.
Escolha dos números – números aleatórios
(tabelas, sorteios etc.)
População Amostra
TERRACAP 2009 [UNIVERSA] (parte da
questão)
Julgue os itens a seguir.
I Uma cidade possui 1.000 habitantes. Um
estatístico, necessitando fazer uma determinada
pesquisa, entrevistou 200 pessoas. É correto
dizer que, nesse exemplo específico, de uma
amostra de 1.000 pessoas, o estatístico
entrevistou uma população de 200 indivíduos.
FALSO
TIPOS DE AMOSTRAGEM É o conjunto de técnicas utilizadas para a seleção de
uma amostra. Esse conjunto de técnicas pode ser
subdividido em dois grupos básicos:
AMOSTRAGEM
ALEATÓRIA
AMOSTRAGEM NÃO
ALEATÓRIA
•amostragem aleatória simples ou ao acaso;
•amostragem sistemática;
•amostragem estratificada
•amostragem por
conglomerados.
•amostragem intencional;
•amostragem voluntária.
Não permitem o controle de
variabilidade amostral,
o que inviabiliza o
controle de qualidade
da estimação.
AMOSTRAGEM ALEATÓRIA SIMPLES OU AO ACASO
É aquela em que se atribui aos grupos de mesma quantidade de elementos, a mesma probabilidade de participar da amostra. Cada elemento da população tem a mesma probabilidade de participar da amostra.
Para se obter uma amostra aleatória simples, caso a população seja finita, podemos atribuir a cada elemento um número.
Ex: Fichas numeradas podem ser misturadas em uma urna. O sorteio das fichas identificam os elementos que deverão participar da amostra, garantindo a mesma chance para cada um deles.
AMOSTRAGEM ALEATÓRIA OU
PROBABILÍSTICA
AMOSTRAGEM SISTEMÁTICA
Quando se conhece uma listagem dos elementos
da população pode-se obter uma amostra aleatória
de n elementos dividindo-se o número de
elementos da população pelo tamanho da amostra.
Ex: É o caso, por exemplo, de um processo de
auditoria em notas fiscais de uma empresa. Como
as notas fiscais são numeradas, a escolha de uma
amostra pode ser feita de maneira sistemática.
AMOSTRAGEM ESTRATIFICADA
Pode ocorrer que a população seja formada por subgrupos
diferentes, mas cada um deles homogêneo. Neste caso,
vamos selecionar aleatoriamente uma quantidade de cada
grupo para formar a amostra, proporcional ao tamanho desse
grupo.
Exemplo: Podemos dividir a população em 3 estratos:
renda alta, renda média, renda baixa, e proceder à
amostragem estratificada. Na amostragem estratificada é
preciso selecionar elementos de todos os estratos.
Ex.: analisar indivíduos de todas as idades presentes na
população.
AMOSTRAGEM POR CONGLOMERADOS
Em algumas situações, podemos identificar um grupo de elementos que tenha aproximadamente a mesma composição de população. Neste caso, pode ser interessante realizar amostragem usando somente os elementos desse grupo.
Ex.: Algumas empresas, quando pretendem avaliar a aceitação de um produto no eixo Rio-São Paulo, lançam o produto em Curitiba, cuja população se comporta como uma miniatura desse mercado.
Ex.: quarteirões em um bairro.
AMOSTRAGEM INTENCIONAL
Ocorre quando o pesquisador seleciona
intencionalmente os componentes da amostra;
Ex.: Em um estudo sobre automóveis, o pesquisador
procura apenas oficinas; Em uma pesquisa sobre
preferência por determinado cosmético, o pesquisador
entrevista os frequentadores de um grande salão de
beleza.
AMOSTRAGEM NÃO ALEATÓRIA OU
NÃO PROBABILÍSTICA
AMOSTRAGEM VOLUNTÁRIA OU ACIDENTAL
Ocorre quando o componente da população se
oferece voluntariamente para participar da
amostra independentemente do julgamento do
pesquisador.
Ex.: Coleta por amostragem voluntária, de sangue
para identificação de doenças sexuais curáveis;
Pesquisas de opinião em praças públicas, ruas
movimentadas de grandes cidades, etc.
AMOSTRAGEM NÃO ALEATÓRIA OU
NÃO PROBABILÍSTICA
TERRACAP 2009 [UNIVERSA]
A finalidade da amostragem é permitir fazer inferências sobre
uma população após inspeção de apenas parte dela. Fatores como
custo, tempo, ensaios destrutivos e populações infinitas tornam a
amostragem preferível a um estudo completo (censo) da
população. Naturalmente, espera-se que a amostra represente a
população de que foi extraída.
Entre os métodos de amostragem existentes, assinale a
alternativa correta.
(A) A amostragem estratificada consiste na divisão da população
global em subgrupos heterogêneos (homogêneos), utilizando-se
em seguida todos os elementos de alguns subgrupos escolhidos
aleatoriamente
(B) A amostragem por conglomerados consiste na divisão da
população de origem em, no mínimo, duas subpopulações com
as mesmas características. Em seguida, extrai-se uma amostra
(todos os elementos) de cada subdivisão.
(C) A amostragem sistemática consiste na escolha de elementos
na ordem em que aparecem em determinada lista.
(D) Em nenhuma hipótese é permitido o uso da amostragem por
julgamento, por não se tratar de um procedimento probabilístico.
(é não probabilística; o julgamento do pesquisador influencia na
amostra)
(E) A amostragem aleatória simples é caracterizada pelo fato de
cada elemento da população possuir a mesma chance de ser
escolhido.
Gráficos
Colunas
Barras
0
20
40
60
80
100
1940 1950 1960 1970
População
População
0 20 40 60 80 100
1940
1950
1960
1970
População do Brasil
População do Brasil
0
50
100
150
200
250
Argentina Brasil México Portugal
Concorrência dos vários meios publicitários em 1970 Montante da
despesa em milhões de dólares
Televisão
Rádio
Outdoors
Revistas
Jornais
Gráficos
0
100
200
300
400
500
1 2 3 4 5 6 7
Série1
Série2
Linhas
0
20
40
60
80
100
120
140
1980 1981 1982
A
B
C
Gráficos
Setores
Polar
0
5
10
15
20 Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
Série1
Ônibus
60%
Trem
5% Aviao
32 %
Barco
3%
Pictórico
Gráficos
Pictórico
Gráficos
Área
Outros Gráficos
Superfície
Gráficos
gráfico de candlesticks/ box plot
Fonte: site da bolsa de ações japonesa.
ESTATÍSTICA
DESCRITIVA Distribuições de Frequência
PROFª MARIA ALICE V. F. DE SOUZA
Distribuição de Frequência
xi fi
21 3
22 2
23 2
24 1
25 4
Total 12
Fonte:
Título
Classe fi
45 |- 55 15
55 |- 65 30
65 |- 75 35
75 |- 85 15
85 |- 95 5
Total 100
Fonte:
Título
Amplitude Total (R): diferença entre o
maior e o menor valor observado nos
dados.
R = 25-21= 4 R = 95-45= 50
Classe fi
45 |- 55 15
55 |- 65 30
65 |- 75 35
75 |- 85 15
85 |- 95 5
Total 100
Fonte:
Título
xi fi
21 3
22 2
23 2
24 1
25 4
Total 12
Fonte:
Título
Exemplo: Notas de Matemática de 80 estudantes
de Engenharia da Universidade X no ano de
1990.
Distribuição de Frequência
68 84 75 82 68 90 62 88 76 93
73 79 88 73 60 93 71 59 85 75
61 65 75 87 74 62 95 78 63 72
66 78 82 75 94 77 69 74 68 60
96 78 89 61 75 95 60 79 83 71
79 62 67 97 78 85 76 65 71 75
65 80 73 57 88 78 62 76 53 74
86 67 73 81 72 63 76 75 85 77
Dados Brutos: dados desorganizados
Rol: são os dados brutos organizados em
ordem crescente ou decrescente.
Distribuição de Frequência
53 57 59 60 60 60 61 61 62 62
62 62 63 63 65 65 65 66 67 67
68 68 68 69 71 71 71 72 72 73
73 73 73 74 74 74 75 75 75 75
75 75 75 76 76 76 76 77 77 78
78 78 78 78 79 79 79 80 81 82
82 83 84 85 85 85 86 87 88 88
88 89 90 93 93 94 95 95 96 97
Notas fi
50 |- 55 1
55 |- 60 2
60 |- 65 11
65 |- 70 10
70 |- 75 12
75|- 80 21
80 |- 85 6
85 |- 90 9
90 |- 95 4
95 |- 100 4
80
Fonte: hipotética
Notas de
Matemática -
Universidade X-
1990 - Engenharia
fi – frequência absoluta – valores absolutos;
fr – frequência relativa – é a freq. absoluta da
classe em termos percentuais;
fa – frequência acumulada – freq. total de todos os
valores inferiores ao limite superior de um dado
intervalo de classe;
far – frequência acumulada relativa – é a freq.
acumulada em termos relativos ou percentuais.
Distribuição de Freqüência
Distribuição de Frequência
Notas fi fr (%) fa far (%)
50 |- 55 1 1,25 1 1,25
55 |- 60 2 2,50 3 3,75
60 |- 65 11 13,75 14 17,50
65 |- 70 10 12,50 24 30,00
70 |- 75 12 15,00 36 45,00
75 |- 80 21 26,25 57 71,25
80 |- 85 6 7,50 63 78,75
85 |- 90 9 11,25 72 90,00
90 |- 95 4 5,00 76 95,00
95 |- 100 4 5,00 80 100,00
80 100,00
Notas de Matemática - Universidade X -
1990 - Engenharia
Fonte: hipotética
Ponto Médio de uma Classe: É o ponto intermediário do
intervalo da classe e é obtido pela média aritmética entre o
limite inferior e o superior de cada classe.
Notas fi ponto médio
50 |- 55 1 52,5
55 |- 60 2 57,5
60 |- 65 11 62,5
65 |- 70 10 67,5
70 |- 75 12 72,5
75 |- 80 21 77,5
80 |- 85 6 82,5
85 |- 90 9 87,5
90 |- 95 4 92,5
95 |- 100 4 97,5
80
Notas de Matemática -
Universidade X - 1990 -
Engenharia
Fonte: hipotética
Distribuição de Frequência
ESTATÍSTICA
DESCRITIVA Medidas de Posição
PROFª MARIA ALICE V. F. DE SOUZA
Medidas de Posição
Estas medidas nos orientam quanto à posição
da distribuição no eixo x, possibilitando
comparações de séries de dados entre si pelo
confronto desses números. São também
conhecidas como medidas de tendência central,
pois representam os fenômenos pelos seus
valores médios, em torno dos quais tendem a
concentrar-se os dados.
Média Aritmética ( ) __
X
n
x
X
n
i
i 1
__n= n° de elementos do conjunto
Ex.: de 3, 7, 8, 10, 11
8,75
1110873__
n
xX
Para dados não agrupados:
Para dados agrupados:
n
fx
X
n
i
ii 1
__. n= n° de elementos do conjunto
fi=frequência simples
__
X
Exemplo 1:
6,210
26
10
1.45.33.21.1__
X
nfi
Exemplo 2: Renda familiar
(em milhares $)fi ponto médio
2 - 4 5 3
4 - 6 10 5
6 - 8 14 7
8 - 10 8 9
10 - 12 3 11
Total 40
7,640
268
40
11.39.87.145.103.5__
X
xi fi
1 1
2 3
3 5
4 1
Total 10
A média aritmética é influenciada pela
soma, subtração, multiplicação e
divisão.
Propriedades da Média Aritmética
Mediana (Md) Colocados os dados em ordem crescente, mediana é o valor que divide a amostra, ou população, em duas partes iguais.
0% 50% 100%
Md
Para dados isolados:
Se n for ímpar: a Md será o elemento central;
Se n for par: a Md será a média aritmética entre os elementos centrais.
2 4 7 9 11 17 23 24 24
2 4 7 9 11 17 23 24 24 25
Md = 142
1711
Para dados isolados agrupados:
xi fi fa
1 1 1
2 3 4
3 5 9
4 2 11
Total 11
elementon
Md
62
1
O 6° elemento se encontra na 3ª classe; Md = 3.
xi fi fa
82 5 5
85 10 15
87 15 30
89 8 38
90 4 42
Total 42
872
8787
2
2221
Md
Para dados agrupados em classes:
Md
if
hfn
lMdMd
).2
(
limite inferior da classe Md freqüência da classe Md
soma das freq.anteriores à classe da Md.
amplitude classe Md
Exemplo: Classes fi fa
35 - 45 5 5
45 - 55 12 17
55 - 65 18 35
65 - 75 14 49
75 - 85 6 55
85 - 95 3 58
Total 58
Classe Md
(58/2=29)
Md
if
hfn
lMdMd
).2
(
67,6118
12055
18
10).172
58(
55
Md
CGU 2008 [ESAF]
Determine a mediana do seguinte
conjunto de dados:
58, 95, 17, 44, 63, 9, 57, 21, 88, 12, 31,
28, 73, 5 e 56.
a) 28
b) 31
c) 44
d) 50
e) 56
CGU 2008 [ESAF] - Solução
Determine a mediana do seguinte
conjunto de dados:
5 9 12 17 21 28 31 44 56 57 58 63 73
88 95
a) 28
b) 31 (é o sétimo dado)
c) 44
d) 50 (média de 44 e 56)
e) 56 (é o nono dado)
Separatrizes
Quartis
Decis
Percentis
Quartis
Os quartis dividem um conjunto de dados em 4 partes iguais.
0% 50% 100%
Q2
25% 75%
Q3 Q1
1° quartil separa os
primeiros 25% dos elementos.
3° quartil separa os
primeiros 75% dos elementos.
2° quartil coincide com a
Md.
Cálculo do 1° Quartil Q1:
1
1
).4
(
1
Q
Qf
hfn
lQ
Cálculo do 3° Quartil Q3:
3
3
).4
3(
3
Q
Qf
hfn
lQ
Exemplo:
Classes fi fa7 - 17 6 6
17 - 27 15 21
27 - 37 20 41
37 - 47 10 51
47 - 57 5 56
Total 56
classe do Q1 classe da Md classe do Q3
classe do Q1
classe da Md
classe do Q3
elementon
144
elementon
282
elementon
424
3
33,2215
10).64
56(
171
Q
5,3020
10).212
56(
27
Md
3810
10).414
56.3(
373
Q
CGU 2008 [ESAF]
Dado o conjunto de dados: 58, 95, 17,
44, 63, 9, 57, 21, 88, 12, 31, 28, 73, 5 e
56, determine a amplitude interquartílica
Q3 – Q1.
a) 33.
b) 37.
c) 40.
d) 46.
e) 51
CGU 2008 [ESAF] Solução
Dado o conjunto de dados: 58, 95, 17, 44,
63, 9, 57, 21, 88, 12, 31, 28, 73, 5 e
56, determine a amplitude interquartílica
Q3 – Q1.
5 9 12 17 21 28 31 44 56 57 58 63 73 88
95 15/4= 3,75 ~ 4
15.(3/4) = 11,25 ~ 12
63 – 17 = 46
a) 33 b) 37 c) 40 d) 46 e) 51
Moda (Mo) É o valor mais freqüente da distribuição. Para distribuições simples (sem agrupamentos em classes), verifica-se a moda pela simples observação do elemento que apresenta maior freqüência.
Ex.: 2 – 4 – 4 - 5 – 7 – 8 – 10
Mo=4
Ex.:
Mo=248
xi fi
243 7
245 17
248 23
251 20
307 8
Total 75
Para dados agrupados:
•identificar a classe modal
•fórmula de Czuber
hlM io .21
1
amplitude classe Mo
limite inferior da classe Mo
diferença entre a freqüência da classe modal e a imediatamente anterior.
diferença entre a freqüência da classe modal e a imediatamente posterior.
Ex.:
classes fi
0 - 1 3
1 - 2 10
2 - 3 17
3 - 4 8
4 - 5 5
Total 43
1
2classe modal
44,216
721.
97
72
1.)817()1017(
)1017(2
.21
1
o
o
io
M
M
hlM
Se a classe modal cair na 1ª ou na última classe, fazer a diferença com zero.
AFRFB 2009 [ESAF]
Considere a seguinte amostra aleatória das idades em anos
completos dos alunos em um curso preparatório. Com
relação a essa amostra, marque a única opção correta:
29, 27, 25, 39, 29, 27, 41, 31, 25, 33, 27, 25, 25, 23, 27, 27,
32, 26, 24, 36, 32, 26, 28, 24, 28, 27, 24, 26, 30, 26, 35, 26,
28, 34, 29, 23, 28.
a) A média e a mediana das idades são iguais a 27.
b) A moda e a média das idades são iguais a 27.
c) A mediana das idades é 27 e a média é 26,08.
d) A média das idades é 27 e o desvio-padrão é 1,074.
e) A moda e a mediana das idades são iguais a 27.
AFRFB 2009 [ESAF] - SOLUÇÃO
Considere a seguinte amostra aleatória das idades em anos
completos dos alunos em um curso preparatório. Com
relação a essa amostra, marque a única opção correta:
29, 27, 25, 39, 29, 27, 41, 31, 25, 33, 27, 25, 25, 23, 27, 27,
32, 26, 24, 36, 32, 26, 28, 24, 28, 27, 24, 26, 30, 26, 35, 26,
28, 34, 29, 23, 28.
23 23 24 24 24 25 25 25 25 26 26 26 26 26 27 27 27 27 27
27 28 28 28 28 29 29 29 30 31 32 32 33
n=37 Md = 27 (décimo-nono) Mo = 27
a) A média e a mediana das idades são iguais a 27.
b) A moda e a média das idades são iguais a 27.
c) A mediana das idades é 27 e a média é 26,08.
d) A média das idades é 27 e o desvio-padrão é 1,074.
e) A moda e a mediana das idades são iguais a 27.
SEFAZ 2004 BA [FCC]
Considere a tabela abaixo que mostra a distribuição de
salários (em reais) de 160 funcionários de determinada
empresa, com suas respectivas frequências relativas
acumuladas.
O valor modal dos salários (desprezando os centavos) é:
a) 1784
b) 1666
c) 1648
d) 1636
e) 1628
Classes em reais Frequência relativa
acumulada (%)
[600,1000) 10
[1000,1400) 30
[1400,1800) 70
[1800,2200) 95
[2200,2600) 100
SEFAZ 2004 BA [FCC] - Solução
Considere a tabela abaixo que mostra a distribuição de
salários (em reais) de 160 funcionários de determinada
empresa, com suas respectivas frequências relativas
acumuladas.
O valor modal dos salários (desprezando os centavos) é:
a) 1784
b) 1666
c) 1648
d) 1636
e) 1628
Classes em reais
far (%) Frequência
absoluta
[600,1000) 10 10
[1000,1400) 30 20
[1400,1800) 70 40
[1800,2200) 95 25
[2200,2600) 100 5
ESTATÍSTICA
DESCRITIVA Outros Gráficos Estatísticos
PROFª MARIA ALICE V. F. DE SOUZA
Outros Gráficos: Histograma
Retiradas (R$) Frequência pt. médio
500 |- 600 12 550
600 |- 700 36 650
700 |- 800 63 750
800 |- 900 81 850
900 |- 1000 77 950
1000 |- 1100 42 1050
1100 |- 1200 24 1150
335
Fonte: fictícia
Retiradas diárias de um banco
Outros Gráficos: Polígono de
frequência
Retiradas (R$) Frequência pt. médio
500 |- 600 12 550
600 |- 700 36 650
700 |- 800 63 750
800 |- 900 81 850
900 |- 1000 77 950
1000 |- 1100 42 1050
1100 |- 1200 24 1150
335
Fonte: fictícia
Retiradas diárias de um banco
Outros Gráficos: Ogiva de
Galton
Retiradas (R$) Frequência pt. médio
500 |- 600 12 550
600 |- 700 36 650
700 |- 800 63 750
800 |- 900 81 850
900 |- 1000 77 950
1000 |- 1100 42 1050
1100 |- 1200 24 1150
335
Fonte: fictícia
Retiradas diárias de um banco
Petrobras 2010 [CESGRANRIO]
Histogramas e polígonos de frequências
são duas representações gráficas de
distribuições
(A) uniformes.
(B) de frequências.
(C) de acumulações.
(D) não uniformes.
(E) assimétricas.
IRB 2006 [ESAF]
Histograma e Polígono de frequência são:
a) a mesma representação gráfica (idênticas) de
uma distribuição de frequência.
b) um texto descritivo e uma representação gráfica
de uma distribuição de frequência.
c) um texto descritivo e uma função gráfica de uma
distribuição de frequência.
d) duas representações gráficas de uma
distribuição de frequência.
e) duas representações gráficas de uma
distribuição de frequência, porém com sentidos
opostos.
branco negro outros
grupos étnicos
Outros Gráficos: Box Plot
SEFAZ RJ 2009 [FGV]
Para comparar as rendas de dois grupos
de pessoas, A e B, foram preparados
diagramas de caixas (box-plots) com os
valores observados dos salários,
representados na figura a seguir:
A respeito desses diagramas, considere as seguintes
afirmativas:
I. O salário médio dos dois grupos é o mesmo.
II. A distribuição de salários no grupo A é
assimétrica à direita.
III. Há mais pessoas no grupo A do que no grupo
B.
Assinale:
(A)Se somente a afirmativa I for verdadeira;
(B)Se somente a afirmativa II for verdadeira;
(C)Se somente a afirmativa III for verdadeira;
(D)Se somente as afirmativas I e II forem
verdadeiras;
(E)Se somente as afirmativas II e III forem
verdadeiras.
I. O salário médio dos dois grupos é o mesmo.
(não há como saber)
II. A distribuição de salários no grupo A é
assimétrica à direita. (sim)
III. Há mais pessoas no grupo A do que no grupo
B. (não há como saber)
(B) Se somente a afirmativa II for verdadeira
Outros Gráficos: Ramo e Folhas
0 9
1 0 1 3 3 5 7 8 8 8 9
2 0 0 1 2 2 2 3 3 3 5 7 7 8 9
3 2 2 3 6 6 8 9
4 0 1
5
6 2
Tipos de Curvas CURVA SIMÉTRICA
CURVA ASSIMÉTRICA POSITIVA
CURVA ASSIMÉTRICA NEGATIVA
ESTATÍSTICA
DESCRITIVA Medidas de Dispersão
PROFª MARIA ALICE V. F. DE SOUZA
Medidas de Dispersão
São medidas estatísticas utilizadas para avaliar o grau
de variabilidade, ou dispersão, dos valores em torno da
média. O termo dispersão indica o grau de
afastamento de um conjunto de números em relação à
sua média.
__
Xxi
dispersão
Exemplos:
a) 20, 20, 20 a=20;
b) 15, 10, 20, 25, 30 b=20
__
X__
X
Amplitude Total (Range - R)
Diferença entre o maior e o menor dos
valores da série.
R = xmáx. - xmín.
Ex.: para a série
10, 12, 20, 22, 25, 33, 38
R = 38 – 10 = 28
A amplitude total é uma medida de dispersão limitada pois não leva em consideração a dispersão dos valores internos.
Variância ( ) 2
Mede as variações ocorridas. É calculada a
partir das diferenças entre cada elemento e
a média do conjunto.
i
ii
f
fxx ].)[( 2__
2
Desvio Padrão ( )
É também uma medida capaz de medir
variação.
2
i
i
f
fxx
n
xx
.)(
)(
2__
2__
AFPS 2002 [ESAF]
Dada a sequência de valores 4, 4, 2, 7 e
3, assinale a opção que dá o valor da
variância. Use o denominador 4 em seus
cálculos.
a) 5,5
b) 4,5
c) 3,5
d) 6,0
e) 16,0
AFPS 2002 [ESAF] - Solução
Dada a sequência de valores 4, 4, 2, 7 e
3, assinale a opção que dá o valor da
variância. Use o denominador 4 em seus
cálculos.
0 0 4 9 1
0 0 -2 3 -1
Logo…
a) 5,5
b) 4,5
c) 3,5
d) 6,0
e) 16,0
O desvio-padrão e a variância não são
influenciados pela soma e subtração,
mas sim pela multiplicação e divisão.
Propriedades do Desvio-padrão e da Variância
TRE PI 2009 [FCC]
Uma variável aleatória X apresenta uma média
igual a 8 e variância 25. Define-se variância
relativa de uma variável aleatória como sendo a
divisão da respectiva variância pelo valor do
quadrado da média, quando esta é diferente de
zero. Então, a variância relativa da variável
aleatória Y = 2X – 1 é
(A) 25/64
(B) 2/9
(C) 4/9
(D) 16/36
(E) 25/36
TRE PI 2009 [FCC] - Solução
Uma variável aleatória X apresenta uma média
igual a 8 e variância 25. Define-se variância
relativa de uma variável aleatória como sendo a
divisão da respectiva variância pelo valor do
quadrado da média, quando esta é diferente de
zero. Então, a variância relativa da variável
aleatória Y = 2X – 1 é
(A) 25/64
(B) 2/9
(C) 4/9
(D) 16/36
(E) 25/36
Caso os dados sejam de uma amostra, as fórmulas passam a ser:
1)(
.)( 2__
2
i
ii
f
fxxS
tamanho da amostra menos 1.
ou
]
)([
1)(
12
22
i
ii
ii
i f
fxfx
fS
tamanho da amostra menos 1.
Grau de Curtose
MENOR DISPERSÃO; MAIOR CONCENTRAÇÃO DE DADOS
MAIOR DISPERSÃO; MENOR CONCENTRAÇÃO DE DADOS
Distribuição delgada; LEPTOCÚRTICA
Distribuição nem chata, nem delgada; MESOCÚRTICA
Distribuição achatada; PLATICÚRTICA
Cálculo do Grau de Curtose
)(2 1090
13
PP
QQK
Se k < 0,263 LEPTOCÚRTICA
Se K = 0,263 MESOCÚRTICA
Se K > 0,263 PLATICÚRTICA
percentilP
percentilP
quartilQ
quartilQ
10
90
1
3
10
90
1
3
Cálculo do Coeficiente de
Assimetria
13
31
__
2
MdQQAS
MoXAS
0
0
0
AS
AS
AS Distribuição é Simétrica Distribuição é Assimétrica Positiva
Distribuição é Assimétrica Negativa
MPU 2004 [ESAF]
A mediana é uma medida de posição usualmente
utilizada na análise de distribuições de
renda porque as distribuições de renda
a) têm intervalos de classe distintos.
b) sempre são normais.
c) tipicamente são do tipo uniforme.
d) geralmente se mostram bastante assimétricas
e) são sempre bimodais
INEP 2008 [CESGRANRIO]
Analise as afirmações a seguir.
Numa distribuição simétrica, a média e a mediana coincidem.
PORQUE
Numa distribuição simétrica a moda nem sempre existe.
Quanto às afirmações acima, pode-se concluir que
(A) as duas asserções são verdadeiras e a segunda é uma
justificativa correta da primeira.
(B) as duas asserções são verdadeiras e a segunda não é uma
justificativa correta da primeira.
(C) a primeira asserção é uma proposição verdadeira e a
segunda, uma proposição falsa.
(D) a primeira asserção é uma proposição falsa e a segunda,
uma proposição verdadeira.
(E) tanto a primeira como a segunda são proposições falsas.
Coeficiente de Variação (CV)
Trata-se de uma medida relativa de
dispersão útil para a comparação em
termos relativos do grau de concentração
em torno da média de séries distintas.
100.__
X
CV
Em geral, a distribuição possui:
baixa dispersão: CV 15%
média dispersão: 15%<CV<30%
alta dispersão: CV 30%
Senado 2008 [FGV]
O coeficiente de variação amostral (em
porcentagem) de um conjunto de salários é 110%.
Se os salários desse conjunto forem reajustados em
20%, o novo coeficiente de variação amostral será:
(A) 110%.
(B) 112,2%.
(C) 114,2%.
(D) 122%.
(E) 130%.
Senado 2008 [FGV] - Solução
O coeficiente de variação amostral (em
porcentagem) de um conjunto de salários é 110%.
Se os salários desse conjunto forem reajustados
em 20%, o novo coeficiente de variação amostral
será:
(A) 110%.
(B) 112,2%.
(C) 114,2%.
(D) 122%.
(E) 130%.
SEFAZ SP – 2006 [FCC]
Considerando as respectivas definições e
propriedades relacionadas às medidas de posição e
de variabilidade, é correto afirmar:
(A) Concedendo um reajuste de 10% em todos os salários
dos empregados de uma empresa tem-se que a
respectiva variância fica multiplicada por 1,10.
(B) Definindo o coeficiente de variação (CV) como sendo o
quociente da divisão do desvio-padrão pela respectiva
média aritmética (diferente de zero) de uma sequência de
valores, tem-se então que CV também poderá ser obtido
dividindo a correspondente variância pelo quadrado da
média aritmética.
(C) Subtraindo um valor fixo de cada salário dos
funcionários de uma empresa, tem-se que o
respectivo desvio-padrão dos novos valores é
igual ao valor do desvio-padrão dos valores
anteriores.
(D) Dividindo todos os valores de uma sequência de
números estritamente positivos por 4, tem-se
que op respectivo desvio-padrão fica dividido
por 2.
(E) Em qualquer distribuição de valores em estudo,
a diferença entre a mediana e a moda é sempre
diferente de zero.
SEFAZ SP – 2006 [FCC]
Considerando as respectivas definições e
propriedades relacionadas às medidas de posição e
de variabilidade, é correto afirmar:
(A) Concedendo um reajuste de 10% em todos os salários
dos empregados de uma empresa tem-se que a
respectiva variância fica multiplicada por 1,10. 1,21
(B) Definindo o coeficiente de variação (CV) como sendo o
quociente da divisão do desvio-padrão pela respectiva
média aritmética (diferente de zero) de uma sequência de
valores, tem-se então que CV também poderá ser obtido
dividindo a correspondente variância pelo quadrado da
média aritmética. Não, essa seria a variação relativa.
(C) Subtraindo um valor fixo de cada salário dos
funcionários de uma empresa, tem-se que o
respectivo desvio-padrão dos novos valores é
igual ao valor do desvio-padrão dos valores
anteriores.
(D) Dividindo todos os valores de uma sequência de
números estritamente positivos por 4, tem-se
que o respectivo desvio-padrão fica dividido por
2. Não, fica dividido por 4.
(E) Em qualquer distribuição de valores em estudo,
a diferença entre a mediana e a moda é sempre
diferente de zero. Há casos em que são iguais.
Escore z
É o n° de desvios-padrão pelo qual um valor x dista da média (para mais ou para menos).
__
xxz
0 1 2 3 -1 -2 -3
valores comuns
valores incomuns
valores incomuns
__
X1
__
X1__
X
2__
X2__
X
z
É uma escala que permite que você meça quantos
desvios-padrão o valor em questão está acima/abaixo
da . __
X
Exemplo 1:
As alturas da população de homens adultos têm
X=69,0 in, desvio-padrão =2,8 in (in=pol). O
jogador Michael Jordan ganhou reputação de
gigante, mas com 78 in, ele pode ser considerado
excepcionalmente alto, comparado com a
população geral de homens adultos americanos?
21,38,2
6978__
xxz
A altura de Michael Jordan está 3,21 desvios-padrão
acima da média. Sim, ele é alto para os padrões
americanos.
__
X
Vamos investigar como é essa curva.
%15
%06,40406,069
8,2100.
__
CV
X
CV
baixa dispersão
99,7% 95,0%
68,0%
A altura de Michael Jordan está contido nos 0,15% da população.
__
X __
X__
X
2__
X2__
X
3__
X3__
X
PROBABILIDADE
PROFª MARIA ALICE V. F. DE SOUZA
A probabilidade surgiu com os jogos de azar como
jogos de cartas, de roletas, de números etc, no
século XVI. Mais tarde, sua utilização foi ampliada
para estudos de Genética por Mendel que, até
hoje, continuam sendo válidos.
Os resultados previsíveis são chamados de
determinísticos. Por exemplo, o tempo gasto
para um objeto atingir o solo sendo lançado de
uma certa altura. Caso não saibamos o resultado
final de um experimento com antecedência,
chamamos de aleatório. Por exemplo, lançar uma
moeda; jogar na loteria de números, jogar um
dado etc.
Em Probabilidade estudamos experimentos
aleatórios que tenham a mesma chance de
ocorrência, isto é, a chance de acontecer os
diferentes resultados é a mesma.
Espaço Amostral (S)
Para cada experimento aleatório E defini-se
Espaço Amostral – S - o conjunto de todos os
possíveis resultados desse experimento.
Ex.: Experimento E1 = jogar um dado e observar o
número da face de cima.
S = {1, 2, 3, 4, 5, 6}
Ex.: Experimento E2 = jogar 2 moedas e observar o
resultado.
S = {(c,c), (c,k), (k,c), (k,k)}
c – cara
k - coroa
Evento
O evento se caracteriza por ser qualquer subconjunto do conjunto S.
Ex.: E1 = lançar um dado e observar o número de cima.
S = {1, 2, 3, 4,, 5, 6}
Evento A = ocorrer múltiplo de 2 = {2, 4, 6}
Observações:
1- Quando o evento for igual ao espaço amostral, o evento é dito CERTO;
2- Quando o evento for , o evento é considerado IMPOSSÍVEL.
Probabilidade
amostralespaçoelementosn
eventoelementosnEventop
º
º)(
)(º
)(º)(
Sn
EvnEvp
Exemplos:
1- Seja o experimento aleatório: nascimento de 3 filhotes de um casal de gatos. Determine:
a) O S deste experimento:
S = {(MFF), (MFM), (MMF), (MMM), (FMM),
(FMF), (FFM), (FFF)}
b) A probabilidade do evento: exatamente 2 fêmeas.
8
3
8
))()((
)(
)()(
FFMFMFMFF
Sn
EvnEvp
c) A probabilidade do evento: nascimento de exatamente 3 machos.
d) A probabilidade do evento: nascimento de, pelo menos, 2 fêmeas.
8
1
)(
)()(
Sn
EvnEvp
%502
1
8
4)( Evp
2- Numa urna existem 4 bolas amarelas e 2 bolas rosas. Qual é o S retirando-se 3 bolas sucessivamente?
S = {(AAA), (AAR), (ARA), (ARR), (RAA), (RAR), (RRA)} n(S)=7
A R
A A
A R
R R
A A
A
R R
3- Qual o espaço amostral no lançamento de 2 moedas simultaneamente?
S = {(cc), (ck), (kc), (kk)}
c
c
k
k
cc
kc
ck
kk
4- Qual o S do experimento aleatório lançamento simultâneo de 3 moedas diferentes?
S = {(ccc), (cck), ... (kkk)}
n(S) = 8
c
k
c c
c k
k
k k
c c
c k
k
4.1- Calcule a probabilidade do evento: no mínimo 1 cara:
4.2- Calcule a probabilidade do evento: pelo menos 2 coroas:
8
7)( Evp
2
1
8
4)( Evp
4.3- Calcule a probabilidade do evento: no máximo 1 cara:
4.4- Calcule a probabilidade do evento: exatamente 2 coroas:
2
1
8
4)( Evp
8
3)( Evp
Alguns Tipos de Eventos
1- Eventos Mutuamente Exclusivos ou Excludentes
Dois eventos são chamados mutuamente exclusivos, se eles não puderem ocorrer simultaneamente, isto é, evento A e evento B são disjuntos, ou seja,
BA
Ex.: lançar um dado e observar se vai dar par ou ímpar.
S = {1, 2, 3, 4, 5, 6}
Ev(A) = ocorrer nº par = {2,4,6}
Ev(B) =ocorrer nºímpar ={1,3,5}
BA
2- Eventos Complementares
O complemento de um evento A, denotado por ,
consiste em todos os resultados em que o evento
A não ocorre.
Ex.: Se p(chuva)=0,4, determine p(ñ-chuva).
p(ñ-chuva) = 1 – p(chuva) =
1 - 0,4 = 0,6
___
A___
A
3- Eventos Independentes
Dois eventos A e B são independentes se a
ocorrência de um deles não afeta a probabilidade
de ocorrência do outro. (Analogamente, vários
eventos são independentes se a ocorrência de
qualquer um deles não afeta as probabilidades de
ocorrência dos outros).
Ex.: a jogada de uma moeda e a jogada de um dado são eventos independentes, porque o resultado da moeda não afeta a probabilidade do resultado do dado.
Então:
)().()( BpApBAp
4- Eventos Condicionais ou Probabilidade Condicional
Se A e B são eventos de um espaço amostral S, com p(B) diferente de zero, então a probabilidade condicional do evento A, tendo ocorrido o evento B, é indicada por p(A/B).
)(
)()/(
Bp
BApBAp
Ex.: Dois dados são lançados. Considere os eventos:
onde x1 é o resultado do dado 1 e x2 é o resultado do dado 2.
Calcule p(A/B) e p(B/A)
}|),{(
}10|),{(
2121
2121
xxxxB
xxxxA
Solução:
A={(4,6), (5,5), (6,4)}
B={(2,1), (3,1), (3,2), (4,1), (4,2), (4,3), (5,1), (5,2),
(5,3), (5,4), (6,1), (6,2), (6,3), (6,4), (6,5)}
)}5,6),...(1,3(),1,2{(
)}4,6{(
)(
)()/(
Bp
BApBAp
15
1
36
1536
1
Ainda podemos calcular a probabilidade condicional da seguinte maneira:
Considere o primeiro evento como sendo um espaço amostral reduzido:
Sreduzido={(2,1),(3,1),...,(6,5)}=15 elementos
E o segundo evento passa a ser um evento desse Sreduzido.
Ev: x1+x2=10 : {(6,4)} 15
1
)}4,6(),5,5(),6,4{(
)}4,6{(
)(
)()/(
Ap
ABpABp
3
1
15
315
1
Ou, pelo Sreduzido:
Sreduzido: {(4,6), (5,5), (6,4)}
Evento: x1>x2 = {(6,4)}
p(Ev) = 31
Notem que, em geral,
p(A/B) é diferente de p(B/A).
Resumo:
)(
)()/(
Bp
BApBAp
interseção do nºelementos de A e B dividido pelo S
total.
probabilidade de B dividido pelo total.
OU p(B) se torna o Sreduzido e verificamos quantos elementos do conjunto A estão em B.
RESUMO
Regra da Adição
p(A ou B)
A e B são
mutuamente
excludentes?
p(A ou B)=p(A) + p(B)
p(A ou B)=p(A) + p(B) – p(A e B)
N
S
RESUMO
Regra da Multiplicação ou do Produto
p(A e B)
A e B são
independentes?
p(A e B)=p(A) . p(B)
p(A e B)= p(A). p(B/A)
N
S
ou
)(
)()/(
Ap
ABpABp
Teorema de Bayes
Sejam os eventos A1, A2, ..., Ak, mutuamente
excludentes e seja B um evento qualquer. Se
quisermos saber a probabilidade p(A1/B),
conhecidas as probabilidades p(B/A1), p(B/A2),...,
p(B/Ak) e p(A1), p(A2),..., p(Ak) , então:
)()/(...)()/(
)()/()/(
11
111
kk ApABpApABp
ApABpBAp
para 0)( Bp
Ex.: A probabilidade de que um teste médico
identifique corretamente alguém com uma doença,
dando positivo é 0,99; e a probabilidade de que o
teste identifique corretamente alguém sem a
doença, dando negativo, é 0,95. A incidência da
doença na população em geral é 0,0001. Você fez
o teste e o resultado foi positivo. Qual a
probabilidade de que você tenha a doença? Seja D = ter doença
= não ter doença
S = teste positivo
= teste negativo
__
D
__
S
9999,0)(0001,0)(__
DpDp
05,0)/(95,0)/(
99,0)/(
______
DSpDSp
DSp
???)/( SDp
)()./()()./(
)()./()/(
____
DpDSpDpDSp
DpDSpSDp
%2,0)/(
002,0...001976,0050094,0
000099,0)/(
049995,0000099,0
000099,0)/(
9999,0.05,00001,0.99,0
0001,0.99,0)/(
SDp
SDp
SDp
SDp
Petrobras 2005 [CESGRANRIO]
O gráfico a seguir é o box-plot da distribuição de
renda, em mil reais, da população de um
determinado município.
5
6
7
10
12
Qual é a probabilidade de um habitante desse
município ter renda superior a 6 mil reais?
(A) 0,15
(B) 0,20
(C) 0,25
(D) 0,50
(E) 0,75
DISTRIBUIÇÕES DE
PROBABILIDADE
PROFª MARIA ALICE V. F. DE SOUZA
Modelos de
Distribuições Discretas
de Probabilidade
Bernoulli
Binomial
Poisson
Multinomial
Geométrica
Hipergeométrica
Binomial Negativa
etc
Distribuição Binomial Trata-se de uma distribuição de probabilidade adequada
aos experimentos que apresentam apenas dois resultados:
sucesso e fracasso. Este modelo fundamenta-se em três
hipóteses:
H1- n provas independentes e do mesmo tipo são
realizadas;
H2- cada prova admite dois resultados: sucesso e fracasso;
H3- a probabilidade de sucesso em cada prova é p e de
fracasso é 1-p=q
Admita sucesso = 1 e fracasso = 0
Seja a variável Y = n° sucessos das n provas.
Para Y=0, temos uma sequência de n zeros:
00000000...0
p(Y=0) = q.q.q...q=qn (p0.qn)
Para Y=1, temos uma sequência do tipo 10000...0;
01000...0; 00100...0; ...
p(Y=1) = n.p.qn-1
n
n sequências
p(Y=1) = n.p.qn-1
Para Y=y tem-se y sucessos e (n-y) fracassos,
correspondendo às sequências com y algarismos 1 e
n-y zeros. Cada seqüência terá probabilidade py.qn-y
e como há sequências distintas tem-se:
y
n
yny qpy
nyYp
..)(
Para Y=n tem-se uma sequência de n uns:
11111...1, logo, p(Y=n) = pn.
n Binômio de Newton
nnnn pqn
npq
npq
npq 0110 ...
10)(
Triângulo de Pascal Valor
de n
0 1
1 1 1
2 1 2 1
3 1 3 3 1
4 1 4 6 4 1
5 1 5 10 10 5 1
6 1 6 15 20 15 6 1
7 1 7 21 35 35 21 7 1
8 1 8 28 56 70 56 28 8 1
9 1 9 36 84 126 126 84 36 9 1
10 1 10 45 120 210 252 210 120 45 10 1
Coeficientes do Binômio de Newton
121)(
11)(
1)(
2
1
0
ba
ba
ba
151051)(
14641)(
1331)(
5
4
3
ba
ba
ba
Variância de uma
Distribuição Binomial qpnY ..2
)(
Média Aritmética de uma
Distribuição Binomial pnY .)(
Exemplo: Uma moeda não viciada é lançada 8 vezes.
Encontre a probabilidade de:
a)dar 5 caras;
b)pelo menos 1 cara;
c)no máximo 2 caras.
2
1
2
1
8
q
p
n
sucesso para cara
fracasso para cara
Y=n° de caras (sucessos)
n° de provas
b) pelo menos 1 cara
c) no máximo 2 caras
%6,992
1
2
1
0
81
)0(1)1(
08
YpYp
)2()1()0()2( YpYpYpYp
%1414,02
1
2
1
2
8
2
1
2
1
1
8
2
162718
%2222,02
1
2
1.
5
8)5(
585
Yp
Solução:
a) dar 5 caras
(ESAF) Em uma cidade, 10% das pessoas
possuem carro importado. Dez pessoas
dessa cidade são selecionadas ao acaso. A
probabilidade de que exatamente 7 das
pessoas selecionadas possuam carro
importado é:
a) (0,1)7 . (0,9)3
b) (0,1)3 . (0,9)7
c) 120 . (0,1)7 . (0,9)3
d) 120 . (0,1) . (0,9)7
e) 120 . (0,1)7 . (0,9)
Distribuição Poisson
Em muitos casos, conhece-se o n° de sucessos,
porém, se torna difícil e, às vezes, sem sentido
determinar o n° de fracassos ou o n° total de
provas.
Por exemplo:
automóveis que passam numa esquina/tempo;
chamadas recebidas por uma mesa telefônica
durante um período de tempo;
o n° finito de nós em uma rede.
Fórmula da Distribuição de
Probabilidade de Poisson
tx
ex
ttxp ..
!
).(),(
sendo o coeficiente de proporcionalidade
específico para cada problema;
x é o número que ocorre o evento;
t é o espaço em que ocorre o evento (a unidade).
Ex.: Em média há duas chamadas por hora num
certo telefone. Calcular a probabilidade de se
receber no máximo três chamadas em duas horas.
Solução: chamadas/hora
2Média
aritmética ?)2,3(
2
3
p
t
X
21
2
.
t2 chamadas
1 hora
)2,3()2,2()2,1()2,0()2,3( XpXpXpXpXp
2.23
2.22
2.21
2.20
.!3
)2.2(.
!2
)2.2(.
!1
)2.2(.
!
)2.2( eeeeo
x,t
%35,43
E qual é a probabilidade de nenhuma chamada
em 90 minutos.
0498,0.!0
)90.30
1(
.!
)()90,0(
390.
30
10
.
ee
ex
tXp t
x
%98,4
30
1
60
2
.t
Continuam 2
chamadas/hora, mas
agora são minutos e
não horas.
x,t
Observação: O intervalo pode ser o tempo, a distância,
a área, o volume ou outra unidade análoga.
Atenção:
1- A distribuição binomial é afetada pelo tamanho
amostral n e pela probabilidade p, enquanto a
distribuição de Poisson é afetada pela média ;
2- Em uma distribuição binomial, os valores possíveis
da variável aleatória x são 0,1,2,...,n, enquanto em
uma distribuição de Poisson os valores possíveis de x
são 0,1,..., sem limite superior.
Modelos de
Distribuições
Contínuas de
Probabilidade
Uniforme ou Retangular
Normal
Lognormal
Exponencial
Qui-quadrado
t de Student
Distribuição F
Distribuição de Probabilidade
Contínua Se X é uma variável aleatória contínua, a probabilidade de X
tomar um determinado valor é, em geral, zero. Não se pode
definir uma função de probabilidade contínua da mesma
maneira como o fizemos no caso de uma variável discreta.
Para chegarmos a uma definição de distribuição de
probabilidade contínua, notemos que o que tem sentido é
falar-se da probabilidade de X estar compreendido entre dois
valores diferentes. (Spiegel, 1978, p.55)
1)(
0)(
dxxf
xf
Função de probabilidade contínua
Probabilidade da Uniforme ou
Retangular
Definimos que a probabilidade de X estar entre a e b é dada
por:
b
a
dxxfbXap )()(
Distribuição de Probabilidade
Uniforme ou Retangular Uma distribuição de variável aleatória contínua é uniforme
quando sua função densidade de probabilidade for constante
dentro de um intervalo de valores da variável aleatória X.
Assim, cada um dos possíveis valores que X com
distribuição uniforme pode assumir tem a mesma
probabilidade de ocorrer.
a b X
f(x)
1/b-a
bxaab
abxf
,
,1
)(Função
densidade
uniforme
Exemplo de Probabilidade
Uniforme ou Retangular
Devido à volatilidade do mercado, a estimativa do preço da
ação X para os próximos 12 meses mostra que deverá ser
um valor dentro do intervalo $10 e $50, com igual
probabilidade para todos os valores de preço dentro
desse intervalo. Calcule:
a) a probabilidade de que o valor da ação seja maior do que
$40.
b) A média e o desvio-padrão da ação.
a) a probabilidade de que o valor da ação seja maior do que
$40.
a b X
f(x)
1/b-a
OU AINDA…
a) a probabilidade de que o valor da ação seja maior do que
$40.
a c d b X
f(x)
ab
cddXcp
)(
10 40 50 X
f(x)
b) A média e a variância da ação.
dxxfx
dxxfx
x )(.)(
)(.
2
Média = Valor Esperado = Expectância
Variância
OU AINDA…
b) A média e a variância da ação.
12
)(
22
2 ab
ba
x
x
Média = Valor Esperado = Expectância
Variância
Distribuição Normal N ),( 2
É a mais importante distribuição de
probabilidade sendo aplicada em inúmeros
fenômenos e utilizada para o desenvolvimento
teórico da Estatística. Também é conhecida
como Distribuição de Gauss, Laplace ou
Laplace-Gauss.
A forma gráfica da distribuição normal
lembra um sino. É conhecida como:
curva normal, curva em sino ou curva
de Gauss. O gráfico é simétrico em
relação à .
Seja X uma variável aleatória contínua. X terá
distribuição normal se:
x
exf
x 2)(2
1
.2
1)(
Parâmetros de uma Distribuição
Normal:
Média Aritmética:
Variância:
2
Existem infinitas distribuições normais. Basta
variarmos um dos parâmetros para termos outra
distribuição.
A figura mostra quatro distribuições normais
com mesma média, mas com variâncias
distintas.
menor dispersão
= menor
variância
maior
dispersão
A figura mostra quatro distribuições normais
com mesma variância, mas com médias
diferentes.
A B C D
ABCD
2222
DCBA
Área sob a Curva Normal
É a porção do plano compreendida entre a
curva e a linha de base (eixo x), que
corresponde, em qualquer distribuição
normal, à 100% dos dados considerados.
Vamos limitar uma porção dessa área total a
partir de dois pontos quaisquer tomados na
linha de base. Por exemplo, a média aritmética
e um outro ponto que coincide com 1 desvio-
padrão acima da média.
Esta porção abrange 34,13% da frequência
total.
Distribuição Normal N ),( 2
1 2 3123
68,27%
95,45%
99,73%
y
Exemplo: Suponhamos que a média aritmética dos
pesos de certo objeto seja =500g e que o desvio-
padrão seja =1,5g. Qual a probabilidade de
selecionarmos um objeto com peso entre 500 e
501?
g
g
5,1
500
tabelagx
gx
g
67,05,1
1
1
5,11
Tabela: 0,6 na vertical e 0,07 na horizontal = 24,86%
500 5,5015,498
34,13%
501 x
68,27%
Tabela: Áreas de uma distribuição normal
padrão
A tabela informa a proporção sob a curva inteira entre z=o e um
valor absoluto de z. As áreas para os valores de z negativos são
obtidas por simetria.
tabelax
z
67,05,1
500501
%86,24tabela
Tabela: Áreas de uma distribuição normal
padrão
Exemplo: As alturas dos alunos de determinada escola são normalmente distribuídas com média 1,60m e desvio-padrão 0,30m. Encontre a probabilidade de um aluno medir:
a)entre 1,50m e 1,80m
30,0
60,1
X= variável normal -altura dos alunos
)67,033,0()80,150,1( zpxp
tabela
67,030,0
60,180,1
33,033,030,0
60,150,1
2
1
xz
xz
Segundo a tabela...
%79,373779,02486,01293,0
b) mais de 1,75m
50%
19,15%
%85,303085,01915,05000,0
)5,0()()75,1( 1
zpzzpXp
1915,05,030,0
60,175,11
tabelaz
média aritmética
desvio-padrão
c) menos de 1,48m
%46,343446,0
1554,05000,0)48,1()48,1(
zpXp
1554,04,030,0
60,148,11
tabelaz
50%
d) Qual deve ser a medida mínima para escolhermos 10% dos mais altos?
Neste caso, tem-se a probabilidade e deseja-se a medida.
Para se encontrar o valor de z que deixa 0,10 à
direita, deve-se consultar na tabela o valor 0,40.
Assim, o valor de z mais próximo de 0,40 é z=1,28,
logo...
mx
xxz
98,1
30,0
60,128,1
Distribuição de Probabilidade
Lognormal
A lognormal é a distribuição de uma
variável aleatória cujo logaritmo segue
a distribuição normal.
Só trabalha com dados positivos.
Na Engenharia essa distribuição vem
sendo usada para descrever o tempo
de falha, o tempo de reparo e também
em estudos sobre confiabilidade.
A distribuição lognormal, em geral, é assimétrica à
direita:
Considere Y uma variável aleatória
com distribuição normal e X uma
variável aleatória com distribuição
lognormal.
Y = ln X
,2
1),;( ]²/))[(ln2/1( yy
y
xex
xf
Função Densidade da Lognormal
em X é...
x>0
Caso contrário f(x) = 0.
Média Aritmética:
Variância:
É útil conhecer a mediana e a moda de uma lognormal. A
mediana ( ), é
ye
E a moda (Mo) é
2
2
)(y
y
eXE x
)1(²)(²²2
yyy eeXV x
²yy
eMo
Exemplo: A concentração de poluentes produzidos
por indústrias químicas é descrita historicamente
como uma distribuição lognormal. Você é
responsável pela adequação dos níveis de poluição
de certa indústria ao cumprimento de
regulamentações governamentais. Suponha que a
concentração do poluente (em partes por milhão)
tenha média de 3,2 e desvio-padrão igual a 1. Qual
a probabilidade de que a concentração exceda oito
partes por milhão?
X é a concentração de poluentes, então...
Já que ln(X) tem distribuição normal com média
3,2 e desvio-padrão igual a 1, então...
Então, a chance de que a concentração
ultrapasse oito partes por milhão é de
13,14%.
Tabela: Áreas de uma distribuição normal
padrão
Generalizando, a fórmula para cálculo da
probabilidade da lognormal é:
Distribuição de Probabilidade
Exponencial
Descreve o tempo que se leva para completar uma tarefa.
Ex.: tempo entre chegadas a um lava-carros, tempo exigido
para se carregar um caminhão, distância entre os maiores
defeitos em uma auto-estrada etc.
x
exf
1
)(
Função exponencial de probabilidade
Exemplo Considere que o tempo médio que se leva para carregar
um caminhão na doca de carregamento é de 15 minutos.
A função densidade de probabilidade que descreve esse
tempo de carregamento é:
15
15
1)(
x
exf
Fórmula para cálculo da probabilidade
150
0
1)tocarregamen (
x
extempoP
0
1)( 0
x
exxP
Para o exemplo da doca de carregamento...
Qual a probabilidade que um
caminhão seja carregado... em até de 6 minutos?
3297,01)6carreg. ( 15
6
etempoP
Qual a probabilidade para um
caminhão carregar...
E em até 18 minutos?
entre 6 e 18 minutos?
3691,03297,06988,0
6988,01)18carreg. ( 15
18
etempoP
CORRELAÇÃO E
REGRESSÃO
LINEAR
PROFª MARIA ALICE V. F. DE SOUZA
Correlação Linear
É o estudo da relação entre duas variáveis
com o auxílio de um gráfico (chamado
diagrama de dispersão) e de uma medida
(chamada coeficiente de correlação linear).
Ex.:Poderíamos pesar um urso com uma fita
métrica?
Se houver alguma relação entre o
comprimento de um urso e seu peso,
sim. Mas qual é esta relação?
Quando uma variável está, de alguma forma, relacionada a outra, dizemos que existe uma CORRELAÇÃO.
Vantagem: a presença de uma correlação pode conduzir-nos a um método para estimar o peso de um urso medindo o seu comprimento.
gastos com combustível e km rodados;
renda pessoal e anos de estudo;
nºde defeitos em peças e horas de
treinamento em qualidade.
Ex.: Variável x – idades das pessoas de determinadas classes;
Variável y – tempo médio de duração do banho diário das pessoas entrevistadas em cada idade.
0
2
4
6
8
10
12
14
0 5 10 15 20 25 30 35 40 45
Du
raç
ão
do
Ba
nh
o (
min
)
Idade (anos)
Diagrama de Dispersão
X 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42
Y 12 11 13 12 11 8 10 9 7 8 8 9 7 7 6 6 4 5
A configuração do gráfico nos faz supor que existe
uma certa correlação entre as duas variáveis, isto
é, com o tempo, as pessoas parecem demorar-se
menos no banho.
Obs.: Devemos ter cuidado na análise de
correlação, pois as variáveis correlacionadas, não
necessariamente, estão sujeitas a uma relação de
causa e efeito. No exemplo, pode não ser a idade
mas a falta de tempo que as faça tomar banho
mais rápido.
O coeficiente de correlação linear r mede o grau
de relacionamento linear entre os valores
emparelhados x e y em uma amostra. O
coeficiente de correlação linear também é
chamado de coeficiente de correlação momento-
produto de Pearson (1857-1936).
x
n
yy
n
xx
n
yyxx
rxy_
22_
__
)(.
)(
))((
desvio-
padrão de x
desvio-
padrão de y y
coeficiente de
correlação linear
Mais fórmulas para o cálculo do
coeficiente de correlação linear
])(
].[)(
[
..
22
22
n
yy
n
xx
n
yxyx
rxy
Obs.: Ao calcular r ou outros cálculos estatísticos, o
arredondamento durante os cálculos pode ocasionar erros
sérios; recorra à memória da calculadora para armazenar
os resultados intermediários, fazendo o arredondamento
somente no final.
0 -1 1
Correlação
Nula
Correlação
Negativa Perfeita Correlação
Positiva
Perfeita
Aumenta a
correlação
positiva
Aumenta a
correlação
negativa
2222 )()(.)()(
))((.
yynxxn
yxyxnrxy
A observação dos diagramas de dispersão pode
nos fornecer informações:
Ex.: Calcule o coeficiente de correlação linear
r, com os dados da tabela abaixo:
Comprimento
x (pol)Peso y (lb)
53,0 80
67,5 344
72,0 416
72,0 348
73,5 262
68,5 360
73,0 332
37,0 34Fonte: Minitab e Gary Alt.
Comprimentos e Pesos de
Ursos Machos
Solução: n=8 (porque há 8 pares de dados)
2222 )()(.)()(
))((.
yynxxn
yxyxnrxy
22 )176.2()520.728(8.)50,516()75,525.34(8
)176.2)(50,516()879.151(8xyr
897,0184.093.1.75,433.9
128.91xyr
Cálculo de : 151.879 xy
Cálculo de : 516,50 x
Cálculo de : 2.176 y
Cálculo de : 34.525,75 )( 2x
Cálculo de : 728.520 )( 2y
Interpretação do Coeficiente de
Correlação Linear
O valor de r deve estar sempre entre –1 e +1, inclusive.
Se o valor de r está próximo de zero, concluímos que não
há correlação linear significativa entre x e y, mas se r está
próximo de –1 ou +1, concluímos pela existência de
correlação linear significativa entre x e y. Como a
interpretação da expressão “próximo de” 0, ou 1, ou –1 é
vaga, adotaremos o critério de decisão seguinte: Se o
módulo do valor calculado de r excede o valor da tabela a
seguir, concluímos que há correlação linear significativa.
Caso contrário, não há evidência suficiente para apoiar a
existência de uma correlação linear significativa.
Tabela de Valores Críticos do
Coeficiente de Correlação Linear r
05,0n4 0,950
5 0,878
6 0,811
7 0,754
8 0,707
9 0,666
10 0,632
11 0,602
12 0,576
13 0,553
14 0,532
15 0,514
16 0,497
Valores Críticos do
Coef.Correlação r 17 0,482
18 0,468
19 0,456
20 0,444
25 0,396
30 0,361
35 0,335
40 0,312
45 0,294
50 0,279
60 0,254
70 0,236
80 0,220
90 0,207
100 0,196Fonte: Introdução à
Estatística - Mário F.Triola
CLASSIFICAÇÃO DO GRAU DE
DEPENDÊNCIA ENTRE AS VARIÁVEIS
0,0 a 0,09 - NENHUMA
0,10 a 0,39 – FRACA
0,40 a 0,59 – MODERADA
0,60 a 0,89 – FORTE
0,90 a 1 - PERFEITA
A tabela de valores críticos mostra que com 8
pares de dados amostrais, o valor crítico é 0,707.
Isso significa que existe uma chance de 5% de
que o valor absoluto do coeficiente de correlação
linear calculado r exceda 0,707.
Como o valor encontrado foi de 0,897,
concluímos que há correlação linear significativa
entre os comprimentos e os pesos de ursos.
Algumas observações: 1. Se os pesos dos ursos são dados em Kg em
vez de lb, o valor de r não se modificará; 2. r mede a intensidade, ou grau, de um
relacionamento linear. Não serve para medir a intensidade de um relacionamento não-linear;
3. evite a conclusão de que a correlação implica causalidade porque pode haver uma 3ª variável oculta influenciando as duas em questão;
4. a conclusão de que não há correlação linear significativa não quer dizer que x e y não estejam relacionados de alguma forma.
Regressão Linear
Ao termos alto grau de correlação linear entre
duas variáveis significa que percorrendo os
valores de uma, a outra vai surgindo. Para
sabermos o peso de uma pessoa só
conhecendo a altura, por exemplo, é preciso
encontrar a regra ou equação que relaciona as
duas variáveis. Esta equação tem o nome de
equação de regressão linear (se for linear), isto
é, se a correlação for uma reta.
Exemplo de Regressão Linear
X 2 2 3 3 3 4 4 5 6 6 6
Y 1 2 2 3 4 2 4 3 4 5 3
0
1
2
3
4
5
6
0 1 2 3 4 5 6 7
eix
o y
eixo x
Reta de Regressão Linear 4
_
X
3_
y
X
A reta de regressão deve ser traçada de modo
que passe pela média x e y, precisando ter uma
inclinação tal que garanta os menores desvios de
cada ponto em relação a ela. O ajuste da regra de
regressão ao conjunto de pontos é feito pelo
método chamado de mínimos quadrados.
y = ax + b Regressão Linear
x
y
xyra
__
xayb
COEFICIENTE
ANGULAR
COEFICIENTE
LINEAR
Coeficiente de
correlação entre as
variáveis x e y.
Para o exemplo anterior teríamos
uma regressão linear de:
016,1496,0 xy
496,048,1
13,1.65,0 a
016,14.496,03 b
Outras fórmulas para o coeficiente
angular e linear da reta de regressão
linear.
22 )()(
))(()(
xxn
yxxyna
22
2
)()(
))(())((
xxn
xyxxyb
COEFICIENTE ANGULAR
COEFICIENTE LINEAR
ESTIMATIVA
PROFª MARIA ALICE V. F. DE SOUZA
ESTIMATIVA
A busca de informações a respeito de um
fenômeno qualquer é necessária para a tomada
de decisões que envolvem este fenômeno.
Em particular, quando este fenômeno é aleatório, a
busca de informações é direcionada para
estabelecer a forma de distribuição da variável que
descreve o fenômeno e os parâmetros desta
distribuição (toda distribuição tem parâmetros). Um
dos processos para a solução deste problema
consiste em obter essas informações de maneira
indireta por um processo chamado ESTIMAÇÃO.
A estimação é um processo que consiste em avaliar os parâmetros de uma distribuição por meio de estimadores obtidos em uma amostra, com base no cálculo de probabilidades. O cálculo de probabilidades é o instrumental que viabiliza avaliar parâmetros da distribuição a partir dos estimadores. Veremos métodos de estimação de valores da média aritmética (parâmetros populacionais).
DEFINIÇÃO:
Um estimador é uma estatística amostral (como a X amostral) utilizada para obter uma aproximação de um parâmetro populacional. Uma estimativa é um valor específico, ou um intervalo de valores, usado para aproximar um parâmetro populacional.
QUALIDADE DA ESTIMAÇÃO
A qualidade de uma estimação depende basicamente
da representatividade da amostra, ou seja, a
capacidade da amostra reproduzir as características
importantes da população. Vejamos um exemplo:
A nutricionista de uma empresa foi encarregada de
avaliar a qualidade nutritiva de uma sopa preparada
por um fornecedor, que será servida a seus
funcionários, pois houve reclamações de funcionários
que sugerem que a sopa não está satisfazendo o
padrão de qualidade nutricional exigido pela empresa.
Se isso, de fato, estiver ocorrendo pode acarretar em
multa contratual.
O procedimento viável nesta situação é fazer esta
avaliação por meio de uma amostra.
Para uma amostra representativa da população é
preciso mexer bem a sopa para se obter um bom grau
de homogeneidade no produto e, uma pequena
amostra retirada nessas condições, irá conter os
ingredientes aproximadamente na mesma proporção
em que figuram na sopa. Assim sendo, podemos fazer
a avaliação com alto grau de precisão.
Caso a nutricionista, mesmo mexendo a sopa,
desconfie do grau de homogeneidade da sopa, a
maneira de conseguir boa representatividade consiste
em aumentar o tamanho da amostra.
A análise desta situação leva-nos a concluir que
populações com pequeno grau de variabilidade
de seus elementos podem ser estudadas a partir
de pequenas amostras.
À medida que esta variabilidade aumenta, é
necessário aumentar o tamanho da amostra
para manter sua representatividade.
Exemplo de ESTIMAÇÃO
A maioria das pessoas crê que a temperatura
média do corpo humano seja de 98,6°F, mas os
dados da tabela abaixo parecem sugerir uma
média efetiva de 98,20°F. Sabemos que as
amostras tendem a variar, de forma que talvez a
verdadeira temperatura média seja 98,6°F, e a
média amostral de 98,20°F seja o resultado de uma
flutuação aleatória. Mas o contrário pode ocorrer!
Analisemos os dados amostrais da tabela abaixo e
vejamos se a temperatura média do corpo humano
é ou não 98,6°F
98,6 98,6 98,0 98,0 99,0 98,4 98,4 98,4 98,4 98,6
98,6 98,8 98,6 97,0 97,0 98,8 97,6 97,7 98,8 98,0
98,0 98,3 98,5 97,3 98,7 97,4 98,9 98,6 99,5 97,5
97,3 97,6 98,2 99,6 98,7 99,4 98,2 98,0 98,6 98,6
97,2 98,4 98,6 98,2 98,0 97,8 98,0 98,4 98,6 98,6
97,8 99,0 96,5 97,6 98,0 96,9 97,6 97,1 97,9 98,4
97,3 98,0 97,5 97,6 98,2 98,5 98,8 98,7 97,8 98,0
97,1 97,4 99,4 98,4 98,6 98,4 98,5 98,6 98,3 98,7
98,8 99,1 98,6 97,9 98,8 98,0 98,7 98,5 98,9 98,4
98,6 97,1 97,9 98,8 98,7 97,6 98,2 99,2 97,8 98,0
98,4 97,8 98,4 97,4 98,0 97,0
Fonte: Temperaturas amostrais obtidas pelos Drs.Philip Mackowiak,
Steven Wasserman e Myron Levine, pesquisadores da Universidade
de Marylan.
Temperaturas do corpo de 106 adaultos sadios
Por exemplo, com base nos dados da tabela,
poderíamos utilizar o estimador X para concluir que
a estimativa da temperatura média do corpo de
todos os adultos sadios é 98,20°F.
Mas por que X?
Há duas razões importantes que explicam porque
uma média amostral é um melhor estimador de uma
média populacional do que quaisquer outros
estimadores, como a mediana ou a moda.
1. Para muitas populações, a distribuição de médias
amostrais X tende a ser mais consistente
(apresentar menor variação) do que as distribuições
de outras estatísticas amostrais. (Isto é, se
utilizamos médias amostrais para estimar a média
populacional , essas médias amostrais terão
menor desvio-padrão do que outras estatísticas
amostrais, tais como a mediana ou a moda.)
2. Para todas as populações, dizemos que a média
amostral X é um estimador não-tendencioso da
média populacional , o que significa que a
distribuição de médias amostrais tende a centrar-
se em torno da média populacional . (Isto é, as
médias amostrais não tendem a sobreestimar nem
a subestimar sistematicamente o valor de . Ao
contrário, tendem para o valor-alvo que é o próprio
valor de .
Por estas razões utilizaremos a X amostral como
melhor estimativa da XXX (média populacional).
Como a X é um valor único que corresponde a um
ponto na escala numérica, vamos chamá-la de
estimativa pontual.
Antes de prosseguirmos, precisamos entender
Intervalos de Confiança.
DEFINIÇÃO:
Um intervalo de confiança (ou estimativa
intervalar) é uma amplitude (ou um intervalo) de
valores que tem probabilidade de conter o
verdadeiro valor da população.
No exemplo, vimos que 98,20°F era nossa melhor
estimativa pontual da média populacional , mas não
tínhamos qualquer indicação sobre quão boa era essa
estimativa. Se conhecêssemos apenas as quatro
primeiras temperaturas de 98,6, 98,6, 98,0 e 98,0,
nossa melhor estimativa pontual de seria sua
média
(X=98,30°F), mas esta estimativa pontual não seria
tão boa, porque se baseia em uma amostra
demasiadamente pequena. Assim é que os
estatísticos desenvolveram outro tipo de estimativa
que, efetivamente, indica quão boa é uma estimativa
pontual. Essa estimativa, chamada intervalo de
confiança ou estimativa intervalar, consiste em uma
amplitude (ou um intervalo) de valores, em lugar de
um valor único.
Um intervalo de confiança está associado a um
grau de confiança que é uma medida de nossa
certeza de que o intervalo contém o parâmetro
populacional. A definição de grau de confiança utiliza
para descrever uma probabilidade que corresponde
a uma área.
A figura abaixo esboça a probabilidade XX que
está dividida igualmente entre duas regiões
extremas sombreadas (geralmente chamadas
caudas) na distribuição normal padronizada.
O grau de confiança é a probabilidade 1-
(comumente expressa como o valor percentual
equivalente) de o intervalo de confiança conter o
verdadeiro valor do parâmetro populacional. (O grau
de confiança é também chamado nível de
confiança, ou coeficiente de confiança).
São escolhas comuns para o grau de confiança:
90% (com =0,10), 95% (com =0,05) e 99%
(com XX=0,01). A mais comum é a opção 95%,
porque proporciona bom equilíbrio entre a precisão
(refletida na amplitude do intervalo de confiança) e a
confiabilidade (expressa pelo grau de confiança).
Eis um exemplo de intervalo de confiança, com grau
de 95% (ou 0,95) de confiança da média
populacional é ...
98,08°F < < 98,32°F
Note que a estimativa consiste em um intervalo e
está associada a um grau de confiança.
Interpretamos este intervalo de confiança como
segue: Se fôssemos selecionar muitas amostras
diferentes de tamanho n=106 da população de todos
os cidadãos sadios, e construíssemos um intervalo
de 95% de confiança análogo para cada amostra, a
longo prazo, 95% desses intervalos conteriam
efetivamente a média populacional .
Devemos ter em mente que é um valor fixo, e
não uma variável aleatória; portanto, é errado dizer
que há 95% de chance de estar no intervalo.
Qualquer intervalo de confiança contém, ou não
contém XX, e como é fixo, não existe a
probabilidade de estar em um intervalo.
Pelo teorema Central do Limite, sabemos que as
médias amostrais X tendem a distribuir-se
normalmente, como na figura que mostramos. As
médias amostrais apresentam uma chance
relativamente pequena de estar em uma das
caudas extremas.
Denotando por a área sombreada de cada
cauda, vemos que há uma probabilidade total de
a média amostral estar em uma das caudas. Pela
regra do complemento, decorre que há uma
probabilidade 1- de uma média amostral estar
na região não-sombreada da figura. O escore z
que separa a região da cauda direita é denotado
comumente por , e é chamado valor crítico
porque está na fronteira que separa as médias
amostrais passíveis de ocorrerem, das médias
amostrais que provavelmente não ocorrerão.
2
2z
Calculemos o valor crítico correspondente a um
grau de confiança de 95%.
Solução:
Um grau de confiança de 95% corresponde a
=0,05. Obtemos =1,96. 2
z
Voltando ao problema...
Quando coletamos um conjunto de dados
amostrais, como o conjunto das 106 temperaturas,
podemos calcular a X; essa média amostral é
tipicamente diferente da . A diferença entre X e
XX pode ser encarada como um erro.
Podemos calcular essa margem de erro (E)
(diferença máxima provável entre X e ) como...
nzE
.
2
Cálculo de E quando é desconhecido
Se n>30, podemos substituir na fórmula de E,
pelo desvio-padrão amostral s.
Se n 30, a população deve ter distribuição normal,
e devemos conhecer para aplicar a fórmula de E.
Com base na definição da margem de erro E,
podemos agora identificar o intervalo de confiança
para .
),(____
__
____
EXEX
ou
EX
ou
EXEX
nzE
onde
.
2
Vamos agora construir o intervalo de confiança para
o estimador X das 106 temperaturas...
62,0
20,98
106
__
s
FX
n
(desvio-padrão amostral)
Para um grau de confiança de 95%...
12,0106
62,0.96,1.
96,105,0
2
2
nzE
z
Logo,
32,9808,98
12,020,9812,020,98
____
EXEX
Concluímos que para a amostra de 106 temperaturas,
o intervalo de confiança para a é
98,08°F< <98,32°F,
e este intervalo de confiança tem um grau de
confiança de 0,95. Isto significa que, se
escolhêssemos muitas amostras diferentes de
tamanho 106 e construíssemos intervalos de
confiança como fizemos aqui, 95% deles conteriam o
valor da média populacional .
Observe que os limites que encontramos, 98,08°F
e 98,32°F do intervalo de confiança não contém o
valor 98,6°F, que se admite ser a temperatura
média do corpo humano. Por isso, deduzimos que
parece ser muito pouco provável que o valor
correto de seja 98,6°F. INTERPRETAÇÃO DE UM INTERVALO DE
CONFIANÇA
Devemos ter cuidado para interpretar
corretamente os intervalos de confiança. Desde
que utilizamos dados amostrais para achar os
limites específicos X – E e X + E, esses limites
incluirão, ou não incluirão, a média populacional ;
e isto não podemos determinar sem conhecer o
verdadeiro valor de .
É incorreto afirmar que tem 95% de chance de estar
entre os limites específicos de 98,08 e 98,32, porque XXé
uma constante, e não uma variável aleatória. Ou está
entre esses limites, ou não está; não há qualquer
probabilidade em jogo. É correto dizermos que, a longo
prazo, esses métodos darão intervalos de confiança que
conterão em 95% dos casos.
Suponhamos que no exemplo das temperaturas, estas
provenham de uma população cuja verdadeira média é
98,25°F. Então o intervalo de confiança obtido dos dados
amostrais conteria a média populacional, porque 98,2 está
entre 98,08 e 98,32.
AMOSTRAGEM
PROFª MARIA ALICE V. F. DE SOUZA
AMOSTRAGEM
É o conjunto de técnicas utilizadas para a seleção
de uma amostra.
Esse conjunto de técnicas pode ser subdividido
em dois grupos básicos:
AMOSTRAGEM
ALEATÓRIA
Inclui técnicas como:
•amostragem aleatória simples ou ao acaso;
•amostragem sistemática;
•amostragem estratificada
•amostragem por conglomerados.
AMOSTRAGEM NÃO
ALEATÓRIA
Inclui técnicas como:
•amostragem intencional;
•amostragem voluntária.
Não permitem o controle de
variabilidade amostral,
o que inviabiliza o
controle de qualidade
da estimação.
AMOSTRAGEM ALEATÓRIA SIMPLES OU AO ACASO
É aquela em que se atribui aos grupos de mesma quantidade de elementos a mesma probabilidade de participar da amostra. Em particular, cada elemento da população tem a mesma probabilidade de participar da amostra.
Para se obter uma amostra aleatória simples, caso a população seja finita, podemos atribuir a cada elemento um número. Fichas com esses números podem ser misturadas em uma urna. O sorteio das fichas identificam os elementos que deverão participar da amostra, garantindo a mesma chance para cada um deles.
AMOSTRAGEM ALEATÓRIA OU
PROBABILÍSTICA
AMOSTRAGEM SISTEMÁTICA
Quando se conhece uma listagem dos elementos
da população pode-se obter uma amostra
aleatória de n elementos dividindo-se o número
de elementos da população pelo tamanho da
amostra. Usando o número inteiro mais próximo
anterior a esse resultado, selecionamos os
elementos da lista que ocorrem com essa
periodicidade. É o caso, por exemplo, de um
processo de auditoria em notas fiscais de uma
empresa. Como as notas fiscais são numeradas,
a escolha de uma amostra pode ser feita de
maneira sistemática.
AMOSTRAGEM ESTRATIFICADA
Pode ocorrer que a população seja formada por
subgrupos diferentes, mas cada um deles
homogêneo. Neste caso, vamos selecionar
aleatoriamente uma quantidade de cada grupo
para formar a amostra, proporcional ao tamanho
desse grupo. É o caso da seleção, por exemplo,
de uma amostra para avaliar algum parâmetro
cujo valor seja estável, como nos grupos com a
mesma faixa de renda. Podemos dividir a
população em 3 extratos: renda alta, renda média,
renda baixa, e proceder à amostragem
estratificada.
AMOSTRAGEM POR CONGLOMERADOS
Em algumas situações, podemos identificar um grupo de elementos que tenha aproximadamente a mesma composição de população. Neste caso, pode ser interessante realizar amostragem usando somente os elementos desse grupo.
Algumas empresas, quando pretendem avaliar a aceitação de um produto no eixo Rio-São Paulo, lançam o produto em Curitiba, cuja população se comporta como uma miniatura desse mercado.
AMOSTRAGEM INTENCIONAL
Ocorre quando o pesquisador seleciona
intencionalmente os componentes da
amostra;
AMOSTRAGEM VOLUNTÁRIA
Ocorre quando o componente da
população se oferece voluntariamente
para participar da amostra
independentemente do julgamento do
pesquisador.
AMOSTRAGEM NÃO ALEATÓRIA OU
NÃO PROBABILÍSTICA