Slides Probabilidade e Estatística

Preview:

DESCRIPTION

Material de apoio para a disciplina de Probabilidade e Estatística, ofertado pela Faesa em Vitória/ES – 2012/2013

Citation preview

MARIA ALICE V. F. DE SOUZA

ESTATÍSTICA

APLICADA

Pensar estatisticamente será um dia, para a

eficiente prática da cidadania, tão necessário

como a habilidade de ler e escrever.

Herbert George Wells

Estatística – origens

Censo – latim censere – significa taxar

Estatística – latim status – significa estado.

A Estatística nas mãos de governantes constituiu-

se em ferramenta administrativa.

ARCE 2006 [FCC]

O processo estatístico que consiste em uma

avaliação direta de um parâmetro, utilizando-se

todos os componentes da população, denomina-

se:

a) amostragem

b) estimação

c) Censo

d) parametrização

e) correlação

Essência da Estatística: a observação

Objetivo básico: inferência (deduzir, concluir)

Importância:

Avaliar o grau de dependência entre duas

variáveis como o tempo médio de alguém

digitando e sintomas de dores nos dedos;

Avaliar o tempo médio de duração de uma aula

e o nível de atenção;

O fator previdenciário da Previdência Social;

As previsões das pesquisas eleitorais;

Conhecer o tempo médio de duração de um

sinal de trânsito vermelho e a sua paciência.

Controlar a qualidade na produção de

componentes eletrônicos;

Usos estatísticos pelas seguradoras;

Estatística É um ramo da Matemática que trata dos métodos de coleta,

organização, resumo, apresentação e análise de dados.

Estatística Descritiva

1ª etapa

Estatística

Indutiva

2ª etapa

Estatística

Coleta e

organiza os

dados.

Avalia e controla

os dados

coletados.

TERRACAP 2009 [UNIVERSA] (parte da

questão)

Julgue os itens a seguir.

III - Uma fábrica produz 100.000 lâmpadas por mês.

São sorteadas 100 lâmpadas, e essas são mantidas

acesas até queimarem, com o objetivo de calcular a

vida média desse tipo de lâmpada. A experiência, que

utiliza um subconjunto de um grupo para calcular

determinado parâmetro e admite que esse parâmetro

é válido para todo o grupo, é um problema estudado

pela estatística inferencial.

VERDADEIRO

Variável

Qualitativa Quantitativa

Nominal Ordinal Contínua Discreta

Não pode

ordenar:

•Estado civil

•Religião

•Sexo

•região

Pode

ordenar:

•Nível de

educação

•Classe

social

Contáveis:

•Idade

•Capacidadede

passageiros

•N°de filhos

Não

Contáveis:

•Peso

•Altura

•Largura

•Medida de

capacidade

PETROBRAS 2010 [CESGRANRIO]

Uma variável aleatória numérica contínua é uma variável

que possui a característica de não se poder saber a priori

o seu valor, além de ser

(A) qualitativa e de poder assumir qualquer valor dentro

do intervalo no qual está definida.

(B) qualitativa e de ser fruto de um processo de

contagem

(C) qualitativa e de ser fruto de um processo de

mensuração.

(D) quantitativa e de poder assumir qualquer valor

dentro do intervalo no qual está definida.

(E) quantitativa e de ser fruto de um processo de

contagem.

População e Amostra

População (ou Universo): é qualquer conjunto de

informações que tenham, entre si, uma

característica comum.

Ex.: conj. de todas as estaturas – população de

estaturas

conj. de todas as cores de olhos – população de

cores de olhos

Amostra : redução representativa da

população, ou seja, sem perda das

características essenciais.

Escolha dos números – números aleatórios

(tabelas, sorteios etc.)

População Amostra

TERRACAP 2009 [UNIVERSA] (parte da

questão)

Julgue os itens a seguir.

I Uma cidade possui 1.000 habitantes. Um

estatístico, necessitando fazer uma determinada

pesquisa, entrevistou 200 pessoas. É correto

dizer que, nesse exemplo específico, de uma

amostra de 1.000 pessoas, o estatístico

entrevistou uma população de 200 indivíduos.

FALSO

TIPOS DE AMOSTRAGEM É o conjunto de técnicas utilizadas para a seleção de

uma amostra. Esse conjunto de técnicas pode ser

subdividido em dois grupos básicos:

AMOSTRAGEM

ALEATÓRIA

AMOSTRAGEM NÃO

ALEATÓRIA

•amostragem aleatória simples ou ao acaso;

•amostragem sistemática;

•amostragem estratificada

•amostragem por

conglomerados.

•amostragem intencional;

•amostragem voluntária.

Não permitem o controle de

variabilidade amostral,

o que inviabiliza o

controle de qualidade

da estimação.

AMOSTRAGEM ALEATÓRIA SIMPLES OU AO ACASO

É aquela em que se atribui aos grupos de mesma quantidade de elementos, a mesma probabilidade de participar da amostra. Cada elemento da população tem a mesma probabilidade de participar da amostra.

Para se obter uma amostra aleatória simples, caso a população seja finita, podemos atribuir a cada elemento um número.

Ex: Fichas numeradas podem ser misturadas em uma urna. O sorteio das fichas identificam os elementos que deverão participar da amostra, garantindo a mesma chance para cada um deles.

AMOSTRAGEM ALEATÓRIA OU

PROBABILÍSTICA

AMOSTRAGEM SISTEMÁTICA

Quando se conhece uma listagem dos elementos

da população pode-se obter uma amostra aleatória

de n elementos dividindo-se o número de

elementos da população pelo tamanho da amostra.

Ex: É o caso, por exemplo, de um processo de

auditoria em notas fiscais de uma empresa. Como

as notas fiscais são numeradas, a escolha de uma

amostra pode ser feita de maneira sistemática.

AMOSTRAGEM ESTRATIFICADA

Pode ocorrer que a população seja formada por subgrupos

diferentes, mas cada um deles homogêneo. Neste caso,

vamos selecionar aleatoriamente uma quantidade de cada

grupo para formar a amostra, proporcional ao tamanho desse

grupo.

Exemplo: Podemos dividir a população em 3 estratos:

renda alta, renda média, renda baixa, e proceder à

amostragem estratificada. Na amostragem estratificada é

preciso selecionar elementos de todos os estratos.

Ex.: analisar indivíduos de todas as idades presentes na

população.

AMOSTRAGEM POR CONGLOMERADOS

Em algumas situações, podemos identificar um grupo de elementos que tenha aproximadamente a mesma composição de população. Neste caso, pode ser interessante realizar amostragem usando somente os elementos desse grupo.

Ex.: Algumas empresas, quando pretendem avaliar a aceitação de um produto no eixo Rio-São Paulo, lançam o produto em Curitiba, cuja população se comporta como uma miniatura desse mercado.

Ex.: quarteirões em um bairro.

AMOSTRAGEM INTENCIONAL

Ocorre quando o pesquisador seleciona

intencionalmente os componentes da amostra;

Ex.: Em um estudo sobre automóveis, o pesquisador

procura apenas oficinas; Em uma pesquisa sobre

preferência por determinado cosmético, o pesquisador

entrevista os frequentadores de um grande salão de

beleza.

AMOSTRAGEM NÃO ALEATÓRIA OU

NÃO PROBABILÍSTICA

AMOSTRAGEM VOLUNTÁRIA OU ACIDENTAL

Ocorre quando o componente da população se

oferece voluntariamente para participar da

amostra independentemente do julgamento do

pesquisador.

Ex.: Coleta por amostragem voluntária, de sangue

para identificação de doenças sexuais curáveis;

Pesquisas de opinião em praças públicas, ruas

movimentadas de grandes cidades, etc.

AMOSTRAGEM NÃO ALEATÓRIA OU

NÃO PROBABILÍSTICA

TERRACAP 2009 [UNIVERSA]

A finalidade da amostragem é permitir fazer inferências sobre

uma população após inspeção de apenas parte dela. Fatores como

custo, tempo, ensaios destrutivos e populações infinitas tornam a

amostragem preferível a um estudo completo (censo) da

população. Naturalmente, espera-se que a amostra represente a

população de que foi extraída.

Entre os métodos de amostragem existentes, assinale a

alternativa correta.

(A) A amostragem estratificada consiste na divisão da população

global em subgrupos heterogêneos (homogêneos), utilizando-se

em seguida todos os elementos de alguns subgrupos escolhidos

aleatoriamente

(B) A amostragem por conglomerados consiste na divisão da

população de origem em, no mínimo, duas subpopulações com

as mesmas características. Em seguida, extrai-se uma amostra

(todos os elementos) de cada subdivisão.

(C) A amostragem sistemática consiste na escolha de elementos

na ordem em que aparecem em determinada lista.

(D) Em nenhuma hipótese é permitido o uso da amostragem por

julgamento, por não se tratar de um procedimento probabilístico.

(é não probabilística; o julgamento do pesquisador influencia na

amostra)

(E) A amostragem aleatória simples é caracterizada pelo fato de

cada elemento da população possuir a mesma chance de ser

escolhido.

Gráficos

Colunas

Barras

0

20

40

60

80

100

1940 1950 1960 1970

População

População

0 20 40 60 80 100

1940

1950

1960

1970

População do Brasil

População do Brasil

0

50

100

150

200

250

Argentina Brasil México Portugal

Concorrência dos vários meios publicitários em 1970 Montante da

despesa em milhões de dólares

Televisão

Rádio

Outdoors

Revistas

Jornais

Gráficos

0

100

200

300

400

500

1 2 3 4 5 6 7

Série1

Série2

Linhas

0

20

40

60

80

100

120

140

1980 1981 1982

A

B

C

Gráficos

Setores

Polar

0

5

10

15

20 Jan

Fev

Mar

Abr

Mai

Jun

Jul

Ago

Set

Out

Nov

Dez

Série1

Ônibus

60%

Trem

5% Aviao

32 %

Barco

3%

Pictórico

Gráficos

Pictórico

Gráficos

Área

Outros Gráficos

Superfície

Gráficos

gráfico de candlesticks/ box plot

Fonte: site da bolsa de ações japonesa.

ESTATÍSTICA

DESCRITIVA Distribuições de Frequência

PROFª MARIA ALICE V. F. DE SOUZA

Distribuição de Frequência

xi fi

21 3

22 2

23 2

24 1

25 4

Total 12

Fonte:

Título

Classe fi

45 |- 55 15

55 |- 65 30

65 |- 75 35

75 |- 85 15

85 |- 95 5

Total 100

Fonte:

Título

Amplitude Total (R): diferença entre o

maior e o menor valor observado nos

dados.

R = 25-21= 4 R = 95-45= 50

Classe fi

45 |- 55 15

55 |- 65 30

65 |- 75 35

75 |- 85 15

85 |- 95 5

Total 100

Fonte:

Título

xi fi

21 3

22 2

23 2

24 1

25 4

Total 12

Fonte:

Título

Exemplo: Notas de Matemática de 80 estudantes

de Engenharia da Universidade X no ano de

1990.

Distribuição de Frequência

68 84 75 82 68 90 62 88 76 93

73 79 88 73 60 93 71 59 85 75

61 65 75 87 74 62 95 78 63 72

66 78 82 75 94 77 69 74 68 60

96 78 89 61 75 95 60 79 83 71

79 62 67 97 78 85 76 65 71 75

65 80 73 57 88 78 62 76 53 74

86 67 73 81 72 63 76 75 85 77

Dados Brutos: dados desorganizados

Rol: são os dados brutos organizados em

ordem crescente ou decrescente.

Distribuição de Frequência

53 57 59 60 60 60 61 61 62 62

62 62 63 63 65 65 65 66 67 67

68 68 68 69 71 71 71 72 72 73

73 73 73 74 74 74 75 75 75 75

75 75 75 76 76 76 76 77 77 78

78 78 78 78 79 79 79 80 81 82

82 83 84 85 85 85 86 87 88 88

88 89 90 93 93 94 95 95 96 97

Notas fi

50 |- 55 1

55 |- 60 2

60 |- 65 11

65 |- 70 10

70 |- 75 12

75|- 80 21

80 |- 85 6

85 |- 90 9

90 |- 95 4

95 |- 100 4

80

Fonte: hipotética

Notas de

Matemática -

Universidade X-

1990 - Engenharia

fi – frequência absoluta – valores absolutos;

fr – frequência relativa – é a freq. absoluta da

classe em termos percentuais;

fa – frequência acumulada – freq. total de todos os

valores inferiores ao limite superior de um dado

intervalo de classe;

far – frequência acumulada relativa – é a freq.

acumulada em termos relativos ou percentuais.

Distribuição de Freqüência

Distribuição de Frequência

Notas fi fr (%) fa far (%)

50 |- 55 1 1,25 1 1,25

55 |- 60 2 2,50 3 3,75

60 |- 65 11 13,75 14 17,50

65 |- 70 10 12,50 24 30,00

70 |- 75 12 15,00 36 45,00

75 |- 80 21 26,25 57 71,25

80 |- 85 6 7,50 63 78,75

85 |- 90 9 11,25 72 90,00

90 |- 95 4 5,00 76 95,00

95 |- 100 4 5,00 80 100,00

80 100,00

Notas de Matemática - Universidade X -

1990 - Engenharia

Fonte: hipotética

Ponto Médio de uma Classe: É o ponto intermediário do

intervalo da classe e é obtido pela média aritmética entre o

limite inferior e o superior de cada classe.

Notas fi ponto médio

50 |- 55 1 52,5

55 |- 60 2 57,5

60 |- 65 11 62,5

65 |- 70 10 67,5

70 |- 75 12 72,5

75 |- 80 21 77,5

80 |- 85 6 82,5

85 |- 90 9 87,5

90 |- 95 4 92,5

95 |- 100 4 97,5

80

Notas de Matemática -

Universidade X - 1990 -

Engenharia

Fonte: hipotética

Distribuição de Frequência

ESTATÍSTICA

DESCRITIVA Medidas de Posição

PROFª MARIA ALICE V. F. DE SOUZA

Medidas de Posição

Estas medidas nos orientam quanto à posição

da distribuição no eixo x, possibilitando

comparações de séries de dados entre si pelo

confronto desses números. São também

conhecidas como medidas de tendência central,

pois representam os fenômenos pelos seus

valores médios, em torno dos quais tendem a

concentrar-se os dados.

Média Aritmética ( ) __

X

n

x

X

n

i

i 1

__n= n° de elementos do conjunto

Ex.: de 3, 7, 8, 10, 11

8,75

1110873__

n

xX

Para dados não agrupados:

Para dados agrupados:

n

fx

X

n

i

ii 1

__. n= n° de elementos do conjunto

fi=frequência simples

__

X

Exemplo 1:

6,210

26

10

1.45.33.21.1__

X

nfi

Exemplo 2: Renda familiar

(em milhares $)fi ponto médio

2 - 4 5 3

4 - 6 10 5

6 - 8 14 7

8 - 10 8 9

10 - 12 3 11

Total 40

7,640

268

40

11.39.87.145.103.5__

X

xi fi

1 1

2 3

3 5

4 1

Total 10

A média aritmética é influenciada pela

soma, subtração, multiplicação e

divisão.

Propriedades da Média Aritmética

Mediana (Md) Colocados os dados em ordem crescente, mediana é o valor que divide a amostra, ou população, em duas partes iguais.

0% 50% 100%

Md

Para dados isolados:

Se n for ímpar: a Md será o elemento central;

Se n for par: a Md será a média aritmética entre os elementos centrais.

2 4 7 9 11 17 23 24 24

2 4 7 9 11 17 23 24 24 25

Md = 142

1711

Para dados isolados agrupados:

xi fi fa

1 1 1

2 3 4

3 5 9

4 2 11

Total 11

elementon

Md

62

1

O 6° elemento se encontra na 3ª classe; Md = 3.

xi fi fa

82 5 5

85 10 15

87 15 30

89 8 38

90 4 42

Total 42

872

8787

2

2221

Md

Para dados agrupados em classes:

Md

if

hfn

lMdMd

).2

(

limite inferior da classe Md freqüência da classe Md

soma das freq.anteriores à classe da Md.

amplitude classe Md

Exemplo: Classes fi fa

35 - 45 5 5

45 - 55 12 17

55 - 65 18 35

65 - 75 14 49

75 - 85 6 55

85 - 95 3 58

Total 58

Classe Md

(58/2=29)

Md

if

hfn

lMdMd

).2

(

67,6118

12055

18

10).172

58(

55

Md

CGU 2008 [ESAF]

Determine a mediana do seguinte

conjunto de dados:

58, 95, 17, 44, 63, 9, 57, 21, 88, 12, 31,

28, 73, 5 e 56.

a) 28

b) 31

c) 44

d) 50

e) 56

CGU 2008 [ESAF] - Solução

Determine a mediana do seguinte

conjunto de dados:

5 9 12 17 21 28 31 44 56 57 58 63 73

88 95

a) 28

b) 31 (é o sétimo dado)

c) 44

d) 50 (média de 44 e 56)

e) 56 (é o nono dado)

Separatrizes

Quartis

Decis

Percentis

Quartis

Os quartis dividem um conjunto de dados em 4 partes iguais.

0% 50% 100%

Q2

25% 75%

Q3 Q1

1° quartil separa os

primeiros 25% dos elementos.

3° quartil separa os

primeiros 75% dos elementos.

2° quartil coincide com a

Md.

Cálculo do 1° Quartil Q1:

1

1

).4

(

1

Q

Qf

hfn

lQ

Cálculo do 3° Quartil Q3:

3

3

).4

3(

3

Q

Qf

hfn

lQ

Exemplo:

Classes fi fa7 - 17 6 6

17 - 27 15 21

27 - 37 20 41

37 - 47 10 51

47 - 57 5 56

Total 56

classe do Q1 classe da Md classe do Q3

classe do Q1

classe da Md

classe do Q3

elementon

144

elementon

282

elementon

424

3

33,2215

10).64

56(

171

Q

5,3020

10).212

56(

27

Md

3810

10).414

56.3(

373

Q

CGU 2008 [ESAF]

Dado o conjunto de dados: 58, 95, 17,

44, 63, 9, 57, 21, 88, 12, 31, 28, 73, 5 e

56, determine a amplitude interquartílica

Q3 – Q1.

a) 33.

b) 37.

c) 40.

d) 46.

e) 51

CGU 2008 [ESAF] Solução

Dado o conjunto de dados: 58, 95, 17, 44,

63, 9, 57, 21, 88, 12, 31, 28, 73, 5 e

56, determine a amplitude interquartílica

Q3 – Q1.

5 9 12 17 21 28 31 44 56 57 58 63 73 88

95 15/4= 3,75 ~ 4

15.(3/4) = 11,25 ~ 12

63 – 17 = 46

a) 33 b) 37 c) 40 d) 46 e) 51

Moda (Mo) É o valor mais freqüente da distribuição. Para distribuições simples (sem agrupamentos em classes), verifica-se a moda pela simples observação do elemento que apresenta maior freqüência.

Ex.: 2 – 4 – 4 - 5 – 7 – 8 – 10

Mo=4

Ex.:

Mo=248

xi fi

243 7

245 17

248 23

251 20

307 8

Total 75

Para dados agrupados:

•identificar a classe modal

•fórmula de Czuber

hlM io .21

1

amplitude classe Mo

limite inferior da classe Mo

diferença entre a freqüência da classe modal e a imediatamente anterior.

diferença entre a freqüência da classe modal e a imediatamente posterior.

Ex.:

classes fi

0 - 1 3

1 - 2 10

2 - 3 17

3 - 4 8

4 - 5 5

Total 43

1

2classe modal

44,216

721.

97

72

1.)817()1017(

)1017(2

.21

1

o

o

io

M

M

hlM

Se a classe modal cair na 1ª ou na última classe, fazer a diferença com zero.

AFRFB 2009 [ESAF]

Considere a seguinte amostra aleatória das idades em anos

completos dos alunos em um curso preparatório. Com

relação a essa amostra, marque a única opção correta:

29, 27, 25, 39, 29, 27, 41, 31, 25, 33, 27, 25, 25, 23, 27, 27,

32, 26, 24, 36, 32, 26, 28, 24, 28, 27, 24, 26, 30, 26, 35, 26,

28, 34, 29, 23, 28.

a) A média e a mediana das idades são iguais a 27.

b) A moda e a média das idades são iguais a 27.

c) A mediana das idades é 27 e a média é 26,08.

d) A média das idades é 27 e o desvio-padrão é 1,074.

e) A moda e a mediana das idades são iguais a 27.

AFRFB 2009 [ESAF] - SOLUÇÃO

Considere a seguinte amostra aleatória das idades em anos

completos dos alunos em um curso preparatório. Com

relação a essa amostra, marque a única opção correta:

29, 27, 25, 39, 29, 27, 41, 31, 25, 33, 27, 25, 25, 23, 27, 27,

32, 26, 24, 36, 32, 26, 28, 24, 28, 27, 24, 26, 30, 26, 35, 26,

28, 34, 29, 23, 28.

23 23 24 24 24 25 25 25 25 26 26 26 26 26 27 27 27 27 27

27 28 28 28 28 29 29 29 30 31 32 32 33

n=37 Md = 27 (décimo-nono) Mo = 27

a) A média e a mediana das idades são iguais a 27.

b) A moda e a média das idades são iguais a 27.

c) A mediana das idades é 27 e a média é 26,08.

d) A média das idades é 27 e o desvio-padrão é 1,074.

e) A moda e a mediana das idades são iguais a 27.

SEFAZ 2004 BA [FCC]

Considere a tabela abaixo que mostra a distribuição de

salários (em reais) de 160 funcionários de determinada

empresa, com suas respectivas frequências relativas

acumuladas.

O valor modal dos salários (desprezando os centavos) é:

a) 1784

b) 1666

c) 1648

d) 1636

e) 1628

Classes em reais Frequência relativa

acumulada (%)

[600,1000) 10

[1000,1400) 30

[1400,1800) 70

[1800,2200) 95

[2200,2600) 100

SEFAZ 2004 BA [FCC] - Solução

Considere a tabela abaixo que mostra a distribuição de

salários (em reais) de 160 funcionários de determinada

empresa, com suas respectivas frequências relativas

acumuladas.

O valor modal dos salários (desprezando os centavos) é:

a) 1784

b) 1666

c) 1648

d) 1636

e) 1628

Classes em reais

far (%) Frequência

absoluta

[600,1000) 10 10

[1000,1400) 30 20

[1400,1800) 70 40

[1800,2200) 95 25

[2200,2600) 100 5

ESTATÍSTICA

DESCRITIVA Outros Gráficos Estatísticos

PROFª MARIA ALICE V. F. DE SOUZA

Outros Gráficos: Histograma

Retiradas (R$) Frequência pt. médio

500 |- 600 12 550

600 |- 700 36 650

700 |- 800 63 750

800 |- 900 81 850

900 |- 1000 77 950

1000 |- 1100 42 1050

1100 |- 1200 24 1150

335

Fonte: fictícia

Retiradas diárias de um banco

Outros Gráficos: Polígono de

frequência

Retiradas (R$) Frequência pt. médio

500 |- 600 12 550

600 |- 700 36 650

700 |- 800 63 750

800 |- 900 81 850

900 |- 1000 77 950

1000 |- 1100 42 1050

1100 |- 1200 24 1150

335

Fonte: fictícia

Retiradas diárias de um banco

Outros Gráficos: Ogiva de

Galton

Retiradas (R$) Frequência pt. médio

500 |- 600 12 550

600 |- 700 36 650

700 |- 800 63 750

800 |- 900 81 850

900 |- 1000 77 950

1000 |- 1100 42 1050

1100 |- 1200 24 1150

335

Fonte: fictícia

Retiradas diárias de um banco

Petrobras 2010 [CESGRANRIO]

Histogramas e polígonos de frequências

são duas representações gráficas de

distribuições

(A) uniformes.

(B) de frequências.

(C) de acumulações.

(D) não uniformes.

(E) assimétricas.

IRB 2006 [ESAF]

Histograma e Polígono de frequência são:

a) a mesma representação gráfica (idênticas) de

uma distribuição de frequência.

b) um texto descritivo e uma representação gráfica

de uma distribuição de frequência.

c) um texto descritivo e uma função gráfica de uma

distribuição de frequência.

d) duas representações gráficas de uma

distribuição de frequência.

e) duas representações gráficas de uma

distribuição de frequência, porém com sentidos

opostos.

branco negro outros

grupos étnicos

Outros Gráficos: Box Plot

SEFAZ RJ 2009 [FGV]

Para comparar as rendas de dois grupos

de pessoas, A e B, foram preparados

diagramas de caixas (box-plots) com os

valores observados dos salários,

representados na figura a seguir:

A respeito desses diagramas, considere as seguintes

afirmativas:

I. O salário médio dos dois grupos é o mesmo.

II. A distribuição de salários no grupo A é

assimétrica à direita.

III. Há mais pessoas no grupo A do que no grupo

B.

Assinale:

(A)Se somente a afirmativa I for verdadeira;

(B)Se somente a afirmativa II for verdadeira;

(C)Se somente a afirmativa III for verdadeira;

(D)Se somente as afirmativas I e II forem

verdadeiras;

(E)Se somente as afirmativas II e III forem

verdadeiras.

I. O salário médio dos dois grupos é o mesmo.

(não há como saber)

II. A distribuição de salários no grupo A é

assimétrica à direita. (sim)

III. Há mais pessoas no grupo A do que no grupo

B. (não há como saber)

(B) Se somente a afirmativa II for verdadeira

Outros Gráficos: Ramo e Folhas

0 9

1 0 1 3 3 5 7 8 8 8 9

2 0 0 1 2 2 2 3 3 3 5 7 7 8 9

3 2 2 3 6 6 8 9

4 0 1

5

6 2

Tipos de Curvas CURVA SIMÉTRICA

CURVA ASSIMÉTRICA POSITIVA

CURVA ASSIMÉTRICA NEGATIVA

ESTATÍSTICA

DESCRITIVA Medidas de Dispersão

PROFª MARIA ALICE V. F. DE SOUZA

Medidas de Dispersão

São medidas estatísticas utilizadas para avaliar o grau

de variabilidade, ou dispersão, dos valores em torno da

média. O termo dispersão indica o grau de

afastamento de um conjunto de números em relação à

sua média.

__

Xxi

dispersão

Exemplos:

a) 20, 20, 20 a=20;

b) 15, 10, 20, 25, 30 b=20

__

X__

X

Amplitude Total (Range - R)

Diferença entre o maior e o menor dos

valores da série.

R = xmáx. - xmín.

Ex.: para a série

10, 12, 20, 22, 25, 33, 38

R = 38 – 10 = 28

A amplitude total é uma medida de dispersão limitada pois não leva em consideração a dispersão dos valores internos.

Variância ( ) 2

Mede as variações ocorridas. É calculada a

partir das diferenças entre cada elemento e

a média do conjunto.

i

ii

f

fxx ].)[( 2__

2

Desvio Padrão ( )

É também uma medida capaz de medir

variação.

2

i

i

f

fxx

n

xx

.)(

)(

2__

2__

AFPS 2002 [ESAF]

Dada a sequência de valores 4, 4, 2, 7 e

3, assinale a opção que dá o valor da

variância. Use o denominador 4 em seus

cálculos.

a) 5,5

b) 4,5

c) 3,5

d) 6,0

e) 16,0

AFPS 2002 [ESAF] - Solução

Dada a sequência de valores 4, 4, 2, 7 e

3, assinale a opção que dá o valor da

variância. Use o denominador 4 em seus

cálculos.

0 0 4 9 1

0 0 -2 3 -1

Logo…

a) 5,5

b) 4,5

c) 3,5

d) 6,0

e) 16,0

O desvio-padrão e a variância não são

influenciados pela soma e subtração,

mas sim pela multiplicação e divisão.

Propriedades do Desvio-padrão e da Variância

TRE PI 2009 [FCC]

Uma variável aleatória X apresenta uma média

igual a 8 e variância 25. Define-se variância

relativa de uma variável aleatória como sendo a

divisão da respectiva variância pelo valor do

quadrado da média, quando esta é diferente de

zero. Então, a variância relativa da variável

aleatória Y = 2X – 1 é

(A) 25/64

(B) 2/9

(C) 4/9

(D) 16/36

(E) 25/36

TRE PI 2009 [FCC] - Solução

Uma variável aleatória X apresenta uma média

igual a 8 e variância 25. Define-se variância

relativa de uma variável aleatória como sendo a

divisão da respectiva variância pelo valor do

quadrado da média, quando esta é diferente de

zero. Então, a variância relativa da variável

aleatória Y = 2X – 1 é

(A) 25/64

(B) 2/9

(C) 4/9

(D) 16/36

(E) 25/36

Caso os dados sejam de uma amostra, as fórmulas passam a ser:

1)(

.)( 2__

2

i

ii

f

fxxS

tamanho da amostra menos 1.

ou

]

)([

1)(

12

22

i

ii

ii

i f

fxfx

fS

tamanho da amostra menos 1.

Grau de Curtose

MENOR DISPERSÃO; MAIOR CONCENTRAÇÃO DE DADOS

MAIOR DISPERSÃO; MENOR CONCENTRAÇÃO DE DADOS

Distribuição delgada; LEPTOCÚRTICA

Distribuição nem chata, nem delgada; MESOCÚRTICA

Distribuição achatada; PLATICÚRTICA

Cálculo do Grau de Curtose

)(2 1090

13

PP

QQK

Se k < 0,263 LEPTOCÚRTICA

Se K = 0,263 MESOCÚRTICA

Se K > 0,263 PLATICÚRTICA

percentilP

percentilP

quartilQ

quartilQ

10

90

1

3

10

90

1

3

Cálculo do Coeficiente de

Assimetria

13

31

__

2

QQ

MdQQAS

MoXAS

0

0

0

AS

AS

AS Distribuição é Simétrica Distribuição é Assimétrica Positiva

Distribuição é Assimétrica Negativa

MPU 2004 [ESAF]

A mediana é uma medida de posição usualmente

utilizada na análise de distribuições de

renda porque as distribuições de renda

a) têm intervalos de classe distintos.

b) sempre são normais.

c) tipicamente são do tipo uniforme.

d) geralmente se mostram bastante assimétricas

e) são sempre bimodais

INEP 2008 [CESGRANRIO]

Analise as afirmações a seguir.

Numa distribuição simétrica, a média e a mediana coincidem.

PORQUE

Numa distribuição simétrica a moda nem sempre existe.

Quanto às afirmações acima, pode-se concluir que

(A) as duas asserções são verdadeiras e a segunda é uma

justificativa correta da primeira.

(B) as duas asserções são verdadeiras e a segunda não é uma

justificativa correta da primeira.

(C) a primeira asserção é uma proposição verdadeira e a

segunda, uma proposição falsa.

(D) a primeira asserção é uma proposição falsa e a segunda,

uma proposição verdadeira.

(E) tanto a primeira como a segunda são proposições falsas.

Coeficiente de Variação (CV)

Trata-se de uma medida relativa de

dispersão útil para a comparação em

termos relativos do grau de concentração

em torno da média de séries distintas.

100.__

X

CV

Em geral, a distribuição possui:

baixa dispersão: CV 15%

média dispersão: 15%<CV<30%

alta dispersão: CV 30%

Senado 2008 [FGV]

O coeficiente de variação amostral (em

porcentagem) de um conjunto de salários é 110%.

Se os salários desse conjunto forem reajustados em

20%, o novo coeficiente de variação amostral será:

(A) 110%.

(B) 112,2%.

(C) 114,2%.

(D) 122%.

(E) 130%.

Senado 2008 [FGV] - Solução

O coeficiente de variação amostral (em

porcentagem) de um conjunto de salários é 110%.

Se os salários desse conjunto forem reajustados

em 20%, o novo coeficiente de variação amostral

será:

(A) 110%.

(B) 112,2%.

(C) 114,2%.

(D) 122%.

(E) 130%.

SEFAZ SP – 2006 [FCC]

Considerando as respectivas definições e

propriedades relacionadas às medidas de posição e

de variabilidade, é correto afirmar:

(A) Concedendo um reajuste de 10% em todos os salários

dos empregados de uma empresa tem-se que a

respectiva variância fica multiplicada por 1,10.

(B) Definindo o coeficiente de variação (CV) como sendo o

quociente da divisão do desvio-padrão pela respectiva

média aritmética (diferente de zero) de uma sequência de

valores, tem-se então que CV também poderá ser obtido

dividindo a correspondente variância pelo quadrado da

média aritmética.

(C) Subtraindo um valor fixo de cada salário dos

funcionários de uma empresa, tem-se que o

respectivo desvio-padrão dos novos valores é

igual ao valor do desvio-padrão dos valores

anteriores.

(D) Dividindo todos os valores de uma sequência de

números estritamente positivos por 4, tem-se

que op respectivo desvio-padrão fica dividido

por 2.

(E) Em qualquer distribuição de valores em estudo,

a diferença entre a mediana e a moda é sempre

diferente de zero.

SEFAZ SP – 2006 [FCC]

Considerando as respectivas definições e

propriedades relacionadas às medidas de posição e

de variabilidade, é correto afirmar:

(A) Concedendo um reajuste de 10% em todos os salários

dos empregados de uma empresa tem-se que a

respectiva variância fica multiplicada por 1,10. 1,21

(B) Definindo o coeficiente de variação (CV) como sendo o

quociente da divisão do desvio-padrão pela respectiva

média aritmética (diferente de zero) de uma sequência de

valores, tem-se então que CV também poderá ser obtido

dividindo a correspondente variância pelo quadrado da

média aritmética. Não, essa seria a variação relativa.

(C) Subtraindo um valor fixo de cada salário dos

funcionários de uma empresa, tem-se que o

respectivo desvio-padrão dos novos valores é

igual ao valor do desvio-padrão dos valores

anteriores.

(D) Dividindo todos os valores de uma sequência de

números estritamente positivos por 4, tem-se

que o respectivo desvio-padrão fica dividido por

2. Não, fica dividido por 4.

(E) Em qualquer distribuição de valores em estudo,

a diferença entre a mediana e a moda é sempre

diferente de zero. Há casos em que são iguais.

Escore z

É o n° de desvios-padrão pelo qual um valor x dista da média (para mais ou para menos).

__

xxz

0 1 2 3 -1 -2 -3

valores comuns

valores incomuns

valores incomuns

__

X1

__

X1__

X

2__

X2__

X

z

É uma escala que permite que você meça quantos

desvios-padrão o valor em questão está acima/abaixo

da . __

X

Exemplo 1:

As alturas da população de homens adultos têm

X=69,0 in, desvio-padrão =2,8 in (in=pol). O

jogador Michael Jordan ganhou reputação de

gigante, mas com 78 in, ele pode ser considerado

excepcionalmente alto, comparado com a

população geral de homens adultos americanos?

21,38,2

6978__

xxz

A altura de Michael Jordan está 3,21 desvios-padrão

acima da média. Sim, ele é alto para os padrões

americanos.

__

X

Vamos investigar como é essa curva.

%15

%06,40406,069

8,2100.

__

CV

X

CV

baixa dispersão

99,7% 95,0%

68,0%

A altura de Michael Jordan está contido nos 0,15% da população.

__

X __

X__

X

2__

X2__

X

3__

X3__

X

PROBABILIDADE

PROFª MARIA ALICE V. F. DE SOUZA

A probabilidade surgiu com os jogos de azar como

jogos de cartas, de roletas, de números etc, no

século XVI. Mais tarde, sua utilização foi ampliada

para estudos de Genética por Mendel que, até

hoje, continuam sendo válidos.

Os resultados previsíveis são chamados de

determinísticos. Por exemplo, o tempo gasto

para um objeto atingir o solo sendo lançado de

uma certa altura. Caso não saibamos o resultado

final de um experimento com antecedência,

chamamos de aleatório. Por exemplo, lançar uma

moeda; jogar na loteria de números, jogar um

dado etc.

Em Probabilidade estudamos experimentos

aleatórios que tenham a mesma chance de

ocorrência, isto é, a chance de acontecer os

diferentes resultados é a mesma.

Espaço Amostral (S)

Para cada experimento aleatório E defini-se

Espaço Amostral – S - o conjunto de todos os

possíveis resultados desse experimento.

Ex.: Experimento E1 = jogar um dado e observar o

número da face de cima.

S = {1, 2, 3, 4, 5, 6}

Ex.: Experimento E2 = jogar 2 moedas e observar o

resultado.

S = {(c,c), (c,k), (k,c), (k,k)}

c – cara

k - coroa

Evento

O evento se caracteriza por ser qualquer subconjunto do conjunto S.

Ex.: E1 = lançar um dado e observar o número de cima.

S = {1, 2, 3, 4,, 5, 6}

Evento A = ocorrer múltiplo de 2 = {2, 4, 6}

Observações:

1- Quando o evento for igual ao espaço amostral, o evento é dito CERTO;

2- Quando o evento for , o evento é considerado IMPOSSÍVEL.

Probabilidade

amostralespaçoelementosn

eventoelementosnEventop

º

º)(

)(º

)(º)(

Sn

EvnEvp

Exemplos:

1- Seja o experimento aleatório: nascimento de 3 filhotes de um casal de gatos. Determine:

a) O S deste experimento:

S = {(MFF), (MFM), (MMF), (MMM), (FMM),

(FMF), (FFM), (FFF)}

b) A probabilidade do evento: exatamente 2 fêmeas.

8

3

8

))()((

)(

)()(

FFMFMFMFF

Sn

EvnEvp

c) A probabilidade do evento: nascimento de exatamente 3 machos.

d) A probabilidade do evento: nascimento de, pelo menos, 2 fêmeas.

8

1

)(

)()(

Sn

EvnEvp

%502

1

8

4)( Evp

2- Numa urna existem 4 bolas amarelas e 2 bolas rosas. Qual é o S retirando-se 3 bolas sucessivamente?

S = {(AAA), (AAR), (ARA), (ARR), (RAA), (RAR), (RRA)} n(S)=7

A R

A A

A R

R R

A A

A

R R

3- Qual o espaço amostral no lançamento de 2 moedas simultaneamente?

S = {(cc), (ck), (kc), (kk)}

c

c

k

k

cc

kc

ck

kk

4- Qual o S do experimento aleatório lançamento simultâneo de 3 moedas diferentes?

S = {(ccc), (cck), ... (kkk)}

n(S) = 8

c

k

c c

c k

k

k k

c c

c k

k

4.1- Calcule a probabilidade do evento: no mínimo 1 cara:

4.2- Calcule a probabilidade do evento: pelo menos 2 coroas:

8

7)( Evp

2

1

8

4)( Evp

4.3- Calcule a probabilidade do evento: no máximo 1 cara:

4.4- Calcule a probabilidade do evento: exatamente 2 coroas:

2

1

8

4)( Evp

8

3)( Evp

Alguns Tipos de Eventos

1- Eventos Mutuamente Exclusivos ou Excludentes

Dois eventos são chamados mutuamente exclusivos, se eles não puderem ocorrer simultaneamente, isto é, evento A e evento B são disjuntos, ou seja,

BA

Ex.: lançar um dado e observar se vai dar par ou ímpar.

S = {1, 2, 3, 4, 5, 6}

Ev(A) = ocorrer nº par = {2,4,6}

Ev(B) =ocorrer nºímpar ={1,3,5}

BA

2- Eventos Complementares

O complemento de um evento A, denotado por ,

consiste em todos os resultados em que o evento

A não ocorre.

Ex.: Se p(chuva)=0,4, determine p(ñ-chuva).

p(ñ-chuva) = 1 – p(chuva) =

1 - 0,4 = 0,6

___

A___

A

3- Eventos Independentes

Dois eventos A e B são independentes se a

ocorrência de um deles não afeta a probabilidade

de ocorrência do outro. (Analogamente, vários

eventos são independentes se a ocorrência de

qualquer um deles não afeta as probabilidades de

ocorrência dos outros).

Ex.: a jogada de uma moeda e a jogada de um dado são eventos independentes, porque o resultado da moeda não afeta a probabilidade do resultado do dado.

Então:

)().()( BpApBAp

4- Eventos Condicionais ou Probabilidade Condicional

Se A e B são eventos de um espaço amostral S, com p(B) diferente de zero, então a probabilidade condicional do evento A, tendo ocorrido o evento B, é indicada por p(A/B).

)(

)()/(

Bp

BApBAp

Ex.: Dois dados são lançados. Considere os eventos:

onde x1 é o resultado do dado 1 e x2 é o resultado do dado 2.

Calcule p(A/B) e p(B/A)

}|),{(

}10|),{(

2121

2121

xxxxB

xxxxA

Solução:

A={(4,6), (5,5), (6,4)}

B={(2,1), (3,1), (3,2), (4,1), (4,2), (4,3), (5,1), (5,2),

(5,3), (5,4), (6,1), (6,2), (6,3), (6,4), (6,5)}

)}5,6),...(1,3(),1,2{(

)}4,6{(

)(

)()/(

Bp

BApBAp

15

1

36

1536

1

Ainda podemos calcular a probabilidade condicional da seguinte maneira:

Considere o primeiro evento como sendo um espaço amostral reduzido:

Sreduzido={(2,1),(3,1),...,(6,5)}=15 elementos

E o segundo evento passa a ser um evento desse Sreduzido.

Ev: x1+x2=10 : {(6,4)} 15

1

)}4,6(),5,5(),6,4{(

)}4,6{(

)(

)()/(

Ap

ABpABp

3

1

15

315

1

Ou, pelo Sreduzido:

Sreduzido: {(4,6), (5,5), (6,4)}

Evento: x1>x2 = {(6,4)}

p(Ev) = 31

Notem que, em geral,

p(A/B) é diferente de p(B/A).

Resumo:

)(

)()/(

Bp

BApBAp

interseção do nºelementos de A e B dividido pelo S

total.

probabilidade de B dividido pelo total.

OU p(B) se torna o Sreduzido e verificamos quantos elementos do conjunto A estão em B.

RESUMO

Regra da Adição

p(A ou B)

A e B são

mutuamente

excludentes?

p(A ou B)=p(A) + p(B)

p(A ou B)=p(A) + p(B) – p(A e B)

N

S

RESUMO

Regra da Multiplicação ou do Produto

p(A e B)

A e B são

independentes?

p(A e B)=p(A) . p(B)

p(A e B)= p(A). p(B/A)

N

S

ou

)(

)()/(

Ap

ABpABp

Teorema de Bayes

Sejam os eventos A1, A2, ..., Ak, mutuamente

excludentes e seja B um evento qualquer. Se

quisermos saber a probabilidade p(A1/B),

conhecidas as probabilidades p(B/A1), p(B/A2),...,

p(B/Ak) e p(A1), p(A2),..., p(Ak) , então:

)()/(...)()/(

)()/()/(

11

111

kk ApABpApABp

ApABpBAp

para 0)( Bp

Ex.: A probabilidade de que um teste médico

identifique corretamente alguém com uma doença,

dando positivo é 0,99; e a probabilidade de que o

teste identifique corretamente alguém sem a

doença, dando negativo, é 0,95. A incidência da

doença na população em geral é 0,0001. Você fez

o teste e o resultado foi positivo. Qual a

probabilidade de que você tenha a doença? Seja D = ter doença

= não ter doença

S = teste positivo

= teste negativo

__

D

__

S

9999,0)(0001,0)(__

DpDp

05,0)/(95,0)/(

99,0)/(

______

DSpDSp

DSp

???)/( SDp

)()./()()./(

)()./()/(

____

DpDSpDpDSp

DpDSpSDp

%2,0)/(

002,0...001976,0050094,0

000099,0)/(

049995,0000099,0

000099,0)/(

9999,0.05,00001,0.99,0

0001,0.99,0)/(

SDp

SDp

SDp

SDp

Petrobras 2005 [CESGRANRIO]

O gráfico a seguir é o box-plot da distribuição de

renda, em mil reais, da população de um

determinado município.

5

6

7

10

12

Qual é a probabilidade de um habitante desse

município ter renda superior a 6 mil reais?

(A) 0,15

(B) 0,20

(C) 0,25

(D) 0,50

(E) 0,75

DISTRIBUIÇÕES DE

PROBABILIDADE

PROFª MARIA ALICE V. F. DE SOUZA

Modelos de

Distribuições Discretas

de Probabilidade

Bernoulli

Binomial

Poisson

Multinomial

Geométrica

Hipergeométrica

Binomial Negativa

etc

Distribuição Binomial Trata-se de uma distribuição de probabilidade adequada

aos experimentos que apresentam apenas dois resultados:

sucesso e fracasso. Este modelo fundamenta-se em três

hipóteses:

H1- n provas independentes e do mesmo tipo são

realizadas;

H2- cada prova admite dois resultados: sucesso e fracasso;

H3- a probabilidade de sucesso em cada prova é p e de

fracasso é 1-p=q

Admita sucesso = 1 e fracasso = 0

Seja a variável Y = n° sucessos das n provas.

Para Y=0, temos uma sequência de n zeros:

00000000...0

p(Y=0) = q.q.q...q=qn (p0.qn)

Para Y=1, temos uma sequência do tipo 10000...0;

01000...0; 00100...0; ...

p(Y=1) = n.p.qn-1

n

n sequências

p(Y=1) = n.p.qn-1

Para Y=y tem-se y sucessos e (n-y) fracassos,

correspondendo às sequências com y algarismos 1 e

n-y zeros. Cada seqüência terá probabilidade py.qn-y

e como há sequências distintas tem-se:

y

n

yny qpy

nyYp

..)(

Para Y=n tem-se uma sequência de n uns:

11111...1, logo, p(Y=n) = pn.

n Binômio de Newton

nnnn pqn

npq

npq

npq 0110 ...

10)(

Triângulo de Pascal Valor

de n

0 1

1 1 1

2 1 2 1

3 1 3 3 1

4 1 4 6 4 1

5 1 5 10 10 5 1

6 1 6 15 20 15 6 1

7 1 7 21 35 35 21 7 1

8 1 8 28 56 70 56 28 8 1

9 1 9 36 84 126 126 84 36 9 1

10 1 10 45 120 210 252 210 120 45 10 1

Coeficientes do Binômio de Newton

121)(

11)(

1)(

2

1

0

ba

ba

ba

151051)(

14641)(

1331)(

5

4

3

ba

ba

ba

Variância de uma

Distribuição Binomial qpnY ..2

)(

Média Aritmética de uma

Distribuição Binomial pnY .)(

Exemplo: Uma moeda não viciada é lançada 8 vezes.

Encontre a probabilidade de:

a)dar 5 caras;

b)pelo menos 1 cara;

c)no máximo 2 caras.

2

1

2

1

8

q

p

n

sucesso para cara

fracasso para cara

Y=n° de caras (sucessos)

n° de provas

b) pelo menos 1 cara

c) no máximo 2 caras

%6,992

1

2

1

0

81

)0(1)1(

08

YpYp

)2()1()0()2( YpYpYpYp

%1414,02

1

2

1

2

8

2

1

2

1

1

8

2

162718

%2222,02

1

2

1.

5

8)5(

585

Yp

Solução:

a) dar 5 caras

(ESAF) Em uma cidade, 10% das pessoas

possuem carro importado. Dez pessoas

dessa cidade são selecionadas ao acaso. A

probabilidade de que exatamente 7 das

pessoas selecionadas possuam carro

importado é:

a) (0,1)7 . (0,9)3

b) (0,1)3 . (0,9)7

c) 120 . (0,1)7 . (0,9)3

d) 120 . (0,1) . (0,9)7

e) 120 . (0,1)7 . (0,9)

Distribuição Poisson

Em muitos casos, conhece-se o n° de sucessos,

porém, se torna difícil e, às vezes, sem sentido

determinar o n° de fracassos ou o n° total de

provas.

Por exemplo:

automóveis que passam numa esquina/tempo;

chamadas recebidas por uma mesa telefônica

durante um período de tempo;

o n° finito de nós em uma rede.

Fórmula da Distribuição de

Probabilidade de Poisson

tx

ex

ttxp ..

!

).(),(

sendo o coeficiente de proporcionalidade

específico para cada problema;

x é o número que ocorre o evento;

t é o espaço em que ocorre o evento (a unidade).

Ex.: Em média há duas chamadas por hora num

certo telefone. Calcular a probabilidade de se

receber no máximo três chamadas em duas horas.

Solução: chamadas/hora

2Média

aritmética ?)2,3(

2

3

p

t

X

21

2

.

t2 chamadas

1 hora

)2,3()2,2()2,1()2,0()2,3( XpXpXpXpXp

2.23

2.22

2.21

2.20

.!3

)2.2(.

!2

)2.2(.

!1

)2.2(.

!

)2.2( eeeeo

x,t

%35,43

E qual é a probabilidade de nenhuma chamada

em 90 minutos.

0498,0.!0

)90.30

1(

.!

)()90,0(

390.

30

10

.

ee

ex

tXp t

x

%98,4

30

1

60

2

.t

Continuam 2

chamadas/hora, mas

agora são minutos e

não horas.

x,t

Observação: O intervalo pode ser o tempo, a distância,

a área, o volume ou outra unidade análoga.

Atenção:

1- A distribuição binomial é afetada pelo tamanho

amostral n e pela probabilidade p, enquanto a

distribuição de Poisson é afetada pela média ;

2- Em uma distribuição binomial, os valores possíveis

da variável aleatória x são 0,1,2,...,n, enquanto em

uma distribuição de Poisson os valores possíveis de x

são 0,1,..., sem limite superior.

Modelos de

Distribuições

Contínuas de

Probabilidade

Uniforme ou Retangular

Normal

Lognormal

Exponencial

Qui-quadrado

t de Student

Distribuição F

Distribuição de Probabilidade

Contínua Se X é uma variável aleatória contínua, a probabilidade de X

tomar um determinado valor é, em geral, zero. Não se pode

definir uma função de probabilidade contínua da mesma

maneira como o fizemos no caso de uma variável discreta.

Para chegarmos a uma definição de distribuição de

probabilidade contínua, notemos que o que tem sentido é

falar-se da probabilidade de X estar compreendido entre dois

valores diferentes. (Spiegel, 1978, p.55)

1)(

0)(

dxxf

xf

Função de probabilidade contínua

Probabilidade da Uniforme ou

Retangular

Definimos que a probabilidade de X estar entre a e b é dada

por:

b

a

dxxfbXap )()(

Distribuição de Probabilidade

Uniforme ou Retangular Uma distribuição de variável aleatória contínua é uniforme

quando sua função densidade de probabilidade for constante

dentro de um intervalo de valores da variável aleatória X.

Assim, cada um dos possíveis valores que X com

distribuição uniforme pode assumir tem a mesma

probabilidade de ocorrer.

a b X

f(x)

1/b-a

bxaab

abxf

,

,1

)(Função

densidade

uniforme

Exemplo de Probabilidade

Uniforme ou Retangular

Devido à volatilidade do mercado, a estimativa do preço da

ação X para os próximos 12 meses mostra que deverá ser

um valor dentro do intervalo $10 e $50, com igual

probabilidade para todos os valores de preço dentro

desse intervalo. Calcule:

a) a probabilidade de que o valor da ação seja maior do que

$40.

b) A média e o desvio-padrão da ação.

a) a probabilidade de que o valor da ação seja maior do que

$40.

a b X

f(x)

1/b-a

OU AINDA…

a) a probabilidade de que o valor da ação seja maior do que

$40.

a c d b X

f(x)

ab

cddXcp

)(

10 40 50 X

f(x)

b) A média e a variância da ação.

dxxfx

dxxfx

x )(.)(

)(.

2

Média = Valor Esperado = Expectância

Variância

OU AINDA…

b) A média e a variância da ação.

12

)(

22

2 ab

ba

x

x

Média = Valor Esperado = Expectância

Variância

Distribuição Normal N ),( 2

É a mais importante distribuição de

probabilidade sendo aplicada em inúmeros

fenômenos e utilizada para o desenvolvimento

teórico da Estatística. Também é conhecida

como Distribuição de Gauss, Laplace ou

Laplace-Gauss.

A forma gráfica da distribuição normal

lembra um sino. É conhecida como:

curva normal, curva em sino ou curva

de Gauss. O gráfico é simétrico em

relação à .

Seja X uma variável aleatória contínua. X terá

distribuição normal se:

x

exf

x 2)(2

1

.2

1)(

Parâmetros de uma Distribuição

Normal:

Média Aritmética:

Variância:

2

Existem infinitas distribuições normais. Basta

variarmos um dos parâmetros para termos outra

distribuição.

A figura mostra quatro distribuições normais

com mesma média, mas com variâncias

distintas.

menor dispersão

= menor

variância

maior

dispersão

A figura mostra quatro distribuições normais

com mesma variância, mas com médias

diferentes.

A B C D

ABCD

2222

DCBA

Área sob a Curva Normal

É a porção do plano compreendida entre a

curva e a linha de base (eixo x), que

corresponde, em qualquer distribuição

normal, à 100% dos dados considerados.

Vamos limitar uma porção dessa área total a

partir de dois pontos quaisquer tomados na

linha de base. Por exemplo, a média aritmética

e um outro ponto que coincide com 1 desvio-

padrão acima da média.

Esta porção abrange 34,13% da frequência

total.

Distribuição Normal N ),( 2

1 2 3123

68,27%

95,45%

99,73%

y

Exemplo: Suponhamos que a média aritmética dos

pesos de certo objeto seja =500g e que o desvio-

padrão seja =1,5g. Qual a probabilidade de

selecionarmos um objeto com peso entre 500 e

501?

g

g

5,1

500

tabelagx

gx

g

67,05,1

1

1

5,11

Tabela: 0,6 na vertical e 0,07 na horizontal = 24,86%

500 5,5015,498

34,13%

501 x

68,27%

Tabela: Áreas de uma distribuição normal

padrão

A tabela informa a proporção sob a curva inteira entre z=o e um

valor absoluto de z. As áreas para os valores de z negativos são

obtidas por simetria.

tabelax

z

67,05,1

500501

%86,24tabela

Tabela: Áreas de uma distribuição normal

padrão

Exemplo: As alturas dos alunos de determinada escola são normalmente distribuídas com média 1,60m e desvio-padrão 0,30m. Encontre a probabilidade de um aluno medir:

a)entre 1,50m e 1,80m

30,0

60,1

X= variável normal -altura dos alunos

)67,033,0()80,150,1( zpxp

tabela

67,030,0

60,180,1

33,033,030,0

60,150,1

2

1

xz

xz

Segundo a tabela...

%79,373779,02486,01293,0

b) mais de 1,75m

50%

19,15%

%85,303085,01915,05000,0

)5,0()()75,1( 1

zpzzpXp

1915,05,030,0

60,175,11

tabelaz

média aritmética

desvio-padrão

c) menos de 1,48m

%46,343446,0

1554,05000,0)48,1()48,1(

zpXp

1554,04,030,0

60,148,11

tabelaz

50%

d) Qual deve ser a medida mínima para escolhermos 10% dos mais altos?

Neste caso, tem-se a probabilidade e deseja-se a medida.

Para se encontrar o valor de z que deixa 0,10 à

direita, deve-se consultar na tabela o valor 0,40.

Assim, o valor de z mais próximo de 0,40 é z=1,28,

logo...

mx

xxz

98,1

30,0

60,128,1

Distribuição de Probabilidade

Lognormal

A lognormal é a distribuição de uma

variável aleatória cujo logaritmo segue

a distribuição normal.

Só trabalha com dados positivos.

Na Engenharia essa distribuição vem

sendo usada para descrever o tempo

de falha, o tempo de reparo e também

em estudos sobre confiabilidade.

A distribuição lognormal, em geral, é assimétrica à

direita:

Considere Y uma variável aleatória

com distribuição normal e X uma

variável aleatória com distribuição

lognormal.

Y = ln X

,2

1),;( ]²/))[(ln2/1( yy

y

xex

xf

Função Densidade da Lognormal

em X é...

x>0

Caso contrário f(x) = 0.

Média Aritmética:

Variância:

É útil conhecer a mediana e a moda de uma lognormal. A

mediana ( ), é

ye

E a moda (Mo) é

2

2

)(y

y

eXE x

)1(²)(²²2

yyy eeXV x

²yy

eMo

Exemplo: A concentração de poluentes produzidos

por indústrias químicas é descrita historicamente

como uma distribuição lognormal. Você é

responsável pela adequação dos níveis de poluição

de certa indústria ao cumprimento de

regulamentações governamentais. Suponha que a

concentração do poluente (em partes por milhão)

tenha média de 3,2 e desvio-padrão igual a 1. Qual

a probabilidade de que a concentração exceda oito

partes por milhão?

X é a concentração de poluentes, então...

Já que ln(X) tem distribuição normal com média

3,2 e desvio-padrão igual a 1, então...

Então, a chance de que a concentração

ultrapasse oito partes por milhão é de

13,14%.

Tabela: Áreas de uma distribuição normal

padrão

Generalizando, a fórmula para cálculo da

probabilidade da lognormal é:

Distribuição de Probabilidade

Exponencial

Descreve o tempo que se leva para completar uma tarefa.

Ex.: tempo entre chegadas a um lava-carros, tempo exigido

para se carregar um caminhão, distância entre os maiores

defeitos em uma auto-estrada etc.

x

exf

1

)(

Função exponencial de probabilidade

Exemplo Considere que o tempo médio que se leva para carregar

um caminhão na doca de carregamento é de 15 minutos.

A função densidade de probabilidade que descreve esse

tempo de carregamento é:

15

15

1)(

x

exf

Fórmula para cálculo da probabilidade

150

0

1)tocarregamen (

x

extempoP

0

1)( 0

x

exxP

Para o exemplo da doca de carregamento...

Qual a probabilidade que um

caminhão seja carregado... em até de 6 minutos?

3297,01)6carreg. ( 15

6

etempoP

Qual a probabilidade para um

caminhão carregar...

E em até 18 minutos?

entre 6 e 18 minutos?

3691,03297,06988,0

6988,01)18carreg. ( 15

18

etempoP

CORRELAÇÃO E

REGRESSÃO

LINEAR

PROFª MARIA ALICE V. F. DE SOUZA

Correlação Linear

É o estudo da relação entre duas variáveis

com o auxílio de um gráfico (chamado

diagrama de dispersão) e de uma medida

(chamada coeficiente de correlação linear).

Ex.:Poderíamos pesar um urso com uma fita

métrica?

Se houver alguma relação entre o

comprimento de um urso e seu peso,

sim. Mas qual é esta relação?

Quando uma variável está, de alguma forma, relacionada a outra, dizemos que existe uma CORRELAÇÃO.

Vantagem: a presença de uma correlação pode conduzir-nos a um método para estimar o peso de um urso medindo o seu comprimento.

gastos com combustível e km rodados;

renda pessoal e anos de estudo;

nºde defeitos em peças e horas de

treinamento em qualidade.

Ex.: Variável x – idades das pessoas de determinadas classes;

Variável y – tempo médio de duração do banho diário das pessoas entrevistadas em cada idade.

0

2

4

6

8

10

12

14

0 5 10 15 20 25 30 35 40 45

Du

raç

ão

do

Ba

nh

o (

min

)

Idade (anos)

Diagrama de Dispersão

X 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42

Y 12 11 13 12 11 8 10 9 7 8 8 9 7 7 6 6 4 5

A configuração do gráfico nos faz supor que existe

uma certa correlação entre as duas variáveis, isto

é, com o tempo, as pessoas parecem demorar-se

menos no banho.

Obs.: Devemos ter cuidado na análise de

correlação, pois as variáveis correlacionadas, não

necessariamente, estão sujeitas a uma relação de

causa e efeito. No exemplo, pode não ser a idade

mas a falta de tempo que as faça tomar banho

mais rápido.

O coeficiente de correlação linear r mede o grau

de relacionamento linear entre os valores

emparelhados x e y em uma amostra. O

coeficiente de correlação linear também é

chamado de coeficiente de correlação momento-

produto de Pearson (1857-1936).

x

n

yy

n

xx

n

yyxx

rxy_

22_

__

)(.

)(

))((

desvio-

padrão de x

desvio-

padrão de y y

coeficiente de

correlação linear

Mais fórmulas para o cálculo do

coeficiente de correlação linear

])(

].[)(

[

..

22

22

n

yy

n

xx

n

yxyx

rxy

Obs.: Ao calcular r ou outros cálculos estatísticos, o

arredondamento durante os cálculos pode ocasionar erros

sérios; recorra à memória da calculadora para armazenar

os resultados intermediários, fazendo o arredondamento

somente no final.

0 -1 1

Correlação

Nula

Correlação

Negativa Perfeita Correlação

Positiva

Perfeita

Aumenta a

correlação

positiva

Aumenta a

correlação

negativa

2222 )()(.)()(

))((.

yynxxn

yxyxnrxy

A observação dos diagramas de dispersão pode

nos fornecer informações:

Ex.: Calcule o coeficiente de correlação linear

r, com os dados da tabela abaixo:

Comprimento

x (pol)Peso y (lb)

53,0 80

67,5 344

72,0 416

72,0 348

73,5 262

68,5 360

73,0 332

37,0 34Fonte: Minitab e Gary Alt.

Comprimentos e Pesos de

Ursos Machos

Solução: n=8 (porque há 8 pares de dados)

2222 )()(.)()(

))((.

yynxxn

yxyxnrxy

22 )176.2()520.728(8.)50,516()75,525.34(8

)176.2)(50,516()879.151(8xyr

897,0184.093.1.75,433.9

128.91xyr

Cálculo de : 151.879 xy

Cálculo de : 516,50 x

Cálculo de : 2.176 y

Cálculo de : 34.525,75 )( 2x

Cálculo de : 728.520 )( 2y

Interpretação do Coeficiente de

Correlação Linear

O valor de r deve estar sempre entre –1 e +1, inclusive.

Se o valor de r está próximo de zero, concluímos que não

há correlação linear significativa entre x e y, mas se r está

próximo de –1 ou +1, concluímos pela existência de

correlação linear significativa entre x e y. Como a

interpretação da expressão “próximo de” 0, ou 1, ou –1 é

vaga, adotaremos o critério de decisão seguinte: Se o

módulo do valor calculado de r excede o valor da tabela a

seguir, concluímos que há correlação linear significativa.

Caso contrário, não há evidência suficiente para apoiar a

existência de uma correlação linear significativa.

Tabela de Valores Críticos do

Coeficiente de Correlação Linear r

05,0n4 0,950

5 0,878

6 0,811

7 0,754

8 0,707

9 0,666

10 0,632

11 0,602

12 0,576

13 0,553

14 0,532

15 0,514

16 0,497

Valores Críticos do

Coef.Correlação r 17 0,482

18 0,468

19 0,456

20 0,444

25 0,396

30 0,361

35 0,335

40 0,312

45 0,294

50 0,279

60 0,254

70 0,236

80 0,220

90 0,207

100 0,196Fonte: Introdução à

Estatística - Mário F.Triola

CLASSIFICAÇÃO DO GRAU DE

DEPENDÊNCIA ENTRE AS VARIÁVEIS

0,0 a 0,09 - NENHUMA

0,10 a 0,39 – FRACA

0,40 a 0,59 – MODERADA

0,60 a 0,89 – FORTE

0,90 a 1 - PERFEITA

A tabela de valores críticos mostra que com 8

pares de dados amostrais, o valor crítico é 0,707.

Isso significa que existe uma chance de 5% de

que o valor absoluto do coeficiente de correlação

linear calculado r exceda 0,707.

Como o valor encontrado foi de 0,897,

concluímos que há correlação linear significativa

entre os comprimentos e os pesos de ursos.

Algumas observações: 1. Se os pesos dos ursos são dados em Kg em

vez de lb, o valor de r não se modificará; 2. r mede a intensidade, ou grau, de um

relacionamento linear. Não serve para medir a intensidade de um relacionamento não-linear;

3. evite a conclusão de que a correlação implica causalidade porque pode haver uma 3ª variável oculta influenciando as duas em questão;

4. a conclusão de que não há correlação linear significativa não quer dizer que x e y não estejam relacionados de alguma forma.

Regressão Linear

Ao termos alto grau de correlação linear entre

duas variáveis significa que percorrendo os

valores de uma, a outra vai surgindo. Para

sabermos o peso de uma pessoa só

conhecendo a altura, por exemplo, é preciso

encontrar a regra ou equação que relaciona as

duas variáveis. Esta equação tem o nome de

equação de regressão linear (se for linear), isto

é, se a correlação for uma reta.

Exemplo de Regressão Linear

X 2 2 3 3 3 4 4 5 6 6 6

Y 1 2 2 3 4 2 4 3 4 5 3

0

1

2

3

4

5

6

0 1 2 3 4 5 6 7

eix

o y

eixo x

Reta de Regressão Linear 4

_

X

3_

y

X

A reta de regressão deve ser traçada de modo

que passe pela média x e y, precisando ter uma

inclinação tal que garanta os menores desvios de

cada ponto em relação a ela. O ajuste da regra de

regressão ao conjunto de pontos é feito pelo

método chamado de mínimos quadrados.

y = ax + b Regressão Linear

x

y

xyra

__

xayb

COEFICIENTE

ANGULAR

COEFICIENTE

LINEAR

Coeficiente de

correlação entre as

variáveis x e y.

Para o exemplo anterior teríamos

uma regressão linear de:

016,1496,0 xy

496,048,1

13,1.65,0 a

016,14.496,03 b

Outras fórmulas para o coeficiente

angular e linear da reta de regressão

linear.

22 )()(

))(()(

xxn

yxxyna

22

2

)()(

))(())((

xxn

xyxxyb

COEFICIENTE ANGULAR

COEFICIENTE LINEAR

ESTIMATIVA

PROFª MARIA ALICE V. F. DE SOUZA

ESTIMATIVA

A busca de informações a respeito de um

fenômeno qualquer é necessária para a tomada

de decisões que envolvem este fenômeno.

Em particular, quando este fenômeno é aleatório, a

busca de informações é direcionada para

estabelecer a forma de distribuição da variável que

descreve o fenômeno e os parâmetros desta

distribuição (toda distribuição tem parâmetros). Um

dos processos para a solução deste problema

consiste em obter essas informações de maneira

indireta por um processo chamado ESTIMAÇÃO.

A estimação é um processo que consiste em avaliar os parâmetros de uma distribuição por meio de estimadores obtidos em uma amostra, com base no cálculo de probabilidades. O cálculo de probabilidades é o instrumental que viabiliza avaliar parâmetros da distribuição a partir dos estimadores. Veremos métodos de estimação de valores da média aritmética (parâmetros populacionais).

DEFINIÇÃO:

Um estimador é uma estatística amostral (como a X amostral) utilizada para obter uma aproximação de um parâmetro populacional. Uma estimativa é um valor específico, ou um intervalo de valores, usado para aproximar um parâmetro populacional.

QUALIDADE DA ESTIMAÇÃO

A qualidade de uma estimação depende basicamente

da representatividade da amostra, ou seja, a

capacidade da amostra reproduzir as características

importantes da população. Vejamos um exemplo:

A nutricionista de uma empresa foi encarregada de

avaliar a qualidade nutritiva de uma sopa preparada

por um fornecedor, que será servida a seus

funcionários, pois houve reclamações de funcionários

que sugerem que a sopa não está satisfazendo o

padrão de qualidade nutricional exigido pela empresa.

Se isso, de fato, estiver ocorrendo pode acarretar em

multa contratual.

O procedimento viável nesta situação é fazer esta

avaliação por meio de uma amostra.

Para uma amostra representativa da população é

preciso mexer bem a sopa para se obter um bom grau

de homogeneidade no produto e, uma pequena

amostra retirada nessas condições, irá conter os

ingredientes aproximadamente na mesma proporção

em que figuram na sopa. Assim sendo, podemos fazer

a avaliação com alto grau de precisão.

Caso a nutricionista, mesmo mexendo a sopa,

desconfie do grau de homogeneidade da sopa, a

maneira de conseguir boa representatividade consiste

em aumentar o tamanho da amostra.

A análise desta situação leva-nos a concluir que

populações com pequeno grau de variabilidade

de seus elementos podem ser estudadas a partir

de pequenas amostras.

À medida que esta variabilidade aumenta, é

necessário aumentar o tamanho da amostra

para manter sua representatividade.

Exemplo de ESTIMAÇÃO

A maioria das pessoas crê que a temperatura

média do corpo humano seja de 98,6°F, mas os

dados da tabela abaixo parecem sugerir uma

média efetiva de 98,20°F. Sabemos que as

amostras tendem a variar, de forma que talvez a

verdadeira temperatura média seja 98,6°F, e a

média amostral de 98,20°F seja o resultado de uma

flutuação aleatória. Mas o contrário pode ocorrer!

Analisemos os dados amostrais da tabela abaixo e

vejamos se a temperatura média do corpo humano

é ou não 98,6°F

98,6 98,6 98,0 98,0 99,0 98,4 98,4 98,4 98,4 98,6

98,6 98,8 98,6 97,0 97,0 98,8 97,6 97,7 98,8 98,0

98,0 98,3 98,5 97,3 98,7 97,4 98,9 98,6 99,5 97,5

97,3 97,6 98,2 99,6 98,7 99,4 98,2 98,0 98,6 98,6

97,2 98,4 98,6 98,2 98,0 97,8 98,0 98,4 98,6 98,6

97,8 99,0 96,5 97,6 98,0 96,9 97,6 97,1 97,9 98,4

97,3 98,0 97,5 97,6 98,2 98,5 98,8 98,7 97,8 98,0

97,1 97,4 99,4 98,4 98,6 98,4 98,5 98,6 98,3 98,7

98,8 99,1 98,6 97,9 98,8 98,0 98,7 98,5 98,9 98,4

98,6 97,1 97,9 98,8 98,7 97,6 98,2 99,2 97,8 98,0

98,4 97,8 98,4 97,4 98,0 97,0

Fonte: Temperaturas amostrais obtidas pelos Drs.Philip Mackowiak,

Steven Wasserman e Myron Levine, pesquisadores da Universidade

de Marylan.

Temperaturas do corpo de 106 adaultos sadios

Por exemplo, com base nos dados da tabela,

poderíamos utilizar o estimador X para concluir que

a estimativa da temperatura média do corpo de

todos os adultos sadios é 98,20°F.

Mas por que X?

Há duas razões importantes que explicam porque

uma média amostral é um melhor estimador de uma

média populacional do que quaisquer outros

estimadores, como a mediana ou a moda.

1. Para muitas populações, a distribuição de médias

amostrais X tende a ser mais consistente

(apresentar menor variação) do que as distribuições

de outras estatísticas amostrais. (Isto é, se

utilizamos médias amostrais para estimar a média

populacional , essas médias amostrais terão

menor desvio-padrão do que outras estatísticas

amostrais, tais como a mediana ou a moda.)

2. Para todas as populações, dizemos que a média

amostral X é um estimador não-tendencioso da

média populacional , o que significa que a

distribuição de médias amostrais tende a centrar-

se em torno da média populacional . (Isto é, as

médias amostrais não tendem a sobreestimar nem

a subestimar sistematicamente o valor de . Ao

contrário, tendem para o valor-alvo que é o próprio

valor de .

Por estas razões utilizaremos a X amostral como

melhor estimativa da XXX (média populacional).

Como a X é um valor único que corresponde a um

ponto na escala numérica, vamos chamá-la de

estimativa pontual.

Antes de prosseguirmos, precisamos entender

Intervalos de Confiança.

DEFINIÇÃO:

Um intervalo de confiança (ou estimativa

intervalar) é uma amplitude (ou um intervalo) de

valores que tem probabilidade de conter o

verdadeiro valor da população.

No exemplo, vimos que 98,20°F era nossa melhor

estimativa pontual da média populacional , mas não

tínhamos qualquer indicação sobre quão boa era essa

estimativa. Se conhecêssemos apenas as quatro

primeiras temperaturas de 98,6, 98,6, 98,0 e 98,0,

nossa melhor estimativa pontual de seria sua

média

(X=98,30°F), mas esta estimativa pontual não seria

tão boa, porque se baseia em uma amostra

demasiadamente pequena. Assim é que os

estatísticos desenvolveram outro tipo de estimativa

que, efetivamente, indica quão boa é uma estimativa

pontual. Essa estimativa, chamada intervalo de

confiança ou estimativa intervalar, consiste em uma

amplitude (ou um intervalo) de valores, em lugar de

um valor único.

Um intervalo de confiança está associado a um

grau de confiança que é uma medida de nossa

certeza de que o intervalo contém o parâmetro

populacional. A definição de grau de confiança utiliza

para descrever uma probabilidade que corresponde

a uma área.

A figura abaixo esboça a probabilidade XX que

está dividida igualmente entre duas regiões

extremas sombreadas (geralmente chamadas

caudas) na distribuição normal padronizada.

O grau de confiança é a probabilidade 1-

(comumente expressa como o valor percentual

equivalente) de o intervalo de confiança conter o

verdadeiro valor do parâmetro populacional. (O grau

de confiança é também chamado nível de

confiança, ou coeficiente de confiança).

São escolhas comuns para o grau de confiança:

90% (com =0,10), 95% (com =0,05) e 99%

(com XX=0,01). A mais comum é a opção 95%,

porque proporciona bom equilíbrio entre a precisão

(refletida na amplitude do intervalo de confiança) e a

confiabilidade (expressa pelo grau de confiança).

Eis um exemplo de intervalo de confiança, com grau

de 95% (ou 0,95) de confiança da média

populacional é ...

98,08°F < < 98,32°F

Note que a estimativa consiste em um intervalo e

está associada a um grau de confiança.

Interpretamos este intervalo de confiança como

segue: Se fôssemos selecionar muitas amostras

diferentes de tamanho n=106 da população de todos

os cidadãos sadios, e construíssemos um intervalo

de 95% de confiança análogo para cada amostra, a

longo prazo, 95% desses intervalos conteriam

efetivamente a média populacional .

Devemos ter em mente que é um valor fixo, e

não uma variável aleatória; portanto, é errado dizer

que há 95% de chance de estar no intervalo.

Qualquer intervalo de confiança contém, ou não

contém XX, e como é fixo, não existe a

probabilidade de estar em um intervalo.

Pelo teorema Central do Limite, sabemos que as

médias amostrais X tendem a distribuir-se

normalmente, como na figura que mostramos. As

médias amostrais apresentam uma chance

relativamente pequena de estar em uma das

caudas extremas.

Denotando por a área sombreada de cada

cauda, vemos que há uma probabilidade total de

a média amostral estar em uma das caudas. Pela

regra do complemento, decorre que há uma

probabilidade 1- de uma média amostral estar

na região não-sombreada da figura. O escore z

que separa a região da cauda direita é denotado

comumente por , e é chamado valor crítico

porque está na fronteira que separa as médias

amostrais passíveis de ocorrerem, das médias

amostrais que provavelmente não ocorrerão.

2

2z

Calculemos o valor crítico correspondente a um

grau de confiança de 95%.

Solução:

Um grau de confiança de 95% corresponde a

=0,05. Obtemos =1,96. 2

z

Voltando ao problema...

Quando coletamos um conjunto de dados

amostrais, como o conjunto das 106 temperaturas,

podemos calcular a X; essa média amostral é

tipicamente diferente da . A diferença entre X e

XX pode ser encarada como um erro.

Podemos calcular essa margem de erro (E)

(diferença máxima provável entre X e ) como...

nzE

.

2

Cálculo de E quando é desconhecido

Se n>30, podemos substituir na fórmula de E,

pelo desvio-padrão amostral s.

Se n 30, a população deve ter distribuição normal,

e devemos conhecer para aplicar a fórmula de E.

Com base na definição da margem de erro E,

podemos agora identificar o intervalo de confiança

para .

),(____

__

____

EXEX

ou

EX

ou

EXEX

nzE

onde

.

2

Vamos agora construir o intervalo de confiança para

o estimador X das 106 temperaturas...

62,0

20,98

106

__

s

FX

n

(desvio-padrão amostral)

Para um grau de confiança de 95%...

12,0106

62,0.96,1.

96,105,0

2

2

nzE

z

Logo,

32,9808,98

12,020,9812,020,98

____

EXEX

Concluímos que para a amostra de 106 temperaturas,

o intervalo de confiança para a é

98,08°F< <98,32°F,

e este intervalo de confiança tem um grau de

confiança de 0,95. Isto significa que, se

escolhêssemos muitas amostras diferentes de

tamanho 106 e construíssemos intervalos de

confiança como fizemos aqui, 95% deles conteriam o

valor da média populacional .

Observe que os limites que encontramos, 98,08°F

e 98,32°F do intervalo de confiança não contém o

valor 98,6°F, que se admite ser a temperatura

média do corpo humano. Por isso, deduzimos que

parece ser muito pouco provável que o valor

correto de seja 98,6°F. INTERPRETAÇÃO DE UM INTERVALO DE

CONFIANÇA

Devemos ter cuidado para interpretar

corretamente os intervalos de confiança. Desde

que utilizamos dados amostrais para achar os

limites específicos X – E e X + E, esses limites

incluirão, ou não incluirão, a média populacional ;

e isto não podemos determinar sem conhecer o

verdadeiro valor de .

É incorreto afirmar que tem 95% de chance de estar

entre os limites específicos de 98,08 e 98,32, porque XXé

uma constante, e não uma variável aleatória. Ou está

entre esses limites, ou não está; não há qualquer

probabilidade em jogo. É correto dizermos que, a longo

prazo, esses métodos darão intervalos de confiança que

conterão em 95% dos casos.

Suponhamos que no exemplo das temperaturas, estas

provenham de uma população cuja verdadeira média é

98,25°F. Então o intervalo de confiança obtido dos dados

amostrais conteria a média populacional, porque 98,2 está

entre 98,08 e 98,32.

AMOSTRAGEM

PROFª MARIA ALICE V. F. DE SOUZA

AMOSTRAGEM

É o conjunto de técnicas utilizadas para a seleção

de uma amostra.

Esse conjunto de técnicas pode ser subdividido

em dois grupos básicos:

AMOSTRAGEM

ALEATÓRIA

Inclui técnicas como:

•amostragem aleatória simples ou ao acaso;

•amostragem sistemática;

•amostragem estratificada

•amostragem por conglomerados.

AMOSTRAGEM NÃO

ALEATÓRIA

Inclui técnicas como:

•amostragem intencional;

•amostragem voluntária.

Não permitem o controle de

variabilidade amostral,

o que inviabiliza o

controle de qualidade

da estimação.

AMOSTRAGEM ALEATÓRIA SIMPLES OU AO ACASO

É aquela em que se atribui aos grupos de mesma quantidade de elementos a mesma probabilidade de participar da amostra. Em particular, cada elemento da população tem a mesma probabilidade de participar da amostra.

Para se obter uma amostra aleatória simples, caso a população seja finita, podemos atribuir a cada elemento um número. Fichas com esses números podem ser misturadas em uma urna. O sorteio das fichas identificam os elementos que deverão participar da amostra, garantindo a mesma chance para cada um deles.

AMOSTRAGEM ALEATÓRIA OU

PROBABILÍSTICA

AMOSTRAGEM SISTEMÁTICA

Quando se conhece uma listagem dos elementos

da população pode-se obter uma amostra

aleatória de n elementos dividindo-se o número

de elementos da população pelo tamanho da

amostra. Usando o número inteiro mais próximo

anterior a esse resultado, selecionamos os

elementos da lista que ocorrem com essa

periodicidade. É o caso, por exemplo, de um

processo de auditoria em notas fiscais de uma

empresa. Como as notas fiscais são numeradas,

a escolha de uma amostra pode ser feita de

maneira sistemática.

AMOSTRAGEM ESTRATIFICADA

Pode ocorrer que a população seja formada por

subgrupos diferentes, mas cada um deles

homogêneo. Neste caso, vamos selecionar

aleatoriamente uma quantidade de cada grupo

para formar a amostra, proporcional ao tamanho

desse grupo. É o caso da seleção, por exemplo,

de uma amostra para avaliar algum parâmetro

cujo valor seja estável, como nos grupos com a

mesma faixa de renda. Podemos dividir a

população em 3 extratos: renda alta, renda média,

renda baixa, e proceder à amostragem

estratificada.

AMOSTRAGEM POR CONGLOMERADOS

Em algumas situações, podemos identificar um grupo de elementos que tenha aproximadamente a mesma composição de população. Neste caso, pode ser interessante realizar amostragem usando somente os elementos desse grupo.

Algumas empresas, quando pretendem avaliar a aceitação de um produto no eixo Rio-São Paulo, lançam o produto em Curitiba, cuja população se comporta como uma miniatura desse mercado.

AMOSTRAGEM INTENCIONAL

Ocorre quando o pesquisador seleciona

intencionalmente os componentes da

amostra;

AMOSTRAGEM VOLUNTÁRIA

Ocorre quando o componente da

população se oferece voluntariamente

para participar da amostra

independentemente do julgamento do

pesquisador.

AMOSTRAGEM NÃO ALEATÓRIA OU

NÃO PROBABILÍSTICA

Recommended