Upload
janrieller
View
114
Download
0
Embed Size (px)
Citation preview
1
Do que trata a Estatística
A essência da ciência é a observação. Estatística: A ciência que se preocupa com a organização, descrição, análise e interpretação dos dados experimentais. Ramo da Matemática Aplicada . A palavra estatística provêm de Status.
Áreas da Estatística
Estatística Descritiva
Amostragem Cálculo de Probabilidades
Estatística Indutiva
Curiosidade: Em 1662, John Graunt publicou os primeiros informes estatísticos. Era sobre nascimento e mortes.
População e Amostra
v A População é a coleção de todas as observações potenciais sobre determinado fenômeno.
v O conjunto de dados efetivamente observados, ou extraídos, constitui uma Amostra da população.
vUm Censo é uma coleção de dados relativos a Todos os elementos de uma população.
vUm Parâmetro está para a População assim como uma Estatística está para a Amostra.
2
Variável
Qualitativa
Quantitativa
Ordinal
Nominal
Discreta
Contínua
Tipos de Variáveis
Ex.: Para uma população de peças produzidas em um determinado processo, poderíamos ter:
Quantitativa ContínuaDiâmetro das peças
Quantitativa DiscretaNo de peças defeituosas
Qualitativa OrdinalQualidade: 1a, 2a ou 3a categoria
Qualitativa NominalEstado: Perfeita ou defeituosa
TipoVariável
(Também Dados Categóricos ou de Atributos)
Agrupamentos de Dados e Distribuição de Freqüências
Ex.: População = X=Diâmetro de determinada peça (em mm).Dados brutos: { 168, 164, 164, 163, 165, 168, 165, 164, 168, 168 }Rol: { 163, 164, 164, 164, 165, 165, 168, 168, 168, 168 }Amplitude (H) = 168 - 163 = 5
110Σ
1.0100.44168
0.660.22165
0.440.33164
0.110.11163
FiFrequência
Relativa Acumulada)
Ni(Frequência
Absoluta Acumulada)
fi(Frequência
Relativa)
ni (Frequência
Absoluta)X
Distribuição de Freqüências
n ni
K
1
∑ =
fn
nii=
f ii
K
=∑ =
1
1
FN
nii=
3
100150Σ
1001.050100.155550 � � 60
900.945260.26134540 � � 50
640.6432360.36183530 � � 40
280.2814240.24122520 � � 30
40.04240.0421510 � � 20
F%(Percentual
Acum.)
Fi(RelativaAcum.)
Ni(AbsolutaAcum.)
f%(frequência percentual)
fi(frequência
relativa)
ni(frequência absoluta)
xi (ponto médio)
x(Variável)
Classes (ou Categorias)
Classes (ou Categorias)
a) As classes devem abranger todas as observações; b) O extremo superior de uma classe é o extremo inferior da classe subseqüente (simbologia: �� intervalo fechado àesquerda e aberto à direita);c) Cada valor observado deve enquadrar-se em apenas uma classe;d) k ≤ 20, de um modo geral, sendo k o número de classes;e) As unidades das classes devem ser as mesmas dos dados.
Regra maior: Bom Senso!
4
1Σ
50 � � 60
0.2645� �
1830 � � 40
142420 � �20.0421510 � � 20
F%(Percentual
Acum.)
Fi(RelativaAcum.)
Ni(AbsolutaAcum.)
f%(frequência percentual)
fi(frequência
relativa)
ni(frequência absoluta)
xi (ponto médio)
x(Variável)
Exercício: Complete a tabela abaixo a partir dos dados existentes
Classes
Exercício: Os números de lugares vagos em vôos entre duas cidades foram agrupados nas classes
0|-- 5 5|-- 10
10|-- 20 20|-- 25 25|-- 30 30 ou mais.
Com esta distribuição é possível determinar o número de vôos em que há: (Responda sim ou não, justificando):
(a) menos de 20 assentos vagos?(b) mais de 20 ? (c) ao menos 20?(d) no máximo 20?(e) exatamente 20?(f) entre 10 e 25 (Exclusive 10 e 25)?
5
Nk 2log1+=
Nk ≅
Geralmente, temos ainda:
• Intervalo da classe (h): h ≅ H / k• Ponto médio da classe (xi): Ponto
médio entre o limite inferior e o limite superior de cada classe .
Classes
Fórmula de Sturges:
Obs.: N é o número de elementos diferentes da amostra e em muitas vezes pode ser considerado N =n
Cálculo do número de Classes k(opções não rígidas):
Exercício:
Em certa época, os salários mensais dos operários de uma indústria eletrônica variavam de 1.500 a 3.250 unidades monetárias. Quais seriam os extremos se quiséssemos agrupá-losem seis classes?
6
Simule o problema anterior com o Minitab gerando 100, 500 e 1000 números aleatórios.
Use:
<Calc>
<Random Data>
<Uniform>
<Lower endpoint=1500
Upper endpoint=3250>
GráficosHistograma e polígono de freqüência.
ƒi ou ni
xClasse
ƒi ou ni
x
Histogramaalisado
⇒⇒
As áreas dos retângulos são proporcionais às freqüências e o polígono utiliza os pontos médios das classes.Uma regra empírica: A altura vertical do Histograma deve ser em torno de ¾ da largura total. Siga o bom senso, contudo!
7
10
8
6
4
2
10 20 30 40 60 x
ni
Exercício: Construção da tabela de distribuição de freqüências a partir do histograma de classes desiguais. Complete a tabela.
1Σ
40 |-- 60
30 |-- 40
20 |-- 30
10 |-- 20
finiX
Gráficos
Gráficos
x
Ni,Fi
Ogiva (De Galton)
Ex.: Para um valor de Ficorrespondendo a 0.5 (50%) pode-se chegar àmediana do conjunto de observações
A ogiva utiliza os pontos extremos das classes e é usado em freqüências acumuladas.
50%
Mediana
8
x
ni fi
x
40% 10%
30%20%
x ≠ classe
fi , ni
Barras ColunasAs distribuições não envolvem
classes ou são qualitativas. Gráfico de Pareto: As barras são decrescentes
Pontos
Para pequena quantidade de
elementos
As subdivisões são mensuráveis.
Setores
LinhaUm dos mais utilizados.
Não há observações intermediárias
Gráficos
Ramo-e-folhas
xxx
xxxxx
FolhasxxRamos
x
8694858978898793929190
949095101101101100100100103106
93109105939078797410811381
88947
6599718
432104053309
1110003695810
311
88947
6599718
432104053309-
111000310-
695810+
311
Ex.:
9
Exercício no Minitab: Faça o gráfico abaixo a partir da planilha grafico.mtw
Plot
Stem-and-Leaf Display: folha_ramo
Stem-and-leaf of Ramo N = 33Leaf Unit = 1.0
1 7 44 7 8895 8 110 8 56799(10) 9 000123334413 9 512 10 00011135 10 56891 11 3
Obtenha o seguinte Folha
e Ramo na planilha
grafico.mtw
Compare os resultados
fazendo um Histograma.
O que representa tal
coluna?
Coluna folha_ramo
10
Exercício no Minitab: Faça o gráfico abaixo a partir da planilha grafico.mtw
Use
<Marginal Plot>
MedidasEstatísticas Conjunto Original
de dados
Gráficos/ Ramo-e-Folhas/ Distribuições de Frequência
Medidas Estatísticas
Fornece muito mais informações sobre o
comportamento de uma variável do que a própria série original de dados
Redução dos dados
Valores representativos da série toda. Medidas de Posição e Dispersão.
11
Aplicação:
Gere uma sequência de dados que represente um processo em sua área e calcule as estatísticas desse conjunto de dados.
Use:
<Random> e
<Display Descriptive Statistics>
Ex.:
Número de acessos à página do Site da Empresa durante os últimos 100 dias úteis.
MedidasEstatísticas
MedidasEstatísticas
Medidas de Posição: Média
xx x x
n
x
nn
ii
n
=+ + +
= =∑
1 2 1L
xx p x p x p
p p p
x p
p
n n
n
i ii
n
ii
n=+ + +
+ + +=
=
=
∑
∑1 1 2 2
1 2
1
1
L
L
x
x n
nn
x n x fi i
i
n
ii
n i ii
n
i ii
n
= = ==
=
= =
∑
∑∑ ∑1
1
1 1
1
Aritmética Simples
Aritmética Ponderada
Para dados em Classes
12
Um Cidadão Americano Médio
q Chama-se Robert
q Pesa 78 Kg
q Manequim 48
q 85 cm de cintura
q Consome anualmente 8,5 Kg massa, 11,8Kg de bananas, 1,8 Kg de batatas fritas, 8,15Kg de sorvete e 35,8 Kg de carne.
q Vê TV por ano 2567 horas
q Recebe anualmente 585 “coisas” por correio (cartas e outros)
q Diariamente dorme 7,7 horas, gasta 21 minutos para chegar ao trabalho e trabalha 6,1 horas
Um pouco sobre arredondamento de médias:q Tome uma decimal acima da dos dados: Ex.: 2,4 3,4 e 5,7 => média =3,73
q Em várias operações, arredonde apenas o resultado final
~xn o
=+
1
2termo ~x
n n
=
+ +
2 21
2
o o
termo termo
{ }35 36 37 38 40 40 41 43 46 40, , , , , , , , ~⇒ =x
{ }12 14 14 15 16 16 17 2015 16
215 5, , , , , , , ~ ,⇒ =
+=x
Ex.:
Se n é ímpar: Se n é par:
MedidasEstatísticas
Medidas de Posição: Mediana
Mediana é o valor “do meio” de um conjunto de dados dispostos emordem crescente ou decrescente.
Inconveniente: Não considera todos os valores da amostra!
13
MedidasEstatísticas
Medidas de Posição: Média x Mediana
x = 345 7,~x = 300
Ex.: { 200, 250, 250, 300, 450, 460, 510 }
Ambas são boas medidas de Tendência Central.
Prefira a média
x
{ 200, 250, 250, 300, 450, 460, 2300 }
= 601~x = 300
Devido ao Outlier2300, a mediana é
melhor estatística que a média.
MedidasEstatísticas
Medidas de Posição: Mediana para Classes
Exemplo:
Cálculo da mediana para a seguinte Distribuição de Frequência
1846 1834
36%
1834
8%
. . ~ .−=
−x
~x =1.837
14
MedidasEstatísticas
Medidas de Posição: Outras Medidas
A Média Aparada
x m( )= =+ + + +
=1250 250 300 450 460
5342
2,5% ≤ m ≤ 5%
A moda e a classe modal (mo)
x⇑mo
x
DistribuiçãoBimodal
mo I mo II
Ex. { 200, 250, 250, 300, 450, 460, 2300 }
MedidasEstatísticas
Medidas de Dispersão
Rode e Entenda o programa Interativo da
PQ Systems
Discuta:
1) Porque os bancos adotam fila única?
2) “Por favor, com quantos dias de antecedência eu devo postar uma carta de aniversário para minha mãe?”
15
MedidasEstatísticas
Medidas de Dispersão
A = { 3, 4, 5, 6, 7 }B = { 1, 3, 5, 7, 9 }C = { 5, 5, 5, 5 }D = { 3, 5, 5, 7 }E = { 3.5, 5, 6.5 }
Uma medida de Posição não é suficiente para descrever um conjunto de dados. Os Conjuntos ao lado mostram isso! Eles possuem mesma média, sendo diferentes.
Algumas medidas de Variabilidade:
Amplitude (H): Tem o inconveniente de levar em conta apenas os dois valores extremos:
HÁ =7-3=4
Considerando os desvios em relação à média, temos, para A, por exemplo:
A = { 3, 4, 5, 6, 7 } xxi - {-2, -1, 0, 1, 2}
MedidasEstatísticas
Medidas de Dispersão
( )x x x x n x n xi
n
i
n
i
n
11
111
0− = − = − ≡= ==∑ ∑∑Inconveniente:
Duas opções para analisar os desvios das observações são:a) considerar o total dos desvios em valor absoluto ou; b) considerar o total dos quadrados dos desvios.
x xii
− = + + + + ==
∑1
5
2 1 0 1 2 6 e ( )x xii
− = + + + + ==∑ 2
1
5
4 1 0 1 4 10
16
MedidasEstatísticas
Medidas de Dispersão
x x
n
ii
n
−=∑
1
.
( )x x
n
ii
n
−=∑ 2
1
Associando ao número de elementos da amostra (n), tem-se:
DM(x)= ...que é o Desvio Médio (DM(x))
...que é a Variância ( Var(x))S2 =
S S= 2 ...que é o Desvio Padrão (DP(x)), uma medida que é expressa na mesma unidade dos dados originais
MedidasEstatísticas
Medidas de Dispersão: DM x Variância
O uso do DM(x) pode causar dificuldades quando comparamos conjuntos de dados com número diferentes de observações.Ex.: Em A = { 3, 4, 5, 6, 7 } temos:
DM(x) = 6/5 = 1.2 eS2 = 10/5 = 2
Em D = { 3, 5, 5, 7 } temos:DM(x) = 1,0 eS2 = 2,0
Assim, podemos dizer que, segundo o Desvio Médio, o Grupo Dé mais homogêneo (tem menor dispersão) do que A, enquanto que ambos tem a mesma homogeneidade segundo a variância. O desvio médio possui pequena utilização em estatística.
17
MedidasEstatísticas
Medidas de Dispersão: Fórmulas Alternativas
( )S
x x
n
x
nx
ii
n
ii
n
2
2
1
2
1 2=−
= −= =∑ ∑
( )S
x x
n
ii
n
2
2
1
1=
−
−=∑
( )( )S
x x n
nS x x f
i ii
K
i ii
K2
2
1 2 2
1
=− ⋅
= − ⋅=
=
∑∑ ou
Para dados agrupados em classes:
Variância Amostraln-1 está
Relacionado a um problema de tendenciosidade
Variância Populacional(σ2 ou σn
2 )
Média = 3
Soma daúltima coluna= 10
Divide a Soma por (n-1):= Variância = S2
= 2,5
X =Soma dos pontos de dados
Número dos pontos de dados
X54312
X210-2-1
( )X X−41041
( )X X−2
Raiz Qadrada da Variância = Desv.Pa. = S= 1,58
S S= 2
Calcular a Variância e o Desvio Padrão deX
S2
Exemplo
Uma Regra Prática para
conjunto de dados típicos:
S=Amplitude/4
18
25%
50%
75%109
104
99
94
DBP
* Outlier ( fora da distância do Q3 + 1,5D )
Q3=75ª Percentil
Observação Máxima
Q1=25ª Percentil
Q2=Mediana (50ª Percentil)
D=Q3-Q1
Interquartil
MedidasEstatísticas
EDA (ExploratoryData Analysis) e
Método dos Cinco Números
Outra Estratégia: Percentis e Boxplot
ççValor do meio
Quartis: (0.25)x15=3.75èQuarta Observação
è Q1=Quarta Observação Crescente=71.7
è Q3=Quarta Observação Decrescente=150.6
Outliers: Q3+1.5D=150.6+1.5(150.6-71.7)=268.95
è São outliers valores maiores que 268.95
MedidasEstatísticas
Outra Estratégia: Percentis e Boxplot
19
Exercício: <StatGame><Describing Data><BoxPlot>
MedidasEstatísticas
Outra Estratégia: Percentis e Boxplot
A Média e o Desvio padrão podem não ser medidas adequadas para representar um conjunto de valores pois:
1)São afetados, de forma exagerada, por valores extremos
2)Apenas com esses dois valores não temos idéia da assimetria do conjunto de valores
O BoxPlot pode não ser a melhor representação para um único conjunto de dados (O Histograma é geralmente preferencial). Para diversos conjuntos de dados o BoxPloté contudo mais eficiente
MedidasEstatísticas
Histograma x Boxplot
20
MedidasEstatísticas
Medidas de Dispersão
Escores padronizados (z)
zx x
sii=
− x
7.75 kg72.9 kgB
6.38 kg66.5 kgA
Desvio PadrãoPeso médioGrupo
Ex.: Dois grupos de pessoas acusam os seguintes dados:
e 3,238,6
5,662,81 : em =
−=AzA 95,1
75,7
9,7288 : em =−=BzB
xi - considera o afastamento de xi em relação à média.
A divisão por s torna s como unidade ou padrão de medida.
Nesses grupos há duas pessoas que pesam respectivamente, 81.2 kg e 88.0 kg.
Logo, a pessoa de A revela um maior excesso relativo de peso.
MedidasEstatísticas
Medidas de Dispersão
Escores padronizados (z)
zx x
sii=
−
Regra 68 -- 95 -- 99
ü Cerca de 68% dos valores estão a menos de 1 desvio padrão a contar da média (-1 < z < 1)
ü Cerca de 95% dos valores estão a menos de 2 desvios padrões a contar da média (-2 < z < 2)
ü Cerca de 99% dos valores estão a menos de 3 desvios padrões a contar da média (-3 < z < 3)
21
MedidasEstatísticas
Medidas de DispersãoCoeficiente de Variação (cv)
cvSx
= cv exprime a variabilidade em termos relativos. É uma medida adimensional e sua grande utilidade é permitir a comparação das variabilidades em diferentes conjuntos de dados.
Ex.: Testes de resistência à tração aplicados a dois tipos diferentes de aço:
Assim, apesar do Tipo I ser menos resistente, é ele mais estável, mais consistente. O uso do coeficiente de variação pode ser pensado considerando a questão: Um desvio padrão de 10 se a média é 10.000 é bem diferente se a média é 100!
17,25147,00Tipo II
2,027,45Tipo I
s (kg/mm2)Média (kg/mm2) cvI = =2
27 457 29
,, %
cv II = =17 25
14711 73
,, %
MedidasEstatísticas
Assimetria (Skewness)
Próximo de 0: Simétrico
Menor que 0: Assimétrico à Esquerda
Maior que 0: Assimétrico à Direita
Achatamento (Kurtosis)
Próximo de 0: Pico Normal
Menor que 0: Mais achatada que o Normal (Uniforme)
Maior que 0: Menos achatada que o normal (Afinada)
22
MedidasEstatísticas
Análise BidimensionalDistribuição Conjunta
20060140Total
802555Administração
1203585Economia
TotalFemininoMasculinoX YDistribuição conjunta das
freqüências das variáveis X (Curso) e Y (Sexo)
A Distribuição Conjunta é usada para o estudo da associabilidade entre variáveis. Ex.: A partir de uma renda familiar podemos estimar a classe social de uma pessoa, pois sabemos da existência de dependência entre essas duas variáveis.
Como ver a associação das variáveis na Distribuição Conjunta abaixo?
MedidasEstatísticas
Análise BidimensionalEx.: Independência de Eventos
20060140Total
802555Administração
1203585Economia
TotalFemininoMasculinoX YDistribuição conjunta das
freqüências das variáveis X (curso) e Y (sexo)
100%100%100%Total
40%42%39%Administração
60%58%61%Economia
TotalFemininoMasculinoX Y Distribuição conjunta das proporções em relação aos totais de cada coluna.Independente do sexo, 60% preferem Economia e 40% preferem
Administração
100%30%70%Total
100%31%69%Administração
100%29%71%Economia
TotalFemininoMasculinoX Y Distribuição conjunta das proporções
em relação aos totais de cada linha.Independente do Curso, 70% é Masculino e 30% é feminino
23
MedidasEstatísticas
Análise BidimensionalEx.: Independência de Eventos
20060140Total
802555Administração
1203585Economia
TotalFemininoMasculinoX Y
Desenvolva a análise de Independência de
Eventos para cada uma das tabelas, usando o
Minitab(Bidimensional.mtw)
<Stat>
<Tables>
<Cross Tabulation>20080120Total
806020C. Sociais
12020100Engenharia
TotalFemininoMasculinoX Y
Escola A
Escola B
MedidasEstatísticas
Análise BidimensionalEx.: Independência de Eventos
1551 (100%)189 (12%)343 (22%)643 (42%)376 (24%)Total
602 (100%)48 ( 8%)139 (23%)304 (51%)111 (18%)Rio G.Sul
301 (100%)22 ( 7%)126 (42%)102 (34%)51 (17%)Paraná
648 (100%)119 (18%)78 (12%)237 (37%)214 (33%)São Paulo
TotalOutrosEscolaProdutorConsumidor
Tipo de CooperativaEstado
1551 (100%)189 (12%)343 (22%)643 (42%)376 (24%)Total
602 (100%)72 (12%)132 (22%)254 (42%)144 (24%)Rio G.Sul
301 (100%)36 (12%)66 (22%)127 (42%)72 (24%)Paraná
648 (100%)78 (12%)142 (22%)272 (42%)156 (24%)São Paulo
TotalOutrosEscolaProdutorConsumidor
Tipo de CooperativaEstado Distribuição conjunta dos valores esperadosem relação aos totais das linhas
Distribuição conjunta das proporções em relação aos totais de cada linha.
ijo
ije
24
-24750-33Rio G. Sul
-1460-25-21Paraná
41-64-3558São Paulo
OutrosEscolaProdutorConsumidor
Tipo de CooperativaEstado
8,000,379,847,56Rio G. Sul
5,4454,544,926,12Paraná
21,5528,844,5021,56São Paulo
OutrosEscolaProdutorConsumidor
Tipo de CooperativaEstado
( )379,17300,812,656,21
2
2 =+++=−
= ∑∑ Lj ij
ijij
i e
eoχ
( )ij
ijijij e
eon
2−=
n o eij ij ij= −
Qui-Quadrado
MedidasEstatísticas
Análise BidimensionalEx.: Independência de Eventos
MedidasEstatísticas
Análise BidimensionalEx.: Independência de Eventos
Desenvolva a análise de Independência de Eventos para a tabela, usando o Minitab (Bidimensional.mtw)
<Stat> <Tables> <Cross Tabulation>
1551 (100%)189 (12%)343 (22%)643 (42%)376 (24%)Total
602 (100%)48 ( 8%)139 (23%)304 (51%)111 (18%)Rio G.Sul
301 (100%)22 ( 7%)126 (42%)102 (34%)51 (17%)Paraná
648 (100%)119 (18%)78 (12%)237 (37%)214 (33%)São Paulo
TotalOutrosEscolaProdutorConsumidor
Tipo de CooperativaEstado
25
MedidasEstatísticas Coeficiente de Correlação
Ex.: Suponha que o nosso desejo seja o de quantificar a associabilidade entre duas variáveis relacionadas a cinco agentes de uma seguradora. Assim, temos:X≡ Anos de experiência do agente.Y ≡ Número de clientes do agente.
8765432
70
60
50
ExperiênciaAnos de
Clie
nte
s
728E
606D
645C
564B
482A
yxAgente
(x, y) é um par aleatório – Dados emparelhados
Diagrama de Dispersão
y
x x x−
y y−
x xs
zx
x
−=
y
y
zs
yy=
−
MedidasEstatísticas Coeficiente de Correlação
Série de dados originais (x e y) são valores quantitativos.
O conjunto de pontos é deslocado, tendo agora como centro, os valores médios.
A escala de x e y é agora padronizada. Isso torna os valores independente da sua unidade.
∑=
==n
iyx ii
zzn
YXr1
1),(Corr
26
4,75000030025Total
2,251.51.5123728E
000.501606D
00.5040645C
0,25-0.5-0.5-4-1564B
2,25-1.5-1.5-12-3482A
zx . zyzyzxyxAgente x x− y y−
MedidasEstatísticas Coeficiente de Correlação
x = 5S x = 2
y = 60S y = 8 %9595,0
575,4
),( ===YXr = Correlação
r X Yn
z zn
x x
s
y y
sx yi
ni
x
i
yi
n
i i= = =
−
−
= =∑ ∑Corr ( , )
1 1
1 1
( )( )r
n
x x y y
s sX Y
s si i
x y x y
=− −
⋅=
⋅∑1 Covariância ( , ) − ≤ ≤1 1r
A correlação apresentada aqui é linear. Existem outros tipos de correlação!
MedidasEstatísticas
Coeficiente de Correlação
728E
606D
645C
564B
482A
yxAgente
Pearson correlation of Anos Exp and Clientes = 0,950
P-Value = 0,013
Ex.: Cálculo da correlação da tabela ao lado
Forte Correlação pois P-Value <0,05
27
Faça a análise de Correlação dasvariáveis ao lado na planilhaBidimensional.mtw
MedidasEstatísticas
Coeficiente de Correlação
O Coeficiente de Correlação é também chamado de Coeficiente de Pearson.
Recursos Adicionais:
<Estatis> <Correlat>
Desenvolvido por John Hattie
(Alguns recursos gráficos mas roda no modo DOS)
<Statgame>
<Statistical Inference>
<Correlation>
(Interessante para verificar o conhecimento básico)
MedidasEstatísticas
Coeficiente de Correlação
28
Algumas questõ es sobre Correlação:
A) U m a m e d i d a d e C o r r e l a ç ã o f o r n e c e d o i s t i p o s d e i n f o r m aç õe s a r e s p e i t o d o
r e l a c i o n a m e n t o d e d u a s v a r i áv e i s . Q u a i s s ão e l a s ?
B) Q u a l c o e f i c i e n t e d e c o r r e l aç ã o a b a i x o i n d i c a o m a i s f o r t e r e l a c i o n a m e n t o ?
a) 0 .70 b) 0 .03 c ) -0 .77 d) 0 .10
C ) S e a c o r r e l aç ã o Rxy =0 .45 , en t ã o Ryx =
D ) Q u a l o v a l o r d o c o e f i c i e n t e d e c o r r e l aç ã o m e l h o r d e s c r e v e o s s e g u i n t e s
va lo res das va r i áve i s X e Y , r e l ac i onadas aba i xo :
X : 2 0 3 0 4 0 5 0 6 0
Y : 4 0 3 0 2 0 1 0 0
a) -1 . 0
b) 0 .0
c ) 0 . 5
d) 1 .0
E) Qual a correlação do gráfico abaixo?
Algumas questõ es sobre Correlação :
F) S e u m c o e f i c i e n t e d e c o r r e l a ç ão f o r d e + 1 . 4 , o q u e o c o r r e ?
a) O R e l a c i o n a m e n t o é e x t r e m a m e n t e f o r t e
b) O R e l a c i o n a m e n t o é p o s i t i v o
c ) A a r e s p o s t a s a c i m a e s t ã o co r re tas
d) U m e r r o c o m p u t a c i o n a l f o i c o m e t i d o
G ) U m c o e f i c i e n t e d e P e r s o n d e -0 .5 en t re os va lo res de Le i t u ra (X ) e o nú m e r o d e d i a s a u s e n t e s d a e s c o l a ( Y ) i n d i c a q u e :
a) M e t a d e d o s v a l o r e s d e L e i t u r a s ã o m e n o s d o q u e o n ú m e r o d e d i a s a u s e n t e s d a e s c o l a
b) Ma io res va l o res de Le i t u ra sã o a s s o c i a d o s c o m m e n o r a u s ê n c i a d a e s c o l a
c ) A s o m a d o p r o d u t o X Y é igua l a -0 . 5
d ) Q u a s e n ã o e x i s t e r e l a c i o n a m e n t o e n t r e X e Y
29
As “armadilhas”: variável comum
É comum associar-se um defeito com uma variável que está sempre presente quando ele ocorre (é o casodo operador que é culpado, pois quando ele executa a operação ocorre um defeito – Toda operaçãogeralmente tem um operador).
1995 Six Sigma Academy Inc.
Dia Fator 1 Fator 2 Resultado1 Água Whisky Ficou Bêbado2 Água Vodka Ficou Bêbado3 Água Rum Ficou Bêbado4 Água Bourbon Ficou Bêbado
Conclusão: a água embebeda
Se a história servisse de base, os Republicanos deveriam estar vestindo a camisados Yankees e dando uma força para o New York vencer o campeonato. Desde a Segunda Guerra Mundial, toda vez que os Yanks venceram em um ano de eleição, o Partido Republicano assumiu a Casa Branca.
Yankees RepublicanosGANHARAM PERDERAM GANHARAM PERDERAM
1976
1964
1960
1956
1952
As “armadilhas”: correlações casuais
30
As “armadilhas”: causa reversa
Um fator “X” tem influência sobre um “Y” quando, na verdade, o que ele está vendo é a conseqüência do “Y” .
Um exemplo deste caso é o do Departamento de Vendas que insatisfeito com as Vendas resolve dar uma série de descontos e faz promoções para atrair os clientes . Só que a verdadeira causa do problema é o Serviço de Atendimento ao Cliente .
Com os novos descontos e a nova promoção fica mais difícilainda administrar o Serviço de Atendimento ao Cliente, ocasionando num aumento da insatisfação do cliente e diminuindo mais ainda as vendas (“o tiro saiu pela culatra”) .
As “armadilhas”: fatores omitidos
Pesquisas continuamente demonstram que a medida que o tamanho dos hospitais aumenta, a taxa de mortalidade dos pacientes aumenta dramaticamente. Portanto, deveríamos evitar hospitais grandes?
Esta análise é enganadora, pois omite um segundo X2 (fator) importante -- a gravidade da condição do paciente quando é admitido ao hospital. Os casos mais sérios tendem a ser levados aos hospitais maiores!
Fumar cigarros causa câncer? E se eu dissesse que ... (1) Médicos franceses não encontram esta correlação;(2) O tabaco dos EUA geralmente é exposto a pesticidas, fertilizantes e preservativos contendo substâncias conhecidamente cancerígenas, e;(3) O tabaco francês raramente entra em contato com tais substâncias químicas.
31
O Fazendeiro Radiofóbico
Em 1950, um fazendeiro afirmou que suas árvores frutíferas estavam sendo prejudicadas pelas ondas de rádio de uma estação local próxima. Ele colocou uma tela de arame ao redor de algumas das árvores para “protegê-las” destas ondas de rádio e, realmente, as árvores protegidas se recuperaram rapidamente, enquanto que as desprotegidas ainda sofriam.
Na mesma época, muitas árvores cítricas em todo país foram ameaçadas por uma doença chamada de “folha pequena”. Alguns fazendeiros Texanos descobriram que uma soluçãode sulfato de ferro curava a doença. No entanto, nem sempre funcionava no Texas, e praticamente nunca funcionava na Flórida ou na Califórnia.
O mistério foi desvendado quando o problema verdadeiro foi revelado -- deficiência de zincono solo. A cercado fazendeiro Radiofóbico era de tela galvanizada, sendo que traços dozinco da galvanização eram levados da tela para o solo.
O sulfato de ferro nada tinham a ver com a cura, mas sim os baldes de ferro galvanizados usados para espalhar a substância! Em outras regiões, onde outros tipos de baldes eram usados , as árvores continuaram doentes.
As “armadilhas”: multicolinearidade
É difícil saber o quê causa o quê, quando alguns fatores [X’s] tendem a ocorrer juntos regularmente.
• “Tenho visto uma redução dramática nas perdas desde que comecei a implementar as ferramentas estatísticas na fábrica!” No entanto, foi exatamente na mesma época em que o RH introduziu seu novo sistema de recompensa e reconhecimento. O que ocasionou a melhoria?
• Em 1967, um artigo rotulou um determinado tipo de carro como sendo inseguro. O modelo em questão era um carro pequeno esportivo de alto desempenho. Mas que tipo de motorista seria atraído a tal carro? E se eu dissesse que a maioria dos proprietários deste carro tendiam a sermotoristas jovens menores de 25 anos com novas idéias. Esta faixa etária não paga prêmios de seguro mais elevados devido a maior incidência de acidentes?