Upload
rafael-jose-rorato
View
57
Download
3
Embed Size (px)
Citation preview
Rafael José Rorato
Aula 1: Estatística Básica (a) Aspectos Introdutórios (b) Estatística Descritiva
Instituto de Ensino Superior de Brasília – IESB Programa de pós-graduação em Logística Empresarial Estatística e modelos de otimização aplicados à logística
(a) Aspectos Introdutórios
Dados:
são elementos identificados em forma bruta que, por si só, não conduz a compreensão de um determinado fato ou situação (Oliveira, 2005)
elemento que representa eventos ocorridos na empresa ou circunstâncias físicas, antes que tenham sido organizados ou arranjados de maneira que as pessoas possam entender e usar (Rosini & Palmisano, 2003)
Dados x Informações
Informações: é o dado trabalhado que permite ao executivo tomar decisões (Oliveira, 2005)
dado configurado de forma adequada ao entendimento e à utilização pelo ser humano (Rosini & Palmisano, 2003)
resultado dos dados devidamente tratados, comparados, classificados, relacionáveis entre outros dados servindo para tomada de deciões e para melhor compreensão do objeto estudado
Dados x Informações
No dia a dia nos deparamos com inúmeros DADOS
Nosso mecanismo de pensamento tenta gerar alguma ATITUDE baseado neles
Então, como organizamos esse mecanismo?
Dados x Informações
A lógica que devemos seguir para filtrar o
relevante do não relevante:
Dados x Informações
DADOS
Processo
Operações
Preparação Preparação
Decisão
PROCESSO DE TRANSFORMAÇÃO
INFORMAÇÃO
CONHECIMENTO
TOMADA DE DECISÃO
TOMADA DE DECISÃO
Dados x Informações
Exemplo: Valor de Demurrage para contêineres
Valores de Demurrage de um armador são: 20”: R$170
40”: R$200
20” reefer: R$250
…
Cada valor desses é um PARÂMETRO!
Dados x Informações
Pergunta: Qual é o valor que corresponde ao padrão de multas sobre contêineres cobrados por esse armador?
Precisamos resumir esse universo gigantesco de parâmetros para uma avaliação sucinta
Para isso escolhemos alguns parâmetros DERIVADOS que representem o todo e assumimos um FORMA para esses dados.
Como os dados se comportam?
Se entendermos como eles se distribuem podemos prever seu comportamento futuro!
Veja as notas dadas na avaliação de uma transportadora de carga fracionada:
Nota: 3,5,7,3,5,7,6,3,6,5,4,6,4,6,7,4,5,6,4,5,…
333333
444444444444444444444444
555555555555555555555555555555555555555
666666666666666666666666
777777
Ordenando essas notas já podemos ver “alguma coisa”
O que é relevante?
Os dados em si têm um comportamento ALEATÓRIO mas que pode ser determinado.
Esse comportamento pode ser ENCAIXADO em um modelo matemático previamente conhecido para termos uma visão geral de sua DISTRIBUIÇÃO (FORMA).
Movimento!
Os dados podem estar mais aqui do que lá! Ou seja, eles se DISTRIBUEM de uma forma geralmente conhecida
Apesar de eles se distruibuirem de forma aleatória eles têm uma “preferência” de estar mais em um lugar do que em outro
Essa VARIABILIDADE dos dados é muito importante para a estatística pois é com base nela que se podem medir e quantificar as incertezas sobre os dados.
Armazenamento de dados
Estatística necessita de qualidade de dados Garbage in / Gargabe out Dados contábeis x Realidade
Consulta a dados via: Data marts Data warehouse Arquivos: .txt; .csv; .dbf; .xls
Dados transacionais: informações operacionais da empresa
Cargas semanais Análise Estatística / Análise Previsiva
Processo inserido no PDCA (Plan Do Check Act)
Armazenamento de dados
Importância da área de TI
Cultura e rotina de “armazenamento” de dados nas empresas
Sistemas Gerenciadores de Bancos de Dados e ERP (Enterprise Resourse Planning) Oracle MySQL
DB2 (IBM) MS-Access
SQL Sever (MS) Microsiga
SAP Datasul
Co
rpo
rati
vo
Grande porte Pequeno e Médio porte
BD
ERP
BD
ERP
Dados Qualitativos e Quantitativos
Qualitativos
Nominal (Sexo, Cor,…)
Ordinal (Ruim, Bom, Excelente, …)
Quantitativos
Discreto (-1,0,1,2,5,…)
Contínuo (1.25 ,1.55 , 5.1515…)
Dados qualitativos são traduzidos em números para serem modelados matematicamente
a) Binários (0,1)
b) Categóricos (1,2,3,4, etc.)
Dados Quantitativos: Discretos e Contínuos
Discretos: surgem quando o número de valores possíveis é ou um número finito ou uma quantidade “enumerável” Ex: “Os números de ovos que as galinhas botam são
dados discretos porque representam contagens”
Dados Quantitativos: Discretos e Contínuos
Contínuo: resultam de infinitos valores possíveis que correspondem a alguma escala contínua que cobre um intervalo de valores sem vazios, interrupções ou saltos Ex: “As quantidades de leite das vacas são dados
contínuos porque são medidas que podem assumir qualquer valor em um intervalo contínuo. Durante um dado intervalo de tempo, uma vaca pode produzir uma quantidade de leite entre 0 a 5 galões. Seria possível obter-se 2,34 galões, porque a vaca não é restrita a quantidades discretas de 0, 1, 2, 3, 4 ou 5 galões”
Parâmetro e Estatística
Parâmetro: medida numérica que descreve alguma característica da população Ex: “A Câmara dos Deputados é constituída por 513
membros, sendo que 13,6% são do Estado de São Paulo”
Estatística: medida numérica que descreve alguma característica da amostra Ex: “Pesquisa IBOPE constata que 51% dos cidadãos
de Belo Horizonte lêem jornal, sendo esta bem acima dos 36% da população brasileira”
Exemplo de estrutura de dados
Os dados para análise estatística em geral se organizam da seguinte forma:
Cada linha representa uma unidade amostral
Cada coluna é uma variável medida
Tomada de decisão através da análise numérica
O uso da estatística e pesquisa operacional em logística:
Definir “padrões” de receita de operações de transporte
Realizar projeções futuras de previsão de vendas
Realizar simulações de estoque
Tomada de decisão através da análise numérica
O uso da estatística e pesquisa operacional em logística:
Realizar modelos de previsão para budget anual: orçamento financeiro ou recursos
Trabalhar com “roterização” de veículos
Tomada de decisão através da análise numérica
O uso da estatística e pesquisa operacional em logística:
Estudos de “facility location”: definição de localização de terminais, fábricas, lojas, etc
Modelos matemáticos de custo de veículos
População
É um conjunto completo “objetos” que estão sendo “investigados e apresentam um determinado conjunto de características ou parâmetros (agrupamento de dados)
Amostra
É um subconjunto da população
Características da amostra:
Representativas da população
Atender a critérios de inclusão e exclusão
Resultados obtidos possam ser extrapolados para população alvo
Diferenças entre amostras da mesma população são devido a variação amostral
Amostra
Inferência estatística: da amostra para a população em estudo
INFERÊNCIA ESTATÍSTICA
Amostra
Dimensionamento amostral ou amostragem será abordada em uma aula específica
Séries estatísticas
É toda tabela que apresenta a distribuição de um conjunto de dados estatísticos em função da época, do local ou da espécie
Séries históricas, cronológicas, temporais
Séries geográficas, espaciais, localização
Séries específicas ou categóricas
Séries estatísticas
Séries históricas, cronológicas, temporais
Análise de uma variável em relação ao tempo (y: var versus x: ano, mês, dia do mês, hora)
Aplicação em avaliações para projeções e previsões (forecast)
Áreas: Econometria e Séries Temporais
Séries estatísticas
Séries geográficas, espaciais, localização
Análise de uma variável em relação ao espaço (y: var versus x: país, cidade, estado, coordenadas geográficas)
Análise descritiva; ciências políticas e sociais; análise mercadológica
Séries estatísticas
Séries estatísticas
Séries específicas ou categóricas
Análise de uma variável em relação a uma categoria da variável
Análise descritiva da distribuição das categorias dos dados
Áreas: análise numérica em geral
Séries estatísticas
Gráficos estatísticos
Gráficos estatísticos
Gráficos estatísticos
Gráficos estatísticos
Gráficos estatísticos
Box-plot
É baseado em distribuições SIMÉTRICAS
Q3-Q1=IQ (Aqui estão 50% das observações)
Q1
Q3
Mediana
MIN(Q3 + 1,5 x IQ, MAX)
MAX(Q1 – 1,5 x IQ, MIN)
O que estiver fora deste intervalo é representado por um PONTO
Gráficos estatísticos
Box-plot
Gráficos estatísticos - outliers
São pontos que fogem da distribuição estatística assumida para os dados
Cuidado ao interpretar Outliers em gráficos Box-plot
Box-plot são úteis para detecção quando a distrubuição é simétrica.
Agrupamentos, tabelas e frequências
Sintetizando dados Qualitativos
Distribuição de freqüência
Sumário tabular de dados que mostra a freqüência (ou o número) de observações em cada uma das classes não sobrepostas
Gráfico de Barras e de Pizza
Retrata os dados sintetizados em dispositivo gráfico, podendo ser apresentadas as freqüência absoluta, freqüência relativa ou freqüencia percentual
Como fazer?
No Excel utilize a opção de Tabela Dinâmica e Gráfico de Barras
Cultura Agricola Nome Produto Segmento
Horti-Fruticultura Cascade 100 A
Algodão Cascade 100 A
Citrus Cascade 100 A
Café Cascade 100 A
Feijão Cascade 100 A
Soja Kumulus DF A
Horti-Fruticultura Kumulus DF A
Algodão Kumulus DF A
Milho Kumulus DF A
Arroz Kumulus DF A
Citrus Kumulus DF A
Trigo Kumulus DF A
Café Kumulus DF A
Feijão Kumulus DF A
Outras Kumulus DF A
Horti-Fruticultura Torque 500 SC A
Citrus Torque 500 SC A
Café Torque 500 SC A
Horti-Fruticultura Acrobat MZ F
Horti-Fruticultura Cabrio Top F
Algodão Cabrio Top F
Feijão Cabrio Top F
Horti-Fruticultura Cantus F
Café Cantus F
Soja Caramba 90 F
Horti-Fruticultura Caramba 90 F
Trigo Caramba 90 F
Feijão Caramba 90 F
Amendoim Caramba 90 F
Cultura Agrícola Freqüência
Freqüência
Relativa
Freqüência
Percentual (%)
Algodão 3 0.1034 10.34
Amendoim 1 0.0345 3.45
Arroz 1 0.0345 3.45
Café 4 0.1379 13.79
Citrus 3 0.1034 10.34
Feijão 4 0.1379 13.79
Horti-Fruticultura 7 0.2414 24.14
Milho 1 0.0345 3.45
Outras 1 0.0345 3.45
Soja 2 0.0690 6.90
Trigo 2 0.0690 6.90
Total 29 1 100
Freqüência
3
1 1
43
4
7
1 12 2
012345678
Algod
ão
Amen
doim
Arroz
Caf
é
Citr
us
Feijã
o
Hor
ti-Fru
ticultu
ra
Milh
o
Out
ras
Soja
Trigo
Freqüência Percentual (%)
10.34
3.45 3.45
13.7910.34
13.79
24.14
3.45 3.456.90 6.90
0.00
5.00
10.00
15.00
20.00
25.00
30.00
Algod
ão
Amen
doim
Arroz
Caf
é
Citr
us
Feijã
o
Hor
ti-Fru
ticultu
ra
Milh
o
Out
ras
Soja
Trigo
Determinação de classes Distribuição de freqüência
Sumário tabular, de um dado quantitativo, organizado sobre classes numéricas não sobrepostas. Também pode ser apresentada com as freqüências absoluta, relativa e percentual
Determina-se:
a) Número de classes
n < 30 5 ou 6 classes
b) Largura de classes
- tamanho igual (largura)
- n. classes largura
- largura = (maior valor – menor valor) / número de classe
Determinação de classes
Distribuição de freqüência
c) Limite de classes
Dica: Evitar grandes amostras e grande variabilidade!!
Gráfico de barras
Determinação de classes
Cultura
Agricola Nome Produto Volume
Soja Poast 882,390
Soja Pivot 756,114
Soja Basagran 600 742,807
Soja Volt 451,984
Soja Alteza 327,790
Soja Cell-Tech 321,639
Soja Aramo 282,684
Soja Protreat 277,901
Soja Talcord 250 CE 270,694
Soja Standak 250 FS 235,507
Soja Nomolt 150 230,538
Soja Triona 199,490
Soja Vexter 153,273
Soja Dash HC 140,304
Soja Dimilin 110,187
Soja Fastac 100 CE 107,521
Classe de
Volume Freq. Abs
Freqüência
Relativa
Freqüência
Percentual (%)
775-910 1 0,0625 6,25
640-775 2 0,1250 12,50
505-640 0 0,0000 0,00
370-505 1 0,0625 6,25
235-370 6 0,3750 37,50
100-235 6 0,3750 37,50
Total 16 1 100
Freqüência Percentual (%)
6.25
12.50
0.00
6.25
37.50 37.50
0.00
5.00
10.00
15.00
20.00
25.00
30.00
35.00
40.00
77
5-9
10
64
0-7
75
50
5-6
40
37
0-5
05
23
5-3
70
10
0-2
35
Sintetizando dados Quantitativos
Outros métodos
Ogivas: freqüências cumulativas (abs, rel, %)
Tabulações Cruzadas: ex.: Tabela Dinâmica MS-Excel
Freq. Abs Cumulativa
0.00
2.00
4.00
6.00
8.00
10.00
12.00
14.00
16.00
18.00
775-9
10
640-7
75
505-6
40
370-5
05
235-3
70
100-2
35
(b) Estatística Descritiva
Estatística Descritiva
Para cada tipo de dado existe uma abordagem diferente para analisá-lo.
Basicamente existem 2 grupos de medidas:
Medidas de Posição:
Freqüências, Médias, Medianas, Moda,…
Medidas de Variabilidade:
Desvio Padrão, Desvio Absoluto, Range,…
Outras medidas são assimetria e kurtose.
Medidas de Posição Cálculo da Participação Relativa
Algumas Medidas Descritivas
Medidas de Posição
Agora que conhecemos os principais parâmetros de análise vamos entender melhor suas interpretações: Medida de posição central
Média: μ (população) ou (amostra) Sendo N o tamanho da população e n o tamanho da amostra
Mediana: “valor que fica no meio da seqüência quando os dados são arranjados na ordem ascendente”
Dica: quando a amplitude da amostra e a variabilidade da amostra/população for grande, a Mediana fornece uma melhor medida de posição central
Moda: valor de dados que ocorre com maior freqüência
_
x
Medidas de Posição: Média
É o CENTRO DE MASSA dos dados
Muito sensível a valores extremos
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10
Média = 5.5
Média = 4
Média = 3.25
n = 2
n = 3
n = 4
Medidas de Posição: Moda
Cultura Agrícola Freqüência
Freqüência
Relativa
Freqüência
Percentual (%)
Algodão 3 0.1034 10.34
Amendoim 1 0.0345 3.45
Arroz 1 0.0345 3.45
Café 4 0.1379 13.79
Citrus 3 0.1034 10.34
Feijão 4 0.1379 13.79
Horti-Fruticultura 7 0.2414 24.14
Milho 1 0.0345 3.45
Outras 1 0.0345 3.45
Soja 2 0.0690 6.90
Trigo 2 0.0690 6.90
Total 29 1 100
Relação entre Média e Mediana
Quanto mais assimétrica a distribuição mas distantes estão a Média e a Mediana
1 2 3 4 5 6 7 8 9 10
Média = 4.4
Mediana = 4
Moda = 3
Medidas de Posição: Quartil Quartil
Quartis dividem o conjunto de dados em 4 partes (25%)
Q1: primeiro quartil
Q2: segundo quartil = mediana
Q3: terceiro quartil
25% 25% 25% 25%
Q1 Q2 Q3
Medidas de Posição: outros
Decis
Decis dividem o conjunto de dados em 10 partes (10%)
Percentis
Dividem o conjunto de dados em 100 subcojuntos com a mesma quantidade de dados (1%)
1 1 2%
1 2 4%
1 3 6%
2 4 8%
2 5 10%
2 6 12%
2 7 14%
2 8 16%
2 9 18%
2 10 20%
3 11 22%
3 12 24%
3 13 27%
3 14 29%
3 15 31%
3 16 33%
3 17 35%
3 18 37%
3 19 39%
3 20 41%
4 21 43%
4 22 45%
4 23 47%
4 24 49%
4 25 51%
4 26 53%
4 27 55%
4 28 57%
4 29 59%
5 30 61%
5 31 63%
5 32 65%
5 33 67%
5 34 69%
5 35 71%
6 36 73%
6 37 76%
6 38 78%
6 39 80%
7 40 82%
7 41 84%
7 42 86%
7 43 88%
8 44 90%
8 45 92%
8 46 94%
9 47 96%
9 48 98%
10 49 100%
Mediana = 4
(50%)
Primeiro
Quartil = 3
(25%)
Terceiro
Quartil = 6
(75%)
Exemplo
Box-plot
• Pelo Box-plot podemos notar uma pequena assimetria
• Ela pode ser vista também pela pequena diferença entre a Média e Mediana
Q3-Q1=IQ (Aqui estão 50% das observações)
Q1
Q3
Mediana
MIN(Q3 + 1,5 x IQ, MAX)
MAX(Q1 – 1,5 x IQ, MIN)
O que estiver fora desteintervalo é representadopor um PONTO
Q3-Q1=IQ (Aqui estão 50% das observações)
Q1
Q3
Mediana
MIN(Q3 + 1,5 x IQ, MAX)
MAX(Q1 – 1,5 x IQ, MIN)
O que estiver fora desteintervalo é representadopor um PONTO
Exemplo
Mediana = 4 (Q2 | 50%)
Primeiro Quartil = 3 (25%)
Terceiro Quartil = 6 (75%)
Média = 4,43
Medidas de Variabilidade
O Range ou Amplitude:
é uma medida para fornecer a diferença entre os valores máximo e mínimo
A Variância (σ2) é definida por:
Medida de variabilidade que utiliza todos os dados
É o “erro” médio da diferença ao quadrado do afastamento de todos os pontos em relação a média amostral ou populacional
n
xxx
n
x nn
i
i
22
2
2
1
2
1
2 )(...)()(
xi é cada valor observado e μ é a média
Medidas de Variabilidade: Desvio padrão
Desvio-padrão (σ: população ou s: amostra)
É a raiz quadrada da variância populacional ou amostral
Desvio médio em relação à média
O Desvio Padrão é pouco intuitivo de se analisar mas tem propriedades estatísticas importantes para outros cálculos (inferência estatística)
Medidas de Variabilidade: Desvio padrão
Desvio-padrão (σ: população ou s: amostra)
Note que a unidade de medida do Desvio padrão é o mesmo dos dados originais (essa é a razão de tirar a Raiz quadrada da variância)
Se estamos falando em tempo médio em horas o desvio padrão também será medidos em horas e não “horas ao quadrado”
Entendendo a Variabilidade
Entender a variabilidade é importante para entender muito mais do que como está centrado o processo (média, mediana, …)
Imagine-se na situação onde dois bancos garantem que o tempo médio de atendimento é de 20 minutos. É o bastante para avaliar?
Entendendo a Variabilidade
Não! Entender como esse tempo se distribui é importante por exemplo para entender metas de atendimento, por exemplo, 95% dos atendimentos em até 23 minutos.
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0 5 10 15 20 25 30 35 40
Qual Banco você escolheria?
Banco 1
Banco 2
23 minutos
medida que se serve para comparar diferentes distribuições
como a média de duas distribuições podem ser diferentes, a utilização comparativa entre o desvio padrão de ambas não é viável
útil para a comparação em termos relativos do grau de concentração em torno da média
Medidas de Variabilidade: Coeficiente de Variação
Para Controle Estatístico de Processo:
CV ≤ 15%: Baixa dispersão, homogênea, estável
15 < CV < 30%: Média dispersão
CV ≥ 30%: Alta dispersão, heterogênea
100
x
sCV
Medidas de Variabilidade: Coeficiente de Variação
s: desvio padrão amostral
x: média amostral
Medidas de associação entre duas variáveis
Coeficiente de correlação: Momento do Produto de Pearson
yx
xy
xyss
sr
rxy = coeficiente de correlação (dados amostrais)
sxy = covariância da amostra
sx = desvio-padrão da amostra de x
sy = desvio-padrão da amostra de y
Medidas de associação entre duas variáveis
Coeficiente de correlação: Interpretação:
Valores rxy variam de -1 a +1
rxy < 0: relação linear negativa
rxy > 0: relação linear positiva
rxy = 0: fraca relação entre as variáveis
Medidas de associação entre duas variáveis
Coeficiente de correlação:
Aplicação: investigação perante o relacionamento entre variáveis
Depreciação da Frota x Quilometragem Média Mensal da Frota
Assentos Vazios em Aeronaves x Passageiros Transportados Mês
Escolaridade de Estivadores x Número de Acidentes de Trabalho nos Portos