Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
UNIVERSIDADE FEDERAL FLUMINENSE
ESCOLA DE ENGENHARIA
GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO
ANTÔNIO CARLOS RODRIGUES DOS SANTOS JÚNIOR
ANÁLISE COMPARATIVA DE MODELOS ESTATÍSTICOS PARA
PREVISÃO DE DEMANDA DE GASOLINA NO BRASIL
NITERÓI-RJ
2018
2
ANTÔNIO CARLOS RODRIGUES DOS SANTOS JÚNIOR
ANÁLISE COMPARATIVA DE MODELOS ESTATÍSTICOS PARA
PREVISÃO DE DEMANDA DE GASOLINA NO BRASIL
Projeto final apresentado ao curso de
Graduação em Engenharia de Produção da
Universidade Federal Fluminense como
requisito parcial para a conclusão de curso.
Orientador: Prof. Dr. Valdecy Pereira
NITERÓI-RJ
2018
3
4
AGRADECIMENTOS
Agradeço aos meus pais por serem minha referência ética e acadêmica e
pelo suporte dado nesse anos de estudo. Agradeço principalmente pela
liberdade e confiança nas minhas escolhas.
Agradeço aos meus amigos pelos momentos inesquecíveis que dê certo
estarão entre os mais felizes da minha vida.
Agradeço a Raísa Fontenele por todo companheirismo que tornou os
momentos mais tensos e decisivos do final da graduação mais leves e
alegres.
Agradeço ao meu orientador Valdecy por me ensinar e guiar durante a
preparação do trabalho aqui apresentado.
5
RESUMO
A previsão de demanda é fundamental para o sucesso das corporações. Além
disso, a gasolina é um insumo básico para atividade econômica que apesar da gradual
substituição dos combustíveis fósseis, ainda é consumida em grandes volumes no Brasil.
Visando alinhar esses dois pontos, o presente trabalho lança mão de duas ferramentas
estatísticas: Regressão Linear Múltipla e ARIMA para fazer um estudo de previsão de
demanda da gasolina no Brasil. Na sequência foi feita uma avaliação por meio do
indicador de erros quadráticos médios de quais das duas técnicas apresentou melhor
acuracidade nessa iniciativa.
A construção dos modelos foi realizada respeitando as hipóteses técnicas e para
avaliá-las foram utilizados a análise gráfica e testes estatísticos. Tal procedimento
metodológico serviu de subsídio para a escolha de um modelo AR(1) acrescido de
variáveis dummies de sazonalidade e um modelo SARIMA(1,0,0)(1,1,0).
Feita a comparação entre as propostas, não foi possível concluir categoricamente
qual modelo apresentou melhor performance, pois os resultados na fase de validação e
conclusão foram divergentes. Apesar dessa constatação objetiva, o presente estudo foi
delimitado pela extensão da série de dados. A título de continuidade do presente estudo,
vale a recomendação pela ampliação da série temporal e a comparação com outros
modelos de previsão de demanda.
Palavras-chave: regressão linear múltipla, ARIMA, SARIMA, gasolina, previsão de
demanda .
6
ABSTRACT
Demand forecasting is a fundamental activity for companies to succeed.
Furthermore, gasoline is a basic input for economy and despite of gradual substitution of
fossil fuels, it is still consumed in big amounts in Brazil. Looking for joining these both
relevant topics, the present study makes use of two statistical tools: Multiple Linear
Regression and ARIMA models in order to forecast the demand for gasoline in Brazil.
Subsequently both models were compared through the indicator mean squared error and
checked witch one had presented the best accuracy on predicting gasoline demand.
The construction of the models was realized respecting all technical hypothesis
and graphical analysis and statistical tests were used to confirm them. Such
methodological process based the decision for selecting: AR(1) with dummies variables
representing seasonality and a SARIMA (1,0,0)(1,1,0) as best models.
Once the statistical models were compared, it was not possible to conclude which
had performed better because the results on validation and conclusion fase were
divergent. Although this objective finding, concluded the present study was delimited by
data series extension. Therefore, with respect of continuity of this work, it is
recommended to amplify the data series and test for accuracy other forecasting models.
Key-words: multiple linear regression, ARIMA, SARIMA, gasoline, demand forecasting.
7
LISTA DE FIGURAS
Figura 2.1 – Função de regressão populacional,
Figura 2.2 – Variãncia
Figura 2.3 - Gráficos ACF e PACF teóricos para modelo AR(1)
Figura 2.4 - Gráficos ACF e PACF teóricos para modelo MA(1)
Figura 3.1 - Descrição da Variável Vendas
Figura 3.2 - Descrição da Variável Preço
Figura 3.3 - Descrição da Variável PIB
Figura 3.4 - Descrição da Variável Desemprego
Figura 3.5 - Descrição da Variável Licenciamento de Veículos
Figura 3.6 - Descrição da Variável Frota
Figura 3.7 - Correlação entre variáveis
Figura 3.7 - Correlação entre variáveis a primeira diferença
Figura 3.9 - Fluxograma do processo de seleção de variáveis
Figura 4.1- Resíduos Studentizados vs Valores Previstos
Figura 4.2 - Histograma dos Resíduos
Figura 4.3 - QQ Plot dos resíduos RLM
Figura 4.4 ACF e PACF das Vendas de Gasolina
Figura 4.5 ACF e PACF da transformação log Vendas de Gasolina
Figura 4.6 ACF e PACF da diferença da transformação log Vendas de Gasolina
Figura 4.7 Resultado da Função auto.arima
Figura 4.8 Resultado do teste Ljung–Box
Figura 4.9 QQ Plot dos resíduos SARIMA
Figura 4.10 Vendas e Previsão RLM na fase de validação
Figura 4.11 Vendas e Previsão SARIMA na fase de validação
Figura 4.12 Vendas e Previsão RLM na fase de conclusão
8
Figura 4.13 Vendas e Previsão SARIMA na fase de conclusão
Figura 4.14 Comparação previsão RLM e SARIMA na fase de conclusão
9
LISTA DE TABELAS
Tabela 2.1 - Quadro resumo modelos autoregressivos,
Tabela 3.1 - Definições das variáveis
Tabela 4.1 Seleção de variáveis RLM
Tabela 4.2 Resumo da RLM
Tabela 4.3 Teste Durbin-Watson
Tabela 4.4 Teste Breusch-Pagan
Tabela 4.5 Teste Shapiro-Wilk
Tabela 4.6 Modelo SARIMA
Tabela 4.7 Teste Dickey–Fuller (ADF)
Tabela 4.8 Resultado do teste Ljung–Box
Tabela 4.9 Resumo da RLM na fase de validação
Tabela 4.10 Resultados RLM na fase de validação
Tabela 4.11 Tabela de Resultados SARIMA na fase de validação
Tabela 4.12 Resultados RLM na fase de conclusão
Tabela 4.13 Tabela de Resultados SARIMA na fase conclusão
10
SUMÁRIO
1.INTRODUÇÃO..........................................................................................................10
1.1 A MOTIVAÇÃO PARA A PESQUISA...................................................................10
1.2 A QUESTÃO DA PESQUISA..................................................................................11
1.3 OBJETIVOS DA PESQUISA...................................................................................12
1.4 DELIMITAÇÃO DA PESQUISA.............................................................................12
1.5 ESTRUTURA DO TRABALHO..............................................................................13
2. REFERENCIAL TEÓRICO....................................................................................14
2.1 REGRESSÃO LINEAR MÚLTIPLA.......................................................................14
2.2 ARIMA......................................................................................................................26
3. METODOLOGIA......................................................................................................33
3.1 POPULAÇÃO E AMOSTRA...................................................................................33
3.2 COLETA DE DADOS..............................................................................................33
3.3 TRATAMENTO E ANÁLISE DE DADOS.............................................................34
3.4 SELEÇÃO DE VARIÁVEIS....................................................................................44
3.5 COMPARAÇÃO ENTRE OS MODELOS...............................................................46
4. RESULTADOS.........................................................................................................47
4.1 REGRESSÃO LINEAR MÚLTIPLA.......................................................................47
4.2 ARIMA......................................................................................................................52
4.3 COMPARAÇÃO ENTRE MODELOS.....................................................................58
5. CONCLUSÃO............................................................................................................64
6. REFERÊNCIAS BIBLIOGRÁFICAS....................................................................66
ANEXOS........................................................................................................................68
11
1 INTRODUÇÃO
No capítulo de introdução é abordado a motivação da pesquisa, o objetivo geral e
os objetivos específicos, bem como a delimitação da pesquisa.
Na Seção 1.1 é apresentada a motivação para o desenvolvimento do estudo. Foi
feita uma breve contextualização do mercado de gasolina no Brasil e ressaltada a
importância da previsão de demanda para os agentes envolvidos.
Na Seção 1.2 é apresentada a pergunta que fundamenta a pesquisa desenvolvida
pelo trabalho.
Na Seção 1.3 são apresentados o objetivo geral da pesquisa e os objetivos
específicos.
Na Seção 1.4 é apresentada a delimitação da pesquisa e finalmente o capítulo se
encerra com a Seção 1.5 que resume a estrutura do trabalho.
1.1 MOTIVAÇÃO
A previsão de demanda é fundamental para o sucesso das corporações. Esse tipo
de estudo confere a possibilidade serem realizadas tomadas de decisão mais robustas,
sejam elas de âmbito estratégico, tático ou operacional. Segundo Gaither e Frazier (2001)
as previsões de vendas são o ponto inicial para todas as outras previsões na gestão da
produção e operações.
A importância da previsão de demanda fica mais evidente em situações em que a
volatilidade da demanda é alta, pois uma decisão equivocada de produção pode gerar
perdas mais significativas. Assim, quanto menos estável for a demanda uma indústria,
maior será a relevância de se realizar um estudo de previsão de demanda com boa
performance (WERNER, 2004).
Tanto técnicas qualitativas quanto quantitativas são utilizadas para a previsão de
demanda. Em geral as técnicas qualitativas se baseiam na avaliação de um ou mais
especialistas do produto a ser produzido e vendido. Ao se utilizar esse tipo de abordagem
é preciso se atendar aos vieses individuais e possíveis outros interesses que não uma
previsão assertiva. O presente trabalho vai fazer uso de técnicas estritamente quantitativas
12
e a intenção dessa opção é reduzir a parcela de subjetividade da previsão, sem diminuir a
relevância e credibilidade das abordagens qualitativas.
O produto e objeto de estudo do presente trabalho é a gasolina que pertence ao
setor de combustíveis líquidos. O Brasil é um dos maiores consumidores de combustíveis
líquidos do mundo e em especial da gasolina. Segundo dados do Balanço Energético
Nacional elaborado pela Empresa de Pesquisa Energética (EPE,2018) a gasolina foi
responsável por 9,6% do consumo total de energia no país em 2017. As vendas desse
combustível aumentaram em média 6,5% ao ano entre 2007 e 2016 e é importante
ressaltar que esse crescimento supera em muito a evolução do PIB que cresceu à taxa
média de 1,2% ao ano segundo dados presentes no Anuário Estatístico Brasileiro do
Petróleo, Gás Natural e Biocombustíveis elaborado pela Agência Nacional do Petróleo
(ANP,2018).
Devido à relevância dessa indústria, estabeleceu-se no Brasil uma cadeia
produtiva de gasolina bem integrada e que é essencialmente formada por produtoras de
petróleo, refinarias de petróleo, distribuidoras de combustíveis líquidos e revendedores
varejistas. E é nesse ponto que reside a principal motivação para o presente trabalho. Dado
o grande volume financeiro que percorre a cadeia e a importância intrínseca desse insumo
para economia do país, se torna fundamental a busca por alguma previsibilidade da
demanda por gasolina no Brasil. Quando adotamos o conceito de risco como a
possibilidade de custo extra devido a um evento que pode ser segurado (Salvatore, 1980),
é razoável que os riscos envolvidos na produção e distribuição de gasolina podem
acarretar em grandes perdas econômicas que são passíveis de serem evitadas.
Principalmente para refinarias e distribuidoras é de grande utilidade possuir uma
referência de consumo futuro do produto, pois somente os custos com a logística
representam cerca de 5,4% do preço na bomba de gasolina segundo estudo realizado pelo
CEL/Coppead, em parceria com o Instituto Brasileiro do Petróleo (IBP, 2005).
1.2 PROBLEMA E HIPÓTESE DA PESQUISA
Considerando a relevância econômica do insumo em questão, pode-se indagar
que:
Poder-se-á estimar por meio de um modelo estatístico, a demanda por gasolina
no Brasil para o próximo trimestre?
13
E de modo mais específico:
Dentre os modelos: Regressão Linear Múltipla e Auto-regressivo de Médias
Móveis (ARIMA). Qual apresenta maior eficácia na previsão de demanda de gasolina?
1.3 OBJETIVOS DA PESQUISA
O estudo tem como objetivo geral construir um modelo estatístico capaz de prever
com relativa precisão o consumo de gasolina no Brasil para trimestres subsequentes ao
momento de realização da previsão. Um objetivo posterior e mais específico é identificar
quais dos modelos regressivos dentre: Regressão Linear Múltipla e o modelo Auto-
regressivo de Médias Móveis (ARIMA) apresenta maior acuracidade na previsão de
demanda trimestral por gasolina no Brasil.
1.4 DELIMITAÇÕES DA PESQUISA
Qualquer tipo de previsão é uma tarefa desafortunada pois a única certeza que
temos ao iniciar o estudo é que estaremos errados quando os dados reais se apresentarem.
Por isso, não temos a pretensão de construir um modelo perfeito, mas sim uma ferramenta
que sirva de referência para decisões que dependam da demanda de gasolina para o
trimestre subsequente.
Outra questão a ser ressaltada é que no presente trabalho optou-se por uma
abordagem quantitativa. As técnicas quantitativas fazem uso de uma série de observações
passadas e de algum padrão histórico de demanda e, por intermédio de modelos
matemáticos, torna-se possível estimar valores futuros (ELSAYED; BOUCHER, 1994).
Não temos dúvidas de que fatores qualitativos são importantes no processo de previsão
de demanda. As relações de qualquer mercado complexo como o de gasolina apresentam
sutilezas que somente um profissional experimentado no setor é capaz de interpretar
corretamente e que impactam o consumo futuro do combustível. Nesse sentido, a linha
de trabalho adotada foi a de construir dois modelos usando diferentes técnicas (Regressão
Linear e ARIMA) e posteriormente avaliar qual deles apresentou melhor desempenho.
Esse processo visa obter um modelo que justamente não dependa do fator subjetivo mas
que ainda assim apresentasse boa performance.
14
1.5 ESTRUTURA DO TRABALHO
No Capítulo 1 é abordado motivação da pesquisa, o objetivo geral e os objetivos
específicos, bem como a delimitação da pesquisa.
No Capítulo 2 é abordado o referencial teórico do estudo abrangendo os modelos
de Regressão Linear Múltipla e o modelo Auto-regressivo de Médias Móveis (ARIMA).
No Capítulo 3 apresenta-se a metodologia desse trabalho que aborda o
levantamento, descrição e tratamento dos dados, além do processo de construção dos
modelos e do critério de comparação dos mesmos.
No Capítulo 4 é relatado o resultado desse trabalho, abordando todos os modelos
sugeridos e a comparação entre eles.
No Capítulo 5, o presente trabalho é concluído e são apresentados os pontos
conclusivos destacados, seguidos de recomendações para estudos futuros.
15
2 REFERENCIAL TEÓRICO
No presente capítulo é abordado o referencial teórico do estudo de previsão de
demanda abrangendo os métodos utilizados: Regressão Linear Múltipla e o modelo Auto-
regressivo de Médias Móveis (ARIMA).
Na seção 2.1 é apresentado o conceito de previsão (forecasting) e sua aplicação
específica para prever a demanda de um produto.
Na Seção 2.2 é apresentado o modelo de regressão linear múltipla e as principais
hipóteses que garantes sua eficácia.
Na Seção 2.3 é apresentado o modelo de Auto-regressivos Integrados de Médias
Móveis (ARIMA).
2.1 A PREVISÃO DE DEMANDA
2.2 REGRESSÃO LINEAR MÚLTIPLA
Suponha Y uma variável aleatória, isto é, que seu valor não pode ser determinado
previamente. Esse tipo de variável está presente em toda parte, pois pouquíssimos dos
eventos que estamos sujeitos no dia a dia possuem caráter determinístico. Os exemplos
são diversos: o PIB de um país, o salário de um executivo, o vencedor das próximas
eleições, as vendas do próximo mês. Fica evidente que entender (mesmo que
parcialmente) como esse tipo de variável se comporta é de grande valor. Um caminho
para isso é avaliar a variável de interesse a partir de outras nas quais se tenha
conhecimento. É justamente nessa perspectiva que reside a regressão linear múltipla.
2.2.1 ESTIMAÇÃO
Segundo Wooldridge (2016), a Regressão Linear Múltipla (RLM) pode ser usada
para estudar a relação entre uma variável explicada e múltiplas variáveis explicativas.
Assim, de imediato, três questões são levantadas na construção de um modelo de RLM:
i) Como lidamos com os outros fatores que afetam Y e que não foram incluídos no modelo?
ii) Qual a relação funcional entre as variáveis?
16
iii) Como garantir que está sendo capturada a relação de causalidade entre a variável
dependente e as demais variáveis independentes?
Para superar essas ambiguidades Wooldridge (2016) sugere que se escreva uma
equação que também é chamada de modelo populacional:
𝑌 = 𝛽0 + 𝛽1𝑋1 +⋯+ 𝛽𝑖𝑋𝑖 + 𝑢 (2.01)
Onde:
• 𝑌= Variável Dependente (Variável Explicada);
• 𝑋𝑖= Variável Independente 𝑖 (Variável Explicativa 𝑖);
• 𝛽0= Parâmetro de Intercepto;
• 𝛽𝑖= Parâmetro de Inclinação.
• 𝑢 = Termo de Erro (Perturbação)
Onde, Y é a variável dependente, X1, X2 e Xi são as variáveis independentes ou
explicativas ou ainda regressores. Os parâmetros de regressão, β1, β2 e βi também são
conhecidos como parâmetros de inclinação e β0 é chamado de parâmetro de intercepto. A
variável 𝑢 é comumente chamada de termo de erro, porém esse nome pode confundir sua
real interpretação. O fator 𝑢 representa todos os outros fatores que afetam Y mas não
foram incluídos no modelo (fatores não observados) e assim respondemos à questão (i).
No restante da explanação, para facilitar a compreensão do leitor, representaremos
as variáveis independentes X1, X2 e Xi simplesmente pelo vetor X.
Também é preciso se preocupar com a forma funcional das variáveis (questão (ii)).
Observe que, a equação (2.01) também informa sobre a relação funcional entre Y e X.
Nesse caso geral, a variação de uma variável independente, por exemplo Xi, tem efeito
linear sobre Y:
∆𝑦 = 𝛽𝑖 ∆𝑥𝑖 𝑠𝑒 ∆𝑢 = 0 (2.02)
No entanto, o real significado de linearidade em um modelo de RLM reside na
relação entre os parâmetros e não entre as variáveis Y e X. Em alguns casos, é válido e
recomendável, assumir relações mais sofisticadas do tipo:
17
log(𝑌) = 𝛽0 + 𝛽1√𝑋1 + 𝛽2𝑋2 + 𝑢 (2.03)
Já em relação a questão (iii), para garantir o efeito de causalidade de X sobre Y é
preciso fazer hipóteses que restrinjam a maneira como X se relaciona com a variável de
erro 𝑢. Primeiramente é preciso lançar mão de duas hipóteses:
𝐸(𝑢) = 0 (2.04)
𝐸(𝑢𝑿) = 𝐸(𝑢) (2.05)
Onde, E representa o operador de esperança matemática. Note que, a hipótese
(2.04) é pouco restritiva pois sempre é possível redefinir 𝛽0 no intuito de torná-la
verdadeira. A segunda hipótese (2.05) é mais delicada uma vez que pode ocorrer de uma
variável omitida do modelo seja correlacionada com uma ou várias das variáveis
explicativas. Assim, ao se combinar (2.04) com (2.05), tem-se que:
𝐸(𝑢𝑿) = 0 (2.06)
A identidade (2.06) é chamada de hipótese de média condicional zero e a partir
dela obtemos a função de regressão populacional (FRP), dada por:
𝐸(𝑌𝑋) = 𝛽0 + 𝛽1𝑋1 +⋯+ 𝛽𝑖𝑋𝑖 (2.07)
Perceba que, a equação (2.06) representa como o valor esperado de Y se relaciona
com X. Essa ideia ressalta o caráter estocástico de Y, pois ao se inserir na equação um
conjunto especifico de variáveis explicativas (Ex: vetor 𝑿0) o que se obtém como 𝑌0 não
é um valor preciso (determinístico) para Y, mas sim um novo posicionamento da
esperança matemática de Y. Esse conceito é ilustrado na Figura 2.1 abaixo,
18
Figura: 2.1 Função de regressão populacional
Fonte: Wooldridge (2016)
Portanto, foi construído uma modelo que satisfaz as três questões inicialmente
levantadas, mas ainda é preciso estimar seus respectivos parâmetros. O método mais
eficiente para tal é conhecido como Mínimos Quadrados Ordinários (MQO). Esse
processo de estimação visa minimizar os quadrados dos resíduos ao se adaptar uma reta
à um grupo de dados (amostra). A descrição detalhada desse processo foge do objetivo
do presente trabalho mas pode ser encontrada em Gujarati (2010).
Uma das maneiras de estimar os parâmetros βo, β2, ... ,βi é por meio de álgebra
matricial.
Construa uma matriz Y que contenha os valores observados da variável
dependente:
𝑌 = [
𝑦1𝑦2⋮𝑦𝑖
] (2.08)
Construa também uma matriz X (matriz design) que contenha as variáveis
independentes:
19
𝑋 = [
11⋮1
𝑥11𝑥21⋮𝑥𝑖1
⋯⋯⋱⋯
𝑥1𝑗𝑥2𝑗⋮𝑥𝑖𝑗
] (2.09)
Assim, a matriz �� que represenha os parâmetros estimados é calculada por:
�� = (𝑋′𝑋)−1𝑋′𝑌 (2.10)
Os estimadores da variância e do desvio padrão do erro são:
��2 =∑ (𝑦𝑖−𝑦��)
2𝑛𝑖=1
𝑛−(𝑘+1) (2.11) e �� = √��² (2.12)
Onde:
• ��² = Variância dos resíduos
• �� = Desvio padrão dos resíduos
• 𝑛 = Número de observações
• 𝑘 = Número total de variáveis dependentes
• �� = o valor estimado da variável independente.
O erros padrão dos coeficientes de regressão podem ser representados pela matriz
de variância-covariância 𝑪 que é calculada por:
𝐶 = ��2(𝑋′𝑋)−1 (2.13)
Os erros padrão dos coeficientes serão importantes no momento em que formos
avaliar a significância dos estimadores βo, β2, ... ,βi.
2.2.2 QUALIDADE DE AJUSTE
De posse dos estimadores estimados é possível analisar a qualidade do ajuste.
Note que, a variação total da variável dependente pode ser dividida em duas partes. Uma
parte pode ser explicada pela variação das variáveis independentes e a outra parte se deve
à variação do fator de erro (não observado). Segundo Wooldridge (2016) essas três
medidas de variação são definidas como:
Soma dos Quadrados Totais (SQT): ∑ (𝑦𝑖 − ��)𝑛1 (2.14)
Soma dos Quadrados Explicada (SQE): ∑ (��𝑖 − ��)𝑛1 (2.15)
20
Soma dos Quadrados dos Resíduos (SQR): ∑ (𝑢��𝑛1 )2 (2.16)
E respeitam a seguinte identidade:
𝑆𝑄𝑇 = 𝑆𝑄𝐸 + 𝑆𝑄𝑅 (2.17)
A Figura 2.2 resume graficamente a relação entre a variância explicada e a
variância não-explicada com a variância total.
Figura
Figura 2.2. Variância
Fonte: Pereira (2015)
Assim, a partir dessas medidas de variação é possível criar um indicador que
mensure a qualidade do ajuste da reta de regressão em relação aos dados observados. Esse
indicador é denominado 𝑅2 (R-quadrado) e é definido por:
𝑅2 =𝑆𝑄𝐸
𝑆𝑄𝑇= 1 −
𝑆𝑄𝑅
𝑆𝑄𝑇 (2.18)
O 𝑅2 nada mais é do que a razão entre a variação de Y que foi explicada pelo
modelo e a variação total de Y. Com isso, 100. 𝑅2 pode ser interpretado como a
porcentagem da variação de Y que foi explicada por X.
No entanto, esse indicador não é de todo eficiente pois devido ao seu mecanismo
de cálculo, o acréscimo de variáveis explicativas sempre aumenta seu valor. O mais
indicado em um modelo de RLM é usar uma versão do 𝑅2 que imponha uma penalidade
Y
X
SST
SSR
SSE
𝑦𝑖 − ����𝑖 − ��
𝑦𝑖 − ��𝑖
𝑦𝑖
𝑥𝑖
21
à adição de variáveis extras. Essa versão é chamada de 𝑅2 ajustado e segundo Gujarati
(2010) é dado por:
��2 = 1 − (
𝑆𝑄𝑅𝑛 − 𝑘𝑆𝑄𝑇𝑛 − 1
) (2.19)
Em Wooldridge (2016) é destacado que ��2 aumenta se, e somente se, a estatística
t da nova variável dependente inserida for maior do que a unidade em valor absoluto.
Ainda não definimos a estatística t de um estimador 𝛽��, mas isso será feito na sequência.
Gujarati (2010) faz um alerta, pesquisadores tendem a jogar o jogo de maximizar
o R²-ajustado, porém isto pode ser perigoso. Em uma análise de regressão, encontrar um
R²-ajustado alto não tem utilidade alguma per se, o real objetivo é obter estimativas de
dependência estatisticamente significantes sobre real população. Wooldridge (2016)
reforça essa ideia ao afirmar que um R²-ajustado em geral são baixos no contexto das
ciências sociais e que isso não significa necessariamente uma equação de regressão de
MQO inócua, pois as condições necessárias e suficientes para capturar a relação de
causalidade não residem diretamente na magnitude desse indicador.
2.2.3 INFERÊNCIA
Nesta seção estaremos interessados em verificar se os estimadores calculados
possuem significância estatística. Outro objetivo é mostrar que, apesar de seu uso
disseminado, os estimadores de βo, β2, ... ,βi usando o método dos MQO somente serão
estimadores não viesados de variância mínima sob determinadas hipóteses. Segundo
Wooldridge (2016) essas hipóteses são:
Hipótese RLM.1 (Linear nos Parâmetros): equação populacional como (2.01)
Hipótese RLM.2 (Amostragem Aleatória)
Hipótese RLM.3 (Colinearidade Não Perfeita): Nenhuma das variáveis independentes é
constante na amostra.
Hipótese RLM.4 (Média Condicional Zero): Vale a equação (2.06)
Hipótese RLM.5 (Hocedasticidade): 𝑉𝑎𝑟(𝑢𝑿) = 𝜎2 (2.20)
22
Hipótese RLM.6 (Normalidade do Erro): 𝑢~Normal(0, 𝜎2) (2.21)
A primeira hipótese apenas define o modelo populacional. A hipótese RLM.2
garante a aleatoriedade da amostra. A hipótese RLM.3 é menos relevante porém
necessária e garante que coletamos uma amostra que contenha alguma variação em X. A
hipótese RLM.4 é de fundamental importância e já foi discutida na seção 2.2.1.
Precisamos da hipótese RLM.5 para obtermos estimadores não viesados dos erros padrão
dos estimadores de MQO, e consequentemente possibilitar o uso do teste t e teste F que
serão apresentados a seguir. Por fim, note que, ao assumirmos a hipótese RLM.6 estamos
consequentemente assumindo RLM.4 e RLM.5 e essa hipótese é importante tanto na
garantia de que os estimadores de MQO são os mais eficientes e como no estudo de
inferência dos mesmos.
Adicionalmente, lembramos que as hipóteses RLM.1 a RLM.5 são conhecidas
como hipóteses de Gauss-Markov e elas garantem que os estimadores de MQO são os
melhores estimadores lineares não viesados ou Best Linear Unbiased Estimator (BLUE).
Quando adicionamos a hipótese RLM.6, obtemos as hipóteses do Modelo Linear Clássico
(MLC) que garante que os estimadores de MQO são os estimadores não viesados de
variância mínima, ou seja, não é mais preciso restringir a comparação entre os
estimadores não viesados lineares. O próximo ganho com a hipótese de normalidade do
erro é de tal relevância que será enunciado em forma de teorema.
Teorema 2.1 (Distribuição t para os estimadores padronizados): Sob as hipóteses
RLM.1 a RLM.6,
(��𝑗−𝛽𝑗)
𝑒𝑝(��𝑗)~ 𝑡𝑛−𝑘−1 = 𝑡𝑔𝑙 (2.22)
em que k+1 é o número de parâmetros desconhecidos do modelo populacional e n-
k-1 são os graus de liberdade da estatística t.
O teorema 2.1 nos permite realizar teste de hipótese sobre um único parâmetro
populacional. Na maioria das aplicações gostaríamos de testar se uma variável
dependente 𝑥𝑖 tem qualquer efeito sobre a variável dependente 𝑦. Em termos técnicos isso
significa testar a hipótese nula do tipo:
23
𝐻0: 𝛽𝑖 = 0 (não existe relação 𝑥𝑖 e 𝑦) (2.23)
𝐻1: 𝛽𝑖 ≠ 0 (existe relação entre 𝑥𝑖 e 𝑦) (2.24)
A estatística usada para testar (2.23) é chamada estatística t de ��𝑗 e é dada por:
𝑡 ��𝑗 = ��𝑗/𝑒𝑝( ��𝑗) (2.25)
Perceba que (2.25) nada mais é que (2.22) quando 𝛽𝑗 = 0. Uma vez de posse da
estatística t de ��𝑗 basta realizar um teste de inferência pela abordagem clássica no qual
se escolhe um nível de significância 𝛼 (Ex: 𝛼 = 0,05) que possui um valor critico
associado 𝑐 (Ex: 𝑐 = 𝑡𝑛−𝑘−1;0,05 ) . Em suma, 𝐻0 é rejeitada em favor de 𝐻1, no nível de
significância 𝛼 se:
𝑡 ��𝑗 > 𝑐 (2.26)
Esse procedimento carrega algum nível de arbitrariedade pois cabe ao pesquisador
escolher o nível de significância com antecedência. Outros interessados no estudo podem
preferir usar outros níveis de significância, pois não há um nível dito “correto”. Assim,
seria mais transparente informar o menor nível de significância ao qual a hipótese nula é
rejeitada. Esse número é chamado de p-valor do teste.
Também é possível construir intervalos de confiança (IC) para o parâmetro
populacional ��𝑗. Segundo Makridakis, Wheelwright e Hyndman (1998) o intervalo de
confiança pode ser calculado como:
𝛽𝑖 ± 𝑡𝑛−(𝑘+1);𝛼/2 × 𝑒𝑝( ��𝑗) (2.27)
O teste t até então descrito nos permite fazer inferência sobre os parâmetros
populacionais individualmente. Frequentemente desejamos realizar hipóteses conjuntas
sobre os parâmetros. Um caso muito relevante é quando queremos verificar se as variáveis
independentes escolhidas para o modelo possuem conjuntamente qualquer efeito parcial
sobre a variável dependente. O teste que lida com esse tipo de questão é conhecido como
F teste e pode ser construído da seguinte maneira:
𝐻0: 𝛽0, 𝛽1, … , 𝛽𝑘 = 0 (2.28)
𝐻1: 𝛽0 𝑜𝑢 𝛽1 𝑜𝑢 …𝑜𝑢 𝛽𝑘 ≠ 0 (2.29)
24
A hipótese nula 𝐻𝑜 significa que todos os parâmetros são zero ao mesmo tempo,
já 𝐻1 significa que ao menos um dos parâmetros é diferente de zero. A partir desse teste
não se pode afirmar quantos ou quais dos parâmetros são diferentes de zero.
A estatística F de Fisher-Snedecor nesse caso é calculada como:
𝐹𝑡𝑒𝑠𝑡𝑒 = [∑ (��𝑖−��)
2𝑛𝑖=1 ]/(𝑘)
[∑ (𝑦𝑖−��𝑖)2𝑛
𝑖=1 ]/[𝑛−(𝑘+1)] (2.30)
Onde:
• 𝐹𝑡𝑒𝑠𝑡𝑒 = distribuição de probabilidade contínua F de Fisher-Snedecor
• 𝑦𝑖 = valor da variável independente
• ��𝑖 = valor estimado da variável independente
• k = número total de variáveis dependentes
• n = número de observações
Caso 𝐹𝑡𝑒𝑠𝑡𝑒 > 𝐹𝑘;𝑛−(𝑘+1);𝛼 rejeita-se a hipótese nula e afirma-se que ao menos
uma das variáveis testadas apresenta o parâmetro populacional diferente de zero.
2.2.4 VALIDAÇÃO DOS RESÍDUOS
Como visto até aqui o comportamentos dos resíduos possuem muita importância
quanto à satisfação das hipóteses que garantes que os estimadores de MQO são BLUE e
da possibilidade de realizar inferências baseadas nas distribuições t-student e F de Fisher-
Snedecor. Nessa seção iremos descrever métodos para verificar se tais hipóteses estão
sendo respeitadas e, no caso negativo, como devemos resolver esses problemas.
Segundo Gujarati (2010) os resíduos devem apresentar:
• Normalidade do Erro
• Média condicional zero
• Homocedasticidade
• Não correlação serial
A verificação mais importante a se fazer é da normalidade do erro pois se
conseguimos satisfazê-la, também serão satisfeitas demais hipóteses. Essa hipótese pode
ser visualmente avaliada por meio do QQ Plot que compara quantis teóricos com quantis
25
amostrais. A ideia do teste é verificar se os pontos do gráfico estão próximos da reta 𝑦 =
𝜇 + 𝜎𝑥, em caso positivo, assume-se que os resíduos são normalmente distribuídos. O
teste de Shapiro-Wilk (1965) também pode ser utilizado para esse fim.
Segundo Wooldridge (2016) a hipótese de média condicional zero do erro pode
ser violada por duas razoes principais:
• Má especificação funcional das variáveis independentes
• Endogeneidade
Para testar se o modelo está bem especificado quanto às relações funcionais das
variáveis nenhuma função não linear das variáveis independentes deve ser significante
quando adicionada ao modelo original.
Em relação a homocedasticidade é recomendável realizar duas avaliações. Uma
gráfica, na qual é construído um gráfico de dispersão das variáveis observadas com seus
respectivos resíduos. A ideia é que não haja nenhum padrão identificado, mostrando que
a variância dos erros independe dos valores das variáveis independentes. Outra
possibilidade é fazer o teste de Breusch-Pagan no qual fazemos uma regressa do termo
de erro ao quadrado sobre as variáveis independentes.
Para implementar o teste de Breusch-Pagan, supomos,
𝑢2 = 𝛿0 + 𝛿1𝑥1 +⋯+ 𝛿𝑘𝑥𝑘 + 𝑣 (2.34)
E fazemos o teste F de,
𝐻0: 𝛿1 = 0,… , 𝛿𝑘 = 0 (2.35)
𝐻1: 𝛿1 ≠ 0 𝑜𝑢 …𝑜𝑢 𝛿𝑘 ≠ 0 (2.36)
Wooldridge (2016) lembra que no caso de violação da hipótese de media
condicional zero (HRLM.4), o teste de heterocedasticidade pode ser significante mesmo
quando a variância do erro 𝜎2 é constante, por isso a importância de ser verificar
primeiramente a validade de HRLM.4.
Por fim, no caso de dados em serie temporal, ainda é preciso verificar a correlação
serial. Nesse caso, utiliza-se o o teste de Durbin-Watson (DW) que pode ser calculado
como:
26
𝐷𝑊 = ∑ (𝑒𝑖 − 𝑒𝑖−1)
2𝑛𝑖=2
∑ (𝑒𝑖)2𝑛𝑖=1
(2.37)
E com as seguintes considerações:
• 𝐷𝑊 < 2 → Indica autocorrelação positiva (Comum)
• 𝐷𝑊 ≅ 2 → Sem autocorrelação
• 𝐷𝑊 > 2 → Indica autocorrelação negativa (Raro)
2.2.5 O “PROBLEMA” DA MULTICOLINEARIDADE
A multicolinearidade é se resume na em alta correlação (mas não perfeita) entre duas
ou mais variáveis independentes. Segundo Wooldridge (2016), como a
multicolinearidade não viola nenhuma das hipóteses do Modelo Linear Clássico, a
questão da multicolinearidade não está bem definida e lembra que uma amostra pequena
pode levar às mesmas dificuldades. Gujarati (2010) também faz essa ressalva, porém
deixa claro que a multicolinearidade é bastante indesejada pois:
• Apesar de permanecerem BLUE, os estimadores MQO possuem alta covariância
dificultando a estimação precisa dos parâmetros.
Esse fato tem leva a consequências ruim como: intervalos de confiança muito largos,
maior chance de obter parâmetros insignificantes estatisticamente, erros padrão dos
estimadores muito sensíveis à mudança nos dados. Acreditamos que as consequências
listadas sejam suficientes para ser cauteloso perante a multicolinearidade. Portanto, uma
maneira de se detectar o problema é por meio do cálculo do Fator de Inflação de Variância
(FIV) para cada regressor. A boa prática diz que se FIV > 10 a multicolinearidade será
prejudicial ao modelo. Para calculá-lo é preciso lembrar que a variância de um estimador
𝛽𝑗 é dada por:
𝑉𝑎𝑟(��𝑗) = 𝜎2/𝑆𝑄𝑇𝑗(1 − 𝑅𝑗2) (2.38)
Em que 𝑆𝑄𝑇𝑗 é a variação amostral total em 𝑋𝑗 quando regredido sobre as demais
variáveis independentes e 𝑅𝑗2 é justamente o R-quadrado da regressão de 𝑋𝑗 sobre as
demais variáveis independentes.
Assim, do Fator de Inflação de Variância (FIV) é calculado como:
27
𝐹𝐼𝑉𝑗 = 1/(1 − 𝑅𝑗2) (2.39)
2.3 ARIMA
2.3.1 Modelo Auto Regressivo (AR)
Na seção anterior foi descrito o modelo de regressão linear múltipla que tem como
base a equação:
𝑌 = 𝛽0 + 𝛽1𝑋1 +⋯+ 𝛽𝑖𝑋𝑖 + 𝑢 (2.01)
Em que as variáveis 𝑋𝑖 são denominadas independentes ou explicativas enquanto a
variável 𝑌 é denominada dependente ou explicada. Agora, suponha que no lado direito
da equação fossem usadas como variáveis explicativas diferentes níveis de defasagem de
𝑌, de modo que 𝑋1 = 𝑌𝑡−1, 𝑋2 = 𝑌𝑡−2 e assim sucessivamente. Esse modelo é ainda uma
regressão linear múltipla porém com a singularidade de envolver apenas uma variável e
suas respectivas defasagens. Esse modelo é chamado de Modelo Autoregressivo (AR).
A equação que descreve esse modelo é:
𝑌𝑡 = 𝜙0 + 𝜙1𝑌𝑡−1 +⋯+ 𝜙𝑝𝑌𝑡−𝑝 + 𝑒𝑡 (2.40)
Segundo Makridakis, Wheelwright e Hyndman (1998) existem restrições que
devem ser respeitadas:
𝑝𝑎𝑟𝑎 𝑝 = 1, − 1 < 𝛽1 < 1
𝑝𝑎𝑟𝑎 𝑝 = 2, − 1 < 𝛽2 < 1, 𝛽1 + 𝛽2 < 1, 𝛽1 − 𝛽2 < 1
A função de autocorrelação (ACF) e a função de autocorrelação parcial (PACF)
são importantes para se verificar se de fato os dados podem ser representados por um
modelo AR. A função de autocorrelação é uma medida da correlação entre as observações
de uma série temporal que são separadas por k unidades de tempo. Já na função de
28
autocorrelação parcial, deve-se ajustar para todos ou outros termos de menor defasagem
(lag).
Segundo Makridakis, Wheelwright e Hyndman (1998) os gráficos teóricos das
funções ACF e PACF para um modelo AR(1) se caracterizam por um decaimento
exponencial no ACF e um pico único no PACF. Ambos os gráficos estão representados
na Figura 2.3 abaixo:
Figura 2.3 Gráficos ACF e PACF teóricos para modelo AR(1)
Fonte: Makridakis, Wheelwright e Hyndman (1998)
2.3.2 Modelo de Médias Móveis (MA)
Assim como é possível regredir a variável de interesse sobre seus valores passados é
também possível fazer o mesmo processo com os erros provenientes da regressão
realizada:
𝑌𝑡 = 𝜃0 + 𝑒𝑡 − 𝜃1𝑒𝑡−1 −⋯− 𝜃𝑞𝑒𝑡−𝑞 (2.41)
Esse modelo é chamado de média móvel ou moving average (MA). Aqui é importante
não confundir com outros modelos que envolvem o conceito de média móvel. Esses,
geralmente se referem a média móvel das observações, já a equação (2.41) se refere a
média móvel dos erros.
As mesmas restrições em relação aos coeficientes se aplicam para o modelo de médias
móveis (MA), assim:
29
𝑝𝑎𝑟𝑎 𝑞 = 1, − 1 < 𝜃1 < 1
𝑝𝑎𝑟𝑎 𝑞 = 2, − 1 < 𝜃2 < 1, 𝜃1 + 𝜃2 < 1, 𝜃1 − 𝜃2 < 1
Segundo Makridakis, Wheelwright e Hyndman (1998) os gráficos teóricos das
funções ACF e PACF para um modelo MA(1) se caracterizam por um pico único negativo
no ACF e uma convergência gradual para zero no PACF. Ambos os gráficos estão
representados na Figura 2.4 abaixo:
Figura 2.4 Gráficos ACF e PACF teóricos para modelo MA(1)
Fonte: Makridakis, Wheelwright e Hyndman (1998)
2.3.3 Diferença sazonal e a notação Backshift
Quando os dados utilizados apresentam sazonalidade e não são estacionários, é
recomendado realizar uma transformação de diferença sazonal. Nesse processo a variável
𝑌𝑡 é subtraída não pelo período imediatamente anterior, mas sim pelo período anterior que
faz referência a característica sazonal da série. Por exemplo, se 𝑌5 representa o primeiro
trimestre de um ano e existe sazonalidade trimestral, então 𝑌5 deve ser subtraído por 𝑌1
que representa o primeiro trimestre do ano anterior. Makridakis, Wheelwright e Hyndman
(1998) ressaltam que essa transformação deve ser feita antes da primeira diferença, pois
em alguns casos esse passo já é suficiente para tornar a série estacionária.
Devido a recorrência das transformações que envolvem diferenças se faz de
grande utilidade o uso de notação específica para tal processo. Uma notação muito útil é
aquela que usa o operador backshift e que está a seguir:
𝐵𝑌𝑡 = 𝑌𝑡−1
Logo,
30
𝐵(𝐵𝑌𝑡) = 𝐵2𝑌𝑡 = 𝑌𝑡−2
Assim, uma segunda diferença sazonal é denotada como:
(1 − 𝐵2)𝑌𝑡 = 𝑌𝑡 − 𝑌𝑡−2
2.3.4 Modelo ARIMA
Segundo Box and Jenkins (1970) os modelos AR e MA podem ser combinados
desde de que sejam aplicados a séries estacionárias, porém para contornar esse problema
basta que seja permitida a diferenciação da série temporal. Esse novo modelo é chamado
de Autoregressive Integrated Moving Average (ARIMA).
Diferentes modelagens podem ser feitas com essa abordagem porém a mais
simples e que não envolve sazonalidade é descrita por três componentes e a notação
comumente usada para identificar tais componentes é ARIMA(a,b,c).
a = ordem da autoregressão
b = nível de defasagem
c = ordem da média móvel
No caso de um ARIMA(1,1,1) a equação pode ser descrita como:
𝑍𝑡 = 𝑐 + 𝜙1𝑍𝑡−1 +⋯+ 𝜙𝑝𝑍𝑡−𝑝 + 𝑒𝑡 − 𝜃1𝑒𝑡−1 −⋯− 𝜃𝑞𝑒𝑡−𝑞
𝐸𝑚 𝑞𝑢𝑒 𝑍𝑡 = 𝑌𝑡 − 𝑌𝑡−1 (2.42)
Essa defasagem envolvendo Y é justamente o que diferencia o modelo ARIMA do
modelo ARMA.
Para realizar a estimação dos parâmetros pode ser feito o método dos mínimos
quadrados usual ou o processo de maximização da Verossimilhança. Segundo Box,
Jenkins, and Reinsell, (1994) o processo é preferível pois possui propriedades estatísticas
desejáveis.
Uma vez determinados os parâmetros se faz necessário obter um método de
comparação entre diferentes modelos, pois mais de uma escolha de variáveis pode ser
31
assertiva na previsão. No caso do ARIMA a solução foi proposta por Akaike (1974) que
desenvolveu o indicador AIC (Akaike Information Criterion) que é um critérios de
informação que serve para comparar diferentes modelos para um mesmo problema.
Quanto menor o valor do 𝐴𝐼𝐶, melhor é o modelo. E ele pode ser calculado como:
𝐴𝐼𝐶 = 𝑛 × 𝑙𝑛 (𝑆𝑆𝐸
𝑛) + 2 × (𝑘 + 1) (2.21)
O modelo ARIMA também pode ser usado quando os dados apresentam
sazonalidade. A maneira de tratar isso é verificar que assim como dados consecutivos
podem apresentar propriedades dos modelos AR ou MA, dados separados por mais de
um período também podem apresentar as mesmas características.
Quando a sazonalidade é inserida ao ARIMA a literatura denomina o novo modelo
de SARIMA e a notação é apresentada a seguir:
𝑆𝐴𝑅𝐼𝑀𝐴 (𝑎, 𝑏, 𝑐) (𝐴, 𝐵, 𝐶)𝑠 (2.22)
2.3.5 O teste ADF e o teste Ljung-Box
Na modelagem de séries temporais dois pontos são fundamentais: que a série seja
estacionária e que o componente do erro seja aleatório e descorrelacionado período a
período. Assim, primeiramente, para testar se a série é estacionária, o teste Dickey–Fuller
pode ser utilizado. Esse teste tem como hipótese nula a presença de raiz unitária na série
e como hipótese alternativa a estacionaridade.
𝐻0: 𝑃𝑟𝑒𝑠𝑒𝑛ç𝑎 𝑑𝑒 𝑟𝑎𝑖𝑧 𝑢𝑛𝑖𝑡á𝑟𝑖𝑎
𝐻1: 𝑆é𝑟𝑖𝑒 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛á𝑟𝑖𝑎
O resultado desse teste é uma estatística de teste (D-F statistic) que se caracteriza
por ser um número menor que zero e quanto mais negativo é esse valor, mais evidências
existem para se rejeitar a hipótese nula.
Em relação à autocorrelação dos resíduos, foi proposto por Ljung–Box (1978) um
teste em que as hipóteses são:
Parte não sazonal
Parte sazonal
32
𝐻0: 𝑂𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝑠ã𝑜 𝑖. 𝑖. 𝑑.
𝐻1: 𝑂𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝑛ã𝑜 𝑠ã𝑜 𝑖. 𝑖. 𝑑.
Em que i.i.d. significa independente e identicamente distribuído.
As estimativas de autocorrelações é calculada por:
Assim, é possível calcular a estatística Q,
Q terá aproximadamente uma distribuição 𝑋2com (K - p - q) graus de liberdade,
onde K é o número de defasagens tomada na função de autocorrelação, p e q são as ordens
do modelo ajustado. O modelo não apresenta autocorrelação nos resíduos é conhecido
por ter um “ruído branco”.
2.3.6 Etapas da Metodologia Box-Jenkins
Para se construir um modelo ARIMA é preciso seguir uma metodologia de seleção
de variáveis em que somente a variável objeto de estudo é levada em consideração.
Segundo Morretin & Toloi (1987) esse processo é interativo. A metodologia proposta por
Box & Jenkins (1976) pode ser dividida em três momentos:
a. Identificação: Determinar qual é o comportamento da série e o modelo que melhor
representa a mesma. Nessa etapa devem ser consideradas a presença de tendência e
sazonalidade. Para uma identificação assertiva do modelo se deve usar as funções de
autocorrelação (ACF) e das funções de autocorrelação parciais (PACF). Um quadro
resumo foi proposto por Franco (2011) e está representado na Tabela 2.1:
33
Tabela 2.1 Quadro resumo modelos autoregressivos
Processo ACF PACF
AR(1) Decaimento exponencial: na parte positiva se Ф1>0 e na parte negativa se Ф1<0.
Pico no primeiro lag e depois cai para zero. Pico positivo se Ф1>0 e negativo se Ф1<0
AR(p) Decaimento exponencial ou forma senoidal. O padrão depende do sinal de Ф1, Ф2,...,Фp.
Picos do primeiro ao p-ésimo lag, depois cai para zero.
MA(1) Pico no primeiro lag e depois cai para zero. Pico positivo se θ1<0 e negativo se θ1>0
Decaimento exponencial: na parte negativa se θ1>0 e na parte positiva se θ1<0.
MA(q) Picos do primeiro ao q-ésimo lag, depois cai para zero.
Decaimento exponencial ou forma senoidal. O padrão depende do sinal de θ1, θ2,...,θq.
b. Estimação: Estimação dos parâmetros
c. Verificação: Analisar se o modelo representa bem o comportamento dos dados.
Assim, para definição do modelo ARIMA é necessário fazer uma avaliação crítica
da função de autocorrelações (ACF) e da função de autocorrelações parciais (PACF) e
inevitavelmente testar prováveis combinações. No entanto, no presente foi utilizada a
biblioteca “forecast” disponível no R-Studio na qual está presente a função auto.arima
que automatiza a seleção de variáveis ao selecionar aquela com maior poder informativo.
O critério de comparação é o indicador AIC (Akaike Information Criterion) que quanto
menor o valor do 𝐴𝐼𝐶, melhor é o modelo.
34
3 METODOLOGIA
No presente capítulo é abordado a metodologia, incluindo os dados e sua natureza,
a forma de coleta, o tratamento dos dados e as delimitações do método.
Na Seção 3.1 é apresentado quais dados foram coletados.
Na Seção 3.2 é informado o meio como os dados foram coletados e os programas
utilizados para metodologia.
Na Seção 3.3 é apresentada cada uma variável, suas características mais
importantes e uma análise inicial da relação entre elas.
Na Seção 3.4 é explicado o processo de seleção de variáveis de cada modelos.
Na Seção 3.5 é informado o critério de comparação entre os modelos.
3.1 POPULAÇÃO E AMOSTRA
Conforme mencionado no Capítulo 1, as vendas de gasolina foram o alvo desse
estudo e mais precisamente foram utilizados os dados entre Maio de 2004 e Dezembro de
2017. Como possíveis variáveis explicativas foram coletados dados em série temporal
trimestral do preço da gasolina, do PIB, do desemprego, do licenciamento de veículos e
da frota de veículos. Todas as variáveis escolhidas como candidatas a entrarem no modelo
possuem alguma relação econômica com a venda de gasolina que é a variável de interesse.
Essa intuição econômica será apresenta na parte 3.3 que diz respeito ao tratamento e
análise dos dados.
3.2 COLETA DE DADOS
Os dados foram coletados pelo próprio pesquisador, sendo as principais fontes:
Agência Nacional do Petróleo (ANP), Banco Central do Brasil (BACEN), Instituto
Brasileiro de Geografia e Estatística (IBGE) e Associação Nacional dos Fabricantes de
Veículos Automotores (ANFAVEA). O período da coleta ocorreu entre Março de 2018 e
Abril de 2018. Os dados foram organizados e analisados a partir do uso da ferramenta R-
Studio.
35
3.3 TRATAMENTO E ANÁLISE DE DADOS
A Tabela 3.1, indica as variáveis utilizadas e os detalhes de cada uma, em seguida
uma visão da evolução temporal principal elemento é o gráfico de linha ao longo do
tempo.
Tabela 3.1 Definições das variáveis
Variável Tipo ID Min Mediana Max
Vendas de Gasolina Numérica
(𝑚3) ven 4.996.740 6.430.572 11.725.067
Preço da Gasolina Numérica
($) preco 1,79 2,33 3,76
PIB Numérica
(Milhões R$) pib 274.781 442.133 594.271
Desemprego Numérica
(%) des 5,67 9,27 13,30
Licenciamento de
Veículos
Numérica
(Contagem) lic 210.250 547.830 1.034.391
Frota Estimada de
Veículos
Numérica
(Contagem) frota 17.938.807 26.388.486 41.514.522
Vendas de Gasolina: Volume em metros cúbicos das vendas realizadas pelas
distribuidoras de gasolina C no Brasil.
Essa é a variável de maior relevância para o presente trabalho pois os modelos
propostos visam prever o comportamento da mesma. A partir da figura 3.1, pode-se
perceber a sazonalidade anual da série e também uma suave inclinação a partir do terceiro
trimestre de 2009 que indica tendência positiva.
Fonte: Agência Nacional de Petróleo (ANP, 2018); conforme Resolução ANP n°
17/2014.
36
Figura 3.1 Descrição da Variável Vendas
2000
4000
6000
8000
10000
12000
14000
20
00
.12
00
0.3
20
01
.12
00
1.3
20
02
.12
00
2.3
20
03
.12
00
3.3
20
04
.12
00
4.3
20
05
.12
00
5.3
20
06
.12
00
6.3
20
07
.12
00
7.3
20
08
.12
00
8.3
20
09
.12
00
9.3
20
10
.12
01
0.3
20
11
.12
01
1.3
20
12
.12
01
2.3
20
13
.12
01
3.3
20
14
.12
01
4.3
20
15
.12
01
5.3
20
16
.12
01
6.3
20
17
.12
01
7.3
Milh
ares
Vendas (m³) x Tempo
14,8015,00
15,2015,4015,6015,80
16,0016,20
16,40
20
00
.12
00
0.3
20
01
.12
00
1.3
20
02
.12
00
2.3
20
03
.12
00
3.3
20
04
.12
00
4.3
20
05
.12
00
5.3
20
06
.12
00
6.3
20
07
.12
00
7.3
20
08
.12
00
8.3
20
09
.12
00
9.3
20
10
.12
01
0.3
20
11
.12
01
1.3
20
12
.12
01
2.3
20
13
.12
01
3.3
20
14
.12
01
4.3
20
15
.12
01
5.3
20
16
.12
01
6.3
20
17
.12
01
7.3
log(Vendas) x Tempo
-0,20
-0,15
-0,10
-0,05
0,00
0,05
0,10
0,15
20
00
.12
00
0.3
20
01
.12
00
1.3
20
02
.12
00
2.3
20
03
.12
00
3.3
20
04
.12
00
4.3
20
05
.12
00
5.3
20
06
.12
00
6.3
20
07
.12
00
7.3
20
08
.12
00
8.3
20
09
.12
00
9.3
20
10
.12
01
0.3
20
11
.12
01
1.3
20
12
.12
01
2.3
20
13
.12
01
3.3
20
14
.12
01
4.3
20
15
.12
01
5.3
20
16
.12
01
6.3
20
17
.12
01
7.3
Dif(log(Vendas))
37
Preço da Gasolina: Preço médio, em reais, praticado pelas distribuidoras de gasolina C
no Brasil.
O preço em questão se refere ao praticado pelas distribuidoras de combustíveis
em todo Brasil que é divulgado mensalmente em relatório pela Agência Nacional do
Petróleo. Acredita-se que a relação entre preço e vendas respeite a lei da demanda que
prevê um comportamento inverso entre preço e demanda (i.e. um aumento do preço da
gasolina causaria uma pressão para redução do consumo da mesma). Ao se analisar os
gráficos é possível concluir que houve um aumento consistente dos preços ao longo do
período de estudo que pode ser explicado pela inflação e por isso se acredita ter pouco
poder de explicação para as vendas de gasolina. Outra análise a ser pontuada é que não
há sazonalidade anual no movimento do preço da gasolina ao longo do tempo.
Fonte: Agência Nacional de Petróleo (ANP, 2018).
Figura 3.2 Descrição da Variável Preço
130000
135000
140000
145000
150000
Tri_1 Tri_2 Tri_3 Tri_4
Milh
ares
Soma Vendas por Trimestre
38
PIB: Produto Interno Bruto em milhões de reais deflacionado, tendo como período base
Janeiro de 2000 e como índice de inflação o índice nacional de preços ao consumidor
amplo (IPCA).
A opção por retirar o efeito da inflação dos dados referente ao produto interno
bruto se justifica pois a variável preço já está sendo considerada e nela o processo
inflacionário se faz presente. A intuição econômica de incluir ou ao menos investigar a
variável em questão para entender o comportamento das vendas de gasolina é direto.
Acredita-se que uma economia mais pujante impacte positivamente as vendas de gasolina
pois muitos dos fatores de produção dependem dessa fonte de energia para seu
funcionamento. O PIB trimestral deflacionado apresenta sazonalidade anual que é
caracterizada por um vale no primeiro trimestre e um pico no quarto trimestre do ano.
Observa-se também presença de tendência positiva ao longo do tempo.
Fonte: (IBGE, BACEN, 2017)
1,50
2,00
2,50
3,00
3,50
4,00
20
04
.2
20
04
.4
20
05
.2
20
05
.4
20
06
.2
20
06
.4
20
07
.2
20
07
.4
20
08
.2
20
08
.4
20
09
.2
20
09
.4
20
10
.2
20
10
.4
20
11
.2
20
11
.4
20
12
.2
20
12
.4
20
13
.2
20
13
.4
20
14
.2
20
14
.4
20
15
.2
20
15
.4
20
16
.2
20
16
.4
20
17
.2
20
17
.4
Preço Gasolina (R$/L) x Tempo
0,00
0,50
1,00
1,50
2,00
2,50
3,00
Tri_1 Tri_2 Tri_3 Tri_4
Média Preço por Trimestre
39
Figura 3.3 Descrição da Variável PIB
Desemprego: Taxa de desocupação em percentual aferida pela Pesquisa Nacional por
Amostra de Domicílios Contínua (PNADC).
Ao se considerar o desemprego, espera-se uma relação inversa entre a taxa e as
vendas de gasolina. Acredita-se que quanto menor o índice de desocupação maior será o
consumo de combustível seja para o transporte para até o local de trabalho, seja para o
transporte pessoal que tende a aumentar devido ao aumento da renda proveniente do
emprego adquirido. No período de estudo, pode-se observar que houve significativa
redução de desemprego entre 2001 e 2014 porém esse indicador piorou muito após 2014
e chegou ao fim da série chegou ao mesmo patamar de 2001 em torno de 12%. A série
200
300
400
500
600
700
20
00
.12
00
0.3
20
01
.12
00
1.3
20
02
.12
00
2.3
20
03
.12
00
3.3
20
04
.12
00
4.3
20
05
.12
00
5.3
20
06
.12
00
6.3
20
07
.12
00
7.3
20
08
.12
00
8.3
20
09
.12
00
9.3
20
10
.12
01
0.3
20
11
.12
01
1.3
20
12
.12
01
2.3
20
13
.12
01
3.3
20
14
.12
01
4.3
20
15
.12
01
5.3
20
16
.12
01
6.3
20
17
.12
01
7.3
Bilh
ões
PIB x Tempo
5000000
6000000
7000000
8000000
9000000
Tri_1 Tri_2 Tri_3 Tri_4
Soma PIB por Trimestre
40
estudada não apresenta características de tendência ou sazonalidade, fato que condiz com
a intuição econômica.
Fonte: (IBGE, 2017)
Figura 3.4 Descrição da Variável Desemprego
Licenciamento de Veículos: Somatório do número de licenciamentos de automóveis e
veículos comerciais no período. Inclui tanto licenciamentos nacionais como
internacionais.
4%
6%
8%
10%
12%
14%
20
01
.4
20
02
.2
20
02
.4
20
03
.2
20
03
.4
20
04
.2
20
04
.4
20
05
.2
20
05
.4
20
06
.2
20
06
.4
20
07
.2
20
07
.4
20
08
.2
20
08
.4
20
09
.2
20
09
.4
20
10
.2
20
10
.4
20
11
.2
20
11
.4
20
12
.2
20
12
.4
20
13
.2
20
13
.4
20
14
.2
20
14
.4
20
15
.2
20
15
.4
20
16
.2
20
16
.4
20
17
.2
20
17
.4
Desemprego x Tempo
5,0%
6,0%
7,0%
8,0%
9,0%
10,0%
Tri_1 Tri_2 Tri_3 Tri_4
Média Taxa de Desemprego por Trimestre
41
Essa variável pretende capturar o volume de carros novos originados pelo
consumo das famílias e que tendem a impactar positivamente o consumo de gasolina pelas
mesmas. A intuição direta é que quanto mais carros sendo vendidos, maior será o
consumo de gasolina no trimestre ou em trimestre posteriores. A série de dados no período
de estudo apresentou grande variação devido à sazonalidade anual caracterizada por vales
no segundo semestre e picos nos quartos trimestres do ano. Além disso, pode-se constatar
significativa tendência positiva a partir de 2006 que só foi interrompida pelos anos de
recessão entre 2014 e 2016.
Fonte: (ANFAVEA, 2017)
Figura 3.5 Descrição da Variável Licenciamento de Veículos
0
200
400
600
800
1000
1200
20
00
.12
00
0.3
20
01
.12
00
1.3
20
02
.12
00
2.3
20
03
.12
00
3.3
20
04
.12
00
4.3
20
05
.12
00
5.3
20
06
.12
00
6.3
20
07
.12
00
7.3
20
08
.12
00
8.3
20
09
.12
00
9.3
20
10
.12
01
0.3
20
11
.12
01
1.3
20
12
.12
01
2.3
20
13
.12
01
3.3
20
14
.12
01
4.3
20
15
.12
01
5.3
20
16
.12
01
6.3
20
17
.12
01
7.3
Milh
ares
Licenciamentos Totais x Tempo
9000000
9500000
10000000
10500000
11000000
11500000
12000000
Tri_1 Tri_2 Tri_3 Tri_4
Soma Licenciamentos por Trimestre
42
Frota Estimada de Veículos: Total de automóveis e veículos comerciais leves que se
encontram em circulação no período.
Para tornar a análise da relação entre o volume de veículos e o consumo de
gasolina mais completa não é suficiente considerar apenas a entrada de automóveis no
sistema através da variável licenciamentos de veículos que foi descrita anteriormente. Se
faz necessário também a consideração da saída de veículos do sistema. O resultado da
frota no início do ano acrescido do volume de entrada e subtraído do volume de saída é
justamente a frota de veículos em circulação que é divulgada pela Associação Nacional
dos Fabricantes de Veículos Automotores. A intuição econômica nesse caso como no da
variável anterior diz que quanto maior a frota de veículos em circulação, maior deverá ser
o consumo de gasolina no Brasil. A série no período estudado apresentou presença de
tendência positiva e não apresentou característica de sazonalidade anual.
Fonte: (ANFAVEA, 2017)
Figura 3.6 Descrição da Variável Frota
0
10000
20000
30000
40000
50000
20
00
.12
00
0.3
20
01
.12
00
1.3
20
02
.12
00
2.3
20
03
.12
00
3.3
20
04
.12
00
4.3
20
05
.12
00
5.3
20
06
.12
00
6.3
20
07
.12
00
7.3
20
08
.12
00
8.3
20
09
.12
00
9.3
20
10
.12
01
0.3
20
11
.12
01
1.3
20
12
.12
01
2.3
20
13
.12
01
3.3
20
14
.12
01
4.3
20
15
.12
01
5.3
20
16
.12
01
6.3
Milh
ares
Frota de Veículos x Tempo
43
A figura 3.7 abaixo representa o coeficiente de correlação entre as variáveis. O
interesse em analisar a correlação está em verificar possíveis candidatas para o modelo
de regressão, assim como avaliar a presença de colinearidade.
Figura 3.7 Correlação entre variáveis
A partir dos valores apresentados fica evidente a predominância da cor azul no
gráfico, isto é, variáveis altamente correlacionadas. Uma conclusão ingênua seria afirmar
que todas as demais variáveis possuem grande potencial para explicar as vendas de
49000000
149000000
249000000
349000000
449000000
549000000
649000000
Tri_1 Tri_2 Tri_3 Tri_4
Soma Frota de Veículos por Trimestre
44
gasolina, porém isso seria um equívoco. Nas figuras que representam as séries temporais
é possível observar que, à exceção do desemprego, todas as variáveis sugerem tendência
crescente ao longo do tempo. Assim, é nesse fato que reside a relação estreita entre as
vendas de gasolina e as demais variáveis.
Para contornar essa dificuldade sugerimos um pequeno tratamento nos dados. Foi
obtida a diferença de um período de cada variável e depois refeito o gráfico de correlação.
Os novos valores se encontram na figura 3.8 abaixo.
Figura 3.8 Correlação entre variáveis a primeira diferença
De posse desses valores é possível constatar que as variáveis vendas, PIB e
Licenciamento de Veículos possuem alta correlação entre si e se candidatam como
possíveis variáveis explicativas para o modelo. Já Preço da Gasolina e Frota se tornam
irrelevantes após o tratamento de tendência. A variável Desemprego apresentou
correlação de -0,46 que apesar de baixa ainda deixa espaço para uma avaliação mais
cuidadosa da sua relevância.
45
Vale adicionar que os dados em série temporal geralmente apresentam
autocorrelação entre os resíduos pois é esperado que existam efeitos de tendência e
sazonalidade ao longo do tempo. Note que quando se realiza a primeira diferença nos
dados é esperado que o efeito de tendência desapareça e isso significa que as
autocorrelações entre os resíduos se tornem aleatória e transite em torno de zero. Esse
tipo de comportamento nos resíduos de uma série é chamado de ruído branco.
3.4 SELEÇÃO DE VARIÁVEIS
3.4.1 REGRESSÃO LINEAR MÚLTIPLA
O processo de seleção do modelo de Regressão Linear Múltipla utilizado se baseou
em três pilares: significância estatística dos parâmetros, validação das hipóteses de Gauss-
Markov e relevância econômica. O primeiro elemento diz respeito ao teste de hipótese
que verifica existem evidências de que o parâmetro é diferente de zero. O nível de
significância utilizado foi de 5%. O segundo foi detalhadamente discutido revisão teórica
e garante que os estimadores por Mínimos Quadrados Ordinários sejam não viesados e
eficientes. Por fim, o terceiro pilar visa evitar que variáveis sem relevância econômica
sejam incluídas ao modelo mesmo que apresentem significância estatística. Relevância
neste caso pode ser mais precisamente definido como capacidade do regressor de explicar
a variável dependente.
Por exemplo, suponha o modelo:
𝑣𝑒𝑛𝑙𝑜𝑔 = 3,2 + 0,21 𝑝𝑖𝑏𝑙𝑜𝑔 − 0,000002 𝑑𝑒𝑠 (3.1)
(0,8) (0,03) (0,0000007)
Em que venlog representa o logaritmo das vendas, piblog o logaritmo do PIB e
des a taxa de desemprego em valores percentuais. Os valores entre parênteses representam
os respectivos erros-padrão de cada parâmetro. Observe que a variável des é
estatisticamente significante ao nível de 5% (𝑡 = 2,85), porém ao interpretarmos seu
efeito econômico, percebe-se que uma queda de 6% na taxa de desemprego explica um
aumento irrisório de 0,0012% nas vendas de veículos. Assim, optamos por excluir
variáveis pouco explicativas com o intuito de deixar o modelo mais parcimonioso.
46
Portanto, definidos os critérios de seleção, basta mencionar que as variáveis foram
sendo adicionadas uma a uma ao modelo pela ordem decrescente do coeficiente de
correlação com a variável de interesse (Vendas de Veículos).
O fluxograma da figura 3.9 abaixo ilustra o processo de seleção de variáveis
adotado.
Figura 3.9 Fluxograma do processo de seleção de variáveis
3.4.2 ARIMA
Como discutido no Capítulo 2, a definição do modelo ARIMA é necessário fazer
uma avaliação da função de autocorrelações (ACF) e da função de autocorrelações
47
parciais (PACF) no intuito de selecionar o modelo de previsão. No entanto, no presente
foi utilizada a biblioteca “forecast” disponível no R-Studio na qual está presente a função
auto.arima que automatiza a seleção de variáveis ao selecionar aquela com maior poder
informativo. O critério de comparação é o indicador AIC (Akaike Information Criterion)
que quanto menor o valor do 𝐴𝐼𝐶, melhor é o modelo.
3.5 COMPARAÇÃO ENTRE MODELOS
A comparação entre os modelos foi feita com o objetivo de verificar qual deles
apresenta maior acuracidade na previsão de demanda. Assim, o indicador utilizado foi o
Erro Quadrado Médio (EQM) que pode ser calculado pela formula:
𝐸𝑄𝑀 =∑ (𝑦𝑖 − ��𝑖)
2𝑛𝑖=1
𝑛 (3.2)
Em que 𝑦𝑖 é o valor real de vendas, ��𝑖 é o valor previsto para as vendas de gasolina
e 𝑛 é o número total de previsões.
48
4 RESULTADOS
A seção 4.1 aborda a análise estatística e interpretação do modelo final de
Regressão Linear Múltipla e a interpretação do resultado.
Na seção 4.2 a análise estatística e interpretação do modelo final do processo
ARIMA, assim como a interpretação do resultado.
Na seção 4.3 é feita a comparação entre os modelos sugeridos.
4.1 REGRESSÃO LINEAR MÚLTIPLA
A partir do processo de seleção de variáveis descrito no capítulo anterior, chegou-se
a um modelo AR(1) com sazonalidade. A tabela 4.1 detalha o caminho percorrido através
do processo descrito pelo fluxograma na Figura 3.9 até a definição do modelo.
Tabela 4.1 Seleção de variáveis RLM
Variáveis Explicativas
Coeficiente R²
Ajustado Correlação Serial
( Breusch-Godfrey) Homocedasticidade
(Breusch-Pagan) Normalidade
(Shapiro-Wilk)
preco Β: -0,0024
p-valor: 0,9 -0,02 x x x
des Β: -0,0034
p-valor: 0,4 x x x
frota Β: 6,7 e-08
p-valor: 0,11 0,03 x x
pib Β: 0,77
p-valor: < 0,01 0,39 p-valor: 0,84 p-valor: 0,22 p-valor: 0,72
lic Β: 0,17
p-valor: < 0,01 0,20 p-valor: 0,88 p-valor: 0,17 p-valor: 0,44
pib + lic
Βpib: 0,81 p-valor: < 0,01
Blic: -0,02 p-valor: 0,7
0,38 x x x
pib + tri(1,2,3)
Βpib: 0,51 p-valor: 0,07
Btri(1,2,3): > 0,03 p-valor: < 0,04
0,53 p-valor: 0,97 p-valor: 0,07 p-valor: 0,16
ven_lag + tri(1,2,3)
Βpib: 0,98 p-valor: < 0,01
Btri(1,2,3): > 0,05 p-valor: < 0,01
0,98 p-valor: 0,50 p-valor: 0,10 p-valor: 0,26
49
A partir da tabela é possível verificar que os modelos usando as variáveis preço,
desemprego e frota de veículos não são significativos estatisticamente ao nível de 5%,
pois o p-valor em todos eles está acima desse patamar. Também foram testados os
modelos utilizando as variáveis PIB e licenciamento de veículos, ambas surtiram modelos
válidos e que cumpriram as hipóteses teóricas, mas com baixo poder de explicação.
Posteriormente, tentou-se utilizar essas duas variáveis em conjunto, porém uma vez
controlado o efeito do pib a capacidade explicativa do licenciamento se tornou não
significante. Tendo em vista que o PIB é variável mais promissora dentre as que estão no
escopo do presente trabalho, criou-se um modelo usando o PIB acrescido de três variáveis
dummies que representam os trimestres. Como pode ser observado na Tabela 4.1 o
modelo passou pelas exigências em um nível de 7%. Por fim, foi testado o modelo AR(1)
acrescido das variáveis de sazonalidade trimestral que obteve melhor desempenho em
todos as exigências estabelecidas, inclusive apresentando capacidade explicativa (R²:
0,98) muito superior aos demais.
Todo processamento estatístico foi realizado através do software R-Sudio e a seguir
se encontra a tabela 4.2 com o resumo da regressão.
Tabela 4.2 Resumo da Regressão
Em que B são os coeficientes estimados, CI o intervalo de confiança dos
coeficientes e p o p-valor do teste t de cada estimador.
50
A partir dos valores dispostos na Tabela 4.2, pode-se observar que todos os
estimadores são significantes ao nível de 5% de significância com exceção do intercepto.
Esse resultado nos fornece evidência suficiente para considerarmos a série temporal das
Vendas de Gasolina como um caso de passeio aleatório (Random Walk). Isso ocorre
quando o coeficiente de inclinação de uma auto-regressão de ordem um é justamente a
unidade. Essa característica fica clara no intervalo de confiança do coeficiente de
venloglag que varia entre 0,95 e 1,03. O modelo do tipo passeio aleatório prevê que o
valor esperado para o período o subsequente nada mais é do que o período corrente.
Deve-se destacar também o papel da sazonalidade nos resultados observados. Da
maneira que o modelo foi construído o período base da regressão é o quarto trimestre. A
interpretação correta da regressão prevê que fixados os valores das demais variáveis
(venlogloag, pibloglag), o efeito no primeiro trimestre será em média 0,6 pontos
percentuais menor do que no quarto trimestre.
No que diz respeito à validação das hipóteses, iniciamos com o teste de correlação
serial Durbin-Watson. Observa-se que não há evidencias, ao nível de 5% de significância,
para rejeitar a hipótese nula de que não existe a presença de auto-correlação. Abaixo os
detalhes do teste gerado pelo R-Studio.
Tabela 4.3 Teste Durbin-Watson
Lag D-W Estatística p-valor
1 0,0934 1,7875 0,458
Uma vez válida a hipótese de inexistência de correlação serial, verificou-se a
hipótese de homocedasticidade pela análise gráfica. Por meio da figura 4.1, constata-se a
inexistência de qualquer tipo de padrão nos resíduos.
Figura 4.1 Resíduos Studentizados vs Valores Previstos
51
Outra possibilidade para verificar homocedasticidade é realizar o teste Breusch-
Pagan. O resultado corrobora a análise anterior, pois não apresenta evidencias, ao nível
de 5% de significância, para rejeitar a hipótese nula de que os resíduos são
homocedásticos. Abaixo os detalhes do teste gerado pelo R-Studio.
Tabela 4.4 Teste Breusch-Pagan
BP df p-valor
7,07396 4 0,1016
O último teste que envolve os resíduos busca verificar se os mesmos seguem uma
distribuição normal e é denominado teste de Shapiro-Wilk. Essa hipótese também foi
satisfeita, como pode ser observado nos resultados abaixo.
Tabela 4.5 Teste Shapiro-Wilk
W p-valor
0,97144 0,2646
A Figura 4.2 demonstra o histograma da distribuição dos resíduos studentizados e
que aproximadamente possui uma distribuição normal.
Figura 4.2 Histograma dos Resíduos
52
A Figura 4.3 indica o QQ plot da distribuição dos resíduos studentizados e a sua
diagonal está próxima de ângulo de 45 graus sugerindo que os resíduos são normalmente
distribuídos.
Figura 4.3 QQ Plot
4.2 ARIMA
Conforme explicado no capítulo 2, para definição do modelo ARIMA é necessário
fazer uma avaliação da função de autocorrelações (ACF) e da função de autocorrelações
parciais (PACF) no intuito de selecionar o modelo de previsão. A figura 4.4, 4.5 e 4.6
apresentam justamente essas funções referentes aos dados de vendas de gasolina, log das
vendas de gasolina e diferença do log das vendas de gasolina respectivamente. Em
seguida de cada figura está presente a interpretação dos comportamentos dos resíduos.
53
Figura 4.4 ACF e PACF das Vendas de Gasolina
Como pode ser observado na figura 4.4 o gráfico ACF apresenta um decaimento que
pode ser interpretado como um decaimento exponencial. Já o gráfico PACF apresenta um
pico evidente no primeiro lag e posteriormente autocorrelações menores porém não
desprezíveis. Esse resultado confere indícios para ser selecionado um modelo AR uma
vez que a teoria prevê um decaimento exponencial no gráfico ACF e um pico no primeiro
lag para esse tipo de modelo. No entanto, um ponto de atenção se mantém no gráfico
PACF devido aos picos menores porém relevantes no quinto e nono lag.
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
ACF - Vendas
-0,34-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
PACF - Vendas
54
Figura 4.5 ACF e PACF da transformação log Vendas de Gasolina
Os gráficos ACF e PACF da transformação logarítmica dos dados preserva as
características principais dos gráficos originais, porém é possível observar que as
autocorrelaçãoes parciais do gráfico PACF estão menores, isto é, a variância da série foi
amenizada. Como mencionado anteriormente, essa transformação é importante na
satisfação da hipótese teórica que diz respeito à homocedasticidade dos resíduos.
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
ACF - log(Vendas)
-0,29-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
PACF - log(Vendas)
55
Figura 4.6 ACF e PACF da diferença de log Vendas de Gasolina
Os dados em série temporal geralmente apresentam autocorrelação entre os
resíduos pois é esperado que existam efeitos de tendência e sazonalidade ao longo do
tempo. Note que quando se realiza a primeira diferença nos dados é esperado que o efeito
de tendência desapareça e isso significa que as autocorrelações entre os resíduos se
tornem aleatória e transite em torno de zero. Esse tipo de comportamento nos resíduos de
uma série é chamado de ruído branco. No entanto, não foi isso que ocorreu com os dados
de vendas de gasolina. Ao se analisar o gráfico ACF, perceba que o decaimento
exponencial mudou de padrão porém continua presente nas autocorrelações. A diferença
está no fato de que o novo decaimento se dá entre intervalos de 4 lags, como indicado
pela reta tracejada presente na figura 4.6. Esse padrão indica a presença de sazonalidade
anual das vendas de gasolina.
Mesmo os gráficos apontando para um modelo autoregressivo com sazonalidade,
ainda é preciso verificar os graus de defasagem do modelo AR. Isso significa construir
diferentes modelos gerar seus resultados e compará-los. Felizmente na biblioteca
-0,6
-0,4
-0,2
0
0,2
0,4
0,6
0,8
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
ACF - Dif(log(Vendas)
-0,4
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
0,5
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
PACF - Dif(log(Vendas))
56
“forecast” disponível no R-Studio está presente uma função denominada auto.arima que
automatiza justamente essa comparação entre potenciais modelos. Os resultados são
apresentados a seguir na figura 4.7.
Figura 4.7 Resultado da Função auto.arima
Como pode ser observado na parte inferior da figura a função apresentou o modelo
SARIMA(1,0,0)(1,1,0) como sendo o mais acurado. O critério de comparação é o
indicador AIC (Akaike Information Criterion) que quanto menor o valor do 𝐴𝐼𝐶, melhor
é o modelo.
Note que em alguns casos ao lado do modelo testado aparece a expressão with
drift. Nos modelos com essa propriedade o termo constante está sendo considerado na
equação de previsão e no caso de significância do mesmo, existe indicação para a
presença de tendência mesmo com os dados transformados a primeira diferença.
Os detalhes do modelos selecionados estão a seguir:
Tabela 4.6 Modelo SARIMA
AR(1) sAR(1)
Coeficiente 0,92 -0,48
Erro Padrão 0,05 0,13
57
Apesar da função ser muito eficiente quanto a seleção do modelo ainda é preciso
verificar se as hipóteses teóricas que dizem respeito ao comportamento dos resíduos são
válidas. Nesse sentido, primeiramente, foi avaliado se a série é estacionária por meio do
augmented Dickey–Fuller test (ADF). O teste apresentou evidências significativas ao
nível de 1,0% de que a série é estacionária. Os resultados estão na Tabela 4.7 abaixo.
Tabela 4.7 Teste Dickey–Fuller (ADF)
D-F p-valor
-7,7177 0,01
Posteriormente foi testado se os resíduos são autocorrelacionados ao longo da
mesma. A discussão prévia nos dá indícios que quando feita a primeira diferença nos
dados, a autocorrelação é praticamente eliminada, restando somente o efeito sazonal que
foi também solucionado quando se optou por um modelo que capture a sazonalidade. Para
verificar essa conclusão foi usado o teste Ljung–Box que visa verificar se existe
autocorelação considerando cada defasagem (lag) do modelo. A tabela 4.8 e a figura 4.8
resume o resultado de que o modelo está bem ajustado uma vez que o p-valor se encontra
acima de 5%, não sendo possível refutar a hipótese nula de que os resíduos não são
autocorrelacionados.
Tabela 4.8 Resultado do teste Ljung–Box
m Qm p-valor
1 0,75 0,39
2 1,48 0,22
3 2,56 0,11
4 2,76 0,25
5 6,64 0,08
6 8,44 0,08
7 9,74 0,08
8 11,38 0,08
9 11,4 0,12
10 11,4 0,18
58
11 13,17 0,16
12 17,72 0,06
13 17,72 0,09
14 17,73 0,12
15 19,31 0,11
16 19,82 0,14
17 21,96 0,11
18 22,69 0,12
19 23,54 0,13
20 23,56 0,17
Figura 4.8 Resultado do teste Ljung–Box
Outra hipótese que deve ser satisfeita é a de que os resíduos devem seguir uma
distribuição normal. A Figura 4.9 que apresenta o QQ plot da distribuição dos resíduos.
Observa-se que a diagonal está bem ajustada, sugerindo que os resíduos são normalmente
distribuídos.
Figura 4.9 QQ Plot dos resíduos SARIMA
59
4.3 COMPARAÇÃO ENTRE MODELOS
Em decorrência do baixo volume de dados disponíveis, a comparação entre os
modelos de RLM e SARIMA foi feita em duas etapas. Na primeira, após a seleção das
variáveis descrita nas sessões anteriores, os modelos foram gerados utilizando dados até
2015 que tiveram os resultados de previsão comparados dentro do ano de 2016. Essa
primeira etapa deve ser entendida como uma fase de validação. Na segunda etapa, os
modelos foram gerados utilizando dados até 2016 que tiveram os resultados comparados
dentro dos anos de 2017 e 2018. Essa última etapa foi denominada fase de conclusão.
4.3.1 FASE DE VALIDAÇÃO
A seguir se encontra a tabela 4.9 com o resumo da regressão de validação.
Tabela 4.9 Resumo da RLM na fase de validação
A Tabela 4.10 apresenta os principais indicadores de acuracidade obtidos pelo
modelo de Regressão Linear Múltipla, AR(1) com sazonalidade na fase de validação. Já
a figura 4.10 promove uma visão gráfica desse desempenho.
60
Tabela 4.10 Resultados RLM na fase de validação
Período Vendas Previsão Erro Erro/Vendas Erro²
2016.1 10.518.392 10.473.453 44.938 0,43% 2.019.435.646
2016.2 10.371.025 10.182.822 188.202 1,81% 35.420.145.165
2016.3 10.579.373 9.589.942 989.431 9,35% 978.974.506.462
2016.4 11.550.293 10.014.092 1.536.201 13,30% 2.359.912.616.966
Raiz EQM
918.739
Figura 4.10 Vendas e Previsão RLM na fase de validação
O modelo de regressão AR(1) com sazonalidade obteve erro máximo de 13,3%
em relação as vendas reais e mínimo de 0,43%. A raiz do erro quadrático médio foi de
918.793 m³ de gasolina.
Também foi avaliado o modelo SARIMA. A Tabela 4.11 apresenta os principais
indicadores de acuracidade obtidos pelo modelo SARIMA (1,0,0)(1,1,0) na fase de
validação. Já a figura 4.6 promove uma visão gráfica desse desempenho.
Tabela 4.11 Tabela de Resultados SARIMA na fase de validação
Período Vendas Previsão Erro Erro/Vendas Erro²
2016.1 10.518.392 9.804.284 714.108 6,79% 509.949.560.909
2016.2 10.371.025 9.831.775 539.250 5,20% 290.790.558.636
2016.3 10.579.373 9.927.309 652.064 6,16% 425.187.611.366
2016.4 11.550.293 10.561.966 988.327 8,56% 976.789.364.927
Raiz EQM 742.078
4,0
6,0
8,0
10,0
12,0
14,0
20
04
.2
20
05
.1
20
05
.4
20
06
.3
20
07
.2
20
08
.1
20
08
.4
20
09
.3
20
10
.2
20
11
.1
20
11
.4
20
12
.3
20
13
.2
20
14
.1
20
14
.4
20
15
.3
20
16
.2
Milh
ões
Vendas de Gasolina m³
Vendas
RLM -Validação
61
Figura 4.11 Vendas e Previsão SARIMA na fase de validação
O modelo SARIMA (1,0,0)(1,1,0). obteve erro máximo de 8,56% em relação as
vendas reais e mínimo de 5,20%. A raiz do erro quadrático médio foi de 742.078 m³ de
gasolina.
Portanto, verifica-se que o modelo SARIMA apresentou acuracidade superior ao
modelo AR(1) com sazonalidade ao serem confrontados os erros quadráticos médios. Na
próxima etapa os modelos foram recalibrados utilizando os dados até final de 2016. O
objetivo é verificar se os resultados obtidos na fase de validação se confirmam na fase de
conclusão.
4.3.2 FASE DE CONCLUSÃO
A Tabela 4.12 apresenta os principais indicadores de acuracidade obtidos pelo
modelo de Regressão Linear Múltipla, AR(1) com sazonalidade na fase de conclusão. Já
a figura 4.5 promove uma visão gráfica desse desempenho.
Tabela 4.12 Resultados RLM na fase de conclusão
Período Vendas Previsão Erro Erro/Vendas Erro²
2017.1 11.218.419 11.320.016 -101.597 -0,91% 10.321.999.850
2017.2 11.196.150 10.965.959 230.191 2,06% 52.988.025.247
2017.3 10.905.394 10.264.594 640.799 5,88% 410.623.898.243
2017.4 10.829.569 10.650.623 178.947 1,65% 32.021.961.077
2018.1 10.148.280 10.448.445 -300.165 -2,96% 90.099.286.777
2018.2 9.593.908 10.131.384 -547.475 -5,71% 288.880.516.003
2018.3 9.084.950 9.492.410 -224.317 -2,47% 166.023.842.244
4,05,06,07,08,09,0
10,011,012,013,0
20
04
.2
20
05
.1
20
05
.4
20
06
.3
20
07
.2
20
08
.1
20
08
.4
20
09
.3
20
10
.2
20
11
.1
20
11
.4
20
12
.3
20
13
.2
20
14
.1
20
14
.4
20
15
.3
20
16
.2
Milh
ões
Vendas de Gasolina m³
Vendas
ARIMA - Validação
62
Raiz EQM
387.475
Figura 4.12 Vendas e Previsão RLM na fase de conclusão
O modelo de regressão AR(1) com sazonalidade obteve erro máximo de 5,88%
em relação as vendas reais e mínimo de 0,91%. A raiz do erro quadrático médio foi de
387.475 m³ de gasolina.
Assim como na etapa de validação, também foi considerado o modelo SARIMA.
A Tabela 4.13 apresenta os principais indicadores de acuracidade obtidos pelo modelo
SARIMA (1,0,0)(1,1,0) na fase de conclusão. Já a figura 4.6 promove uma visão gráfica
desse desempenho.
Tabela 4.13 Tabela de Resultados SARIMA na fase conclusão
Período Vendas Previsão Erro Erro/Vendas Erro²
2017.1 11.218.419 10.780.829 437.590 3,90% 191.484.901.225
2017.2 11.196.150 10.524.748 671.402 6,00% 450.780.959.171
2017.3 10.905.394 10.588.722 316.672 2,90% 100.281.154.943
2017.4 10.829.569 11.394.941 -565.371 -5,22% 319.644.489.436
2018.1 10.148.280 10.898.765 -750.485 -7,40% 563.227.770.563
2018.2 9.593.908 10.672.064 -547.475 -5,71% 1.162.418.918.060
2018.3 9.084.950 10.791.075 -224.317 -2,47% 2.910.864.589.694
Raiz EQM
902.275
4,0
6,0
8,0
10,0
12,0
14,0
20
04
.2
20
05
.1
20
05
.4
20
06
.3
20
07
.2
20
08
.1
20
08
.4
20
09
.3
20
10
.2
20
11
.1
20
11
.4
20
12
.3
20
13
.2
20
14
.1
20
14
.4
20
15
.3
20
16
.2
20
17
.1
20
17
.4
20
18
.3
Milh
ões
Vendas de Gasolina m³ (Milhões)
Vendas Previsão RLM
63
Figura 4.13 Vendas e Previsão SARIMA na fase de conclusão
O modelo SARIMA (1,0,0)(1,1,0) obteve erro máximo de 7,40% em relação as
vendas reais e mínimo de 2,47%. A raiz do erro quadrático médio foi de 902.275 m³ de
gasolina.
Portanto, verifica-se que o modelo AR(1) com sazonalidade apresentou
acuracidade superior ao modelo SARIMA ao serem confrontados os erros quadráticos
médios. Para ilustrar esse resultado, a Figura 4.12 apresenta ambas as previsões em um
mesmo gráfico.
Figura 4.14 Comparação previsão RLM e SARIMA na fase de conclusão
Como pode ser constatado, houve uma divergência entre os resultados da fase de
validação e de conclusão. Na primeira o modelo SARIMA se saiu melhor, enquanto na
segundo foi o modelo de RLM que apresentou melhor performance. Esse fato pode ser
4,0
6,0
8,0
10,0
12,0
14,0
20
04
.2
20
05
.1
20
05
.4
20
06
.3
20
07
.2
20
08
.1
20
08
.4
20
09
.3
20
10
.2
20
11
.1
20
11
.4
20
12
.3
20
13
.2
20
14
.1
20
14
.4
20
15
.3
20
16
.2
20
17
.1
20
17
.4
20
18
.3
Milh
ões
Vendas de Gasolina m³
Vendas Previsão ARIMA
8,59,09,5
10,010,511,011,512,0
20
14
.1
20
14
.2
20
14
.3
20
14
.4
20
15
.1
20
15
.2
20
15
.3
20
15
.4
20
16
.1
20
16
.2
20
16
.3
20
16
.4
20
17
.1
20
17
.2
20
17
.3
20
17
.4
20
18
.1
20
18
.2
20
18
.3
Milh
ões
Vendas de Gasolina m³
Vendas Previsão ARIMA Previsão RLM
64
explicado devido à forte queda no consumo de gasolina em 2018 que não teve precedente
nos últimos anos. Tal redução de demanda está ligada a fatores regulatórios e econômicos
como: a nova política de preços da Petrobras (paridade internacional), a forte alta do preço
do petróleo até setembro de 2018 e o evento que ficou conhecido como greve dos
caminheiros ocorrida em maio do mesmo ano.
Está fora do escopo do presente trabalho uma avaliação mais profunda dos fatores
citados no parágrafo anterior, porém é nessa forte dependência entre o consumo de
gasolina e variáveis políticas e econômicas que reside a conclusão do presente estudo.
Portanto, resultados obtidos mostram que com toda complexidade que envolve os
fatores que determinam o consumo de gasolina no Brasil é preciso ter ressalvas ao se
construir um modelo integralmente quantitativo. No entanto, uma vez que fatores
exógenos e raros sejam considerados, os modelos propostos são capazes de prever a
demanda futura com razoável precisão, principalmente no curto prazo.
65
5. CONCLUSÃO
A previsão de demanda é fundamental para o sucesso das organizações e esse fato
se torna ainda mais relevante no contexto da distribuição de gasolina pelo território
nacional. Dúvida sobre o quanto produzir ou o quanto importar de gasolina são levantadas
de maneira recorrentes pelas empresas do setor. Nesse sentido, desenvolver um processo
que confira maior embasamento e segurança para a tomada de decisão é importante.
O presente trabalho deve como objetivo geral construir um modelo estatístico
capaz de prever com relativa precisão o consumo de gasolina no Brasil para os trimestres
subsequentes do momento de realização da previsão. Um objetivo posterior e mais
específico é identificar quais dos modelos regressivos dentre: Regressão Linear Múltipla
e o modelo Auto-regressivo de Médias Móveis (ARIMA) apresenta maior acuracidade na
previsão de demanda trimestral por gasolina no Brasil.
Após percorrer o cominho descrito no capítulo 3 referente à metodologia, chegou-
se a dois modelos. Um modelo de regressão linear múltipla AR(1) com sazonalidade e
um modelo SARIMA(1,0,0)(1,1,0). Assim o presente estudo traz como principal
conclusão que, mesmo com toda complexidade que envolve o setor de combustíveis
líquidos e os inúmeros fatores que determinam o consumo de gasolina no Brasil, é
possível construir um modelo integralmente quantitativo capaz de prever a demanda
futura com razoável precisão.
Ambos os modelos selecionados foram testados por meio de testes estatísticos e
análise gráfica, permitindo a conclusão que ambos são válidos no que diz respeito às
hipóteses da teoria de regressão linear. Assim, as previsões geradas foram confrontadas
com os dados reais de venda de gasolina sendo possível avaliar quais dos dois métodos
apresentou maior acurácia nessa iniciativa. Verificou-se que o modelo AR(1) com
sazonalidade apresentou acuracidade superior ao modelo SARIMA na fase de conclusão,
porém na fase de validação ocorreu justamente o contrário. Grande parte dessa
inconsistência pode ser explicada pelos eventos regulatórios e econômicos passados em
2018.
Assim, os resultados obtidos mostram que com toda complexidade que envolve
os fatores que determinam o consumo de gasolina no Brasil é preciso ter ressalvas ao se
66
construir um modelo integralmente quantitativo. No entanto, uma vez que fatores
exógenos e raros sejam considerados, os modelos propostos são capazes de prever a
demanda futura com razoável precisão, principalmente no curto prazo.
A título de continuidade do presente estudo, vale a recomendação pela ampliação
da série temporal e a comparação com outros modelos de previsão de demanda. Dentre
as possibilidades a serem testadas, destaca-se o próprio modelo de RLM porém com
outras variáveis explicativas a fim de se elaborar um modelo causal de previsão de
demanda. Outra sugestão para um estudo subsequente é a utilização de uma série temporal
mais longa que em última análise corresponde a uma amostra mais ampla e
consequentemente em um modelo mais robusto.
67
6. REFERÊNCIAS BIBLIOGRÁFICAS
Akaike, H. (1974) A new look at statistical model identifcation,IEEE transactions on
automatic control, AC-19, 716-723.
Box, G.E.P. and G.M. Jenkins (1970) Time series analysis: Forecasting and control, San
Francisco: Holden-Day.
Box, G. E. P.; JENKINS, G. M. Time series analysis forecasting and control. San
Francisco: Holden-Day, 1976. Edição revisada.
Box, G.E.P., G.M. Jenkins, and G.C. Reinsell (1994) Timeseries analysis: Forecasting
and control, 3rd ed., Englewood Cli®s, N.J.: Prentice-Hall.
CEL/Coppead & IBP: Planejamento Integrado do Sistema Logístico de Distribuição de
Combustíveis, 2005.
Gaither, N. and Frazier, G. (2001) Operations Management. South-Western, Ohio
Gujarati, D.N. Econometria básica. São Paulo: Makron Books, 2000
Ljung, G.M. and G.E.P. Box (1978) On a measure of lack of fit in time series models,
Biometrika, 65, 297/303.
Makrridakis, S.G.; Wheel Wright, S.C; Hyndman, R.J. Forecasting: Methods and
Applications. 3rd Edition,, Wiley, 1998
Morretin, P. A.; Toloi, C. M. C. Previsão de séries temporais. 2. ed. São Paulo: Atual
Editora, 1987.
Pereira, V (2015). Notas de aula (UFF – Estatística Multivariada): Estatística
Multivariada (SPSS) - 07 - Regressão Linear Múltipla. DOI: 10.13140 /
RG.2.1.2492.1685 <https : / / www. researchgate . net / publication / 287198885 _
Estatistica_Multivariada_SPSS_-_07_-_Regressao_Linear_Multipla >.Acessado em
16/06/2016.
Salvatore, D., Diulio E., Campino A., Comune A., “Introdução a Economia”. São Paulo.
Ed. Schaum Mcgraw-Hill. 1980.
68
Werner, L. Um Modelo Composto Para Realizar Previsão De Demanda Através Da
Integração Da Combinação De Previsões E Do Ajuste Baseado Na Opinião. Porto Alegre:
UFRGS, 2004. 166 f.
Wooldridge, J.M. Introdução a Econometria. São Paulo: Cengage Learning, 2016
69
ANEXOS
Dados
Ano Tri Vendas PIB Licenciamentos_Totais Desemprego Frota Preco tri_1 tri_2 tri_3 tri_4
2000 1 5578135 274781 300991 17950366 1 0 0 0
2000 2 5743994 288504 348242 17938807 0 1 0 0
2000 3 5514474 296304 376348 17955320 0 0 1 0
2000 4 5793590 303933 378063 17982408 0 0 0 1
2001 1 5445624 291898 396900 18118851 1 0 0 0
2001 2 5704841 298153 430264 18369008 0 1 0 0
2001 3 5517227 299103 335979 18551396 0 0 1 0
2001 4 5543310 306197 347662 11,27 18694479 0 0 0 1
2002 1 5603875 297097 317207 11,97 18850537 1 0 0 0
2002 2 5536474 313828 348168 11,60 19035424 0 1 0 0
2002 3 5545506 317399 361538 11,57 19214481 0 0 1 0
2002 4 5924402 318595 369485 11,50 19420543 0 0 0 1
2003 1 4996740 298118 315175 11,57 19572892 1 0 0 0
2003 2 5284367 306308 295549 12,30 19686159 0 1 0 0
2003 3 5516163 318658 318187 12,77 19801787 0 0 1 0
2003 4 5993382 330973 417844 12,70 19992768 0 0 0 1
2004 1 5559771 312725 332000 12,10 20161573 1 0 0 0
2004 2 5639165 333853 343855 11,87 20314753 1,79 0 1 0 0
2004 3 5934386 342838 376746 11,07 20492316 1,88 0 0 1 0
2004 4 6040556 351027 427058 10,90 20698510 1,96 0 0 0 1
2005 1 5712421 327004 348136 10,47 20905793 2,00 1 0 0 0
2005 2 5837933 344297 404018 9,73 21147149 1,99 0 1 0 0
2005 3 5979201 353201 410669 9,40 21402910 2,01 0 0 1 0
2005 4 6023935 366458 457019 9,80 21667135 2,18 0 0 0 1
2006 1 5842153 343797 395541 9,80 21853606 2,24 1 0 0 0
2006 2 5889330 358732 420885 9,93 22020638 2,27 0 1 0 0
2006 3 6044361 380140 479109 10,40 22240672 2,25 0 0 1 0
2006 4 6231789 399774 536750 9,83 22498831 2,22 0 0 0 1
2007 1 5905287 380289 468667 9,63 22765097 2,19 1 0 0 0
2007 2 6022925 400201 558909 9,60 23091087 2,20 0 1 0 0
2007 3 5985964 409222 624176 9,27 23494440 2,13 0 0 1 0
2007 4 6411272 425017 689471 8,73 23949155 2,13 0 0 0 1
2008 1 5993561 409861 617423 8,27 24367449 2,15 1 0 0 0
2008 2 6100193 434981 720744 7,70 24838999 2,16 0 1 0 0
2008 3 6430572 452329 758175 7,73 25367649 2,17 0 0 1 0
2008 4 6650457 449285 574851 7,87 25789350 2,18 0 0 0 1
2009 1 6025472 411431 642003 8,37 26144743 2,18 1 0 0 0
2009 2 6078370 431899 751567 8,20 26632229 2,15 0 1 0 0
2009 3 6246459 454694 817772 7,90 27212551 2,16 0 0 1 0
70
2009 4 7058788 486411 797525 7,87 27796171 2,21 0 0 0 1
2010 1 7497740 459901 750419 7,23 28279736 2,25 1 0 0 0
2010 2 7067956 482817 745109 6,87 28837088 2,20 0 1 0 0
2010 3 7305645 508667 873265 6,53 29421231 2,20 0 0 1 0
2010 4 7972325 529204 960236 6,20 30090465 2,25 0 0 0 1
2011 1 8153049 497109 777708 6,07 30684959 2,30 1 0 0 0
2011 2 8774369 521339 860369 5,97 31278779 2,44 0 1 0 0
2011 3 8931163 529240 889586 5,97 31907573 2,37 0 0 1 0
2011 4 9632675 544476 898168 5,67 32529093 2,38 0 0 0 1
2012 1 9469732 522236 772306 6,33 33084431 2,36 1 0 0 0
2012 2 9621956 540566 859507 7,63 33614616 2,36 0 1 0 0
2012 3 9945170 556309 1034391 7,27 34368619 2,36 0 0 1 0
2012 4 10660857 564856 967979 6,87 35049992 2,36 0 0 0 1
2013 1 9684006 539804 788509 7,63 35610515 2,44 1 0 0 0
2013 2 10204301 567069 921011 7,60 36167333 2,46 0 1 0 0
2013 3 10444670 577143 931719 7,10 36785686 2,44 0 0 1 0
2013 4 11093259 593093 938657 6,47 37389494 2,47 0 0 0 1
2014 1 10576506 569553 775371 6,80 37909665 2,57 1 0 0 0
2014 2 10936059 573243 809547 6,97 38340315 2,59 0 1 0 0
2014 3 11126615 584638 822566 6,87 38794393 2,56 0 0 1 0
2014 4 11725067 594271 925999 6,53 39312526 2,58 0 0 0 1
2015 1 10372739 555879 649866 7,37 39705886 2,76 1 0 0 0
2015 2 10069026 549658 622134 8,13 39947532 2,87 0 1 0 0
2015 3 10026637 550625 612654 8,73 40183805 2,86 0 0 1 0
2015 4 10668999 553718 595879 8,97 40378415 3,10 0 0 0 1
2016 1 10518392 518910 465481 10,20 40490720 3,26 1 0 0 0
2016 2 10371025 529332 486784 11,23 40567519 3,21 0 1 0 0
2016 3 10579373 528668 508364 11,73 40670468 3,19 0 0 1 0
2016 4 11550293 544031 527968 11,90 40762710 3,24 0 0 0 1
2017 1 11218419 523632 460582 13,17 40833899 3,29 1 0 0 0
2017 2 11196150 535869 532511 13,30 40927852 3,14 0 1 0 0
2017 3 10905394 537333 582986 12,60 41085598 3,27 0 0 1 0
2017 4 10829569 552200 599907 12,00 41266223 3,56 0 0 0 1
2018 1 10148280 528244 12,63 41397194 3,76 1 0 0 0
2018 2 9593908 210250 12,90 41514522 0 1 0 0
2018 3 9084950 0 0 1 0
71
Códigos R
my_data <- dataset_tri_2004_2_2016_4_final
# Catter Plot
plot(my_data$Vendas, xlab = "Observations", ylab = "Vendas")
plot(my_data$PIB, xlab = "Observations", ylab = "PIB")
plot(my_data$Licenciamentos_Totais, xlab = "Observations", ylab = "Licenciamentos de Veículos")
plot(my_data$Frota, xlab = "Observations", ylab = "Frota de Veículos")
plot(my_data$Desemprego, xlab = "Observations", ylab = "Desemprego")
plot(my_data$Preco, xlab = "Observations", ylab = "Preço")
#Box plot
boxplot(my_data$PIB, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab = "Observations", ylab
= "PIB")
boxplot(my_data$Vendas, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab = "Observations",
ylab = "Vendas")
boxplot(my_data$Desemprego, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab =
"Observations", ylab = "Desemprego")
boxplot(my_data$Preco, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab = "Observations", ylab
= "Preço")
boxplot(my_data$Licenciamentos_Totais, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab =
"Observations", ylab = "Licenciamentos de Veículos")
boxplot(my_data$Frota, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab = "Observations", ylab
= "Frota de Veículos")
# Histograma
hist(my_data$PIB, main = "", xlab = "PIB", ylab = "Frequency")
hist(my_data$Vendas, main = "", xlab = "Vendas", ylab = "Frequency")
hist(my_data$Desemprego, main = "", xlab = "Desemprego", ylab = "Frequency")
hist(my_data$Preco, main = "", xlab = "Preço", ylab = "Frequency")
hist(my_data$Licenciamentos_Totais, main = "", xlab = "Licenciamentos de Veículos", ylab =
"Frequency")
hist(my_data$Frota, main = "", xlab = "Frota de Veículos", ylab = "Frequency")
#Tratamento de Dados
tri_1<-as.ts(my_data$tri_1)
tri_2<-as.ts(my_data$tri_2)
tri_3<-as.ts(my_data$tri_3)
72
ven<-as.ts(my_data$Vendas,"Vendas")
dven<-diff(ven,1)
venlog<-log(ven)
venloglag<-lag(venlog,-1)
pib<-as.ts(my_data$PIB,"PIB")
dpib<-diff(pib,1)
piblog<-log(pib)
pibloglag<-lag(piblog,-1)
preco<-as.ts(my_data$Preco, "Preço")
dpreco<-diff(preco,1)
des<-as.ts(my_data$Desemprego,"Desemprego")
frota<-as.ts(my_data$Frota, "Frota de Veículos")
dfrota<-diff(frota,1)
lic<-as.ts(my_data$Licenciamentos_Totais, "Licenciamentos")
dlic<-diff(lic,1)
my_data_1<-ts.intersect(ven,pib,des,preco,frota, lic)
my_data_2<-ts.intersect(venlog,venloglag,pibloglag,piblog,tri_1,tri_2,tri_3)
my_data_3<-ts.intersect(dven,dpib,des,dpreco,dfrota, dlic)
# Correlação entre variáveis
library("corrplot")
corrplot(cor(my_data_2), method = "circle", tl.cex = 0.7, tl.offset = 0.5, mar = c(1,0,0,0), number.cex =
0.5, bg = "white", addCoef.col = "black", diag = FALSE)
corrplot(cor(my_data_1), method = "circle", tl.cex = 0.7, tl.offset = 0.5, mar = c(1,0,0,0), number.cex =
0.5, bg = "white", addCoef.col = "black", diag = FALSE)
corrplot(cor(my_data_3), method = "circle", tl.cex = 0.7, tl.offset = 0.5, mar = c(1,0,0,0), number.cex =
0.5, bg = "white", addCoef.col = "black", diag = FALSE)
ven<-as.ts(my_data$Vendas,"Vendas")
venlog<-log(ven)
73
venloglag<-lag(venlog)
my_data_1<-ts.intersect(venlog,venloglag,preco,tri_1,tri_2,tri_3)
# Time Series
plot(ven)
plot(log(ven))
plot(diff(log(ven)))
# Regression
reg_1 <- lm(venlog ~ venloglag+tri_1+tri_2+tri_3, data = my_data_1)
summary(reg_1)
# Média Condicional Zero
plot(reg_1)
# Correlação Serial (Breusch-Godfrey test)
library(lmtest)
bgtest(reg_1)
library(car)
durbinWatsonTest(reg_1)
# Heterocedasticidade (studentized Breusch-Pagan test by R. Koenker)
bptest(reg_1)
library(car)
ncvTest(reg_1)
plot(residuals(reg_1))
# Normalidade dos resíduos
shapiro.test(residuals(reg_1))
library("car")
qqPlot(reg_1, id.n = 3)
sresid_1 <- rstudent(reg_1)
hist(sresid_1, main = "Studentized Residuals", breaks = "FD", freq = FALSE)
curve(dnorm(x, mean = 0, sd = 1), col = "red", lwd = 2, add = TRUE)
#Multicolinearidade
library(car)
vif(reg_1)
74
# Teste Geral
library("gvlma")
gvmodel <- gvlma(reg_1)
summary(gvmodel)
# Qualidade do Ajuste
pred_1<-fitted(reg_1)
plot(venlog, type = "l", col = "red")
lines(pred_1,col = "blue")
res_1<-as.ts(residuals(reg_1))
plot(res_1)
write.table(pred_1)
write.table(venlog)
#Tabela Regressão
library("sjPlot")
sjt.lm(reg_1)
my_data <- dataset_tri_2004_2_2016_4_final[,3]
my_data <- ts(my_data, frequency = 4, start = c(2004,2))
plot(my_data)
plot(log(my_data))
plot(diff(log(my_data)))
abline(reg = lm(my_data~time(my_data)))
cycle(my_data)
plot(aggregate(my_data, FUN = mean)) # Year Trend
boxplot(my_data~cycle(my_data)) #Box Plot Across Months
#install.packages("aTSA")
library("aTSA")
#install.packages("tseries")
library("tseries")
adf.test(diff(log(my_data)), alternative = "stationary", k = 0) #log (control variance), diff (trend)
acf1<-acf(my_data)
df_acf1<-data.frame(acf1$acf)
75
pacf1<-pacf(my_data)
df_pacf1<-data.frame(pacf1$acf)
acf2<-acf(log(my_data))
df_acf2<-data.frame(acf2$acf)
pacf2<-pacf(log(my_data))
df_pacf2<-data.frame(pacf2$acf)
acf3<-acf(diff(log(my_data)))
df_acf3<-data.frame(acf3$acf)
pacf3<-pacf(diff(log(my_data)))
df_pacf3<-data.frame(pacf3$acf)
#install.packages("forecast")
library("forecast")
fit <- auto.arima(log(my_data), approximation = FALSE, trace = TRUE)
summary(fit)
pred <- predict(fit, n.ahead = 1*12)
pred
plot(my_data, type = 'l', xlim = c(2004, 2020), xlab = 'Year',ylab = 'Sales')
lines(2.718^(pred$pred), col = 'blue')
lines(2.718^(pred$pred + 2*pred$se), col = 'orange')
lines(2.718^(pred$pred - 2*pred$se), col = 'orange')
#install.packages("FitAR")
library("FitAR")
boxresult <- LjungBoxTest(fit$residuals, k = 2,lag.max = 20, StartLag = 1)
# p-values above 0.05 indicates non-significance autocorrelation from the residuals of the ARIMA model.
plot(boxresult[ , 3], main = "Ljung-Box Q Test", ylab = "P-values", xlab = "Lag")
qqnorm(fit$residuals)
qqline(fit$residuals) # normal distibution
acf(fit$residuals)