UNIVERSIDADE FEDERAL FLUMINENSE ESCOLA DE …´nio_Rodrigues_Projeto_Final (1).pdfencerra com a Seção 1.5 que resume a estrutura do trabalho. 1.1 MOTIVAÇÃO A previsão de demanda

UNIVERSIDADE FEDERAL FLUMINENSE

ESCOLA DE ENGENHARIA

GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO

ANTÔNIO CARLOS RODRIGUES DOS SANTOS JÚNIOR

ANÁLISE COMPARATIVA DE MODELOS ESTATÍSTICOS PARA

PREVISÃO DE DEMANDA DE GASOLINA NO BRASIL

NITERÓI-RJ

2018

2

ANTÔNIO CARLOS RODRIGUES DOS SANTOS JÚNIOR

ANÁLISE COMPARATIVA DE MODELOS ESTATÍSTICOS PARA

PREVISÃO DE DEMANDA DE GASOLINA NO BRASIL

Projeto final apresentado ao curso de

Graduação em Engenharia de Produção da

Universidade Federal Fluminense como

requisito parcial para a conclusão de curso.

Orientador: Prof. Dr. Valdecy Pereira

NITERÓI-RJ

2018

3

4

AGRADECIMENTOS

Agradeço aos meus pais por serem minha referência ética e acadêmica e

pelo suporte dado nesse anos de estudo. Agradeço principalmente pela

liberdade e confiança nas minhas escolhas.

Agradeço aos meus amigos pelos momentos inesquecíveis que dê certo

estarão entre os mais felizes da minha vida.

Agradeço a Raísa Fontenele por todo companheirismo que tornou os

momentos mais tensos e decisivos do final da graduação mais leves e

alegres.

Agradeço ao meu orientador Valdecy por me ensinar e guiar durante a

preparação do trabalho aqui apresentado.

5

RESUMO

A previsão de demanda é fundamental para o sucesso das corporações. Além

disso, a gasolina é um insumo básico para atividade econômica que apesar da gradual

substituição dos combustíveis fósseis, ainda é consumida em grandes volumes no Brasil.

Visando alinhar esses dois pontos, o presente trabalho lança mão de duas ferramentas

estatísticas: Regressão Linear Múltipla e ARIMA para fazer um estudo de previsão de

demanda da gasolina no Brasil. Na sequência foi feita uma avaliação por meio do

indicador de erros quadráticos médios de quais das duas técnicas apresentou melhor

acuracidade nessa iniciativa.

A construção dos modelos foi realizada respeitando as hipóteses técnicas e para

avaliá-las foram utilizados a análise gráfica e testes estatísticos. Tal procedimento

metodológico serviu de subsídio para a escolha de um modelo AR(1) acrescido de

variáveis dummies de sazonalidade e um modelo SARIMA(1,0,0)(1,1,0).

Feita a comparação entre as propostas, não foi possível concluir categoricamente

qual modelo apresentou melhor performance, pois os resultados na fase de validação e

conclusão foram divergentes. Apesar dessa constatação objetiva, o presente estudo foi

delimitado pela extensão da série de dados. A título de continuidade do presente estudo,

vale a recomendação pela ampliação da série temporal e a comparação com outros

modelos de previsão de demanda.

Palavras-chave: regressão linear múltipla, ARIMA, SARIMA, gasolina, previsão de

demanda .

6

ABSTRACT

Demand forecasting is a fundamental activity for companies to succeed.

Furthermore, gasoline is a basic input for economy and despite of gradual substitution of

fossil fuels, it is still consumed in big amounts in Brazil. Looking for joining these both

relevant topics, the present study makes use of two statistical tools: Multiple Linear

Regression and ARIMA models in order to forecast the demand for gasoline in Brazil.

Subsequently both models were compared through the indicator mean squared error and

checked witch one had presented the best accuracy on predicting gasoline demand.

The construction of the models was realized respecting all technical hypothesis

and graphical analysis and statistical tests were used to confirm them. Such

methodological process based the decision for selecting: AR(1) with dummies variables

representing seasonality and a SARIMA (1,0,0)(1,1,0) as best models.

Once the statistical models were compared, it was not possible to conclude which

had performed better because the results on validation and conclusion fase were

divergent. Although this objective finding, concluded the present study was delimited by

data series extension. Therefore, with respect of continuity of this work, it is

recommended to amplify the data series and test for accuracy other forecasting models.

Key-words: multiple linear regression, ARIMA, SARIMA, gasoline, demand forecasting.

7

LISTA DE FIGURAS

Figura 2.1 – Função de regressão populacional,

Figura 2.2 – Variãncia

Figura 2.3 - Gráficos ACF e PACF teóricos para modelo AR(1)

Figura 2.4 - Gráficos ACF e PACF teóricos para modelo MA(1)

Figura 3.1 - Descrição da Variável Vendas

Figura 3.2 - Descrição da Variável Preço

Figura 3.3 - Descrição da Variável PIB

Figura 3.4 - Descrição da Variável Desemprego

Figura 3.5 - Descrição da Variável Licenciamento de Veículos

Figura 3.6 - Descrição da Variável Frota

Figura 3.7 - Correlação entre variáveis

Figura 3.7 - Correlação entre variáveis a primeira diferença

Figura 3.9 - Fluxograma do processo de seleção de variáveis

Figura 4.1- Resíduos Studentizados vs Valores Previstos

Figura 4.2 - Histograma dos Resíduos

Figura 4.3 - QQ Plot dos resíduos RLM

Figura 4.4 ACF e PACF das Vendas de Gasolina

Figura 4.5 ACF e PACF da transformação log Vendas de Gasolina

Figura 4.6 ACF e PACF da diferença da transformação log Vendas de Gasolina

Figura 4.7 Resultado da Função auto.arima

Figura 4.8 Resultado do teste Ljung–Box

Figura 4.9 QQ Plot dos resíduos SARIMA

Figura 4.10 Vendas e Previsão RLM na fase de validação

Figura 4.11 Vendas e Previsão SARIMA na fase de validação

Figura 4.12 Vendas e Previsão RLM na fase de conclusão

8

Figura 4.13 Vendas e Previsão SARIMA na fase de conclusão

Figura 4.14 Comparação previsão RLM e SARIMA na fase de conclusão

9

LISTA DE TABELAS

Tabela 2.1 - Quadro resumo modelos autoregressivos,

Tabela 3.1 - Definições das variáveis

Tabela 4.1 Seleção de variáveis RLM

Tabela 4.2 Resumo da RLM

Tabela 4.3 Teste Durbin-Watson

Tabela 4.4 Teste Breusch-Pagan

Tabela 4.5 Teste Shapiro-Wilk

Tabela 4.6 Modelo SARIMA

Tabela 4.7 Teste Dickey–Fuller (ADF)

Tabela 4.8 Resultado do teste Ljung–Box

Tabela 4.9 Resumo da RLM na fase de validação

Tabela 4.10 Resultados RLM na fase de validação

Tabela 4.11 Tabela de Resultados SARIMA na fase de validação

Tabela 4.12 Resultados RLM na fase de conclusão

Tabela 4.13 Tabela de Resultados SARIMA na fase conclusão

10

SUMÁRIO

1.INTRODUÇÃO..........................................................................................................10

1.1 A MOTIVAÇÃO PARA A PESQUISA...................................................................10

1.2 A QUESTÃO DA PESQUISA..................................................................................11

1.3 OBJETIVOS DA PESQUISA...................................................................................12

1.4 DELIMITAÇÃO DA PESQUISA.............................................................................12

1.5 ESTRUTURA DO TRABALHO..............................................................................13

2. REFERENCIAL TEÓRICO....................................................................................14

2.1 REGRESSÃO LINEAR MÚLTIPLA.......................................................................14

2.2 ARIMA......................................................................................................................26

3. METODOLOGIA......................................................................................................33

3.1 POPULAÇÃO E AMOSTRA...................................................................................33

3.2 COLETA DE DADOS..............................................................................................33

3.3 TRATAMENTO E ANÁLISE DE DADOS.............................................................34

3.4 SELEÇÃO DE VARIÁVEIS....................................................................................44

3.5 COMPARAÇÃO ENTRE OS MODELOS...............................................................46

4. RESULTADOS.........................................................................................................47

4.1 REGRESSÃO LINEAR MÚLTIPLA.......................................................................47

4.2 ARIMA......................................................................................................................52

4.3 COMPARAÇÃO ENTRE MODELOS.....................................................................58

5. CONCLUSÃO............................................................................................................64

6. REFERÊNCIAS BIBLIOGRÁFICAS....................................................................66

ANEXOS........................................................................................................................68

11

1 INTRODUÇÃO

No capítulo de introdução é abordado a motivação da pesquisa, o objetivo geral e

os objetivos específicos, bem como a delimitação da pesquisa.

Na Seção 1.1 é apresentada a motivação para o desenvolvimento do estudo. Foi

feita uma breve contextualização do mercado de gasolina no Brasil e ressaltada a

importância da previsão de demanda para os agentes envolvidos.

Na Seção 1.2 é apresentada a pergunta que fundamenta a pesquisa desenvolvida

pelo trabalho.

Na Seção 1.3 são apresentados o objetivo geral da pesquisa e os objetivos

específicos.

Na Seção 1.4 é apresentada a delimitação da pesquisa e finalmente o capítulo se

encerra com a Seção 1.5 que resume a estrutura do trabalho.

1.1 MOTIVAÇÃO

A previsão de demanda é fundamental para o sucesso das corporações. Esse tipo

de estudo confere a possibilidade serem realizadas tomadas de decisão mais robustas,

sejam elas de âmbito estratégico, tático ou operacional. Segundo Gaither e Frazier (2001)

as previsões de vendas são o ponto inicial para todas as outras previsões na gestão da

produção e operações.

A importância da previsão de demanda fica mais evidente em situações em que a

volatilidade da demanda é alta, pois uma decisão equivocada de produção pode gerar

perdas mais significativas. Assim, quanto menos estável for a demanda uma indústria,

maior será a relevância de se realizar um estudo de previsão de demanda com boa

performance (WERNER, 2004).

Tanto técnicas qualitativas quanto quantitativas são utilizadas para a previsão de

demanda. Em geral as técnicas qualitativas se baseiam na avaliação de um ou mais

especialistas do produto a ser produzido e vendido. Ao se utilizar esse tipo de abordagem

é preciso se atendar aos vieses individuais e possíveis outros interesses que não uma

previsão assertiva. O presente trabalho vai fazer uso de técnicas estritamente quantitativas

12

e a intenção dessa opção é reduzir a parcela de subjetividade da previsão, sem diminuir a

relevância e credibilidade das abordagens qualitativas.

O produto e objeto de estudo do presente trabalho é a gasolina que pertence ao

setor de combustíveis líquidos. O Brasil é um dos maiores consumidores de combustíveis

líquidos do mundo e em especial da gasolina. Segundo dados do Balanço Energético

Nacional elaborado pela Empresa de Pesquisa Energética (EPE,2018) a gasolina foi

responsável por 9,6% do consumo total de energia no país em 2017. As vendas desse

combustível aumentaram em média 6,5% ao ano entre 2007 e 2016 e é importante

ressaltar que esse crescimento supera em muito a evolução do PIB que cresceu à taxa

média de 1,2% ao ano segundo dados presentes no Anuário Estatístico Brasileiro do

Petróleo, Gás Natural e Biocombustíveis elaborado pela Agência Nacional do Petróleo

(ANP,2018).

Devido à relevância dessa indústria, estabeleceu-se no Brasil uma cadeia

produtiva de gasolina bem integrada e que é essencialmente formada por produtoras de

petróleo, refinarias de petróleo, distribuidoras de combustíveis líquidos e revendedores

varejistas. E é nesse ponto que reside a principal motivação para o presente trabalho. Dado

o grande volume financeiro que percorre a cadeia e a importância intrínseca desse insumo

para economia do país, se torna fundamental a busca por alguma previsibilidade da

demanda por gasolina no Brasil. Quando adotamos o conceito de risco como a

possibilidade de custo extra devido a um evento que pode ser segurado (Salvatore, 1980),

é razoável que os riscos envolvidos na produção e distribuição de gasolina podem

acarretar em grandes perdas econômicas que são passíveis de serem evitadas.

Principalmente para refinarias e distribuidoras é de grande utilidade possuir uma

referência de consumo futuro do produto, pois somente os custos com a logística

representam cerca de 5,4% do preço na bomba de gasolina segundo estudo realizado pelo

CEL/Coppead, em parceria com o Instituto Brasileiro do Petróleo (IBP, 2005).

1.2 PROBLEMA E HIPÓTESE DA PESQUISA

Considerando a relevância econômica do insumo em questão, pode-se indagar

que:

Poder-se-á estimar por meio de um modelo estatístico, a demanda por gasolina

no Brasil para o próximo trimestre?

13

E de modo mais específico:

Dentre os modelos: Regressão Linear Múltipla e Auto-regressivo de Médias

Móveis (ARIMA). Qual apresenta maior eficácia na previsão de demanda de gasolina?

1.3 OBJETIVOS DA PESQUISA

O estudo tem como objetivo geral construir um modelo estatístico capaz de prever

com relativa precisão o consumo de gasolina no Brasil para trimestres subsequentes ao

momento de realização da previsão. Um objetivo posterior e mais específico é identificar

quais dos modelos regressivos dentre: Regressão Linear Múltipla e o modelo Auto-

regressivo de Médias Móveis (ARIMA) apresenta maior acuracidade na previsão de

demanda trimestral por gasolina no Brasil.

1.4 DELIMITAÇÕES DA PESQUISA

Qualquer tipo de previsão é uma tarefa desafortunada pois a única certeza que

temos ao iniciar o estudo é que estaremos errados quando os dados reais se apresentarem.

Por isso, não temos a pretensão de construir um modelo perfeito, mas sim uma ferramenta

que sirva de referência para decisões que dependam da demanda de gasolina para o

trimestre subsequente.

Outra questão a ser ressaltada é que no presente trabalho optou-se por uma

abordagem quantitativa. As técnicas quantitativas fazem uso de uma série de observações

passadas e de algum padrão histórico de demanda e, por intermédio de modelos

matemáticos, torna-se possível estimar valores futuros (ELSAYED; BOUCHER, 1994).

Não temos dúvidas de que fatores qualitativos são importantes no processo de previsão

de demanda. As relações de qualquer mercado complexo como o de gasolina apresentam

sutilezas que somente um profissional experimentado no setor é capaz de interpretar

corretamente e que impactam o consumo futuro do combustível. Nesse sentido, a linha

de trabalho adotada foi a de construir dois modelos usando diferentes técnicas (Regressão

Linear e ARIMA) e posteriormente avaliar qual deles apresentou melhor desempenho.

Esse processo visa obter um modelo que justamente não dependa do fator subjetivo mas

que ainda assim apresentasse boa performance.

14

1.5 ESTRUTURA DO TRABALHO

No Capítulo 1 é abordado motivação da pesquisa, o objetivo geral e os objetivos

específicos, bem como a delimitação da pesquisa.

No Capítulo 2 é abordado o referencial teórico do estudo abrangendo os modelos

de Regressão Linear Múltipla e o modelo Auto-regressivo de Médias Móveis (ARIMA).

No Capítulo 3 apresenta-se a metodologia desse trabalho que aborda o

levantamento, descrição e tratamento dos dados, além do processo de construção dos

modelos e do critério de comparação dos mesmos.

No Capítulo 4 é relatado o resultado desse trabalho, abordando todos os modelos

sugeridos e a comparação entre eles.

No Capítulo 5, o presente trabalho é concluído e são apresentados os pontos

conclusivos destacados, seguidos de recomendações para estudos futuros.

15

2 REFERENCIAL TEÓRICO

No presente capítulo é abordado o referencial teórico do estudo de previsão de

demanda abrangendo os métodos utilizados: Regressão Linear Múltipla e o modelo Auto-

regressivo de Médias Móveis (ARIMA).

Na seção 2.1 é apresentado o conceito de previsão (forecasting) e sua aplicação

específica para prever a demanda de um produto.

Na Seção 2.2 é apresentado o modelo de regressão linear múltipla e as principais

hipóteses que garantes sua eficácia.

Na Seção 2.3 é apresentado o modelo de Auto-regressivos Integrados de Médias

Móveis (ARIMA).

2.1 A PREVISÃO DE DEMANDA

2.2 REGRESSÃO LINEAR MÚLTIPLA

Suponha Y uma variável aleatória, isto é, que seu valor não pode ser determinado

previamente. Esse tipo de variável está presente em toda parte, pois pouquíssimos dos

eventos que estamos sujeitos no dia a dia possuem caráter determinístico. Os exemplos

são diversos: o PIB de um país, o salário de um executivo, o vencedor das próximas

eleições, as vendas do próximo mês. Fica evidente que entender (mesmo que

parcialmente) como esse tipo de variável se comporta é de grande valor. Um caminho

para isso é avaliar a variável de interesse a partir de outras nas quais se tenha

conhecimento. É justamente nessa perspectiva que reside a regressão linear múltipla.

2.2.1 ESTIMAÇÃO

Segundo Wooldridge (2016), a Regressão Linear Múltipla (RLM) pode ser usada

para estudar a relação entre uma variável explicada e múltiplas variáveis explicativas.

Assim, de imediato, três questões são levantadas na construção de um modelo de RLM:

i) Como lidamos com os outros fatores que afetam Y e que não foram incluídos no modelo?

ii) Qual a relação funcional entre as variáveis?

16

iii) Como garantir que está sendo capturada a relação de causalidade entre a variável

dependente e as demais variáveis independentes?

Para superar essas ambiguidades Wooldridge (2016) sugere que se escreva uma

equação que também é chamada de modelo populacional:

𝑌 = 𝛽0 + 𝛽1𝑋1 +⋯+ 𝛽𝑖𝑋𝑖 + 𝑢 (2.01)

Onde:

• 𝑌= Variável Dependente (Variável Explicada);

• 𝑋𝑖= Variável Independente 𝑖 (Variável Explicativa 𝑖);

• 𝛽0= Parâmetro de Intercepto;

• 𝛽𝑖= Parâmetro de Inclinação.

• 𝑢 = Termo de Erro (Perturbação)

Onde, Y é a variável dependente, X1, X2 e Xi são as variáveis independentes ou

explicativas ou ainda regressores. Os parâmetros de regressão, β1, β2 e βi também são

conhecidos como parâmetros de inclinação e β0 é chamado de parâmetro de intercepto. A

variável 𝑢 é comumente chamada de termo de erro, porém esse nome pode confundir sua

real interpretação. O fator 𝑢 representa todos os outros fatores que afetam Y mas não

foram incluídos no modelo (fatores não observados) e assim respondemos à questão (i).

No restante da explanação, para facilitar a compreensão do leitor, representaremos

as variáveis independentes X1, X2 e Xi simplesmente pelo vetor X.

Também é preciso se preocupar com a forma funcional das variáveis (questão (ii)).

Observe que, a equação (2.01) também informa sobre a relação funcional entre Y e X.

Nesse caso geral, a variação de uma variável independente, por exemplo Xi, tem efeito

linear sobre Y:

∆𝑦 = 𝛽𝑖 ∆𝑥𝑖 𝑠𝑒 ∆𝑢 = 0 (2.02)

No entanto, o real significado de linearidade em um modelo de RLM reside na

relação entre os parâmetros e não entre as variáveis Y e X. Em alguns casos, é válido e

recomendável, assumir relações mais sofisticadas do tipo:

17

log(𝑌) = 𝛽0 + 𝛽1√𝑋1 + 𝛽2𝑋2 + 𝑢 (2.03)

Já em relação a questão (iii), para garantir o efeito de causalidade de X sobre Y é

preciso fazer hipóteses que restrinjam a maneira como X se relaciona com a variável de

erro 𝑢. Primeiramente é preciso lançar mão de duas hipóteses:

𝐸(𝑢) = 0 (2.04)

𝐸(𝑢𝑿) = 𝐸(𝑢) (2.05)

Onde, E representa o operador de esperança matemática. Note que, a hipótese

(2.04) é pouco restritiva pois sempre é possível redefinir 𝛽0 no intuito de torná-la

verdadeira. A segunda hipótese (2.05) é mais delicada uma vez que pode ocorrer de uma

variável omitida do modelo seja correlacionada com uma ou várias das variáveis

explicativas. Assim, ao se combinar (2.04) com (2.05), tem-se que:

𝐸(𝑢𝑿) = 0 (2.06)

A identidade (2.06) é chamada de hipótese de média condicional zero e a partir

dela obtemos a função de regressão populacional (FRP), dada por:

𝐸(𝑌𝑋) = 𝛽0 + 𝛽1𝑋1 +⋯+ 𝛽𝑖𝑋𝑖 (2.07)

Perceba que, a equação (2.06) representa como o valor esperado de Y se relaciona

com X. Essa ideia ressalta o caráter estocástico de Y, pois ao se inserir na equação um

conjunto especifico de variáveis explicativas (Ex: vetor 𝑿0) o que se obtém como 𝑌0 não

é um valor preciso (determinístico) para Y, mas sim um novo posicionamento da

esperança matemática de Y. Esse conceito é ilustrado na Figura 2.1 abaixo,

18

Figura: 2.1 Função de regressão populacional

Fonte: Wooldridge (2016)

Portanto, foi construído uma modelo que satisfaz as três questões inicialmente

levantadas, mas ainda é preciso estimar seus respectivos parâmetros. O método mais

eficiente para tal é conhecido como Mínimos Quadrados Ordinários (MQO). Esse

processo de estimação visa minimizar os quadrados dos resíduos ao se adaptar uma reta

à um grupo de dados (amostra). A descrição detalhada desse processo foge do objetivo

do presente trabalho mas pode ser encontrada em Gujarati (2010).

Uma das maneiras de estimar os parâmetros βo, β2, ... ,βi é por meio de álgebra

matricial.

Construa uma matriz Y que contenha os valores observados da variável

dependente:

𝑌 = [

𝑦1𝑦2⋮𝑦𝑖

] (2.08)

Construa também uma matriz X (matriz design) que contenha as variáveis

independentes:

19

𝑋 = [

11⋮1

𝑥11𝑥21⋮𝑥𝑖1

⋯⋯⋱⋯

𝑥1𝑗𝑥2𝑗⋮𝑥𝑖𝑗

] (2.09)

Assim, a matriz �� que represenha os parâmetros estimados é calculada por:

�� = (𝑋′𝑋)−1𝑋′𝑌 (2.10)

Os estimadores da variância e do desvio padrão do erro são:

��2 =∑ (𝑦𝑖−𝑦��)

2𝑛𝑖=1

𝑛−(𝑘+1) (2.11) e �� = √��² (2.12)

Onde:

• ��² = Variância dos resíduos

• �� = Desvio padrão dos resíduos

• 𝑛 = Número de observações

• 𝑘 = Número total de variáveis dependentes

• �� = o valor estimado da variável independente.

O erros padrão dos coeficientes de regressão podem ser representados pela matriz

de variância-covariância 𝑪 que é calculada por:

𝐶 = ��2(𝑋′𝑋)−1 (2.13)

Os erros padrão dos coeficientes serão importantes no momento em que formos

avaliar a significância dos estimadores βo, β2, ... ,βi.

2.2.2 QUALIDADE DE AJUSTE

De posse dos estimadores estimados é possível analisar a qualidade do ajuste.

Note que, a variação total da variável dependente pode ser dividida em duas partes. Uma

parte pode ser explicada pela variação das variáveis independentes e a outra parte se deve

à variação do fator de erro (não observado). Segundo Wooldridge (2016) essas três

medidas de variação são definidas como:

Soma dos Quadrados Totais (SQT): ∑ (𝑦𝑖 − ��)𝑛1 (2.14)

Soma dos Quadrados Explicada (SQE): ∑ (��𝑖 − ��)𝑛1 (2.15)

20

Soma dos Quadrados dos Resíduos (SQR): ∑ (𝑢��𝑛1 )2 (2.16)

E respeitam a seguinte identidade:

𝑆𝑄𝑇 = 𝑆𝑄𝐸 + 𝑆𝑄𝑅 (2.17)

A Figura 2.2 resume graficamente a relação entre a variância explicada e a

variância não-explicada com a variância total.

Figura

Figura 2.2. Variância

Fonte: Pereira (2015)

Assim, a partir dessas medidas de variação é possível criar um indicador que

mensure a qualidade do ajuste da reta de regressão em relação aos dados observados. Esse

indicador é denominado 𝑅2 (R-quadrado) e é definido por:

𝑅2 =𝑆𝑄𝐸

𝑆𝑄𝑇= 1 −

𝑆𝑄𝑅

𝑆𝑄𝑇 (2.18)

O 𝑅2 nada mais é do que a razão entre a variação de Y que foi explicada pelo

modelo e a variação total de Y. Com isso, 100. 𝑅2 pode ser interpretado como a

porcentagem da variação de Y que foi explicada por X.

No entanto, esse indicador não é de todo eficiente pois devido ao seu mecanismo

de cálculo, o acréscimo de variáveis explicativas sempre aumenta seu valor. O mais

indicado em um modelo de RLM é usar uma versão do 𝑅2 que imponha uma penalidade

Y

X

SST

SSR

SSE

𝑦𝑖 − ��𝑖 − ��

𝑦𝑖 − ��𝑖

𝑦𝑖

𝑥𝑖

21

à adição de variáveis extras. Essa versão é chamada de 𝑅2 ajustado e segundo Gujarati

(2010) é dado por:

��2 = 1 − (

𝑆𝑄𝑅𝑛 − 𝑘𝑆𝑄𝑇𝑛 − 1

) (2.19)

Em Wooldridge (2016) é destacado que ��2 aumenta se, e somente se, a estatística

t da nova variável dependente inserida for maior do que a unidade em valor absoluto.

Ainda não definimos a estatística t de um estimador 𝛽��, mas isso será feito na sequência.

Gujarati (2010) faz um alerta, pesquisadores tendem a jogar o jogo de maximizar

o R²-ajustado, porém isto pode ser perigoso. Em uma análise de regressão, encontrar um

R²-ajustado alto não tem utilidade alguma per se, o real objetivo é obter estimativas de

dependência estatisticamente significantes sobre real população. Wooldridge (2016)

reforça essa ideia ao afirmar que um R²-ajustado em geral são baixos no contexto das

ciências sociais e que isso não significa necessariamente uma equação de regressão de

MQO inócua, pois as condições necessárias e suficientes para capturar a relação de

causalidade não residem diretamente na magnitude desse indicador.

2.2.3 INFERÊNCIA

Nesta seção estaremos interessados em verificar se os estimadores calculados

possuem significância estatística. Outro objetivo é mostrar que, apesar de seu uso

disseminado, os estimadores de βo, β2, ... ,βi usando o método dos MQO somente serão

estimadores não viesados de variância mínima sob determinadas hipóteses. Segundo

Wooldridge (2016) essas hipóteses são:

Hipótese RLM.1 (Linear nos Parâmetros): equação populacional como (2.01)

Hipótese RLM.2 (Amostragem Aleatória)

Hipótese RLM.3 (Colinearidade Não Perfeita): Nenhuma das variáveis independentes é

constante na amostra.

Hipótese RLM.4 (Média Condicional Zero): Vale a equação (2.06)

Hipótese RLM.5 (Hocedasticidade): 𝑉𝑎𝑟(𝑢𝑿) = 𝜎2 (2.20)

22

Hipótese RLM.6 (Normalidade do Erro): 𝑢~Normal(0, 𝜎2) (2.21)

A primeira hipótese apenas define o modelo populacional. A hipótese RLM.2

garante a aleatoriedade da amostra. A hipótese RLM.3 é menos relevante porém

necessária e garante que coletamos uma amostra que contenha alguma variação em X. A

hipótese RLM.4 é de fundamental importância e já foi discutida na seção 2.2.1.

Precisamos da hipótese RLM.5 para obtermos estimadores não viesados dos erros padrão

dos estimadores de MQO, e consequentemente possibilitar o uso do teste t e teste F que

serão apresentados a seguir. Por fim, note que, ao assumirmos a hipótese RLM.6 estamos

consequentemente assumindo RLM.4 e RLM.5 e essa hipótese é importante tanto na

garantia de que os estimadores de MQO são os mais eficientes e como no estudo de

inferência dos mesmos.

Adicionalmente, lembramos que as hipóteses RLM.1 a RLM.5 são conhecidas

como hipóteses de Gauss-Markov e elas garantem que os estimadores de MQO são os

melhores estimadores lineares não viesados ou Best Linear Unbiased Estimator (BLUE).

Quando adicionamos a hipótese RLM.6, obtemos as hipóteses do Modelo Linear Clássico

(MLC) que garante que os estimadores de MQO são os estimadores não viesados de

variância mínima, ou seja, não é mais preciso restringir a comparação entre os

estimadores não viesados lineares. O próximo ganho com a hipótese de normalidade do

erro é de tal relevância que será enunciado em forma de teorema.

Teorema 2.1 (Distribuição t para os estimadores padronizados): Sob as hipóteses

RLM.1 a RLM.6,

(��𝑗−𝛽𝑗)

𝑒𝑝(��𝑗)~ 𝑡𝑛−𝑘−1 = 𝑡𝑔𝑙 (2.22)

em que k+1 é o número de parâmetros desconhecidos do modelo populacional e n-

k-1 são os graus de liberdade da estatística t.

O teorema 2.1 nos permite realizar teste de hipótese sobre um único parâmetro

populacional. Na maioria das aplicações gostaríamos de testar se uma variável

dependente 𝑥𝑖 tem qualquer efeito sobre a variável dependente 𝑦. Em termos técnicos isso

significa testar a hipótese nula do tipo:

23

𝐻0: 𝛽𝑖 = 0 (não existe relação 𝑥𝑖 e 𝑦) (2.23)

𝐻1: 𝛽𝑖 ≠ 0 (existe relação entre 𝑥𝑖 e 𝑦) (2.24)

A estatística usada para testar (2.23) é chamada estatística t de ��𝑗 e é dada por:

𝑡 ��𝑗 = ��𝑗/𝑒𝑝( ��𝑗) (2.25)

Perceba que (2.25) nada mais é que (2.22) quando 𝛽𝑗 = 0. Uma vez de posse da

estatística t de ��𝑗 basta realizar um teste de inferência pela abordagem clássica no qual

se escolhe um nível de significância 𝛼 (Ex: 𝛼 = 0,05) que possui um valor critico

associado 𝑐 (Ex: 𝑐 = 𝑡𝑛−𝑘−1;0,05 ) . Em suma, 𝐻0 é rejeitada em favor de 𝐻1, no nível de

significância 𝛼 se:

𝑡 ��𝑗 > 𝑐 (2.26)

Esse procedimento carrega algum nível de arbitrariedade pois cabe ao pesquisador

escolher o nível de significância com antecedência. Outros interessados no estudo podem

preferir usar outros níveis de significância, pois não há um nível dito “correto”. Assim,

seria mais transparente informar o menor nível de significância ao qual a hipótese nula é

rejeitada. Esse número é chamado de p-valor do teste.

Também é possível construir intervalos de confiança (IC) para o parâmetro

populacional ��𝑗. Segundo Makridakis, Wheelwright e Hyndman (1998) o intervalo de

confiança pode ser calculado como:

𝛽𝑖 ± 𝑡𝑛−(𝑘+1);𝛼/2 × 𝑒𝑝( ��𝑗) (2.27)

O teste t até então descrito nos permite fazer inferência sobre os parâmetros

populacionais individualmente. Frequentemente desejamos realizar hipóteses conjuntas

sobre os parâmetros. Um caso muito relevante é quando queremos verificar se as variáveis

independentes escolhidas para o modelo possuem conjuntamente qualquer efeito parcial

sobre a variável dependente. O teste que lida com esse tipo de questão é conhecido como

F teste e pode ser construído da seguinte maneira:

𝐻0: 𝛽0, 𝛽1, … , 𝛽𝑘 = 0 (2.28)

𝐻1: 𝛽0 𝑜𝑢 𝛽1 𝑜𝑢 …𝑜𝑢 𝛽𝑘 ≠ 0 (2.29)

24

A hipótese nula 𝐻𝑜 significa que todos os parâmetros são zero ao mesmo tempo,

já 𝐻1 significa que ao menos um dos parâmetros é diferente de zero. A partir desse teste

não se pode afirmar quantos ou quais dos parâmetros são diferentes de zero.

A estatística F de Fisher-Snedecor nesse caso é calculada como:

𝐹𝑡𝑒𝑠𝑡𝑒 = [∑ (��𝑖−��)

2𝑛𝑖=1 ]/(𝑘)

[∑ (𝑦𝑖−��𝑖)2𝑛

𝑖=1 ]/[𝑛−(𝑘+1)] (2.30)

Onde:

• 𝐹𝑡𝑒𝑠𝑡𝑒 = distribuição de probabilidade contínua F de Fisher-Snedecor

• 𝑦𝑖 = valor da variável independente

• ��𝑖 = valor estimado da variável independente

• k = número total de variáveis dependentes

• n = número de observações

Caso 𝐹𝑡𝑒𝑠𝑡𝑒 > 𝐹𝑘;𝑛−(𝑘+1);𝛼 rejeita-se a hipótese nula e afirma-se que ao menos

uma das variáveis testadas apresenta o parâmetro populacional diferente de zero.

2.2.4 VALIDAÇÃO DOS RESÍDUOS

Como visto até aqui o comportamentos dos resíduos possuem muita importância

quanto à satisfação das hipóteses que garantes que os estimadores de MQO são BLUE e

da possibilidade de realizar inferências baseadas nas distribuições t-student e F de Fisher-

Snedecor. Nessa seção iremos descrever métodos para verificar se tais hipóteses estão

sendo respeitadas e, no caso negativo, como devemos resolver esses problemas.

Segundo Gujarati (2010) os resíduos devem apresentar:

• Normalidade do Erro

• Média condicional zero

• Homocedasticidade

• Não correlação serial

A verificação mais importante a se fazer é da normalidade do erro pois se

conseguimos satisfazê-la, também serão satisfeitas demais hipóteses. Essa hipótese pode

ser visualmente avaliada por meio do QQ Plot que compara quantis teóricos com quantis

25

amostrais. A ideia do teste é verificar se os pontos do gráfico estão próximos da reta 𝑦 =

𝜇 + 𝜎𝑥, em caso positivo, assume-se que os resíduos são normalmente distribuídos. O

teste de Shapiro-Wilk (1965) também pode ser utilizado para esse fim.

Segundo Wooldridge (2016) a hipótese de média condicional zero do erro pode

ser violada por duas razoes principais:

• Má especificação funcional das variáveis independentes

• Endogeneidade

Para testar se o modelo está bem especificado quanto às relações funcionais das

variáveis nenhuma função não linear das variáveis independentes deve ser significante

quando adicionada ao modelo original.

Em relação a homocedasticidade é recomendável realizar duas avaliações. Uma

gráfica, na qual é construído um gráfico de dispersão das variáveis observadas com seus

respectivos resíduos. A ideia é que não haja nenhum padrão identificado, mostrando que

a variância dos erros independe dos valores das variáveis independentes. Outra

possibilidade é fazer o teste de Breusch-Pagan no qual fazemos uma regressa do termo

de erro ao quadrado sobre as variáveis independentes.

Para implementar o teste de Breusch-Pagan, supomos,

𝑢2 = 𝛿0 + 𝛿1𝑥1 +⋯+ 𝛿𝑘𝑥𝑘 + 𝑣 (2.34)

E fazemos o teste F de,

𝐻0: 𝛿1 = 0,… , 𝛿𝑘 = 0 (2.35)

𝐻1: 𝛿1 ≠ 0 𝑜𝑢 …𝑜𝑢 𝛿𝑘 ≠ 0 (2.36)

Wooldridge (2016) lembra que no caso de violação da hipótese de media

condicional zero (HRLM.4), o teste de heterocedasticidade pode ser significante mesmo

quando a variância do erro 𝜎2 é constante, por isso a importância de ser verificar

primeiramente a validade de HRLM.4.

Por fim, no caso de dados em serie temporal, ainda é preciso verificar a correlação

serial. Nesse caso, utiliza-se o o teste de Durbin-Watson (DW) que pode ser calculado

como:

26

𝐷𝑊 = ∑ (𝑒𝑖 − 𝑒𝑖−1)

2𝑛𝑖=2

∑ (𝑒𝑖)2𝑛𝑖=1

(2.37)

E com as seguintes considerações:

• 𝐷𝑊 < 2 → Indica autocorrelação positiva (Comum)

• 𝐷𝑊 ≅ 2 → Sem autocorrelação

• 𝐷𝑊 > 2 → Indica autocorrelação negativa (Raro)

2.2.5 O “PROBLEMA” DA MULTICOLINEARIDADE

A multicolinearidade é se resume na em alta correlação (mas não perfeita) entre duas

ou mais variáveis independentes. Segundo Wooldridge (2016), como a

multicolinearidade não viola nenhuma das hipóteses do Modelo Linear Clássico, a

questão da multicolinearidade não está bem definida e lembra que uma amostra pequena

pode levar às mesmas dificuldades. Gujarati (2010) também faz essa ressalva, porém

deixa claro que a multicolinearidade é bastante indesejada pois:

• Apesar de permanecerem BLUE, os estimadores MQO possuem alta covariância

dificultando a estimação precisa dos parâmetros.

Esse fato tem leva a consequências ruim como: intervalos de confiança muito largos,

maior chance de obter parâmetros insignificantes estatisticamente, erros padrão dos

estimadores muito sensíveis à mudança nos dados. Acreditamos que as consequências

listadas sejam suficientes para ser cauteloso perante a multicolinearidade. Portanto, uma

maneira de se detectar o problema é por meio do cálculo do Fator de Inflação de Variância

(FIV) para cada regressor. A boa prática diz que se FIV > 10 a multicolinearidade será

prejudicial ao modelo. Para calculá-lo é preciso lembrar que a variância de um estimador

𝛽𝑗 é dada por:

𝑉𝑎𝑟(��𝑗) = 𝜎2/𝑆𝑄𝑇𝑗(1 − 𝑅𝑗2) (2.38)

Em que 𝑆𝑄𝑇𝑗 é a variação amostral total em 𝑋𝑗 quando regredido sobre as demais

variáveis independentes e 𝑅𝑗2 é justamente o R-quadrado da regressão de 𝑋𝑗 sobre as

demais variáveis independentes.

Assim, do Fator de Inflação de Variância (FIV) é calculado como:

27

𝐹𝐼𝑉𝑗 = 1/(1 − 𝑅𝑗2) (2.39)

2.3 ARIMA

2.3.1 Modelo Auto Regressivo (AR)

Na seção anterior foi descrito o modelo de regressão linear múltipla que tem como

base a equação:

𝑌 = 𝛽0 + 𝛽1𝑋1 +⋯+ 𝛽𝑖𝑋𝑖 + 𝑢 (2.01)

Em que as variáveis 𝑋𝑖 são denominadas independentes ou explicativas enquanto a

variável 𝑌 é denominada dependente ou explicada. Agora, suponha que no lado direito

da equação fossem usadas como variáveis explicativas diferentes níveis de defasagem de

𝑌, de modo que 𝑋1 = 𝑌𝑡−1, 𝑋2 = 𝑌𝑡−2 e assim sucessivamente. Esse modelo é ainda uma

regressão linear múltipla porém com a singularidade de envolver apenas uma variável e

suas respectivas defasagens. Esse modelo é chamado de Modelo Autoregressivo (AR).

A equação que descreve esse modelo é:

𝑌𝑡 = 𝜙0 + 𝜙1𝑌𝑡−1 +⋯+ 𝜙𝑝𝑌𝑡−𝑝 + 𝑒𝑡 (2.40)

Segundo Makridakis, Wheelwright e Hyndman (1998) existem restrições que

devem ser respeitadas:

𝑝𝑎𝑟𝑎 𝑝 = 1, − 1 < 𝛽1 < 1

𝑝𝑎𝑟𝑎 𝑝 = 2, − 1 < 𝛽2 < 1, 𝛽1 + 𝛽2 < 1, 𝛽1 − 𝛽2 < 1

A função de autocorrelação (ACF) e a função de autocorrelação parcial (PACF)

são importantes para se verificar se de fato os dados podem ser representados por um

modelo AR. A função de autocorrelação é uma medida da correlação entre as observações

de uma série temporal que são separadas por k unidades de tempo. Já na função de

28

autocorrelação parcial, deve-se ajustar para todos ou outros termos de menor defasagem

(lag).

Segundo Makridakis, Wheelwright e Hyndman (1998) os gráficos teóricos das

funções ACF e PACF para um modelo AR(1) se caracterizam por um decaimento

exponencial no ACF e um pico único no PACF. Ambos os gráficos estão representados

na Figura 2.3 abaixo:

Figura 2.3 Gráficos ACF e PACF teóricos para modelo AR(1)

Fonte: Makridakis, Wheelwright e Hyndman (1998)

2.3.2 Modelo de Médias Móveis (MA)

Assim como é possível regredir a variável de interesse sobre seus valores passados é

também possível fazer o mesmo processo com os erros provenientes da regressão

realizada:

𝑌𝑡 = 𝜃0 + 𝑒𝑡 − 𝜃1𝑒𝑡−1 −⋯− 𝜃𝑞𝑒𝑡−𝑞 (2.41)

Esse modelo é chamado de média móvel ou moving average (MA). Aqui é importante

não confundir com outros modelos que envolvem o conceito de média móvel. Esses,

geralmente se referem a média móvel das observações, já a equação (2.41) se refere a

média móvel dos erros.

As mesmas restrições em relação aos coeficientes se aplicam para o modelo de médias

móveis (MA), assim:

29

𝑝𝑎𝑟𝑎 𝑞 = 1, − 1 < 𝜃1 < 1

𝑝𝑎𝑟𝑎 𝑞 = 2, − 1 < 𝜃2 < 1, 𝜃1 + 𝜃2 < 1, 𝜃1 − 𝜃2 < 1

Segundo Makridakis, Wheelwright e Hyndman (1998) os gráficos teóricos das

funções ACF e PACF para um modelo MA(1) se caracterizam por um pico único negativo

no ACF e uma convergência gradual para zero no PACF. Ambos os gráficos estão

representados na Figura 2.4 abaixo:

Figura 2.4 Gráficos ACF e PACF teóricos para modelo MA(1)

Fonte: Makridakis, Wheelwright e Hyndman (1998)

2.3.3 Diferença sazonal e a notação Backshift

Quando os dados utilizados apresentam sazonalidade e não são estacionários, é

recomendado realizar uma transformação de diferença sazonal. Nesse processo a variável

𝑌𝑡 é subtraída não pelo período imediatamente anterior, mas sim pelo período anterior que

faz referência a característica sazonal da série. Por exemplo, se 𝑌5 representa o primeiro

trimestre de um ano e existe sazonalidade trimestral, então 𝑌5 deve ser subtraído por 𝑌1

que representa o primeiro trimestre do ano anterior. Makridakis, Wheelwright e Hyndman

(1998) ressaltam que essa transformação deve ser feita antes da primeira diferença, pois

em alguns casos esse passo já é suficiente para tornar a série estacionária.

Devido a recorrência das transformações que envolvem diferenças se faz de

grande utilidade o uso de notação específica para tal processo. Uma notação muito útil é

aquela que usa o operador backshift e que está a seguir:

𝐵𝑌𝑡 = 𝑌𝑡−1

Logo,

30

𝐵(𝐵𝑌𝑡) = 𝐵2𝑌𝑡 = 𝑌𝑡−2

Assim, uma segunda diferença sazonal é denotada como:

(1 − 𝐵2)𝑌𝑡 = 𝑌𝑡 − 𝑌𝑡−2

2.3.4 Modelo ARIMA

Segundo Box and Jenkins (1970) os modelos AR e MA podem ser combinados

desde de que sejam aplicados a séries estacionárias, porém para contornar esse problema

basta que seja permitida a diferenciação da série temporal. Esse novo modelo é chamado

de Autoregressive Integrated Moving Average (ARIMA).

Diferentes modelagens podem ser feitas com essa abordagem porém a mais

simples e que não envolve sazonalidade é descrita por três componentes e a notação

comumente usada para identificar tais componentes é ARIMA(a,b,c).

a = ordem da autoregressão

b = nível de defasagem

c = ordem da média móvel

No caso de um ARIMA(1,1,1) a equação pode ser descrita como:

𝑍𝑡 = 𝑐 + 𝜙1𝑍𝑡−1 +⋯+ 𝜙𝑝𝑍𝑡−𝑝 + 𝑒𝑡 − 𝜃1𝑒𝑡−1 −⋯− 𝜃𝑞𝑒𝑡−𝑞

𝐸𝑚 𝑞𝑢𝑒 𝑍𝑡 = 𝑌𝑡 − 𝑌𝑡−1 (2.42)

Essa defasagem envolvendo Y é justamente o que diferencia o modelo ARIMA do

modelo ARMA.

Para realizar a estimação dos parâmetros pode ser feito o método dos mínimos

quadrados usual ou o processo de maximização da Verossimilhança. Segundo Box,

Jenkins, and Reinsell, (1994) o processo é preferível pois possui propriedades estatísticas

desejáveis.

Uma vez determinados os parâmetros se faz necessário obter um método de

comparação entre diferentes modelos, pois mais de uma escolha de variáveis pode ser

31

assertiva na previsão. No caso do ARIMA a solução foi proposta por Akaike (1974) que

desenvolveu o indicador AIC (Akaike Information Criterion) que é um critérios de

informação que serve para comparar diferentes modelos para um mesmo problema.

Quanto menor o valor do 𝐴𝐼𝐶, melhor é o modelo. E ele pode ser calculado como:

𝐴𝐼𝐶 = 𝑛 × 𝑙𝑛 (𝑆𝑆𝐸

𝑛) + 2 × (𝑘 + 1) (2.21)

O modelo ARIMA também pode ser usado quando os dados apresentam

sazonalidade. A maneira de tratar isso é verificar que assim como dados consecutivos

podem apresentar propriedades dos modelos AR ou MA, dados separados por mais de

um período também podem apresentar as mesmas características.

Quando a sazonalidade é inserida ao ARIMA a literatura denomina o novo modelo

de SARIMA e a notação é apresentada a seguir:

𝑆𝐴𝑅𝐼𝑀𝐴 (𝑎, 𝑏, 𝑐) (𝐴, 𝐵, 𝐶)𝑠 (2.22)

2.3.5 O teste ADF e o teste Ljung-Box

Na modelagem de séries temporais dois pontos são fundamentais: que a série seja

estacionária e que o componente do erro seja aleatório e descorrelacionado período a

período. Assim, primeiramente, para testar se a série é estacionária, o teste Dickey–Fuller

pode ser utilizado. Esse teste tem como hipótese nula a presença de raiz unitária na série

e como hipótese alternativa a estacionaridade.

𝐻0: 𝑃𝑟𝑒𝑠𝑒𝑛ç𝑎 𝑑𝑒 𝑟𝑎𝑖𝑧 𝑢𝑛𝑖𝑡á𝑟𝑖𝑎

𝐻1: 𝑆é𝑟𝑖𝑒 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛á𝑟𝑖𝑎

O resultado desse teste é uma estatística de teste (D-F statistic) que se caracteriza

por ser um número menor que zero e quanto mais negativo é esse valor, mais evidências

existem para se rejeitar a hipótese nula.

Em relação à autocorrelação dos resíduos, foi proposto por Ljung–Box (1978) um

teste em que as hipóteses são:

Parte não sazonal

Parte sazonal

32

𝐻0: 𝑂𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝑠ã𝑜 𝑖. 𝑖. 𝑑.

𝐻1: 𝑂𝑠 𝑟𝑒𝑠í𝑑𝑢𝑜𝑠 𝑛ã𝑜 𝑠ã𝑜 𝑖. 𝑖. 𝑑.

Em que i.i.d. significa independente e identicamente distribuído.

As estimativas de autocorrelações é calculada por:

Assim, é possível calcular a estatística Q,

Q terá aproximadamente uma distribuição 𝑋2com (K - p - q) graus de liberdade,

onde K é o número de defasagens tomada na função de autocorrelação, p e q são as ordens

do modelo ajustado. O modelo não apresenta autocorrelação nos resíduos é conhecido

por ter um “ruído branco”.

2.3.6 Etapas da Metodologia Box-Jenkins

Para se construir um modelo ARIMA é preciso seguir uma metodologia de seleção

de variáveis em que somente a variável objeto de estudo é levada em consideração.

Segundo Morretin & Toloi (1987) esse processo é interativo. A metodologia proposta por

Box & Jenkins (1976) pode ser dividida em três momentos:

a. Identificação: Determinar qual é o comportamento da série e o modelo que melhor

representa a mesma. Nessa etapa devem ser consideradas a presença de tendência e

sazonalidade. Para uma identificação assertiva do modelo se deve usar as funções de

autocorrelação (ACF) e das funções de autocorrelação parciais (PACF). Um quadro

resumo foi proposto por Franco (2011) e está representado na Tabela 2.1:

33

Tabela 2.1 Quadro resumo modelos autoregressivos

Processo ACF PACF

AR(1) Decaimento exponencial: na parte positiva se Ф1>0 e na parte negativa se Ф1<0.

Pico no primeiro lag e depois cai para zero. Pico positivo se Ф1>0 e negativo se Ф1<0

AR(p) Decaimento exponencial ou forma senoidal. O padrão depende do sinal de Ф1, Ф2,...,Фp.

Picos do primeiro ao p-ésimo lag, depois cai para zero.

MA(1) Pico no primeiro lag e depois cai para zero. Pico positivo se θ1<0 e negativo se θ1>0

Decaimento exponencial: na parte negativa se θ1>0 e na parte positiva se θ1<0.

MA(q) Picos do primeiro ao q-ésimo lag, depois cai para zero.

Decaimento exponencial ou forma senoidal. O padrão depende do sinal de θ1, θ2,...,θq.

b. Estimação: Estimação dos parâmetros

c. Verificação: Analisar se o modelo representa bem o comportamento dos dados.

Assim, para definição do modelo ARIMA é necessário fazer uma avaliação crítica

da função de autocorrelações (ACF) e da função de autocorrelações parciais (PACF) e

inevitavelmente testar prováveis combinações. No entanto, no presente foi utilizada a

biblioteca “forecast” disponível no R-Studio na qual está presente a função auto.arima

que automatiza a seleção de variáveis ao selecionar aquela com maior poder informativo.

O critério de comparação é o indicador AIC (Akaike Information Criterion) que quanto

menor o valor do 𝐴𝐼𝐶, melhor é o modelo.

34

3 METODOLOGIA

No presente capítulo é abordado a metodologia, incluindo os dados e sua natureza,

a forma de coleta, o tratamento dos dados e as delimitações do método.

Na Seção 3.1 é apresentado quais dados foram coletados.

Na Seção 3.2 é informado o meio como os dados foram coletados e os programas

utilizados para metodologia.

Na Seção 3.3 é apresentada cada uma variável, suas características mais

importantes e uma análise inicial da relação entre elas.

Na Seção 3.4 é explicado o processo de seleção de variáveis de cada modelos.

Na Seção 3.5 é informado o critério de comparação entre os modelos.

3.1 POPULAÇÃO E AMOSTRA

Conforme mencionado no Capítulo 1, as vendas de gasolina foram o alvo desse

estudo e mais precisamente foram utilizados os dados entre Maio de 2004 e Dezembro de

2017. Como possíveis variáveis explicativas foram coletados dados em série temporal

trimestral do preço da gasolina, do PIB, do desemprego, do licenciamento de veículos e

da frota de veículos. Todas as variáveis escolhidas como candidatas a entrarem no modelo

possuem alguma relação econômica com a venda de gasolina que é a variável de interesse.

Essa intuição econômica será apresenta na parte 3.3 que diz respeito ao tratamento e

análise dos dados.

3.2 COLETA DE DADOS

Os dados foram coletados pelo próprio pesquisador, sendo as principais fontes:

Agência Nacional do Petróleo (ANP), Banco Central do Brasil (BACEN), Instituto

Brasileiro de Geografia e Estatística (IBGE) e Associação Nacional dos Fabricantes de

Veículos Automotores (ANFAVEA). O período da coleta ocorreu entre Março de 2018 e

Abril de 2018. Os dados foram organizados e analisados a partir do uso da ferramenta R-

Studio.

35

3.3 TRATAMENTO E ANÁLISE DE DADOS

A Tabela 3.1, indica as variáveis utilizadas e os detalhes de cada uma, em seguida

uma visão da evolução temporal principal elemento é o gráfico de linha ao longo do

tempo.

Tabela 3.1 Definições das variáveis

Variável Tipo ID Min Mediana Max

Vendas de Gasolina Numérica

(𝑚3) ven 4.996.740 6.430.572 11.725.067

Preço da Gasolina Numérica

($) preco 1,79 2,33 3,76

PIB Numérica

(Milhões R$) pib 274.781 442.133 594.271

Desemprego Numérica

(%) des 5,67 9,27 13,30

Licenciamento de

Veículos

Numérica

(Contagem) lic 210.250 547.830 1.034.391

Frota Estimada de

Veículos

Numérica

(Contagem) frota 17.938.807 26.388.486 41.514.522

Vendas de Gasolina: Volume em metros cúbicos das vendas realizadas pelas

distribuidoras de gasolina C no Brasil.

Essa é a variável de maior relevância para o presente trabalho pois os modelos

propostos visam prever o comportamento da mesma. A partir da figura 3.1, pode-se

perceber a sazonalidade anual da série e também uma suave inclinação a partir do terceiro

trimestre de 2009 que indica tendência positiva.

Fonte: Agência Nacional de Petróleo (ANP, 2018); conforme Resolução ANP n°

17/2014.

36

Figura 3.1 Descrição da Variável Vendas

2000

4000

6000

8000

10000

12000

14000

20

00

.12

00

0.3

20

01

.12

00

1.3

20

02

.12

00

2.3

20

03

.12

00

3.3

20

04

.12

00

4.3

20

05

.12

00

5.3

20

06

.12

00

6.3

20

07

.12

00

7.3

20

08

.12

00

8.3

20

09

.12

00

9.3

20

10

.12

01

0.3

20

11

.12

01

1.3

20

12

.12

01

2.3

20

13

.12

01

3.3

20

14

.12

01

4.3

20

15

.12

01

5.3

20

16

.12

01

6.3

20

17

.12

01

7.3

Milh

ares

Vendas (m³) x Tempo

14,8015,00

15,2015,4015,6015,80

16,0016,20

16,40

20

00

.12

00

0.3

20

01

.12

00

1.3

20

02

.12

00

2.3

20

03

.12

00

3.3

20

04

.12

00

4.3

20

05

.12

00

5.3

20

06

.12

00

6.3

20

07

.12

00

7.3

20

08

.12

00

8.3

20

09

.12

00

9.3

20

10

.12

01

0.3

20

11

.12

01

1.3

20

12

.12

01

2.3

20

13

.12

01

3.3

20

14

.12

01

4.3

20

15

.12

01

5.3

20

16

.12

01

6.3

20

17

.12

01

7.3

log(Vendas) x Tempo

-0,20

-0,15

-0,10

-0,05

0,00

0,05

0,10

0,15

20

00

.12

00

0.3

20

01

.12

00

1.3

20

02

.12

00

2.3

20

03

.12

00

3.3

20

04

.12

00

4.3

20

05

.12

00

5.3

20

06

.12

00

6.3

20

07

.12

00

7.3

20

08

.12

00

8.3

20

09

.12

00

9.3

20

10

.12

01

0.3

20

11

.12

01

1.3

20

12

.12

01

2.3

20

13

.12

01

3.3

20

14

.12

01

4.3

20

15

.12

01

5.3

20

16

.12

01

6.3

20

17

.12

01

7.3

Dif(log(Vendas))

37

Preço da Gasolina: Preço médio, em reais, praticado pelas distribuidoras de gasolina C

no Brasil.

O preço em questão se refere ao praticado pelas distribuidoras de combustíveis

em todo Brasil que é divulgado mensalmente em relatório pela Agência Nacional do

Petróleo. Acredita-se que a relação entre preço e vendas respeite a lei da demanda que

prevê um comportamento inverso entre preço e demanda (i.e. um aumento do preço da

gasolina causaria uma pressão para redução do consumo da mesma). Ao se analisar os

gráficos é possível concluir que houve um aumento consistente dos preços ao longo do

período de estudo que pode ser explicado pela inflação e por isso se acredita ter pouco

poder de explicação para as vendas de gasolina. Outra análise a ser pontuada é que não

há sazonalidade anual no movimento do preço da gasolina ao longo do tempo.

Fonte: Agência Nacional de Petróleo (ANP, 2018).

Figura 3.2 Descrição da Variável Preço

130000

135000

140000

145000

150000

Tri_1 Tri_2 Tri_3 Tri_4

Milh

ares

Soma Vendas por Trimestre

38

PIB: Produto Interno Bruto em milhões de reais deflacionado, tendo como período base

Janeiro de 2000 e como índice de inflação o índice nacional de preços ao consumidor

amplo (IPCA).

A opção por retirar o efeito da inflação dos dados referente ao produto interno

bruto se justifica pois a variável preço já está sendo considerada e nela o processo

inflacionário se faz presente. A intuição econômica de incluir ou ao menos investigar a

variável em questão para entender o comportamento das vendas de gasolina é direto.

Acredita-se que uma economia mais pujante impacte positivamente as vendas de gasolina

pois muitos dos fatores de produção dependem dessa fonte de energia para seu

funcionamento. O PIB trimestral deflacionado apresenta sazonalidade anual que é

caracterizada por um vale no primeiro trimestre e um pico no quarto trimestre do ano.

Observa-se também presença de tendência positiva ao longo do tempo.

Fonte: (IBGE, BACEN, 2017)

1,50

2,00

2,50

3,00

3,50

4,00

20

04

.2

20

04

.4

20

05

.2

20

05

.4

20

06

.2

20

06

.4

20

07

.2

20

07

.4

20

08

.2

20

08

.4

20

09

.2

20

09

.4

20

10

.2

20

10

.4

20

11

.2

20

11

.4

20

12

.2

20

12

.4

20

13

.2

20

13

.4

20

14

.2

20

14

.4

20

15

.2

20

15

.4

20

16

.2

20

16

.4

20

17

.2

20

17

.4

Preço Gasolina (R$/L) x Tempo

0,00

0,50

1,00

1,50

2,00

2,50

3,00


Média Preço por Trimestre

39

Figura 3.3 Descrição da Variável PIB

Desemprego: Taxa de desocupação em percentual aferida pela Pesquisa Nacional por

Amostra de Domicílios Contínua (PNADC).

Ao se considerar o desemprego, espera-se uma relação inversa entre a taxa e as

vendas de gasolina. Acredita-se que quanto menor o índice de desocupação maior será o

consumo de combustível seja para o transporte para até o local de trabalho, seja para o

transporte pessoal que tende a aumentar devido ao aumento da renda proveniente do

emprego adquirido. No período de estudo, pode-se observar que houve significativa

redução de desemprego entre 2001 e 2014 porém esse indicador piorou muito após 2014

e chegou ao fim da série chegou ao mesmo patamar de 2001 em torno de 12%. A série

200

300

400

500

600

700

20

00

.12

00

0.3

20

01

.12

00

1.3

20

02

.12

00

2.3

20

03

.12

00

3.3

20

04

.12

00

4.3

20

05

.12

00

5.3

20

06

.12

00

6.3

20

07

.12

00

7.3

20

08

.12

00

8.3

20

09

.12

00

9.3

20

10

.12

01

0.3

20

11

.12

01

1.3

20

12

.12

01

2.3

20

13

.12

01

3.3

20

14

.12

01

4.3

20

15

.12

01

5.3

20

16

.12

01

6.3

20

17

.12

01

7.3

Bilh

ões

PIB x Tempo

5000000

6000000

7000000

8000000

9000000


Soma PIB por Trimestre

40

estudada não apresenta características de tendência ou sazonalidade, fato que condiz com

a intuição econômica.

Fonte: (IBGE, 2017)

Figura 3.4 Descrição da Variável Desemprego

Licenciamento de Veículos: Somatório do número de licenciamentos de automóveis e

veículos comerciais no período. Inclui tanto licenciamentos nacionais como

internacionais.

4%

6%

8%

10%

12%

14%

20

01

.4

20

02

.2

20

02

.4

20

03

.2

20

03

.4

20

04

.2

20

04

.4

20

05

.2

20

05

.4

20

06

.2

20

06

.4

20

07

.2

20

07

.4

20

08

.2

20

08

.4

20

09

.2

20

09

.4

20

10

.2

20

10

.4

20

11

.2

20

11

.4

20

12

.2

20

12

.4

20

13

.2

20

13

.4

20

14

.2

20

14

.4

20

15

.2

20

15

.4

20

16

.2

20

16

.4

20

17

.2

20

17

.4

Desemprego x Tempo

5,0%

6,0%

7,0%

8,0%

9,0%

10,0%


Média Taxa de Desemprego por Trimestre

41

Essa variável pretende capturar o volume de carros novos originados pelo

consumo das famílias e que tendem a impactar positivamente o consumo de gasolina pelas

mesmas. A intuição direta é que quanto mais carros sendo vendidos, maior será o

consumo de gasolina no trimestre ou em trimestre posteriores. A série de dados no período

de estudo apresentou grande variação devido à sazonalidade anual caracterizada por vales

no segundo semestre e picos nos quartos trimestres do ano. Além disso, pode-se constatar

significativa tendência positiva a partir de 2006 que só foi interrompida pelos anos de

recessão entre 2014 e 2016.

Fonte: (ANFAVEA, 2017)

Figura 3.5 Descrição da Variável Licenciamento de Veículos

0

200

400

600

800

1000

1200

20

00

.12

00

0.3

20

01

.12

00

1.3

20

02

.12

00

2.3

20

03

.12

00

3.3

20

04

.12

00

4.3

20

05

.12

00

5.3

20

06

.12

00

6.3

20

07

.12

00

7.3

20

08

.12

00

8.3

20

09

.12

00

9.3

20

10

.12

01

0.3

20

11

.12

01

1.3

20

12

.12

01

2.3

20

13

.12

01

3.3

20

14

.12

01

4.3

20

15

.12

01

5.3

20

16

.12

01

6.3

20

17

.12

01

7.3

Milh

ares

Licenciamentos Totais x Tempo

9000000

9500000

10000000

10500000

11000000

11500000

12000000


Soma Licenciamentos por Trimestre

42

Frota Estimada de Veículos: Total de automóveis e veículos comerciais leves que se

encontram em circulação no período.

Para tornar a análise da relação entre o volume de veículos e o consumo de

gasolina mais completa não é suficiente considerar apenas a entrada de automóveis no

sistema através da variável licenciamentos de veículos que foi descrita anteriormente. Se

faz necessário também a consideração da saída de veículos do sistema. O resultado da

frota no início do ano acrescido do volume de entrada e subtraído do volume de saída é

justamente a frota de veículos em circulação que é divulgada pela Associação Nacional

dos Fabricantes de Veículos Automotores. A intuição econômica nesse caso como no da

variável anterior diz que quanto maior a frota de veículos em circulação, maior deverá ser

o consumo de gasolina no Brasil. A série no período estudado apresentou presença de

tendência positiva e não apresentou característica de sazonalidade anual.

Fonte: (ANFAVEA, 2017)

Figura 3.6 Descrição da Variável Frota

0

10000

20000

30000

40000

50000

20

00

.12

00

0.3

20

01

.12

00

1.3

20

02

.12

00

2.3

20

03

.12

00

3.3

20

04

.12

00

4.3

20

05

.12

00

5.3

20

06

.12

00

6.3

20

07

.12

00

7.3

20

08

.12

00

8.3

20

09

.12

00

9.3

20

10

.12

01

0.3

20

11

.12

01

1.3

20

12

.12

01

2.3

20

13

.12

01

3.3

20

14

.12

01

4.3

20

15

.12

01

5.3

20

16

.12

01

6.3

Milh

ares

Frota de Veículos x Tempo

43

A figura 3.7 abaixo representa o coeficiente de correlação entre as variáveis. O

interesse em analisar a correlação está em verificar possíveis candidatas para o modelo

de regressão, assim como avaliar a presença de colinearidade.

Figura 3.7 Correlação entre variáveis

A partir dos valores apresentados fica evidente a predominância da cor azul no

gráfico, isto é, variáveis altamente correlacionadas. Uma conclusão ingênua seria afirmar

que todas as demais variáveis possuem grande potencial para explicar as vendas de

49000000

149000000

249000000

349000000

449000000

549000000

649000000


Soma Frota de Veículos por Trimestre

44

gasolina, porém isso seria um equívoco. Nas figuras que representam as séries temporais

é possível observar que, à exceção do desemprego, todas as variáveis sugerem tendência

crescente ao longo do tempo. Assim, é nesse fato que reside a relação estreita entre as

vendas de gasolina e as demais variáveis.

Para contornar essa dificuldade sugerimos um pequeno tratamento nos dados. Foi

obtida a diferença de um período de cada variável e depois refeito o gráfico de correlação.

Os novos valores se encontram na figura 3.8 abaixo.

Figura 3.8 Correlação entre variáveis a primeira diferença

De posse desses valores é possível constatar que as variáveis vendas, PIB e

Licenciamento de Veículos possuem alta correlação entre si e se candidatam como

possíveis variáveis explicativas para o modelo. Já Preço da Gasolina e Frota se tornam

irrelevantes após o tratamento de tendência. A variável Desemprego apresentou

correlação de -0,46 que apesar de baixa ainda deixa espaço para uma avaliação mais

cuidadosa da sua relevância.

45

Vale adicionar que os dados em série temporal geralmente apresentam

autocorrelação entre os resíduos pois é esperado que existam efeitos de tendência e

sazonalidade ao longo do tempo. Note que quando se realiza a primeira diferença nos

dados é esperado que o efeito de tendência desapareça e isso significa que as

autocorrelações entre os resíduos se tornem aleatória e transite em torno de zero. Esse

tipo de comportamento nos resíduos de uma série é chamado de ruído branco.

3.4 SELEÇÃO DE VARIÁVEIS

3.4.1 REGRESSÃO LINEAR MÚLTIPLA

O processo de seleção do modelo de Regressão Linear Múltipla utilizado se baseou

em três pilares: significância estatística dos parâmetros, validação das hipóteses de Gauss-

Markov e relevância econômica. O primeiro elemento diz respeito ao teste de hipótese

que verifica existem evidências de que o parâmetro é diferente de zero. O nível de

significância utilizado foi de 5%. O segundo foi detalhadamente discutido revisão teórica

e garante que os estimadores por Mínimos Quadrados Ordinários sejam não viesados e

eficientes. Por fim, o terceiro pilar visa evitar que variáveis sem relevância econômica

sejam incluídas ao modelo mesmo que apresentem significância estatística. Relevância

neste caso pode ser mais precisamente definido como capacidade do regressor de explicar

a variável dependente.

Por exemplo, suponha o modelo:

𝑣𝑒𝑛𝑙𝑜𝑔 = 3,2 + 0,21 𝑝𝑖𝑏𝑙𝑜𝑔 − 0,000002 𝑑𝑒𝑠 (3.1)

(0,8) (0,03) (0,0000007)

Em que venlog representa o logaritmo das vendas, piblog o logaritmo do PIB e

des a taxa de desemprego em valores percentuais. Os valores entre parênteses representam

os respectivos erros-padrão de cada parâmetro. Observe que a variável des é

estatisticamente significante ao nível de 5% (𝑡 = 2,85), porém ao interpretarmos seu

efeito econômico, percebe-se que uma queda de 6% na taxa de desemprego explica um

aumento irrisório de 0,0012% nas vendas de veículos. Assim, optamos por excluir

variáveis pouco explicativas com o intuito de deixar o modelo mais parcimonioso.

46

Portanto, definidos os critérios de seleção, basta mencionar que as variáveis foram

sendo adicionadas uma a uma ao modelo pela ordem decrescente do coeficiente de

correlação com a variável de interesse (Vendas de Veículos).

O fluxograma da figura 3.9 abaixo ilustra o processo de seleção de variáveis

adotado.

Figura 3.9 Fluxograma do processo de seleção de variáveis

3.4.2 ARIMA

Como discutido no Capítulo 2, a definição do modelo ARIMA é necessário fazer

uma avaliação da função de autocorrelações (ACF) e da função de autocorrelações

47

parciais (PACF) no intuito de selecionar o modelo de previsão. No entanto, no presente

foi utilizada a biblioteca “forecast” disponível no R-Studio na qual está presente a função

auto.arima que automatiza a seleção de variáveis ao selecionar aquela com maior poder

informativo. O critério de comparação é o indicador AIC (Akaike Information Criterion)

que quanto menor o valor do 𝐴𝐼𝐶, melhor é o modelo.

3.5 COMPARAÇÃO ENTRE MODELOS

A comparação entre os modelos foi feita com o objetivo de verificar qual deles

apresenta maior acuracidade na previsão de demanda. Assim, o indicador utilizado foi o

Erro Quadrado Médio (EQM) que pode ser calculado pela formula:

𝐸𝑄𝑀 =∑ (𝑦𝑖 − ��𝑖)

2𝑛𝑖=1

𝑛 (3.2)

Em que 𝑦𝑖 é o valor real de vendas, ��𝑖 é o valor previsto para as vendas de gasolina

e 𝑛 é o número total de previsões.

48

4 RESULTADOS

A seção 4.1 aborda a análise estatística e interpretação do modelo final de

Regressão Linear Múltipla e a interpretação do resultado.

Na seção 4.2 a análise estatística e interpretação do modelo final do processo

ARIMA, assim como a interpretação do resultado.

Na seção 4.3 é feita a comparação entre os modelos sugeridos.

4.1 REGRESSÃO LINEAR MÚLTIPLA

A partir do processo de seleção de variáveis descrito no capítulo anterior, chegou-se

a um modelo AR(1) com sazonalidade. A tabela 4.1 detalha o caminho percorrido através

do processo descrito pelo fluxograma na Figura 3.9 até a definição do modelo.

Tabela 4.1 Seleção de variáveis RLM

Variáveis Explicativas

Coeficiente R²

Ajustado Correlação Serial

( Breusch-Godfrey) Homocedasticidade

(Breusch-Pagan) Normalidade

(Shapiro-Wilk)

preco Β: -0,0024

p-valor: 0,9 -0,02 x x x

des Β: -0,0034

p-valor: 0,4 x x x

frota Β: 6,7 e-08

p-valor: 0,11 0,03 x x

pib Β: 0,77

p-valor: < 0,01 0,39 p-valor: 0,84 p-valor: 0,22 p-valor: 0,72

lic Β: 0,17

p-valor: < 0,01 0,20 p-valor: 0,88 p-valor: 0,17 p-valor: 0,44

pib + lic

Βpib: 0,81 p-valor: < 0,01

Blic: -0,02 p-valor: 0,7

0,38 x x x

pib + tri(1,2,3)

Βpib: 0,51 p-valor: 0,07

Btri(1,2,3): > 0,03 p-valor: < 0,04

0,53 p-valor: 0,97 p-valor: 0,07 p-valor: 0,16

ven_lag + tri(1,2,3)

Βpib: 0,98 p-valor: < 0,01

Btri(1,2,3): > 0,05 p-valor: < 0,01

0,98 p-valor: 0,50 p-valor: 0,10 p-valor: 0,26

49

A partir da tabela é possível verificar que os modelos usando as variáveis preço,

desemprego e frota de veículos não são significativos estatisticamente ao nível de 5%,

pois o p-valor em todos eles está acima desse patamar. Também foram testados os

modelos utilizando as variáveis PIB e licenciamento de veículos, ambas surtiram modelos

válidos e que cumpriram as hipóteses teóricas, mas com baixo poder de explicação.

Posteriormente, tentou-se utilizar essas duas variáveis em conjunto, porém uma vez

controlado o efeito do pib a capacidade explicativa do licenciamento se tornou não

significante. Tendo em vista que o PIB é variável mais promissora dentre as que estão no

escopo do presente trabalho, criou-se um modelo usando o PIB acrescido de três variáveis

dummies que representam os trimestres. Como pode ser observado na Tabela 4.1 o

modelo passou pelas exigências em um nível de 7%. Por fim, foi testado o modelo AR(1)

acrescido das variáveis de sazonalidade trimestral que obteve melhor desempenho em

todos as exigências estabelecidas, inclusive apresentando capacidade explicativa (R²:

0,98) muito superior aos demais.

Todo processamento estatístico foi realizado através do software R-Sudio e a seguir

se encontra a tabela 4.2 com o resumo da regressão.

Tabela 4.2 Resumo da Regressão

Em que B são os coeficientes estimados, CI o intervalo de confiança dos

coeficientes e p o p-valor do teste t de cada estimador.

50

A partir dos valores dispostos na Tabela 4.2, pode-se observar que todos os

estimadores são significantes ao nível de 5% de significância com exceção do intercepto.

Esse resultado nos fornece evidência suficiente para considerarmos a série temporal das

Vendas de Gasolina como um caso de passeio aleatório (Random Walk). Isso ocorre

quando o coeficiente de inclinação de uma auto-regressão de ordem um é justamente a

unidade. Essa característica fica clara no intervalo de confiança do coeficiente de

venloglag que varia entre 0,95 e 1,03. O modelo do tipo passeio aleatório prevê que o

valor esperado para o período o subsequente nada mais é do que o período corrente.

Deve-se destacar também o papel da sazonalidade nos resultados observados. Da

maneira que o modelo foi construído o período base da regressão é o quarto trimestre. A

interpretação correta da regressão prevê que fixados os valores das demais variáveis

(venlogloag, pibloglag), o efeito no primeiro trimestre será em média 0,6 pontos

percentuais menor do que no quarto trimestre.

No que diz respeito à validação das hipóteses, iniciamos com o teste de correlação

serial Durbin-Watson. Observa-se que não há evidencias, ao nível de 5% de significância,

para rejeitar a hipótese nula de que não existe a presença de auto-correlação. Abaixo os

detalhes do teste gerado pelo R-Studio.

Tabela 4.3 Teste Durbin-Watson

Lag D-W Estatística p-valor

1 0,0934 1,7875 0,458

Uma vez válida a hipótese de inexistência de correlação serial, verificou-se a

hipótese de homocedasticidade pela análise gráfica. Por meio da figura 4.1, constata-se a

inexistência de qualquer tipo de padrão nos resíduos.

Figura 4.1 Resíduos Studentizados vs Valores Previstos

51

Outra possibilidade para verificar homocedasticidade é realizar o teste Breusch-

Pagan. O resultado corrobora a análise anterior, pois não apresenta evidencias, ao nível

de 5% de significância, para rejeitar a hipótese nula de que os resíduos são

homocedásticos. Abaixo os detalhes do teste gerado pelo R-Studio.

Tabela 4.4 Teste Breusch-Pagan

BP df p-valor

7,07396 4 0,1016

O último teste que envolve os resíduos busca verificar se os mesmos seguem uma

distribuição normal e é denominado teste de Shapiro-Wilk. Essa hipótese também foi

satisfeita, como pode ser observado nos resultados abaixo.

Tabela 4.5 Teste Shapiro-Wilk

W p-valor

0,97144 0,2646

A Figura 4.2 demonstra o histograma da distribuição dos resíduos studentizados e

que aproximadamente possui uma distribuição normal.

Figura 4.2 Histograma dos Resíduos

52

A Figura 4.3 indica o QQ plot da distribuição dos resíduos studentizados e a sua

diagonal está próxima de ângulo de 45 graus sugerindo que os resíduos são normalmente

distribuídos.

Figura 4.3 QQ Plot

4.2 ARIMA

Conforme explicado no capítulo 2, para definição do modelo ARIMA é necessário

fazer uma avaliação da função de autocorrelações (ACF) e da função de autocorrelações

parciais (PACF) no intuito de selecionar o modelo de previsão. A figura 4.4, 4.5 e 4.6

apresentam justamente essas funções referentes aos dados de vendas de gasolina, log das

vendas de gasolina e diferença do log das vendas de gasolina respectivamente. Em

seguida de cada figura está presente a interpretação dos comportamentos dos resíduos.

53

Figura 4.4 ACF e PACF das Vendas de Gasolina

Como pode ser observado na figura 4.4 o gráfico ACF apresenta um decaimento que

pode ser interpretado como um decaimento exponencial. Já o gráfico PACF apresenta um

pico evidente no primeiro lag e posteriormente autocorrelações menores porém não

desprezíveis. Esse resultado confere indícios para ser selecionado um modelo AR uma

vez que a teoria prevê um decaimento exponencial no gráfico ACF e um pico no primeiro

lag para esse tipo de modelo. No entanto, um ponto de atenção se mantém no gráfico

PACF devido aos picos menores porém relevantes no quinto e nono lag.

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

ACF - Vendas

-0,34-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

PACF - Vendas

54

Figura 4.5 ACF e PACF da transformação log Vendas de Gasolina

Os gráficos ACF e PACF da transformação logarítmica dos dados preserva as

características principais dos gráficos originais, porém é possível observar que as

autocorrelaçãoes parciais do gráfico PACF estão menores, isto é, a variância da série foi

amenizada. Como mencionado anteriormente, essa transformação é importante na

satisfação da hipótese teórica que diz respeito à homocedasticidade dos resíduos.

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

ACF - log(Vendas)

-0,29-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

PACF - log(Vendas)

55

Figura 4.6 ACF e PACF da diferença de log Vendas de Gasolina

Os dados em série temporal geralmente apresentam autocorrelação entre os

resíduos pois é esperado que existam efeitos de tendência e sazonalidade ao longo do

tempo. Note que quando se realiza a primeira diferença nos dados é esperado que o efeito

de tendência desapareça e isso significa que as autocorrelações entre os resíduos se

tornem aleatória e transite em torno de zero. Esse tipo de comportamento nos resíduos de

uma série é chamado de ruído branco. No entanto, não foi isso que ocorreu com os dados

de vendas de gasolina. Ao se analisar o gráfico ACF, perceba que o decaimento

exponencial mudou de padrão porém continua presente nas autocorrelações. A diferença

está no fato de que o novo decaimento se dá entre intervalos de 4 lags, como indicado

pela reta tracejada presente na figura 4.6. Esse padrão indica a presença de sazonalidade

anual das vendas de gasolina.

Mesmo os gráficos apontando para um modelo autoregressivo com sazonalidade,

ainda é preciso verificar os graus de defasagem do modelo AR. Isso significa construir

diferentes modelos gerar seus resultados e compará-los. Felizmente na biblioteca

-0,6

-0,4

-0,2

0

0,2

0,4

0,6

0,8

1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

ACF - Dif(log(Vendas)

-0,4

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4

0,5

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

PACF - Dif(log(Vendas))

56

“forecast” disponível no R-Studio está presente uma função denominada auto.arima que

automatiza justamente essa comparação entre potenciais modelos. Os resultados são

apresentados a seguir na figura 4.7.

Figura 4.7 Resultado da Função auto.arima

Como pode ser observado na parte inferior da figura a função apresentou o modelo

SARIMA(1,0,0)(1,1,0) como sendo o mais acurado. O critério de comparação é o

indicador AIC (Akaike Information Criterion) que quanto menor o valor do 𝐴𝐼𝐶, melhor

é o modelo.

Note que em alguns casos ao lado do modelo testado aparece a expressão with

drift. Nos modelos com essa propriedade o termo constante está sendo considerado na

equação de previsão e no caso de significância do mesmo, existe indicação para a

presença de tendência mesmo com os dados transformados a primeira diferença.

Os detalhes do modelos selecionados estão a seguir:

Tabela 4.6 Modelo SARIMA

AR(1) sAR(1)

Coeficiente 0,92 -0,48

Erro Padrão 0,05 0,13

57

Apesar da função ser muito eficiente quanto a seleção do modelo ainda é preciso

verificar se as hipóteses teóricas que dizem respeito ao comportamento dos resíduos são

válidas. Nesse sentido, primeiramente, foi avaliado se a série é estacionária por meio do

augmented Dickey–Fuller test (ADF). O teste apresentou evidências significativas ao

nível de 1,0% de que a série é estacionária. Os resultados estão na Tabela 4.7 abaixo.

Tabela 4.7 Teste Dickey–Fuller (ADF)

D-F p-valor

-7,7177 0,01

Posteriormente foi testado se os resíduos são autocorrelacionados ao longo da

mesma. A discussão prévia nos dá indícios que quando feita a primeira diferença nos

dados, a autocorrelação é praticamente eliminada, restando somente o efeito sazonal que

foi também solucionado quando se optou por um modelo que capture a sazonalidade. Para

verificar essa conclusão foi usado o teste Ljung–Box que visa verificar se existe

autocorelação considerando cada defasagem (lag) do modelo. A tabela 4.8 e a figura 4.8

resume o resultado de que o modelo está bem ajustado uma vez que o p-valor se encontra

acima de 5%, não sendo possível refutar a hipótese nula de que os resíduos não são

autocorrelacionados.

Tabela 4.8 Resultado do teste Ljung–Box

m Qm p-valor

1 0,75 0,39

2 1,48 0,22

3 2,56 0,11

4 2,76 0,25

5 6,64 0,08

6 8,44 0,08

7 9,74 0,08

8 11,38 0,08

9 11,4 0,12

10 11,4 0,18

58

11 13,17 0,16

12 17,72 0,06

13 17,72 0,09

14 17,73 0,12

15 19,31 0,11

16 19,82 0,14

17 21,96 0,11

18 22,69 0,12

19 23,54 0,13

20 23,56 0,17

Figura 4.8 Resultado do teste Ljung–Box

Outra hipótese que deve ser satisfeita é a de que os resíduos devem seguir uma

distribuição normal. A Figura 4.9 que apresenta o QQ plot da distribuição dos resíduos.

Observa-se que a diagonal está bem ajustada, sugerindo que os resíduos são normalmente

distribuídos.

Figura 4.9 QQ Plot dos resíduos SARIMA

59

4.3 COMPARAÇÃO ENTRE MODELOS

Em decorrência do baixo volume de dados disponíveis, a comparação entre os

modelos de RLM e SARIMA foi feita em duas etapas. Na primeira, após a seleção das

variáveis descrita nas sessões anteriores, os modelos foram gerados utilizando dados até

2015 que tiveram os resultados de previsão comparados dentro do ano de 2016. Essa

primeira etapa deve ser entendida como uma fase de validação. Na segunda etapa, os

modelos foram gerados utilizando dados até 2016 que tiveram os resultados comparados

dentro dos anos de 2017 e 2018. Essa última etapa foi denominada fase de conclusão.

4.3.1 FASE DE VALIDAÇÃO

A seguir se encontra a tabela 4.9 com o resumo da regressão de validação.

Tabela 4.9 Resumo da RLM na fase de validação

A Tabela 4.10 apresenta os principais indicadores de acuracidade obtidos pelo

modelo de Regressão Linear Múltipla, AR(1) com sazonalidade na fase de validação. Já

a figura 4.10 promove uma visão gráfica desse desempenho.

60

Tabela 4.10 Resultados RLM na fase de validação

Período Vendas Previsão Erro Erro/Vendas Erro²

2016.1 10.518.392 10.473.453 44.938 0,43% 2.019.435.646

2016.2 10.371.025 10.182.822 188.202 1,81% 35.420.145.165

2016.3 10.579.373 9.589.942 989.431 9,35% 978.974.506.462

2016.4 11.550.293 10.014.092 1.536.201 13,30% 2.359.912.616.966

Raiz EQM

918.739

Figura 4.10 Vendas e Previsão RLM na fase de validação

O modelo de regressão AR(1) com sazonalidade obteve erro máximo de 13,3%

em relação as vendas reais e mínimo de 0,43%. A raiz do erro quadrático médio foi de

918.793 m³ de gasolina.

Também foi avaliado o modelo SARIMA. A Tabela 4.11 apresenta os principais

indicadores de acuracidade obtidos pelo modelo SARIMA (1,0,0)(1,1,0) na fase de

validação. Já a figura 4.6 promove uma visão gráfica desse desempenho.

Tabela 4.11 Tabela de Resultados SARIMA na fase de validação


2016.1 10.518.392 9.804.284 714.108 6,79% 509.949.560.909

2016.2 10.371.025 9.831.775 539.250 5,20% 290.790.558.636

2016.3 10.579.373 9.927.309 652.064 6,16% 425.187.611.366

2016.4 11.550.293 10.561.966 988.327 8,56% 976.789.364.927

Raiz EQM 742.078

4,0

6,0

8,0

10,0

12,0

14,0

20

04

.2

20

05

.1

20

05

.4

20

06

.3

20

07

.2

20

08

.1

20

08

.4

20

09

.3

20

10

.2

20

11

.1

20

11

.4

20

12

.3

20

13

.2

20

14

.1

20

14

.4

20

15

.3

20

16

.2

Milh

ões

Vendas de Gasolina m³

Vendas

RLM -Validação

61

Figura 4.11 Vendas e Previsão SARIMA na fase de validação

O modelo SARIMA (1,0,0)(1,1,0). obteve erro máximo de 8,56% em relação as

vendas reais e mínimo de 5,20%. A raiz do erro quadrático médio foi de 742.078 m³ de

gasolina.

Portanto, verifica-se que o modelo SARIMA apresentou acuracidade superior ao

modelo AR(1) com sazonalidade ao serem confrontados os erros quadráticos médios. Na

próxima etapa os modelos foram recalibrados utilizando os dados até final de 2016. O

objetivo é verificar se os resultados obtidos na fase de validação se confirmam na fase de

conclusão.

4.3.2 FASE DE CONCLUSÃO

A Tabela 4.12 apresenta os principais indicadores de acuracidade obtidos pelo

modelo de Regressão Linear Múltipla, AR(1) com sazonalidade na fase de conclusão. Já

a figura 4.5 promove uma visão gráfica desse desempenho.

Tabela 4.12 Resultados RLM na fase de conclusão


2017.1 11.218.419 11.320.016 -101.597 -0,91% 10.321.999.850

2017.2 11.196.150 10.965.959 230.191 2,06% 52.988.025.247

2017.3 10.905.394 10.264.594 640.799 5,88% 410.623.898.243

2017.4 10.829.569 10.650.623 178.947 1,65% 32.021.961.077

2018.1 10.148.280 10.448.445 -300.165 -2,96% 90.099.286.777

2018.2 9.593.908 10.131.384 -547.475 -5,71% 288.880.516.003

2018.3 9.084.950 9.492.410 -224.317 -2,47% 166.023.842.244

4,05,06,07,08,09,0

10,011,012,013,0

20

04

.2

20

05

.1

20

05

.4

20

06

.3

20

07

.2

20

08

.1

20

08

.4

20

09

.3

20

10

.2

20

11

.1

20

11

.4

20

12

.3

20

13

.2

20

14

.1

20

14

.4

20

15

.3

20

16

.2

Milh

ões


Vendas

ARIMA - Validação

62

Raiz EQM

387.475

Figura 4.12 Vendas e Previsão RLM na fase de conclusão

O modelo de regressão AR(1) com sazonalidade obteve erro máximo de 5,88%

em relação as vendas reais e mínimo de 0,91%. A raiz do erro quadrático médio foi de

387.475 m³ de gasolina.

Assim como na etapa de validação, também foi considerado o modelo SARIMA.

A Tabela 4.13 apresenta os principais indicadores de acuracidade obtidos pelo modelo

SARIMA (1,0,0)(1,1,0) na fase de conclusão. Já a figura 4.6 promove uma visão gráfica

desse desempenho.

Tabela 4.13 Tabela de Resultados SARIMA na fase conclusão


2017.1 11.218.419 10.780.829 437.590 3,90% 191.484.901.225

2017.2 11.196.150 10.524.748 671.402 6,00% 450.780.959.171

2017.3 10.905.394 10.588.722 316.672 2,90% 100.281.154.943

2017.4 10.829.569 11.394.941 -565.371 -5,22% 319.644.489.436

2018.1 10.148.280 10.898.765 -750.485 -7,40% 563.227.770.563

2018.2 9.593.908 10.672.064 -547.475 -5,71% 1.162.418.918.060

2018.3 9.084.950 10.791.075 -224.317 -2,47% 2.910.864.589.694

Raiz EQM

902.275

4,0

6,0

8,0

10,0

12,0

14,0

20

04

.2

20

05

.1

20

05

.4

20

06

.3

20

07

.2

20

08

.1

20

08

.4

20

09

.3

20

10

.2

20

11

.1

20

11

.4

20

12

.3

20

13

.2

20

14

.1

20

14

.4

20

15

.3

20

16

.2

20

17

.1

20

17

.4

20

18

.3

Milh

ões

Vendas de Gasolina m³ (Milhões)

Vendas Previsão RLM

63

Figura 4.13 Vendas e Previsão SARIMA na fase de conclusão

O modelo SARIMA (1,0,0)(1,1,0) obteve erro máximo de 7,40% em relação as

vendas reais e mínimo de 2,47%. A raiz do erro quadrático médio foi de 902.275 m³ de

gasolina.

Portanto, verifica-se que o modelo AR(1) com sazonalidade apresentou

acuracidade superior ao modelo SARIMA ao serem confrontados os erros quadráticos

médios. Para ilustrar esse resultado, a Figura 4.12 apresenta ambas as previsões em um

mesmo gráfico.

Figura 4.14 Comparação previsão RLM e SARIMA na fase de conclusão

Como pode ser constatado, houve uma divergência entre os resultados da fase de

validação e de conclusão. Na primeira o modelo SARIMA se saiu melhor, enquanto na

segundo foi o modelo de RLM que apresentou melhor performance. Esse fato pode ser

4,0

6,0

8,0

10,0

12,0

14,0

20

04

.2

20

05

.1

20

05

.4

20

06

.3

20

07

.2

20

08

.1

20

08

.4

20

09

.3

20

10

.2

20

11

.1

20

11

.4

20

12

.3

20

13

.2

20

14

.1

20

14

.4

20

15

.3

20

16

.2

20

17

.1

20

17

.4

20

18

.3

Milh

ões


Vendas Previsão ARIMA

8,59,09,5

10,010,511,011,512,0

20

14

.1

20

14

.2

20

14

.3

20

14

.4

20

15

.1

20

15

.2

20

15

.3

20

15

.4

20

16

.1

20

16

.2

20

16

.3

20

16

.4

20

17

.1

20

17

.2

20

17

.3

20

17

.4

20

18

.1

20

18

.2

20

18

.3

Milh

ões


Vendas Previsão ARIMA Previsão RLM

64

explicado devido à forte queda no consumo de gasolina em 2018 que não teve precedente

nos últimos anos. Tal redução de demanda está ligada a fatores regulatórios e econômicos

como: a nova política de preços da Petrobras (paridade internacional), a forte alta do preço

do petróleo até setembro de 2018 e o evento que ficou conhecido como greve dos

caminheiros ocorrida em maio do mesmo ano.

Está fora do escopo do presente trabalho uma avaliação mais profunda dos fatores

citados no parágrafo anterior, porém é nessa forte dependência entre o consumo de

gasolina e variáveis políticas e econômicas que reside a conclusão do presente estudo.

Portanto, resultados obtidos mostram que com toda complexidade que envolve os

fatores que determinam o consumo de gasolina no Brasil é preciso ter ressalvas ao se

construir um modelo integralmente quantitativo. No entanto, uma vez que fatores

exógenos e raros sejam considerados, os modelos propostos são capazes de prever a

demanda futura com razoável precisão, principalmente no curto prazo.

65

5. CONCLUSÃO

A previsão de demanda é fundamental para o sucesso das organizações e esse fato

se torna ainda mais relevante no contexto da distribuição de gasolina pelo território

nacional. Dúvida sobre o quanto produzir ou o quanto importar de gasolina são levantadas

de maneira recorrentes pelas empresas do setor. Nesse sentido, desenvolver um processo

que confira maior embasamento e segurança para a tomada de decisão é importante.

O presente trabalho deve como objetivo geral construir um modelo estatístico

capaz de prever com relativa precisão o consumo de gasolina no Brasil para os trimestres

subsequentes do momento de realização da previsão. Um objetivo posterior e mais

específico é identificar quais dos modelos regressivos dentre: Regressão Linear Múltipla

e o modelo Auto-regressivo de Médias Móveis (ARIMA) apresenta maior acuracidade na

previsão de demanda trimestral por gasolina no Brasil.

Após percorrer o cominho descrito no capítulo 3 referente à metodologia, chegou-

se a dois modelos. Um modelo de regressão linear múltipla AR(1) com sazonalidade e

um modelo SARIMA(1,0,0)(1,1,0). Assim o presente estudo traz como principal

conclusão que, mesmo com toda complexidade que envolve o setor de combustíveis

líquidos e os inúmeros fatores que determinam o consumo de gasolina no Brasil, é

possível construir um modelo integralmente quantitativo capaz de prever a demanda

futura com razoável precisão.

Ambos os modelos selecionados foram testados por meio de testes estatísticos e

análise gráfica, permitindo a conclusão que ambos são válidos no que diz respeito às

hipóteses da teoria de regressão linear. Assim, as previsões geradas foram confrontadas

com os dados reais de venda de gasolina sendo possível avaliar quais dos dois métodos

apresentou maior acurácia nessa iniciativa. Verificou-se que o modelo AR(1) com

sazonalidade apresentou acuracidade superior ao modelo SARIMA na fase de conclusão,

porém na fase de validação ocorreu justamente o contrário. Grande parte dessa

inconsistência pode ser explicada pelos eventos regulatórios e econômicos passados em

2018.

Assim, os resultados obtidos mostram que com toda complexidade que envolve

os fatores que determinam o consumo de gasolina no Brasil é preciso ter ressalvas ao se

66

construir um modelo integralmente quantitativo. No entanto, uma vez que fatores

exógenos e raros sejam considerados, os modelos propostos são capazes de prever a

demanda futura com razoável precisão, principalmente no curto prazo.

A título de continuidade do presente estudo, vale a recomendação pela ampliação

da série temporal e a comparação com outros modelos de previsão de demanda. Dentre

as possibilidades a serem testadas, destaca-se o próprio modelo de RLM porém com

outras variáveis explicativas a fim de se elaborar um modelo causal de previsão de

demanda. Outra sugestão para um estudo subsequente é a utilização de uma série temporal

mais longa que em última análise corresponde a uma amostra mais ampla e

consequentemente em um modelo mais robusto.

67

6. REFERÊNCIAS BIBLIOGRÁFICAS

Akaike, H. (1974) A new look at statistical model identifcation,IEEE transactions on

automatic control, AC-19, 716-723.

Box, G.E.P. and G.M. Jenkins (1970) Time series analysis: Forecasting and control, San

Francisco: Holden-Day.

Box, G. E. P.; JENKINS, G. M. Time series analysis forecasting and control. San

Francisco: Holden-Day, 1976. Edição revisada.

Box, G.E.P., G.M. Jenkins, and G.C. Reinsell (1994) Timeseries analysis: Forecasting

and control, 3rd ed., Englewood Cli®s, N.J.: Prentice-Hall.

CEL/Coppead & IBP: Planejamento Integrado do Sistema Logístico de Distribuição de

Combustíveis, 2005.

Gaither, N. and Frazier, G. (2001) Operations Management. South-Western, Ohio

Gujarati, D.N. Econometria básica. São Paulo: Makron Books, 2000

Ljung, G.M. and G.E.P. Box (1978) On a measure of lack of fit in time series models,

Biometrika, 65, 297/303.

Makrridakis, S.G.; Wheel Wright, S.C; Hyndman, R.J. Forecasting: Methods and

Applications. 3rd Edition,, Wiley, 1998

Morretin, P. A.; Toloi, C. M. C. Previsão de séries temporais. 2. ed. São Paulo: Atual

Editora, 1987.

Pereira, V (2015). Notas de aula (UFF – Estatística Multivariada): Estatística

Multivariada (SPSS) - 07 - Regressão Linear Múltipla. DOI: 10.13140 /

RG.2.1.2492.1685 <https : / / www. researchgate . net / publication / 287198885 _

Estatistica_Multivariada_SPSS_-_07_-_Regressao_Linear_Multipla >.Acessado em

16/06/2016.

Salvatore, D., Diulio E., Campino A., Comune A., “Introdução a Economia”. São Paulo.

Ed. Schaum Mcgraw-Hill. 1980.

68

Werner, L. Um Modelo Composto Para Realizar Previsão De Demanda Através Da

Integração Da Combinação De Previsões E Do Ajuste Baseado Na Opinião. Porto Alegre:

UFRGS, 2004. 166 f.

Wooldridge, J.M. Introdução a Econometria. São Paulo: Cengage Learning, 2016

69

ANEXOS

Dados

Ano Tri Vendas PIB Licenciamentos_Totais Desemprego Frota Preco tri_1 tri_2 tri_3 tri_4

2000 1 5578135 274781 300991 17950366 1 0 0 0

2000 2 5743994 288504 348242 17938807 0 1 0 0

2000 3 5514474 296304 376348 17955320 0 0 1 0

2000 4 5793590 303933 378063 17982408 0 0 0 1

2001 1 5445624 291898 396900 18118851 1 0 0 0

2001 2 5704841 298153 430264 18369008 0 1 0 0

2001 3 5517227 299103 335979 18551396 0 0 1 0

2001 4 5543310 306197 347662 11,27 18694479 0 0 0 1

2002 1 5603875 297097 317207 11,97 18850537 1 0 0 0

2002 2 5536474 313828 348168 11,60 19035424 0 1 0 0

2002 3 5545506 317399 361538 11,57 19214481 0 0 1 0

2002 4 5924402 318595 369485 11,50 19420543 0 0 0 1

2003 1 4996740 298118 315175 11,57 19572892 1 0 0 0

2003 2 5284367 306308 295549 12,30 19686159 0 1 0 0

2003 3 5516163 318658 318187 12,77 19801787 0 0 1 0

2003 4 5993382 330973 417844 12,70 19992768 0 0 0 1

2004 1 5559771 312725 332000 12,10 20161573 1 0 0 0

2004 2 5639165 333853 343855 11,87 20314753 1,79 0 1 0 0

2004 3 5934386 342838 376746 11,07 20492316 1,88 0 0 1 0

2004 4 6040556 351027 427058 10,90 20698510 1,96 0 0 0 1

2005 1 5712421 327004 348136 10,47 20905793 2,00 1 0 0 0

2005 2 5837933 344297 404018 9,73 21147149 1,99 0 1 0 0

2005 3 5979201 353201 410669 9,40 21402910 2,01 0 0 1 0

2005 4 6023935 366458 457019 9,80 21667135 2,18 0 0 0 1

2006 1 5842153 343797 395541 9,80 21853606 2,24 1 0 0 0

2006 2 5889330 358732 420885 9,93 22020638 2,27 0 1 0 0

2006 3 6044361 380140 479109 10,40 22240672 2,25 0 0 1 0

2006 4 6231789 399774 536750 9,83 22498831 2,22 0 0 0 1

2007 1 5905287 380289 468667 9,63 22765097 2,19 1 0 0 0

2007 2 6022925 400201 558909 9,60 23091087 2,20 0 1 0 0

2007 3 5985964 409222 624176 9,27 23494440 2,13 0 0 1 0

2007 4 6411272 425017 689471 8,73 23949155 2,13 0 0 0 1

2008 1 5993561 409861 617423 8,27 24367449 2,15 1 0 0 0

2008 2 6100193 434981 720744 7,70 24838999 2,16 0 1 0 0

2008 3 6430572 452329 758175 7,73 25367649 2,17 0 0 1 0

2008 4 6650457 449285 574851 7,87 25789350 2,18 0 0 0 1

2009 1 6025472 411431 642003 8,37 26144743 2,18 1 0 0 0

2009 2 6078370 431899 751567 8,20 26632229 2,15 0 1 0 0

2009 3 6246459 454694 817772 7,90 27212551 2,16 0 0 1 0

70

2009 4 7058788 486411 797525 7,87 27796171 2,21 0 0 0 1

2010 1 7497740 459901 750419 7,23 28279736 2,25 1 0 0 0

2010 2 7067956 482817 745109 6,87 28837088 2,20 0 1 0 0

2010 3 7305645 508667 873265 6,53 29421231 2,20 0 0 1 0

2010 4 7972325 529204 960236 6,20 30090465 2,25 0 0 0 1

2011 1 8153049 497109 777708 6,07 30684959 2,30 1 0 0 0

2011 2 8774369 521339 860369 5,97 31278779 2,44 0 1 0 0

2011 3 8931163 529240 889586 5,97 31907573 2,37 0 0 1 0

2011 4 9632675 544476 898168 5,67 32529093 2,38 0 0 0 1

2012 1 9469732 522236 772306 6,33 33084431 2,36 1 0 0 0

2012 2 9621956 540566 859507 7,63 33614616 2,36 0 1 0 0

2012 3 9945170 556309 1034391 7,27 34368619 2,36 0 0 1 0

2012 4 10660857 564856 967979 6,87 35049992 2,36 0 0 0 1

2013 1 9684006 539804 788509 7,63 35610515 2,44 1 0 0 0

2013 2 10204301 567069 921011 7,60 36167333 2,46 0 1 0 0

2013 3 10444670 577143 931719 7,10 36785686 2,44 0 0 1 0

2013 4 11093259 593093 938657 6,47 37389494 2,47 0 0 0 1

2014 1 10576506 569553 775371 6,80 37909665 2,57 1 0 0 0

2014 2 10936059 573243 809547 6,97 38340315 2,59 0 1 0 0

2014 3 11126615 584638 822566 6,87 38794393 2,56 0 0 1 0

2014 4 11725067 594271 925999 6,53 39312526 2,58 0 0 0 1

2015 1 10372739 555879 649866 7,37 39705886 2,76 1 0 0 0

2015 2 10069026 549658 622134 8,13 39947532 2,87 0 1 0 0

2015 3 10026637 550625 612654 8,73 40183805 2,86 0 0 1 0

2015 4 10668999 553718 595879 8,97 40378415 3,10 0 0 0 1

2016 1 10518392 518910 465481 10,20 40490720 3,26 1 0 0 0

2016 2 10371025 529332 486784 11,23 40567519 3,21 0 1 0 0

2016 3 10579373 528668 508364 11,73 40670468 3,19 0 0 1 0

2016 4 11550293 544031 527968 11,90 40762710 3,24 0 0 0 1

2017 1 11218419 523632 460582 13,17 40833899 3,29 1 0 0 0

2017 2 11196150 535869 532511 13,30 40927852 3,14 0 1 0 0

2017 3 10905394 537333 582986 12,60 41085598 3,27 0 0 1 0

2017 4 10829569 552200 599907 12,00 41266223 3,56 0 0 0 1

2018 1 10148280 528244 12,63 41397194 3,76 1 0 0 0

2018 2 9593908 210250 12,90 41514522 0 1 0 0

2018 3 9084950 0 0 1 0

71

Códigos R

my_data <- dataset_tri_2004_2_2016_4_final

# Catter Plot

plot(my_data$Vendas, xlab = "Observations", ylab = "Vendas")

plot(my_data$PIB, xlab = "Observations", ylab = "PIB")

plot(my_data$Licenciamentos_Totais, xlab = "Observations", ylab = "Licenciamentos de Veículos")

plot(my_data$Frota, xlab = "Observations", ylab = "Frota de Veículos")

plot(my_data$Desemprego, xlab = "Observations", ylab = "Desemprego")

plot(my_data$Preco, xlab = "Observations", ylab = "Preço")

#Box plot

boxplot(my_data$PIB, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab = "Observations", ylab

= "PIB")

boxplot(my_data$Vendas, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab = "Observations",

ylab = "Vendas")

boxplot(my_data$Desemprego, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab =

"Observations", ylab = "Desemprego")

boxplot(my_data$Preco, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab = "Observations", ylab

= "Preço")

boxplot(my_data$Licenciamentos_Totais, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab =

"Observations", ylab = "Licenciamentos de Veículos")

boxplot(my_data$Frota, horizontal = FALSE, axes = TRUE, outline = TRUE, xlab = "Observations", ylab

= "Frota de Veículos")

# Histograma

hist(my_data$PIB, main = "", xlab = "PIB", ylab = "Frequency")

hist(my_data$Vendas, main = "", xlab = "Vendas", ylab = "Frequency")

hist(my_data$Desemprego, main = "", xlab = "Desemprego", ylab = "Frequency")

hist(my_data$Preco, main = "", xlab = "Preço", ylab = "Frequency")

hist(my_data$Licenciamentos_Totais, main = "", xlab = "Licenciamentos de Veículos", ylab =

"Frequency")

hist(my_data$Frota, main = "", xlab = "Frota de Veículos", ylab = "Frequency")

#Tratamento de Dados

tri_1<-as.ts(my_data$tri_1)



72

ven<-as.ts(my_data$Vendas,"Vendas")

dven<-diff(ven,1)

venlog<-log(ven)

venloglag<-lag(venlog,-1)

pib<-as.ts(my_data$PIB,"PIB")

dpib<-diff(pib,1)

piblog<-log(pib)

pibloglag<-lag(piblog,-1)

preco<-as.ts(my_data$Preco, "Preço")

dpreco<-diff(preco,1)

des<-as.ts(my_data$Desemprego,"Desemprego")

frota<-as.ts(my_data$Frota, "Frota de Veículos")

dfrota<-diff(frota,1)

lic<-as.ts(my_data$Licenciamentos_Totais, "Licenciamentos")

dlic<-diff(lic,1)

my_data_1<-ts.intersect(ven,pib,des,preco,frota, lic)

my_data_2<-ts.intersect(venlog,venloglag,pibloglag,piblog,tri_1,tri_2,tri_3)

my_data_3<-ts.intersect(dven,dpib,des,dpreco,dfrota, dlic)

# Correlação entre variáveis

library("corrplot")

corrplot(cor(my_data_2), method = "circle", tl.cex = 0.7, tl.offset = 0.5, mar = c(1,0,0,0), number.cex =

0.5, bg = "white", addCoef.col = "black", diag = FALSE)





ven<-as.ts(my_data$Vendas,"Vendas")

venlog<-log(ven)

73

venloglag<-lag(venlog)

my_data_1<-ts.intersect(venlog,venloglag,preco,tri_1,tri_2,tri_3)

# Time Series

plot(ven)

plot(log(ven))

plot(diff(log(ven)))

# Regression

reg_1 <- lm(venlog ~ venloglag+tri_1+tri_2+tri_3, data = my_data_1)

summary(reg_1)

# Média Condicional Zero

plot(reg_1)

# Correlação Serial (Breusch-Godfrey test)

library(lmtest)

bgtest(reg_1)

library(car)

durbinWatsonTest(reg_1)

# Heterocedasticidade (studentized Breusch-Pagan test by R. Koenker)

bptest(reg_1)

library(car)

ncvTest(reg_1)

plot(residuals(reg_1))

# Normalidade dos resíduos

shapiro.test(residuals(reg_1))

library("car")

qqPlot(reg_1, id.n = 3)

sresid_1 <- rstudent(reg_1)

hist(sresid_1, main = "Studentized Residuals", breaks = "FD", freq = FALSE)

curve(dnorm(x, mean = 0, sd = 1), col = "red", lwd = 2, add = TRUE)

#Multicolinearidade

library(car)

vif(reg_1)

74

# Teste Geral

library("gvlma")

gvmodel <- gvlma(reg_1)

summary(gvmodel)

# Qualidade do Ajuste

pred_1<-fitted(reg_1)

plot(venlog, type = "l", col = "red")

lines(pred_1,col = "blue")

res_1<-as.ts(residuals(reg_1))

plot(res_1)

write.table(pred_1)

write.table(venlog)

#Tabela Regressão

library("sjPlot")

sjt.lm(reg_1)

my_data <- dataset_tri_2004_2_2016_4_final[,3]

my_data <- ts(my_data, frequency = 4, start = c(2004,2))

plot(my_data)

plot(log(my_data))

plot(diff(log(my_data)))

abline(reg = lm(my_data~time(my_data)))

cycle(my_data)

plot(aggregate(my_data, FUN = mean)) # Year Trend

boxplot(my_data~cycle(my_data)) #Box Plot Across Months

#install.packages("aTSA")

library("aTSA")

#install.packages("tseries")

library("tseries")

adf.test(diff(log(my_data)), alternative = "stationary", k = 0) #log (control variance), diff (trend)

acf1<-acf(my_data)

df_acf1<-data.frame(acf1$acf)

75

pacf1<-pacf(my_data)

df_pacf1<-data.frame(pacf1$acf)

acf2<-acf(log(my_data))


pacf2<-pacf(log(my_data))


acf3<-acf(diff(log(my_data)))


pacf3<-pacf(diff(log(my_data)))


#install.packages("forecast")

library("forecast")

fit <- auto.arima(log(my_data), approximation = FALSE, trace = TRUE)

summary(fit)

pred <- predict(fit, n.ahead = 1*12)

pred

plot(my_data, type = 'l', xlim = c(2004, 2020), xlab = 'Year',ylab = 'Sales')

lines(2.718^(pred$pred), col = 'blue')

lines(2.718^(pred$pred + 2*pred$se), col = 'orange')

lines(2.718^(pred$pred - 2*pred$se), col = 'orange')

#install.packages("FitAR")

library("FitAR")

boxresult <- LjungBoxTest(fit$residuals, k = 2,lag.max = 20, StartLag = 1)

# p-values above 0.05 indicates non-significance autocorrelation from the residuals of the ARIMA model.

plot(boxresult[ , 3], main = "Ljung-Box Q Test", ylab = "P-values", xlab = "Lag")

qqnorm(fit$residuals)

qqline(fit$residuals) # normal distibution

acf(fit$residuals)

Documents

UNIVERSIDADE FEDERAL FLUMINENSE ESCOLA DE …´nio_Rodrigues_Projeto_Final (1).pdfencerra com a Seção 1.5 que resume a estrutura do trabalho. 1.1 MOTIVAÇÃO A previsão de demanda