41
ESTATÍSTICA ECONOMETRIA Regressão Linear Simples Regressão Potencial; Exponencial; Hiperbólica Regressão Linear Múltipla Prof. Ms. Antonio Carlos de Oliveira Capitão

E4 análise de regressão simples

Embed Size (px)

Citation preview

ESTATÍSTICA

ECONOMETRIA Regressão Linear Simples

Regressão Potencial; Exponencial; Hiperbólica

Regressão Linear Múltipla

Prof. Ms. Antonio Carlos de Oliveira Capitão

E4 1

Prof. Ms. Antonio Carlos de Oliveira Capitão

CONCEITO DE ECONOMETRIA 1.- CONCEITO Econometria é oramo do conhecimento humano que aplica a Matemática e a Estatística à Teoria Econômica, objetivando dar-lhe conteúdo empírico. Ela surgiu da seguinte forma: no início, a Teoria Econômica não tinha muitas preocupações com a parte empírica, mas sim, com a construção de uma arcabouço teórico, ou seja; a partir das hipóteses que ela estabelecia, procurava tirar proposições que deveriam explicar o comportamento dos agentes econômicos, sem preocupações com a parte empírica. Mas, duas coisas os teóricos não sabiam: a) quantificar numericamente os parâmetros dos modelos gerados pelas proposições da Teoria Econômica; b) não podiam colocar à prova essas proposições, isto é, não podiam confrontar a sua teoria com a realidade. Foi justamente para cobrir esses dois aspectos, que surgiu a Econometria. Exemplos: A Teoria Econômica que a demanda de importações depende do nível de produção interna e da taxa de câmbio. Além disso, dá o sentido do efeito: dado um aumento na taxa de câmbio (uma desvalorização cambial), as importações deveriam diminuir (afinal, os produtos estrangeiros tornaram-se mais caros): e, dado um aumento na produção interna, as importações deveriam aumentar (particularmente os de bens de capital e matérias-primas, para suprir o aumento da produção interna). Mas a teoria econômica não dá a magnitude do efeito, isto é, se a produção aumenta 5 bilhões; e de quanto deve aumentar as importações, por exemplo. Isso é feito pela Econometria. Dessa forma a Econometria surgiu com o objetivo de dar conteúdo empírico à Teoria Econômica, isto é, dar resposta quantitativa às perguntas que os economistas não poderiam dar apenas com a Teoria Econômica.

E4 2

Prof. Ms. Antonio Carlos de Oliveira Capitão

2.- CAMPOS O Estudo da Econometria divide-se em dois grandes campos: a) Modelos de equação única: C = a + bY (Função Cons) b) Modelos de equação simultânea: Y = C + 1 (Condição de equilíbrio) C = a + bY (Função consumo) Como se observa, no modelo de equação simultânea na primeira equação o consumo entra como variável independente e, na segunda, como variável dependente. A estimação dos parâmetros deve serfeita simultâneamente com duas (ou mais) equações. Nosso curso tratará apenas dos modelos de equação única. 3.- PRINCIPAL TÉCNICA ECONOMÉTRICA A principal técnica econométrica consiste na Análise de Regressão Linear, que pode ser Simples (apenas uma variável explicativa), ou Múltipla (mais de uma variável explicativa). 4.- EXEMPLOS DE APLICAÇÃO Primeiramente, a Econometria pode favorecer os valores dos principais parâmetros de Política Econômica, como: - propensão marginal a consumir (tirado da função consumo - C = a + bY); - propensão marginal a poupar; - dada uma desvalorização cambial de 5%, qual a diminuição esperada nas importações, e o aumento esperado nas exportações; - efeito quantitativo de um aumento de renda sobre a demanda de moeda (efeito transação) para com isso ter-se uma idéia definida de qual deve ser o aumento da oferta de moeda da coletividade para suprir aquele aumento de demanda. Em segundo lugar, embora a Econometria tenha nascido para complementar apenas o conhecimento teórico, muitas vezes, a partir da Econometria, é que se criou esse conhecimento. É um exemplo clássico a função tipo Cobb-Douglas, ou ainda a função de produção CES, ambas nascidas da observação empírica.

E4 3

Prof. Ms. Antonio Carlos de Oliveira Capitão

II - REGRESSÃO LINEAR SIMPLES 1.- INTRODUÇÃO O economista, muitas vezes, se vê ante a necessidade de descrever e prever o comportamento de certas variáveis, que serão importantes para sua tomada de decisão. Embora muita coisa possa ser prevista de forma intuitiva, ou através das pesquisas de mercado (principalmente quando se refere a curto prazo), é bastante interessante e conveniente tentar encontrar fórmulas matemáticas que possam relacionar o comportamento das variáveis de interesse do administrador, com certo grau de precisão. A previsão através de intuição ou pesquisa de mercado pode resolver satisfatoriamente os problemas de curto prazo, pois as pessoas informantes podem ter uma certa visão até determinado período de tempo, perdendo esta visão à medida que o horizonte do tempo aumenta. O estabelecimento de relações entre variáveis, além de útil a curto prazo, resolve também os problemas de previsão do comportamento de certas variáveis a longo prazo, como se poderá notar ao longo do desenvolvimento desta apostila. A análise de regressão é um método que visa estabelecer relações funcionais entre variáveis relacionadas por leis estatísticas, isto é, procura encontrar uma função que descreve da melhor forma possível o comportamento de alguma variável que estamos interessados em analisar. A análise de regressão é um método que visa estabelecer relações funcionais entre variáveis relacionadas por leis estatísticas. Para tornar a idéia de regressão linear simples mais clara, suponha que estamos interessados em analisar e comportamento de uma variável Y, digamos a quantidade do produto”A”, vendida pela empresa “A”. Seria bastante lógico supor que os valores da variável Y sofram a influência de uma série de variáveis tais como: a) o preço do bem “A”, que chamaremos de X1; isto porque à medida em que o preço do bem “A” aumentar, deve ocorrer uma queda na quantidade vendida deste bem (lei da demanda). b) a renda per capita da comunidade, que chamaremos de X2; a medida em que a renda aumenta, há um número maior de pessoas em condições de adquirir o bem “A”, aumentando consequentemente suas vendas, desde que “A” não seja um bem inferior. c) os gastos com propaganda, que chamaremos de X3; a medida em que os gastos com propaganda aumentam, há uma expansão das vendas do produto “A”, caso a propaganda seja realmente eficiente.

E4 4

Prof. Ms. Antonio Carlos de Oliveira Capitão

d) poder-se-ia considerar ainda uma série de outras variáveis X4, X5, ........ Xn, tais como: gosto dos consumidores, qualidade do produto “A”, qualidade dos prosutos concorrentes, etc., que podem ser qualificáveis ou não. Portanto, já sabemos que existe uma série de variáveis (X1, X2, ........... Xn) que influenciam Y, mas na análise de regressão linear simples, trabalhamos apenas uma variável explicativa X (*). Para superar este problema, isolamos a variável que parece ser mais explicativa, desde que seja quantificável e trabalhamos com esta variável. Por exemplo, se estamos interessados em analisar o comportamento das vendas de automóveis no Brasil, poderemos utilizar a renda per capita como variável explicativa. Neste caso, a quantidade vendida de automóveis é uma função de renda per capita.

E4 5

Prof. Ms. Antonio Carlos de Oliveira Capitão

2.- O MODELO DE REGRESSÃO LINEAR SIMPLES 2.1. - O MODELO VERDADEIRO

Consideremos o exemplo citado no final do tópico anterior (quantidade vendida de automóveis (y) como função da renda per capita (x) e suponhamos que estas variáveis se comportem como no gráfico a seguir: 1 caficamente:

Y = α + β X . + U onde: Y = Y observado = variável dependente X = variável independente ou variável explicativa α = intercepto β = declividade ou coeficiente angular U = componente aleatória (ou desvio ou componente errática ou erro) Nesta variável “U” estão contidos os efeitos de todas as variáveis que atuam sobre Y, além de X. Neste exemplo citado, poder-se-ia considerar como contidos em “U”, os efeitos de variáveis como a taxa de juros cobrada no financiamento de automóveis, o preço da gasolina (variáveis quantificáveis), qualidade dos automóveis, gosto dos consumidores, etc. (variáveis não quantificáveis). A soma de todos estes efeitos é a componente aleatória “U”. Claramente, estes problemas causam desvios em torno da reta Y = α + β X + U, onde: (α + β X) é a parcela livre das causas aleatórias (no exemplo, é a parcela explicada pela renda per capita).

1 Na regressão linear múltipla, podemos trabalhar com uma série de variáveis explicativas, mas este método será objeto de estudo mais adiante (parte III).

E4 6

Prof. Ms. Antonio Carlos de Oliveira Capitão

2.2. O MODELO ESTIMADO Dado o fato de que sempre trabalhamos com amostra, não podemos conhecer o verdadeiro modelo, mas apenas uma estimativa deste; além disso, não conhecemos o resíduo “U”. A partir de uma particular amostra, estaremos obtendo valores estimados dos parâmetros populacionais α e β. Temos, então y = a + b x, onde: y = y estimado a = estimativa do intercepto b = estimativa da declividade x = variável explicativa e = estimativa do erro NOTA: y e x são dados. A partir dessas duas séries, obteremos os valores de a e b. Graficamente:

Y = A + BX

E4 7

Prof. Ms. Antonio Carlos de Oliveira Capitão

3. Os passos da Análise de Regressão Linear Simples 2 A especificação do modelo na regressão linear simples consiste de duas fases: seleção de variáveis e especificação da forma funcional. 3.1.1. Seleção das variáveis do modelo Como vimos, a regressão linear simples procura estabelecer relações entre variáveis. Sempre que estamos interessados em analisar o comportamento de uma variável dependente “Y” para estabelecer previsões sobre seu futuro comportamento, precisamos selecionar uma variável independente “X”, que julgamos explicar o máximo possível o comportamento desta variável “Y”. Exemplos: 1º) Se estamos interessados em analisar o comportamento dos custos de uma empresa, precisamos encontrar uma variável que explique as variações de custo, que poderia ser a quantidade produzida. Então C = f (Q), pois à medida que a quantidade produzida aumenta, devem aumentar os custos de produção. 2º) Se queremos analisar a venda de automóveis marda FORD, tipo Corcel, podemos selecionar como variável explicativa o preço relativo do Corcel, isto é, P.Corcel . Então P.Concor. Qvc = f (Pcorcel); a medida em que o preço relativo do Corcel aumenta, deve reduzir sua quantidade vendida. 3º) Para analisarmos a venda de determinado tipo de brinquedo infantil, poderemos considerar como variável explicativa a população que utiliza este tipo de bem, podendo ser crianças entre 3 a 10 anos, dependendo do tipo de brinquedo. Às vezes, informações sobre nossa variável explicativa não estão disponíveis por falta de estatísticas. Para solucionar problemas como este, pode ser utilizada uma variável “proxy”, que é uma variável que substitui aproximadamente a que estamos procurando. Por exemplo, podemos medir a renda per capita de uma dada cidade (informação não disponível) pela arrecadação de impostos (imposto de renda ou imposto sobre produtos industrializados) ou ainda pelo consumo de energia elétrica.

2 O estudo de Regressão Linear Simples está consubstanciado em algumas hipóteses básicas, que serão discutidas no capítulo VII.

E4 8

Prof. Ms. Antonio Carlos de Oliveira Capitão

Para a seleção das variáveis do modelo, temos que levar em consideração: a) o tamanho da amostra, b) representatividade (a amostra deve ser representativa da população), c) o período escolhido para a amostragem deve ser tal que outras condições que possam influir no problema hajam permanecido aproximadamente as mesmas. 3.1.2. Especificação de forma funcional Nesta fase do processo, estamos interessados em saber a forma pela qual a variável independente exerce influência sobre a variável independente. Uma vez selecionadas as variáveis, devemos descobrir qual a função que melhor descreve o comportamento de “Y”, quando “X” varia. Nós sabemos que a quantidade vendida do produto “A”, é uma função dos gastos com propaganda efetuadas pela empresa “A”, mas, muitas vezes, não temos condição de saber se esta função é uma reta, uma exponencial ou uma potência.

RETA EXPONENCIAL POTÊNCIA

E4 9

Prof. Ms. Antonio Carlos de Oliveira Capitão

A especificação da forma funcional entre “Y” e “X” pode ser feita de duas formas. Às vezes, a teoria subjacente ao desenvolvimento do problema pode sugerir precisamente a forma funcional a ser utilizada, ou então, poderá sugerir a forma funcional a ser utilizada, ou então, poderá sugerir certas condições parciais sobre o intercepto, declividade ou curvatura da função. Neste caso, estaremos partindo de uma especificação “a priori”. Outra forma de especificar a forma funcional entre “X” e “Y” é o emprego do diagrama de dispersão. O diagrama de dispersão é a “nuvem” de pontos que obtemos quando colocamos os pares de valores das variáveis no gráfico. Para cada observação da amostra , teremos tanto um valor de Y observado com um de X observado. Por exemplo, considere o preço do prosuto “A” (preço relativo) e a quantidade vendida deste produto nos anos de 1965 a 1974.

E4 10

Prof. Ms. Antonio Carlos de Oliveira Capitão

FÓRMULAS REGRESSÃO LINEAR (MODELO LINEAR) Coeficiente de correlação: OBS.: varia entre -1 e 1 inclusive ( Σ X . Σ Y) Σ XY - _____________ n RXY = __________________________________________ ____________________________________________________ | 2 2 | _ | 2 ( Σ X ) 2 ( Σ Y ) \ | Σ X - ________ . Σ Y - __________ \ n n TABELA DE CORRELAÇÃO 1---------------> perfeita 0,8 -------|0,99 forte OBS.: Pode ser positiva 0,6 -------| 0,8 média ou negativa 0,3 -------| 0,6 fraca 0 ---------| 0,3 fraquíssima 0----------| nula _ Σ X Média de X : X = _____ n _ Σ Y Média de Y : Y = ______ n Equação de regressão linear (também denominada “função estimada”) Y = a + b x ----------- > variável | independente |----> variável dependente

E4 11

Prof. Ms. Antonio Carlos de Oliveira Capitão

Isolando-se a variável “a” na função acima encontramos: _ _ a = y - b x _ _ Σ xy - n (x) . (y) b = ________________ 2 _ 2 Σ x - n ( x ) ERRO PADRÃO __________________________________ | 2 | | Σ y - a Σ y - b Σ xy Sxy = _ | ______________________________ \ | n - 2 \ | 2 Poder Explicativo da Regressão - R 2 _ 2 2 a Σ y + b Σ xy - n y R = _________________________ . 100 | Σ y 2 - n y2 OBS.: - Varia entre 0 e 100% - As projeções baseadas no modelo é confiável quanto mais se aproxima de 100%.

E4 12

Prof. Ms. Antonio Carlos de Oliveira Capitão

FÓRMULA PARA MODELOS NÃO LINEARES POTÊNCIA EXPONENCIAL HIPÉRBOLE b x + b y = a . x y = a . b y = a - __ x ln y = U ln x = V U = A + b . V ln a = A OBS.: LN = LOGARÍTIMOS NEPERIANOS LOGO : X = V Y = U 2 2 Sequência da Tabela : X, Y, V, U, V , Y , UV Σ U Média de U = _______ n Σ V Média de V = ______ n 2 2 ( Σ U ) SUU = Σ U - ________ n

E4 13

Prof. Ms. Antonio Carlos de Oliveira Capitão

2 2 ( Σ V ) SVV = Σ V - _________ n ( Σ U . Σ V ) SUV = Σ UV - ____________ n _ _ Cálculo de A A = U - b V SUV Cálculo de B B = _______ SVV OBS.: DEVE-SE MONTAR A FUNÇÃO ESTIMADA (REGRESSÃO) MAIS APROPRIADA AO MODELO ESTUDADO (POTÊNCIA, EXPONENCIAL OU HIPÉRBOLE). 2 2 b . SVV OBS.: VARIA DE 0 A 100% , E QUAN- R = ____________ . 100 TO MAIS O RESULTADO SE APRO- SUU XIMAR DE 100%, MAIS CONFIÁ- VEL SÃO AS PROJEÇÕES. ________________ | 2 | Correlação = - | R \ | _____ \| 100 ( Σ X´) . (Σ Y) _ Σ X´ Σ YX´ - ______________ X´ = _____ B = n n ____________________________ 2 2

E4 14

Prof. Ms. Antonio Carlos de Oliveira Capitão

Σ X´ = (Σ X´ ) _ Σ Y´ ______ Y´ = _____ n n _ _ A = Y - b . X Y = a + b - ____ X _ 2 2 a Σ Y + b Σ X´ Y - n . Y R = _________________________ . 100 2 _ 2 Σ Y - n . Y ___________ | 2 | X´ Y = - | R \ | _____ \| 100 EXEMPLO DE REGRESÃO LINEAR

E4 15

Prof. Ms. Antonio Carlos de Oliveira Capitão

Método dos Mínimos Quadrados

x y x2 y2 x.y 825 3,5 680.625 12,25 2.887,5 215 1,0 46.225 1,00 215,0 1.070 4,0 1.144.900 16,00 4.280,0 550 2,0 302.500 4,00 1.100,0 480 1,0 230.400 1,00 480,0 920 3,0 846.400 9,00 2.760,0 1.350 4,5 1.822.500 20,25 6.075,0 325 1,5 105.625 2,25 487,5 670 3,0 448.900 9,00 2.010,0 1.215 5,0 1.476.225 25,00 6.075,0

somatório 7.620 28,5 7.104.300 99,75 26.370,0

x = 762 y = 2,85

correlação: (Sx.Sy) rxy = S xy - n (Sx2- (Sx)2).(Sy2-(Sy)2) n n (7.620 . 28,5) rxy = 26.370- 10 (7.104.300- (58.064.400)).(99,75-812,25) 10 10 rxy = 0,95 positiva e forte

equação de regressão: b = Sxy - n (x).(y) b=26.370 - 10(762).(2,85) Sx2 - n (x)2 7.104.300 - 10(762)2

b = 0,003 0,0036 a = y - bx a = 2,85 - 0,003 . 762 a = 0,5 0,564

E4 16

Prof. Ms. Antonio Carlos de Oliveira Capitão

y = a + bx

EXEMPLO

Uma empresa levantou os seguintes dados para avaliar as suas vendas e os gastos com promoção.

x y gastos com vendas promoção em x2 y2 x.y em US$1.000 US$milhões

1º ano 140 50 19.600 2.500 7.000 2º ano 200 57 40.000 3.249 11.400 3º ano 238 67 56.644 4.489 15.946 4º ano 270 69 72.900 4.761 18.630 5º ano 300 77 90.000 5.929 23.100 6º ano 400 85 160.000 7.225 34.000 7º ano 450 86 202.500 7.396 38.700 somatório 1.998 491 641.644 35.549 148.776

1 - De quantos milhões seriam as vendas, se a empresa aplicar US$ 600.000, em promoção?

2 - Qual a confiabilidade da projeção, justifique a sua resposta?

x = 285,4 y = 70,1

correlação:

(Sx.Sy) rxy = S xy - n (Sx2- (Sx)2).(Sy2-(Sy)2) n n rxy = 0,97 positiva e forte

equação de regressão: b = Sxy - n (x).(y) Sx2 - n (x)2 b = 0,1 a = y - bx

E4 17

Prof. Ms. Antonio Carlos de Oliveira Capitão

a = 41,6

erro padrão: Sxy = Sy

2 - aSy - bSxy n - 2 Sxy = 7

poder explicativo da regressão: R2 = aSy + bSxy - ny2 . 100 Sy2 - ny2 R2 = 77,8% alto poder explicativo

equação de projeção: y = a + bx y = 101,6 milhões

Respostas:

1 - As vendas seriam US$ 101,6 milhões. 2 - A confiablidade é alta, devido ao alto poder explicativo.

EXEMPLO NÚMERO 2

A tabela a seguir mostra uma relação entre a nota final de estatística

e o número de horas que os alunos estudaram. y x notas horas y2 x2 x.y estudo 9 30 81 900 270 8 25 64 625 200 7 20 49 400 140 6 15 36 225 90 5 14 25 196 70 4 14 16 196 56 3 10 9 100 30 2 5 4 25 10 1 3 1 9 3

somatório 45 136 285 2.676 869 Pede-se:

E4 18

Prof. Ms. Antonio Carlos de Oliveira Capitão

1 - Existe relação entre as duas variáveis acima? Justifique. 2 - Identifique a variável explicativa e analise a tabela pelo método dos mínimos quadrados. 3 - Analise a confiabilidade do modelo para projeção. 4 - Quantas horas o aluno precisa estudar para tirar a nota:

a - 10 b - 5,5 c - 0

correlação: (Sx.Sy) rxy = S xy - n (Sx2- (Sx)2).(Sy2-(Sy)2) n n rxy = 0,98 positiva e forte

média: x = 15,1 y = 5,0

equação de regressão linear: b = Sxy - n (x).(y) Sx2 - n (x)2 b = 0,3 a = y - bx a = 0,5 y = a + bx

para nota 10 x= 31,7 para nota 5,5 x= 16,7 para nota 0 x= -1,7

erro padrão:

Sxy = Sy

2 - aSy - bSxy n - 2 Sxy = 0,5

E4 19

Prof. Ms. Antonio Carlos de Oliveira Capitão

poder explicativo da regressão:

R2 = aSy + bSxy - ny2 . 100 Sy2 - ny2 R2 = 97,0% alto poder explicativo

Respostas:

1 - Existe, pois a correlação é positiva e forte. 2 - A nota depende das horas, portanto a hora é a variável explicativa. 3 - A confiabilidade é alta, devido ao alto poder explicativo. 4 - Para tirar:

nota 10 = 31,7 horas nota 5,5 = 16,7 horas nota 0 = -1,7 horas

Exercício:

Importação brasileira de matéria-prima de 88 a 94 (fonte: Ordem dos Economistas)

x y ano quantidade x2 y2 x.y (ton)

1988 1 50 1 2.500 50 1989 2 47 4 2.209 94 1990 3 35 9 1.225 105 1991 4 30 16 900 120 1992 5 24 25 576 120 1993 6 10 36 100 60

E4 20

Prof. Ms. Antonio Carlos de Oliveira Capitão

1994 7 16 49 256 112 somatório 28 212 140 7.766 661

Informe a projeção para 95 e 96

x = 4,0 y = 30,3

correlação:

(Sx.Sy) rxy = S xy - n (Sx2- (Sx)2).(Sy2-(Sy)2) n n rxy = -0,96 negativa e forte

equação de regressão: b = Sxy - n (x).(y) Sx2 - n (x)2 b = -6,7 a = y - bx a = 57,1

erro padrão: Sxy = Sy

2 - aSy - bSxy n - 2 Sxy = 4

poder explicativo da regressão: R2 = aSy + bSxy - ny2 . 100 Sy2 - ny2

E4 21

Prof. Ms. Antonio Carlos de Oliveira Capitão

R2 = 93,3% alto poder explicativo

equação de projeção: y = a + bx

para 95 y = 3,5 para 96 y = -3,2

EXERCÍCIO

Relação entre horas contínuas trabalhadas e quantidade de microcomputadores com defeito de montagem (fonte: Hardzon)

x y quantidade horas de micros x2 y2 x.y c/defeito 18 9 324 81 162 12 8 144 64 96 10 7 100 49 70 8 6 64 36 48 6 5 36 25 30 5 4 25 16 20 4 3 16 9 12

somatório 63 42 709 280 438

Faça projeção para: 20 horas 15 horas 7 horas

x = 9,0 y = 6,0

correlação:

(Sx.Sy) rxy = S xy - n (Sx2- (Sx)2).(Sy2-(Sy)2) n n

E4 22

Prof. Ms. Antonio Carlos de Oliveira Capitão

rxy = 0,95 positiva e forte

equação de regressão: b = Sxy - n (x).(y) Sx2 - n (x)2 b = 0,4 a = y - bx a = 2,4

erro padrão: Sxy = Sy

2 - aSy - bSxy n - 2 Sxy = 1

poder explicativo da regressão: R2 = aSy + bSxy - ny2 . 100 Sy2 - ny2 R2 = 85,7% alto poder explicativo

equação de projeção: y = a + bx

para 20 horas ====> 10 micros c/defeito para 15 horas ====> 8 micros c/defeito para 7 horas =====> 5 micros c/defeito

E4 23

Prof. Ms. Antonio Carlos de Oliveira Capitão

REGRESSÃO LINEAR MÚLTIPLA A análise de Regressão Linear Múltipla consiste, na realidade, numa extensão da matéria desenvolvida na primeira parte do curso de “Estatística Aplicada à Administração”, qual seja, a Regressão Linear Simples. Visto que as idéias e conceitos a serem desenvolvidos no decorrer do presente estudo se assemelham com a análise de Regressão Linear Simples, procurar-se-á, na medida do possível, relacionar as duas análises. A idéia central da análise de Regressão Linear Simples era a de encontrar uma função (estimada) que descrevesse (de forma mais perfeita possível) o comportamento de uma variável que estivéssemos interessados em analisar. Para estimarmos esta função, selecionávamos uma variável explicativa (X), a quela que julgássemos explicar o máximo possível o comportamento da variável independente (Y), a ser analisada. No caso da Regressão Linear Múltipla, a diferença fundamental reside no número de variáveis explicativas, que agora não fica limitada a apenas uma, mas podendo expandir este número para quantas variáveis explicativas forem necessárias. No desenvolvimento de nosso curso, utilizaremos o modelo de Regressão Linear Múltipla com “DUAS” variáveis explicativas; a extensão do modelo, a partir daí, para três ou mais variáveis explicativas, é imediata, sendo porém, que estes modelos (três ou mais variáveis) geralmente são estimados por computador, dada a grande dificuldade em estimalos manualmente. Quando temos três ou mais variáveis denominamos o processo de REGRESSÃO MÚLTIPLA; existem também casos de linearização (Hipérbole, Potência, Exponencial, etc...), porém, nos limitaremos a seguir à “REGRESSÃO LINEAR MÚLTIPLA” com três variáveis. Na regressão múltipla não há perfeita multicolinearidade entre os regressores (não existe relação linear perfeita entre as variáveis). Ao tratarmos com três variáveis, deixaremos de usar o gráfico plano (X,Y), para nos referirmos a um diagrama de dispersão de pontos em três dimensões (X, Y, Z); mas o problema continua sendo o de encontrar um plano (uma reta na regressão linear simples) que melhor se ajuste, no sentido de menores desvios dos pontos observados. A técnica matemática utilizada é o “Método dos Mínimos Quadrados”, que é uma extensão, de forma geral, da técnica utilizada na Regressão Linear Simples.

E4 24

Prof. Ms. Antonio Carlos de Oliveira Capitão

O MODELO VERDADEIRO DE R. L. M. No caso de Regressão Linear Múltipla teremos um plano de regressão, ao invés de uma reta. Graficamente:

E4 25

Prof. Ms. Antonio Carlos de Oliveira Capitão

MODELO ESTIMADO Dado o fato que sempre trabalhamos com amostras, não podemos conhecer o verdadeiro modelo, mas apenas uma estimativa deste, além disso não conhecemos o resíduo “Σ” . A partir de uma particular amostra, procuraremos obter valores estimados dos parâmetros populacionais. Temos então: Y = a + b x + b x + ε , onde: b e b # 0 1 1 2 2 1 2 Y = valor estimado de y a = estimativa do intercepto b = estimativa de declividade relativa à x (coef. angular) 1 1

b = estimativa de declividade relativa à x (coef. angular) 2 2 x , x = variáveis explicativas 1 2 Σ = resíduo (ERRO) OS PASSOS DA ANÁLISE DE REGRESSÃO MÚLTIPLA O esquema é análogo ao de Regressão Linear Simples.

E4 26

Prof. Ms. Antonio Carlos de Oliveira Capitão

FÓRMULAS Tabela (sequência) 2 2 2 Y ; X ; X ; X ; X ; Y ; X . X ; Y . X ; Y . X 1 2 1 2 1 2 1 2

Obs.: Calcular a média aritmética de X , X , Y 1 2 Σ Y . Σ X 1 SY = Σ Y . X - ______________ 1 1 n Σ Y . Σ X 2 SY = Σ Y . X - ______________ 2 2 n 2 ( Σ X ) 2 1 S = Σ X - ___________ 11 1 n Σ X . Σ X 1 2 SY = SY = Σ (X . X ) - ______________ 12 21 1 2 n

E4 27

Prof. Ms. Antonio Carlos de Oliveira Capitão

2 ( Σ X ) 2 2 S = Σ X - ___________ 22 2 n 2 2 ( Σ Y ) S = Σ Y - ___________ yy n SY . S - SY . S 1 22 2 12 b = _____________________________ 1 2 S . S - ( S ) 11 22 12 SY . S - SY . S 2 11 1 21 b = _____________________________ 2 2 S . S - ( S ) 11 22 12 _ _ _ a = Y - b x - b x 1 1 2 2 Poder Explicativo : b . SY + b . SY 2 1 1 2 2 R = _____________________________ S yy

E4 28

Prof. Ms. Antonio Carlos de Oliveira Capitão

Correlação: ___________ | 2 | R = - | R xy \ | _____ \| 100 EXERCÍCIOS Analise as seguintes relações pelo método dos mínimos quadrados : 1-) VENDAS (Y) Gastos com tv (x1) Gastos com Jornal (x2) 6 3 1 7 4 2 15 8 3 18 8 5 20 10 8 23 11 6 2-) Y X1 X2 128 1 100 150 2 200 78 3 300 162 4 400 134 5 500 175 6 600 208 7 700 EXEMPLO DE REGRESÃO LINEAR Método dos Mínimos Quadrados

E4 29

Prof. Ms. Antonio Carlos de Oliveira Capitão

x y x2 y2 x.y

825 3,5 680.625 12,25 2.887,5

215 1,0 46.225 1,00 215,0

1.070 4,0 1.144.900 16,00 4.280,0

550 2,0 302.500 4,00 1.100,0

480 1,0 230.400 1,00 480,0

920 3,0 846.400 9,00 2.760,0

1.350 4,5 1.822.500 20,25 6.075,0

325 1,5 105.625 2,25 487,5

670 3,0 448.900 9,00 2.010,0

1.215 5,0 1.476.225 25,00 6.075,0 somatório 7.620 28,5 7.104.300 99,75 26.370,0

x =

762

y =

2,85

correlação:

(Sx.Sy) rxy = S xy - n

(Sx2- (Sx)2).(Sy2-(Sy)2)

n n (7.620 . 28,5) rxy = 26.370- 10

(7.104.300- (58.064.400)).(99,75-812,25) 10

10

E4 30

Prof. Ms. Antonio Carlos de Oliveira Capitão

rxy = 0,95 positiva e forte

equação de regressão:

b = Sxy - n (x).(y) b=26.370 - 10(762).(2,85)

Sx2 - n (x)2 7.104.300 - 10(762)2

b = 0,003

0,0036

a = y - bx a = 2,85 - 0,003 . 762

a = 0,5 0,564

y = a + bx EXEMPLO Uma empresa levantou os seguintes dados para avaliar as suas vendas e os gastos com promoção. x y

gastos com vendas promoção em x2 y2 x.y

em US$1.000 US$milhões 1º ano 140 50 19.600 2.500 7.000 2º ano 200 57 40.000 3.249 11.400 3º ano 238 67 56.644 4.489 15.946 4º ano 270 69 72.900 4.761 18.630

E4 31

Prof. Ms. Antonio Carlos de Oliveira Capitão

5º ano 300 77 90.000 5.929 23.100 6º ano 400 85 160.000 7.225 34.000 7º ano 450 86 202.500 7.396 38.700 somatório 1.998 491 641.644 35.549 148.776 1 - De quantos milhões seriam as vendas, se a empresa aplicar US$ 600.000, em promoção? 2 - Qual a confiabilidade da projeção, justifique a sua resposta?

x =

285,4

y =

70,1

correlação:

(Sx.Sy) rxy = S xy - n

(Sx2- (Sx)2).(Sy2-(Sy)2)

n n rxy = 0,97 positiva e forte

equação de regressão:

b = Sxy - n (x).(y) Sx2 - n (x)2

b = 0,1

a = y - bx

E4 32

Prof. Ms. Antonio Carlos de Oliveira Capitão

a = 41,6 erro padrão:

Sxy = Sy2 - aSy - bSxy

n - 2 Sxy = 7

poder explicativo da regressão:

R2 = aSy + bSxy - ny2 . 100

Sy2 - ny2

R2 = 77,8% alto poder explicativo

equação de projeção:

y = a + bx

y =

101,6 milhões

Respostas: 1 - As vendas seriam US$ 101,6 milhões. 2 - A confiablidade é alta, devido ao alto poder explicativo. EXEMPLO NÚMERO 2 A tabela a seguir mostra uma relação entre a nota final de estatística e o número de horas que os alunos estudaram. y x

E4 33

Prof. Ms. Antonio Carlos de Oliveira Capitão

notas horas y2 x2 x.y

estudo

9 30 81 900 270

8 25 64 625 200

7 20 49 400 140

6 15 36 225 90

5 14 25 196 70

4 14 16 196 56

3 10 9 100 30

2 5 4 25 10

1 3 1 9 3 somatório 45 136 285 2.676 869 Pede-se: 1 - Existe relação entre as duas variáveis acima? Justifique. 2 - Identifique a variável explicativa e analise a tabela pelo método dos mínimos quadrados. 3 - Analise a confiabilidade do modelo para projeção. 4 - Quantas horas o aluno precisa estudar para tirar a nota: a - 10 b - 5,5 c - 0 correlação:

(Sx.Sy) rxy = S xy - n

(Sx2- (Sx)2).(Sy2-(Sy)2)

n n rxy = 0,98 positiva e forte

média:

x =

15,1

y =

5,0

equação de regressão linear:

E4 34

Prof. Ms. Antonio Carlos de Oliveira Capitão

b = Sxy - n (x).(y) Sx2 - n (x)2

b = 0,3

a = y - bx a = 0,5

y = a + bx para nota 10 x= 31,7 para nota 5,5

x= 16,7

para nota 0

x= -1,7

erro padrão:

Sxy = Sy2 - aSy - bSxy

n - 2 Sxy = 0,5

poder explicativo da regressão:

R2 = aSy + bSxy - ny2 . 100

Sy2 - ny2

E4 35

Prof. Ms. Antonio Carlos de Oliveira Capitão

R2 = 97,0% alto poder explicativo

Respostas: 1 - Existe, pois a correlação é positiva e forte. 2 - A nota depende das horas, portanto a hora é a variável explicativa. 3 - A confiabilidade é alta, devido ao alto poder explicativo. 4 - Para tirar: nota 10 = 31,7 horas nota 5,5 = 16,7 horas nota 0 = -1,7 horas Exercício: Importação brasileira de matéria-prima de 88 a 94 (fonte: Ordem dos Economistas) x y

ano quantidade x2 y2 x.y

(ton) 1988 1 50 1 2.500 50 1989 2 47 4 2.209 94 1990 3 35 9 1.225 105 1991 4 30 16 900 120 1992 5 24 25 576 120 1993 6 10 36 100 60

E4 36

Prof. Ms. Antonio Carlos de Oliveira Capitão

1994 7 16 49 256 112 somatório 28 212 140 7.766 661 Informe a projeção para 95 e 96

x =

4,0

y =

30,3

correlação:

(Sx.Sy) rxy = S xy - n

(Sx2- (Sx)2).(Sy2-(Sy)2)

n n rxy = -0,96 negativa e forte

equação de regressão:

b = Sxy - n (x).(y) Sx2 - n (x)2

b = -6,7

E4 37

Prof. Ms. Antonio Carlos de Oliveira Capitão

a = y - bx a = 57,1 erro padrão:

Sxy = Sy2 - aSy - bSxy

n - 2 Sxy = 4

poder explicativo da regressão:

R2 = aSy + bSxy - ny2 . 100

Sy2 - ny2

R2 = 93,3% alto poder explicativo

equação de projeção:

y = a + bx para 95

y =

3,5

para 96 y =

-3,2

E4 38

Prof. Ms. Antonio Carlos de Oliveira Capitão

EXERCÍCIO Relação entre horas contínuas trabalhadas e quantidade de microcomputadores com defeito de montagem (fonte: Hardzon) x y

quantidade horas de micros x2 y2 x.y

c/defeito 18 9 324 81 162 12 8 144 64 96 10 7 100 49 70 8 6 64 36 48 6 5 36 25 30 5 4 25 16 20 4 3 16 9 12 somatório 63 42 709 280 438 Faça projeção para: 20 horas 15 horas 7 horas

x =

9,0

y =

6,0

correlação:

(Sx.Sy) rxy = S xy - n

(Sx2- (Sx)2).(Sy2-(Sy)2)

n n rxy = 0,95 positiva e forte

E4 39

Prof. Ms. Antonio Carlos de Oliveira Capitão

equação de regressão:

b = Sxy - n (x).(y) Sx2 - n (x)2

b = 0,4

a = y - bx a = 2,4 erro padrão:

Sxy = Sy2 - aSy - bSxy

n - 2 Sxy = 1

poder explicativo da regressão:

R2 = aSy + bSxy - ny2 . 100

Sy2 - ny2

R2 = 85,7% alto poder explicativo

equação de projeção:

y = a + bx

E4 40

Prof. Ms. Antonio Carlos de Oliveira Capitão

para 20 horas ====> 10 micros c/defeito para 15 horas ====> 8 micros c/defeito para 7 horas =====> 5 micros c/defeito