40
Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy) 1 variáveis binárias (dummy)

Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Embed Size (px)

Citation preview

Page 1: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy)

1

variáveis binárias (dummy)

Page 2: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Como descrever informações qualitativas?

Fatores qualitativos podem ser incorporados a modelos de regressão.

Neste caso, classificamos os dados conforme algumas características qualitativas.

2

Exemplos: ser homem ou ser mulher; ser branco ou negro; morar no Rio ou em Niterói.... etc.

Estas variáveis qualitativas podem ser regressoresou variáveis dependentes.

Existem formas de incorporá-las ao modeloeconométrico.

Page 3: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Variáveis binárias ou dummy

Nestes casos, as informações relevantes podem ser captadas pela definição de uma variável binária (variável zero-um)

Definição de uma dummy: identificar o Definição de uma dummy: identificar o evento que assumirá o valor um e o evento que assumirá o valor zero.

É sempre bom denominar a variável pelo evento que é igual a um:� Ser homem é igual a 1 – chamar a variável de

“homem” 3

Page 4: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Variáveis binárias ou dummy

Como fica o banco de dados?

4

Page 5: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Exemplo: com uma variável binária

Somente dois fatores afetam os salários: gênero e escolaridade

Qual a diferença entre o salário hora do homem e da mulher, dado o mesmo nível educacional?

5

Page 6: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

6

Page 7: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Exemplo 2:

Se educação, experiência e permanência foram características relevantes para a produtividade, a hipótese nula para não existência de diferença entre homens e mulheres seria:

A alternativa seria que existe discriminação contra mulheres:

7

0: 0 =δo

H

0: 0 <δo

H

Page 8: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Banco de dados: wage1.gdt

Rode o modelo acima

Quanto a mulher ganha , em média, a Quanto a mulher ganha , em média, a menos que o homem?

8

Page 9: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Modelo 1: MQO, usando as observações 1-526 Variável dependente: wage

Coeficiente Erro Padrão razão-t p-valor

const -1,56794 0,724551 -2,1640 0,03092 ** female -1,81085 0,264825 -6,8379 <0,00001 *** educ 0,571505 0,0493373 11,5836 <0,00001 *** exper 0,0253959 0,0115694 2,1951 0,02860 **

9

exper 0,0253959 0,0115694 2,1951 0,02860 ** tenure 0,141005 0,0211617 6,6632 <0,00001 ***

Média var. dependente 5,896103 D.P. var. dependente 3,693086 Soma resíd. quadrados 4557,308 E.P. da regressão 2,957572 R-quadrado 0,363541 R-quadrado ajustado 0,358655 F(4, 521) 74,39801 P-valor(F) 7,30e-50

Page 10: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Banco de dados: wage1.gdt

Rode o mesmo modelo acima, mas excluindo todos controles com exceção da dummy feminino.

� Qual o salário hora médio dos homens?

� O que é o intercepto?

� Teste de comparação das médias

10

Page 11: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Modelo 2: MQO, usando as observações 1-526 Variável dependente: wage

Coeficiente Erro Padrão razão-t p-valor

const 7,09949 0,210008 33,8058 <0,00001 *** female -2,51183 0,303409 -8,2787 <0,00001 ***

11

female -2,51183 0,303409 -8,2787 <0,00001 ***

Média var. dependente 5,896103 D.P. var. dependente 3,693086 Soma resíd. quadrados 6332,194 E.P. da regressão 3,476254 R-quadrado 0,115667 R-quadrado ajustado 0,113979 F(1, 524) 68,53668 P-valor(F) 1,04e-15

Page 12: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Banco de dados: GPA1.gdtEfeitos de se possuir computadores na avaliação de cursos superiores

� PC = 1 se o aluno tem computador em casa.

� hsGPA: nota no final do ensino médio

� ACT: nota do exame vestibular� ACT: nota do exame vestibular

Qual o efeito sobre a nota média final prevista no curso superior?

O que acontece com o efeito se retirar hsGPA e ACT? Interprete o significado do coeficiente de PC.

12

Page 13: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Modelo 1: MQO, usando as observações 1-141 Variável dependente: colGPA

Coeficiente Erro Padrão razão-t p-valor

const 1,26352 0,333126 3,7929 0,00022 *** PC 0,157309 0,0572875 2,7460 0,00684 *** hsGPA 0,447242 0,0936475 4,7758 <0,00001 ***

13

hsGPA 0,447242 0,0936475 4,7758 <0,00001 *** ACT 0,00865901 0,0105342 0,8220 0,41251

Média var. dependente 3,056738 D.P. var. dependente 0,372310 Soma resíd. quadrados 15,14868 E.P. da regressão 0,332527 R-quadrado 0,219386 R-quadrado ajustado 0,202292 F(3, 137) 12,83426 P-valor(F) 1,93e-07

Page 14: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Modelo 2: MQO, usando as observações 1-141 Variável dependente: colGPA

Coeficiente Erro Padrão razão-t p-valor

const 2,98941 0,0395018 75,6779 <0,00001 *** PC 0,169517 0,0626804 2,7045 0,00770 ***

14

Média var. dependente 3,056738 D.P. var. dependente 0,372310 Soma resíd. quadrados 18,43601 E.P. da regressão 0,364188 R-quadrado 0,049989 R-quadrado ajustado 0,043154 F(1, 139) 7,314107 P-valor(F) 0,007697

Page 15: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Avaliação de políticas

Qual efeito de um programa econômico ou social sobre os indivíduos, empresas, etc...

Dois grupos de estudo: Dois grupos de estudo: � Grupo de controle: não participa do programa

� Grupo de tratamento: participa do programa

Escolha dos grupos de controle e tratamento não é aleatória.

15

Page 16: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Avaliação de políticas

Definição do grupo de controle e tratamento:� Grupo de Tratamento: pessoas (do público- alvo) que serão atendidas pelo projeto.que serão atendidas pelo projeto.

� Grupo de Controle: pessoas com características similares, mas que não serão atendidas pelo projeto.

16

Page 17: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Banco de dados. JTRAIN.GDTEfeitos da concessão de subsídios sobre as horas de treinamento

Dados de 1988 indústrias de Michigan

hrsemp: horas de treinamento por empregado no nível da empresa.

Subs = 1 se a indústria recebeu subsídio17

Page 18: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Variável dependente na forma log

Regressão dos preços dos imóveis

Banco de dados Hprice1.gdt

Dummy colonial: igual a 1 se o imóvel tiver estilo colonial. Qual a sua interpretação?

18

Page 19: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Reestimar o exemplo 2

Use log(salário hora)

Inclua termos quadráticos para experiência e tempo de permanência.e tempo de permanência.

Quanto as mulheres ganham a menos que os homens?

Qual a diferença percentual exata entre homens e mulheres?

19

Page 20: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

20

Page 21: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Reestimar o exemplo 2

)297,0exp(/

)297,0exp())/exp(log(

297,0)/log(

297,0)log()log(

−=

−=

−=

−=−

salariohsalariom

salariohsalariom

salariohsalariom

salariohsalariom

21

257,01)297,0exp(

1

)297,0exp(/

−=−−=−

−=−

−=

salarioh

salariohsalariom

salarioh

salariom

salarioh

salariohsalariom

salariohsalariom

Page 22: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Dummies para múltiplas categorias

Suponha que seus dados sejam sobre pessoas que trabalham nos setores primário, secundário e terciário da economia.

Para compará-los, inclua 2 variáveis dummies:

22

Para compará-los, inclua 2 variáveis dummies:

prim = 1 se a pessoa trabalha no setor primário e= 0 caso contrário; e sec = 1 se ela trabalha no setor secundário e = 0 caso contrário.

Page 23: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Dummies para múltiplas categorias

Suponha que seus dados sejam sobre pessoas que trabalham nos setores primário, secundário e terciário da economia.

Para compará-los, inclua 2 variáveis dummies:

23

Para compará-los, inclua 2 variáveis dummies:

prim = 1 se a pessoa trabalha no setor primário e= 0 caso contrário; e sec = 1 se ela trabalha no setor secundário e = 0 caso contrário.

Page 24: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Categorias múltiplas (cont.)

Qualquer variável expressa em categorias pode ser transformada em uma variável dummy.

Como o caso base é representado pelo

24

Como o caso base é representado pelo intercepto, se há n categorias, devem havern – 1 dummies.Se há muitas categorias, pode-se agrupar algumas delas.

Page 25: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Exemplo: Equação do log salário hora

Modelo que considere as diferenças salariais entre quatro grupos: � Homens casados (marrmale)

Homens solteiros (grupo base)

25

� Homens solteiros (grupo base)� Mulheres casadas (marrfem)� Mulheres solteiras (singfem)

O “prêmio” por ser casado não é o mesmo para homens e mulheres!!!

Page 26: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Exemplo: Equação do log salário hora

26

Lembre do grupo base!!!!

As estimativas das três variáveis medem a diferença proporcional nos salários relativamente aos homens solteiros.

Page 27: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Exemplo: Equação do log salário hora

Os homens casados ganham cerca de 21,3% mais que os homens solteiros.Uma mulher casada deve ganhar 19,8% a menos que um homem solteiro.

27

que um homem solteiro.Diferença proporcional estimada entre as mulheres solteiras e as casadas é (-0,110-(-0,198)) = 0,088. Mulheres solteiras ganham 8,8% a mais que as mulheres casadas.

Page 28: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Interação entre dummies

Interagir dummies é como subdividir o grupo. Exemplo: ter dummies para homens assim como para prim e sec.Adicione homem*prim e homem*sec, para um total de 5 dummies e 6 categorias.

28

total de 5 dummies e 6 categorias.O caso base é: mulher no terciário. prim é para mulheres no setor primário e sec é para mulheres no setor secundário.As interações refletem homens no primário e homens no secundário.

Page 29: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Mais sobre dummies de interaçãoFormalmente, o modelo é y = β0 + δ1homem + δ2prim + δ3sec + δ4homem*prim + δ5homem*sec+ β1x + u. Então, por exemplo:Se homem = 0, prim = 0 e sec = 0:y = β + β x + u

29

y = β0 + β1x + u

Se homem = 0, prim = 1 e sec = 0:y = β0 + δ2prim + β1x + u

Se homem = 1, prim = 0 e sec = 1:y = β0 + δ1homem + δ3prim + δ5homem*sec + β1x + u

Page 30: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Exemplo:

30

Outra forma de encontramos diferencias de salário entre homens casados, homens solteiros, mulheres casadas e mulheres solteiras.

Page 31: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Outras interações com dummies

Podemos também interagir uma dummy, d, com uma variável contínua, x:

y = β0 + δ1d + β1x + δ2d*x + u.

31

y = β0 + δ1d + β1x + δ2d*x + u.

Se d = 0, então y = β0 + β1x + u.

Se d = 1, então y = (β0 + δ1) + (β1+ δ2) x +

u.

Temos uma mudança na inclinação.

Page 32: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

y

y = β0 +β1x

Exemplo de δ0 > 0 e δ1 < 0

d = 0

32x

y = (β0 + δ0) + (β1 + δ1) x

d = 1

Page 33: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Exemplo:

Queremos verificar se o retorno da educação é o mesmo para homens e mulheres:

mede a diferença nos interceptos entre homens e mulheres

33

homens e mulheres

mede a diferença no retorno da educação entre homens e mulheres.

interação

Page 34: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

34

Page 35: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

35

• O retorno estimado da educação dos homens é 8,2%.

• Para as mulheres, o retorno é 0,082-0,0056 = 0,0764 (7,6%).

• Esta diferença de retorno é pouco significativa. Logo, não podemos rejeitar a hipótese nula de que o retorno para homens e mulheres é igual.

Page 36: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Teste para diferenças entre grupos

Testar se uma função de regressão é diferente para um grupo em relação a outro pode ser pensado simplesmente como um teste para a significância conjunta da dummy e suas interações com todas as outras variáveis x.

36

com todas as outras variáveis x.

A hipótese nula é que os modelos não sãodiferentes para os grupos.Então, estimam-se os modelos com e sem todas as interações e calcula-se a estatística F.

Mas quando há muitas interações, há um procedimento mais fácil.

Page 37: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Teste para diferenças entre grupos

Suponha que temos dois grupos e queremos testar se

interceptos e inclinações são diferentes para estes dois

grupos:

37

uxxxxy kkggggg ++++++= ....3... ,3,22,11,0, βββββ

Temos k+1 restrições.

Page 38: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

O teste de ChowÉ possível calcular a estatística F sem estimarmos o modelo irrestrito completo.Estima-se o SQR do modelo irrestrito, estimando o modelo para cada grupo: obtenha a SQR1; depois, faça o mesmo para o outro grupo e

38

depois, faça o mesmo para o outro grupo e obtenha a SQR2:

Estima-se o modelo restrito considerando todos os grupos juntos e obtenha a SQR. Então:

( )[ ] ( )[ ]1

12

21

21

+

+−

+

+−=

k

kn

SQRSQR

SQRSQRSQRF

Page 39: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

O teste de Chow (cont.)

O teste de Chow é apenas um teste F usual de exclusão de variáveis, se você observar que SQRir

= SQR1 + SQR2.

Observe que há k + 1 restrições (cada uma das

39

Observe que há k + 1 restrições (cada uma das inclinações e o intercepto).

Observe que o modelo irrestrito estimaria dois diferentes interceptos e duas inclinações diferentes, logo temos n – 2k – 2 graus de liberdade no denominador.

Page 40: Análise de Regressão Múltipla com informação qualitativa ... · Variáveis binárias ou dummy Nestes casos, as informações relevantes podem ser captadas pela definição de

Modelo de Probabilidade Linear

Regressão múltipla para explicar um evento qualitativo.

y é 0 ou 1.y é 0 ou 1.

40