23
Tratamento de Dados 2º Semestre 2005/2006 IV – Regressão e correlação IV.4. (cont.) Significância Estatística e Regressão Múltipla

IV – Regressão e correlaçãodocentes.fe.unl.pt/~acsilva/TratDados/IV_4_Sig_Reg_Mult.pdf · IV – Regressão e correlação IV.4. (cont.) Significância ... Regressão linear

  • Upload
    hanhan

  • View
    223

  • Download
    0

Embed Size (px)

Citation preview

Tratamento de Dados 2º Semestre 2005/2006

IV – Regressão e correlação

IV.4. (cont.) Significância Estatística e Regressão Múltipla

Tratamento de Dados 2º Semestre 2005/2006

Significância Estatística

Existe uma estatítica, o t-estatístico, associadoa cada estimativa

O t-estatístico mede a distância do valor estimado a zero em termos de desvio padrão

Se o valor do t-estatístico for igual ou superior a 2 em valor absoluto, então o coeficienteassociado tem significância estatística

Tratamento de Dados 2º Semestre 2005/2006

Cálculo de t-estatístico

O t-estatístico é igual ao valor da estimativa do coeficiente a dividir pelo desvio padrão do coeficiente.

Porque existe um desvio padrão associado a cadacoeficiente da regressão linear?

O que significa ter significância estatística? Acreditamos que o coeficiente é diferente de zero para um determinado nível de confiança.

Tratamento de Dados 2º Semestre 2005/2006

Exemplo: Golfe e Performance

Handicaps and Corporate Performance

y = -0.1734x + 55.137R2 = 0.0017

0

20

40

60

80

100

120

0 5 10 15 20 25 30 35 40

Handicap

Perf

orm

ance

Regressão linear entre performance financeira da empresa e golfe handicapdo CEO da empresa (amostra de 51 empresas das 500 maiores da Fortune)

Tratamento de Dados 2º Semestre 2005/2006

Excel Output: Golfe e PerformanceSUMMARY OUTPUT

Regression StatisticsMultiple R 0.042R Square 0.002Adjusted R Square -0.019Standard Error 25.38Observations 51

ANOVAdf SS MS

Regression 1 55.05295154 55.0529515Residual 49 31567.65293 644.237815Total 50 31622.70588

CoefficientsStandard Error t StatIntercept 55.1373367 9.790428944 5.63175904Handicap -0.17343047 0.593277937 -0.2923258

Tratamento de Dados 2º Semestre 2005/2006

Problema Geral em Estatística

Os dados provêm de uma amostra retirada da população

Usamos características da amostra comoestimativa das características da população

Uma amostra diferente implica estimativasdiferentes

Tratamento de Dados 2º Semestre 2005/2006

Caso de Golfe e Performance

Com uma amostra diferente de CEOs, não obteríamos uma estimativa de -0.1734

O desvio padrão da estimativa mede a precisão com que a estimativa é feita

Existe uma probabilidade de cerca de 95% de que a estimativa esteja até 2 desvios padrão do verdadeiro valor do parâmetro

Tratamento de Dados 2º Semestre 2005/2006

Distribuição do valor do coeficienteassociado a Handicap

Seria uma surpresa se o verdadeiro valor do declive fosse igual a zero?

H 420-2-4

0.6

0.5

0.4

0.3

0.2

0.1

0

Tratamento de Dados 2º Semestre 2005/2006

Detalhes sobre t-estatístico*Calculado como o valor da estimativa do coeficiente a dividir pelo desvio padrão do coeficiente estimado

O t-estatístico tem distribuição t com N - k - 1 grausde liberdade, sendo k o número de variáveisexplicativas

O valor de t é aproximadamente igual a 2 para um teste a nível de significância de 5% (2-tail)

Para obter precisão, verifiquem se o p-value < 0.05

* (nas aulas de estatística irão discutir este tema em teste de hipóteses)

Tratamento de Dados 2º Semestre 2005/2006

Regressão linear com mais de uma variável explicativa:

xis corresponde ao valor da variável i para a observação s

O Excel determina os coeficientes de xis que minimizam a soma dos quadrados dos erros da regressão (SSE)

Regressão Múltipla

y b b x b xs s k ks s= + + + +0 1 1 ... ε

Tratamento de Dados 2º Semestre 2005/2006

Excel Output

Verificamos que a estimativa do declivecorresponde à diferençaentre as médias

b = - 3,166.67 a = 60,983

FbIay +=ˆ

Relebrem caso discriminaçãosalarial

Average of EarningsGender TotalF 57816.67M 60983.33Grand Total 59400

Tratamento de Dados 2º Semestre 2005/2006

Adicionando ExperiênciaTabela de Contingência

Gender Male/FemalExperience Data F M Grand Total Difference

10 Average of Earnings 57150 59650 57983.33 2500Count of Earnings 40 20 60

20 Average of Earnings 59150 61650 60816.67 2500Count of Earnings 20 40 60

Total Average of Earnings 57816.67 60983.33 59400 3166.67Total Count of Earnings 60 60 120

Experiência medida por anos de trabalho

Tratamento de Dados 2º Semestre 2005/2006

Regressão Linear com ExperiênciaSUMMARY OUTPUT

Regression StatisticsMultiple R 0.39R Square 0.15Adjusted R Square 0.14Standard Error 4389.67Observations 120.00

ANOVAdf SS MS F

Regression 2.00 407500000.00 203750000.00 10.57Residual 117.00 2254500000.00 19269230.77Total 119.00 2662000000.00

Coefficients Standard Error t Stat P-valueIntercept 57650.00 1525.90 37.78 0.00Experience 200.00 85.01 2.35 0.02Female -2500.00 850.06 -2.94 0.00

Tratamento de Dados 2º Semestre 2005/2006

Gender Male/Fem.IQ Data F M Grand Total Diff.101-110 Average of Earnings 51816.66667 54983.33333 53400 3166.667

Count of Earnings 12 12 24111-120 Average of Earnings 54816.66667 57983.33333 56400 3166.667

Count of Earnings 12 12 24121-130 Average of Earnings 57816.66667 60983.33333 59400 3166.667

Count of Earnings 12 12 24131-140 Average of Earnings 60816.66667 63983.33333 62400 3166.667

Count of Earnings 12 12 24141-150 Average of Earnings 63816.66667 66983.33333 65400 3166.667

Count of Earnings 12 12 24Total Average of Earnings 57816.66667 60983.33333 59400 3166.667Total Count of Earnings 60 60 120

Adicionando IQ – Coeficiente de InteligênciaTabela de Contingência

Tratamento de Dados 2º Semestre 2005/2006

Regressão Linear com IQSUMMARY OUTPUT

Regression StatisticsMultiple R 0.98R Square 0.96Adjusted R Square 0.96Standard Error 954.82Observations 120.00

ANOVAdf SS MS F

Regression 2.00 2555333333.33 1277666666.67 1401.44Residual 117.00 106666666.67 911680.91Total 119.00 2662000000.00

Coefficients Standard Error t Stat P-valueIntercept 23333.33 767.08 30.42 0.00Female -3166.67 174.33 -18.17 0.00IQ 300.00 6.03 49.73 0.00

Tratamento de Dados 2º Semestre 2005/2006

Pontos Chave na Interpretação

Adicionar uma variável permite controlar o seu efeito na regressão: permite manter a variável a níveis constantes

Semelhante a análise através de tabelas de contingência

Adicionar uma variável pode alterar a estimativa dos coeficientes de outras variáveis (ex. ao adicionar experiência altera-se a estimativa do coeficiente do indicador ‘female’)

Controlar uma variável correlacionada com outra variável explicativa elimina ‘bias’ ou enviezamento na estimativa dos efeitos dessas variávies (ex. experiência e female)Controlar uma variável não correlacionada com outra variável explicativa melhora o “ajustamento” mas não elimina ‘bias’ (por exemplo, IQ e Female)

Tratamento de Dados 2º Semestre 2005/2006

Como escolher as variáveis a incluirna regressão?

Número de variáveis

Critério estatístico

Critério lógico

Tratamento de Dados 2º Semestre 2005/2006

Número de variáveis

Restrição de ordem técnicaO número de observações tem deve ser pelo menos igual ao número de variáveis explicativas mais dois

Restrição de ordem prácticaDevemos ter pelo menos 10 observações porvariável explicativa para obtermos estimativasprecisas

Tratamento de Dados 2º Semestre 2005/2006

Critério estatístico

Adicionar uma variável sempre fará o R2 aumentar. Portanto, um aumento do R2 não pode ser usado como base para concluir que uma variável deve ser incluída.

O R2 ajustado é uma medida modificada que impõe uma “penalidade” sobre variáveis extras.

Tratamento de Dados 2º Semestre 2005/2006

Critério Lógico

Adicionar variáveis altera a interpretação dos coeficientes. Exemplo:

Preço = b0 + b1 Quartos• b1 mede a diferença entre, por exemplo, apartamentos com 3

quartos e apartamentos com 4 quartos

Preço = b0 + b1 Quartos + b2 m2

• b1 mede a diferença entre, por exemplo, apartamentos com 3 quartos e apartamentos com 4 quartos com a mesma àrea em m2

Escolha da variável pode depender do tipo de comparação que se pretende efectuar

Tratamento de Dados 2º Semestre 2005/2006

Multicolinearidade

As variáveis explicativas podem ter algumacorrelação entre elasUma variável explicativa não pode ser uma funçãolinear de outras variáveis explicativas (correlaçãolinear perfeita)Demasiada correlação entre as variáveis explicativastorna as estimativas imprecisas - (problema com osdados)

Tratamento de Dados 2º Semestre 2005/2006

How will simple and multiple regression results differ?

050000

100000150000200000250000300000350000400000450000

0 1000 2000 3000 4000

Size

Pric

e

Tratamento de Dados 2º Semestre 2005/2006

(1) (2) (3)

Intercept -66,298.94 145,332.70 -7,423.87(-4.41) (16.06) (-0.11)

Size 136.92 98.55(22.65) (2.21)

Area 220,276.44 62,592.24(17.21) (0.87)

R-Squared 0.988 0.980 0.990