Download pdf - Regressão Múltipla

Transcript

Regresso MltiplaBaseado (parcialmente) em: Statistical Methods for the Behavioral Sciences, 3rd edition David C. Howell 2004-2005 Traduo e adaptao, Toms da Silva

Regresso Mltipla

2

Pontos Principais O problema da Regresso Mltipla Um exemplo Correlao Mltipla Equao de Regresso Predies

Cont.

1

Regresso Mltipla

3

Pontos Principais--cont. Resduos Teste de Hipteses Questes para Reviso Referncias bibliogrficas essenciais

Regresso Mltipla

4

O Problema Utilizar vrios preditores para predizer a varivel dependente Determinar uma medida do grau de ajustamento global Ponderar cada preditor e determinar a sua importncia

2

Regresso Mltipla

5

O que a regresso mltipla?A Regresso/Correlao Mltipla (RCM) um procedimento analtico de dados baseado no critrio dos mnimos quadrados, que determina as relaes lineares entre um conjunto de preditores e um nico critrio e determina qual a melhor combinao do conjunto de preditores para predizer esse critrio singular (Licht). A RCM a simples extenso da regresso bivariada a duas ou mais variveis preditoras.

Regresso Mltipla

6

O modelo de regresso mltiplaO modelo de regresso que ser testado representado pela seguinte equao de regresso mltipla:Y' = a +b1X1 + b2 X2 +L+bk Xk(frmula no estandardizada; Licht)

zY' =1z1 +2z2 +L kzk +

(frmula estandardizada; Licht)

3

Regresso Mltipla

7

Quantas variveis usar?Os programas de regresso mltipla permitem a incluso de um grande nmero de variveis X. (todavia, esta prtica deve ser evitada); ver recomendaes nos slides 8 e 9

Regresso Mltipla

8

Quantas variveis usar?Quando as variveis entram na regresso como um nico bloco a rcio dos casos para as variveis deve ser pelo menos de 20:1 (Tabachnick e Fidell) Nos modelos de regresso Stepwise e Hierrquica so precisas amostras de maior dimenso, pelo menos de 40:1 (Tabachnick e Fidell)

4

Regresso Mltipla

9

Quantas variveis usar?Newton e Rudestam (1999) recomendam: Quando calcula o R2 o n dever ser pelo menos 50+8k, onde k o nmero de variveis independentes. Quando calcula as estimaes de regresso para cada das variveis dever ter um n de 104+k.

Regresso Mltipla

10

Mtodos de Entrada de VariveisExplicando a sobreposio da varincia: As estimativas de regresso podem ser calculadas num nico passo ou atravs de um processo multi sequencial (multi-passos) Neste caso o passo refere-se ao ponto na anlise em que uma ou mais variveis X entram nos clculos da regresso.

5

Regresso Mltipla

11

Mtodos de Entrada de VariveisAssim: Podemos fazer entrar todas as variveis num nico passo (bloco ou etapa) e examinar o R2. Alternativamente, podemos fazer entrar uma nica varivel e verificar quanta varincia esta varivel explica, depois adicionar outra varivel e ver quanta varincia extra esta varivel explica, etc.

Regresso Mltipla

12

Mtodos de Entrada de VariveisExistem trs mtodos principais de regresso linear, que diferem quanto ao mtodo usado para fazer entrar as variveis na anlise: Standard, simultneo, directo, all in; Sequencial:Q Hierrquico. Q Stepwise Forward, Backward, Stepwise;

6

Regresso Mltipla

13

Mtodos de Entrada de Variveis Standard ou simultneo. TODAS as variveis entram ao mesmo tempo Stepwise. Uma varivel adicionada de cada vez de acordo com um critrio preestabelecido. Depois do critrio ter sido definido o investigador no tem controlo sobre quais as variveis que entram ou sobre a ordem em que estas entram

Regresso Mltipla

14

Mtodos de Entrada de Variveis Hierrquico. A ordem em que as variveis entram determinada pelo investigador. As variveis podem entrar uma a uma, em blocos ou por uma combinao de ambos os procedimentos.

7

Regresso Mltipla

15

Um Exemplo MRLM Standard Estudo realizado por Kliewer et al. (1998) sobre o efeito da violncia no comportamento de internalizaoQ Comportamento de internalizao (vide Achenbach)

PreditoresQ Grau em que o sujeito foi testemunha de violncia Q Medida do grau de stress na sua vida actual Q Medida do suporte social

Regresso Mltipla

16

Violncia e Internalizao Os sujeitos so crianas com 8-12 anosQ Viviam em reas muito violentas Q Hiptese: violncia e stress conduzem internalizao do comportamento. Q Os dados esto disponveis em: www.duxbury.com/dhowell/StatPages/ More_Stuff/Kliewer.dat

8

Regresso Mltipla

17

Matriz de IntercorrelaesCorrelationsStatistics

Amount violenced witnessed Amount violenced witnessed Current stress Social support Internalizing symptoms on CBCL .050 .080 .200*

Current stress

Social support

Internalizing symptoms on CBCL

-.080 .270** -.170

*. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed).

Regresso Mltipla

18

Consideraes Preliminares Constatamos que tanto Stress como Witnessing Violence esto significativamente correlacionadas com Internalizing. Notamos, ainda, que os preditores so francamente independentes uns dos outros.

9

Regresso Mltipla

19

Correlao Mltipla (Coeficiente de) Directamente anlogo ao r (simples) Sempre em letra maiscula (e.g. R) Sempre positivoQ a correlao de Y com Y observado onde Y calculado a partir da equao deregresso

Q Frequentemente reporta-se o R 2, em vez de

R Nota: Y Y

Regresso Mltipla

20

Coeficientes de Regresso Teremos (a) dois ou mais declives e (b) um ponto de intercepo. Cada varivel ajustada por todas as outras includas no modelo. Estes coeficientes so apenas uma exteno do declive e do ponto de intercepo que encontrmos na regresso simples. Output do SPSS no prximo slide

10

Regresso Mltipla

21

R2Model Summary Adjusted R Square ,108 Std. Error of the Estimate 2,2174

Model 1

R R Square ,368a ,136

a. Predictors: (Constant), Social support, Current stress, Amount violenced witnessed

Regresso Mltipla

22

Declives e Ponto de IntercepoCoefficientsa Unstandardized Coefficients B Std. Error ,517 1,288 ,038 ,272 -,076 ,018 ,106 ,043 Standardized Coefficients Beta ,202 ,245 -,170

Model 1

t ,401 2,111 2,560 -1,766

(Constant) Amount violenced witnessed Current stress Social support

Sig. ,689 ,037 ,012 ,081

a. Dependent Variable: Internalizing symptoms on CBCL

11

Regresso Mltipla

23

Equao de Regresso Y = b1 X 1 + b2 X 2 + b3 X 3 + b0 = 0.038Wit + 0.272Stress 0.076SocSupp + 0.517 Um coeficiente nico para cada varivelQ Os bis (b1,,bi) so os declives

Um ponto de intercepo (aqui designado b0 em vez de a)

Regresso Mltipla

24

Interpretao Note que o declive para Witness e Stress positivo, mas que o declive para o Social Support negativo.Q Este dado faz sentido?

Se tivesse sujeitos com Stress e SocSupp idnticos, uma unidade de aumento de Witness produziria 0.038 unidades de aumento na varivel Internal.Cont.

12

Regresso Mltipla

25

Interpretao--cont. O mesmo verdadeiro para os outros preditores. Os testes t, para dois dos declives, so significativos Q Todavia, SocSupp no significativo. Q O que quer isto dizer? O R 2 pode interpretar-se do mesmo modo que r (correlao), ou seja:2

Q 13.6% da variabilidade em Internal explicada pela variabilidade em Witness, Stress, e SocSupp.

Regresso Mltipla

26

Interpretao--cont. O ponto de Intercepo habitualmente no tem significado.Q a predio que efectuamos quando todos os preditores so 0.0 Q J agora, com dois preditores (regresso trivariada), no existe uma recta de regresso, mas um plano de regresso.

13

Regresso Mltipla

27

Regresso Mltipla

28

Predies Assuma que Witness = 20, Stress = 5, e SocSupp = 35: Ento qual o valor de Y? Y = .038 *Wit + .272 * Stress .076 * SocSupp + 0.517 = .038(20) + .272(5) .076(35) + 0.517 = .023

14

Regresso Mltipla

29

Teste de Hipteses O teste sobre o R 2 dado na tabela da Anlise da Varincia:ANOVAb Sum of Squares 73,320 467,090 540,410

Model 1

df 3 95 98

Regression Residual Total

Mean Square 24,440 4,917

F 4,971

Sig. ,003a

a. Predictors: (Constant), Social support, Current stress, Amount violenced witnessed b. Dependent Variable: Internalizing symptoms on CBCL

Cont.

Regresso Mltipla

30

Teste de Hipteses O testes do R 2 (usando as estatsticas da ANOVA) Sendo2 RY .12 =

SQR SQT SQE SQE = = 1 SQT SQT SQT2 RY.12 = 0

ento testa-se

com

F =

(n 2 1)R 2 MQR SQR 2 = = MQE SQE (n 2 1 ) 1 R 2 (2 )

(

)

Cont.

15

Regresso Mltipla

31

Teste--cont. Os testes sobre os coeficientes de regresso so oferecidos, no SPSS num segundo quadro (cf. rcios t de student) Ver o prximo slide Aprecie os testes sobre cada coeficiente.

Regresso Mltipla

32

Testes sobre os Declives e Ponto de IntercepoCoefficientsa Unstandardized Coefficients B Std. Error ,517 1,288 ,038 ,272 -,076 ,018 ,106 ,043 Standardized Coefficients Beta ,202 ,245 -,170

Model 1

t ,401 2,111 2,560 -1,766

(Constant) Amount violenced witnessed Current stress Social support

Sig. ,689 ,037 ,012 ,081

a. Dependent Variable: Internalizing symptoms on CBCL

16

Regresso Mltipla

33

Testes sobre os Declives e Ponto de Intercepo Os coeficientes de regresso, BiH0

: B

i

= 0 0bi 0 EP ( b i )

versus H 1 : Bt n 2 1 =

i

Estas hipteses so testadas por:

EP ( b i ) =

MQE 2 ns i2 1 r12

(

)

Regresso Mltipla

34

Questes para Reviso Em que diferem a regresso mltipla e a regresso simples? O R 2 pode decrescer quando adiciona preditores? O que quer dizer fazer o controlo de? Como calculamos uma predio?

Cont.

17

Regresso Mltipla

35

Questes para Reviso--cont. provvel que o declive seja significante quando o R global no estatisticamente significativo? D um exemplo onde a regresso mltipla possa ajud-lo a compreender o comportamento.

Regresso Mltipla

36

Referncias bibliogrficas essenciais Bryman e Cramer (2003), vide pp. 276-288 (leitura complementar). Pestana e Gageiro (2003), vide pp. 576-654 (leitura essencial). Wampold, B. E. & Freund, R. D. (1987). Use of multiple regression in counseling psychology research: A flexible data-analytic strategy. Journal of Counseling Psychology, 34, 372-382. (Leitura altamente recomendada)

18

Regresso Mltipla

37

EXEMPLO TPC

Regresso Mltipla

38

EXEMPLO cont.Com base nos dados do ficheiro anterior calcule? apoio = b0 + b1idade + b2rendimento R, R2, R2 ajustado e EPestimativa O teste da hiptese nula (R2 (populacional) = 0) Os coeficientes de regresso no estandardizados bo, b1 e b2, bem como os respectivos coeficientes Beta (estandardizados) As rcios t e a sua significncia estatstica. Y, para idade = 56 anos e rendimento = 13500 libras

19

Regresso Mltipla

39

EXEMPLO cont.

Regresso Mltipla

40

EXEMPLO cont.

Y ' = 6.319 + (.218 * 56) + (.000067592 *13500) = 17.434

20

Regresso Mltipla

41

ApndiceAssunes relativas ao MRLMH um certo nmero de assunes que devem ser verificadas, antes dos resultados da regresso serem considerados para interpretao. Assim, o analista de dados dever avaliar: . Se as assunes foram preenchidas; . Se as violaes so graves; . O que fazer acerca dessas violaes.

Regresso Mltipla

42

Assunes dos MRLM Cont.Existem sete assunes principais na anlise de regresso ordinria: 1. A varivel Y medida ao nvel intervalar; 2. As variveis X so medidas, predominantemente, ao nvel intervalar. Se uma varivel independente (VI) no de tipo intervalar ento dever ser dicotmica; 3. As VI`s no devem estar (altamente) correlacionadas (esta a assuno da ausncia de multicolinearidade); 4. No devem existir outliers que possam distorcer os resultados;

21

Regresso Mltipla

43

Assunes dos MRLM Cont.5. As variveis esto relacionadas de um modo linear; 6. As variveis esto distribudas normalmente. O fracasso na normalidade pode conduzir a estimaes de coeficientes de regresso instveis e distoro da taxa de erro de Tipo I; 7. As relaes entre as variveis devero exibir homocedasticidade. Ou seja, a varincia numa varivel dever ser consistente para todos os valores da outra varivel.

Regresso Mltipla

44

Assunes dos MRLM Cont.Como testamos os dados para verificar se as assunes se encontram preenchidas? Deteco da multicolinearidade Existem vrias estratgias, por exemplo: 1. Examine as correlaes bivariadas; 2. Faa uma anlise de correlao mltipla (v.g., cada VI considerada, vez, como varivel dependente (VD) e todas as outras VIs so usadas como preditores); 3. Diagnstico da multicolinearidade dentro dos procedimentos de regresso mltipla (ver slide seguinte):

22

Regresso Mltipla

45

Assunes dos MRLM Cont.Utilize duas estatsticas de diagnstico - variable inflator factor (VIF) - medidas de Tolerncia (semelhante ao procedimento relatado em 2, no slide anterior). Como interpretar: - Em geral, variveis com tolerncia abaixo de 0.20 (baixa tolerncia) e/ou VIF maior ou igual a 5 (alguns autores usam 10) podem querer indicar problemas de multicolinearidade.

Regresso Mltipla

46

Assunes dos MRLM Cont. Verificao da normalidade A principal maneira de verificar as violaes da normalidade examinar a distribuio de cada uma das variveis. Vrios mtodos so possveis, p. ex.: Examinar as estatsticas de assimetria e de curtose; Inspeccionar histogramas com a curva normal sobreposta; Usar testes especficos (v.g., o teste z de KolmogorovSmirnov); Examinar a distribuio de variveis dicotmicas.

23

Regresso Mltipla

47

Assunes dos MRLM Cont. Verificao da normalidade (cont.) As violaes da normalidade multivariada podem ser identificadas examinando o padro dos resduos. Dois tipos de grficos de resduos so especialmente teis: Standardized predicted values (inserir no eixo horixontal) vs. Standardized residual values (inserir no eixo vertical); Histogramas dos resduos estandardizados (devem ter uma forma aproximadamente normal).

-

Regresso Mltipla

48

Assunes dos MRLM Cont. Verificao da linearidade A no linearidade bivariada pode ser examinada atravs de um diagrama de disperso envolvendo duas variveis de cada vez; Numa anlise multivariada, o exame dos resduos estandardizados de Y vs. os valores residuais preditos estandardizados de Y, pode ser usado para detectar padres de no linearidade.

24

Regresso Mltipla

49

Assunes dos MRLM Cont. Verificao da homocedasticidade Mais uma vez vamos recorrer aos grficos com o cruzamento dos resduos estandardizados de Y com os de valores estandardizados de Y. Como verificar se os outliers so um problema? Um outlier pode aparecer numa anlise uni-, bi- ou multivariada. Os principais mtodos para a sua deteco so:Examinar as distribuies de frequncias e os desvios padro (univariada); Inspeccionar scattergrams ou grficos dos resduos (anlise bivariada e multivariada).

25


Recommended