27
Princípios em Planejamento e Análise de Dados Ecológicos (PLANECO) 2020 Regressão linear Camila de Toledo Castanho

Regressão linear - USPlabtrop.ib.usp.br/lib/exe/fetch.php?media=cursos:planeco:material:A… · Conteúdo da aula 1. Regressão linear simples: quando usar 2. A reta de regressão

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

PrincípiosemPlanejamentoeAnálisedeDadosEcológicos(PLANECO)

2020

Regressãolinear

CamiladeToledoCastanho

Conteúdodaaula

1. Regressãolinearsimples:quandousar

2. Aretaderegressãolinear

3. Testedesignificânciadaregressão

4. Coeficientededeterminação(r2)

5. Pressupostosdoteste

6. Procedimentosdiagnósticos

7. Roteiro

1.Quandousar?• Suposiçãoderelaçãodecausa-efeitoentreduasvariáveiscontínuas

EixoX=variávelpreditora;explicativaouindependente

EixoY=variávelrespostaoudependente

ü Paracadavalordexobserva-seovalorcorrespondentedeyü Osvaloresdexsãoemgeralselecionadosnosentidodeobteramplavariaçãodestavariável

Objetivos:avaliarpossíveldependênciadeyemrelaçãoàxeexpressarmatematicamenteessarelação

2.Aretaderegressãolinear

• Primeiropasso:visualizaçãodosdadosè gráficodedispersãodospontos

Forneceumaboaidéiadaexistênciadedependência

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7

Dano

ecológico(índ

ice)

Quantidadedepoluente(g/L)

EXEMPLO

Relaçãoentrecertopoluentedespejadoporumafábricaemumriachoeodanoecológiconaágua,medidoporumíndice.

Aparentementeháumadependênciapositivadeyem

relaçãoàx

2.Aretaderegressãolinear

0

5

10

15

0 2 4 6 8Dano

ecológico(índ

ice)

Quantidadedepoluente(g/L)

Dependênciapositiva

-1

4

9

14

0 2 4 6 8Dano

ecológico(índ

ice)

Quantidadedepoluente(g/L)

Dependêncianegativa

-1

4

9

14

0 2 4 6 8Dano

ecológico(índ

ice)

Quantidadedepoluente(g/L)

Ausênciadedependência

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7

Dano

ecológico(índ

ice)

Quantidadedepoluente(g/L)

EXEMPLO

Relaçãoentrecertopoluentedespejadoporumafábricaemumriachoeodanoecológiconaágua,medidoporumíndice.

Taldependênciapoderiasergenericamenterepresentadaporumalinhareta

2.Aretaderegressãolinear

Análisederegressãolinear

simples

• procedimentoqueforneceequaçãodelinharetaè linear

• uma variávelpreditoraè simples

EQUAÇÃODARETA

y =A+Bxy=variáveldependente

A=intercepto(valordeyqdox=0)

B=coeficienteangular(inclinaçãodareta:acréscimooudecréscimoemyparacadaacréscimodeunidadeemx)

x=variávelindependente

0

2

4

6

8

10

12

0 1 2 3 4 5 6

y

x

1

B=-2 y=10- 2x

2.Aretaderegressãolinear

2.Aretaderegressãolinear

EQUAÇÃODARETA

y =A+Bx

yéumvalorquedependedex,masumavezquexassumeumvaloryéfixo

Dadosbiológicos

Variação

Desalinhamentosè interpretadoscomodesvios,aoacaso,docomportamentogeral

0

2

4

6

8

10

12

0 1 2 3 4 5 6

y

x

0

2

4

6

8

10

12

0 2 4 6

y

x

y =A+Bx+ε

2.Aretaderegressãolinear

Desalinhamentosèinterpretadoscomodesvios,aoacaso,docomportamentogeral

0

2

4

6

8

10

12

0 2 4 6

y

x

y =A+Bx+ε

• Alinharetarepresentaocomportamentodevaloresdeymédiosesperadosparadistintosvaloresdex

ε =erroouresíduo

• Exemplo:parax=2existeumconjuntodevaloresdeypossíveis,sendoqueamédiadestesvaloresestásobrearetaderegressão

• Pressuposto:avariaçãoésempreamesma

2.Aretaderegressãolinear

024681012

0 2 4 6

y

x

OBTENÇÃODARETADEREGRESSÃO

• Aretaderegressãoverdadeira seriaobtidasefossemconhecidososvaloresde

xeyparatodososindivíduosdapopulação

• Noentanto,emgeraltemosapenasumaamostra dapopulação

EstimativadosparâmetrosAeBè a eb

•Métododosmínimosquadrados:métodousadoparadefiniraretaeobteraeb

2.Aretaderegressãolinear•Métododosmínimosquadrados:métodousadoparadefiniraretaeobteraeb

Garantequearetaobtidaéaquelanaqualsetemasmenoresdistâncias(aoquadrado)entreosvaloresobservados(y)eaprópriareta(somadosquadradosdosresíduos– SQR)

ŷ=a+bx ŷ=valoresperadodeyparacadavalordex

3.Testedesignificânciadaregressão

Coeficienteangular(b)

Representaadependênciadeyemrelaçãoax

Noentanto,trata-sedeumaestimativadoBverdadeirojáquebaseia-seemumaamostra

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7

Dano

ecológico(índ

ice)

Quantidadedepoluente(g/L)

ŷ=2,02+1,71x b=1,71representaumadependênciarealdeyemrelaçãoàx?

TESTEDEHIPÓTESEsobreaexistênciadedependênciana

população

RACIOCÍNIODOTESTE

• TestarahipótesedequeBédiferentede0 B=0è ynãodependedex

b0

ERROPADRÃOb

• ParatestarahipótesedequeBnãoézero,determina-seonúmerocríticodeerrospadrãopermitidoparaumafastamentonão-significativoentrebeB,emunidadesdeerropadrão(tcalc).

• Seovalorcalculadoexcederovalorcrítico,rejeita-seahipótesedequebrepresentaumdesvioaoacasodeB=0è ydependedex

3.Testedesignificânciadaregressão

3.TestedesignificânciadaregressãoETAPASDOTESTE

1)Hipótesesestatísticas

H0:B=0 H1:B≠0

2)Níveldesignificância

3)Determinaçãodovalorcríticodoteste

α=0,01

gl=n-2 n=númerodepontosgl=6-2=4

Exemplo:poluentenoriachoedanoecológico

tα;gl=t0,01;4=4,604

Atenção:bicaudal

3.Testedesignificânciadaregressão

4)Determinaçãodovalorcalculadodoteste

B=0poissuponhe-sequeH0 éverdadeira

tcalc=1,71/0,187= 9,144

5)Decisão

Como|tcalc|=9,144>t0,01;4=4,604 REJEITA-SEH0

6)Conclusão

3.Testedesignificânciadaregressão

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7

Dano

ecológico(índ

ice)

Quantidadedepoluente(g/L)

ŷ=2,02+1,71xP<0,01

Dadoqueocoeficienteangularpopulacional(B)nãodeveserzero;logoadmitimosqueexisteregressãodeysobrex(α=0,05)

Odanoecológicodependedaconcentraçãodopoluente,deformaqueparacadaacréscimodeumg/Ldepoluentenaágua,espera-sequeoíndicededanoecológicoaumente1,71unidades.

4.Coeficientededeterminação– r2

SQY=somadosquadrados davariável Y(variação total)

Componentes davariação

SQreg=componente davariação atribuído ao modelo deregressão (sistemática)

SQR=somadosquadrados dosresíduos (erro aleatório)

SQY=SQreg +SQR

•https://en.wikipedia.org/wiki/Coefficient_of_determination

SQY SQR

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7

Dano

ecológico(índ

ice)

Quantidadedepoluente(g/L)

SQY=SQreg SQY=SQR

Entreestes dois extremos estão amaior partedosdadosecológicos(variação aleatória +variação sistemática)

4.Coeficientededeterminação– r2

SQY=SQreg +SQR0

SQY=SQreg +SQR0

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7

Dano

ecológico(índ

ice)

Quantidadedepoluente(g/L)

4.Coeficientededeterminação– r2

Coeficiente dedeterminação (r2)

SQreg

SQY

=Descreve aproporção davariaçãoem Yexplicada pelaregressão comX

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7

Dano

ecológico(índ

ice)

Quantidadedepoluente(g/L)

0

2

4

6

8

10

12

14

0 1 2 3 4 5 6 7

Dano

ecológico(índ

ice)

Quantidadedepoluente(g/L)

r2=1 r2=0

Importância relativa davariaçãosistemática versusaaleatória

5.Pressupostosdoteste

3.ParacadavalordeX,osvaloresdeYsãoindependentesecomerroscomdistribuiçãonormal->resíduos

4.Avariaçãoéconstanteaolongodalinhaderegressão(homogeneidadedasvariâncias)

1.Pontosnográficodevemapresentartendêncialinear,casocontrário,aequaçãoquemelhordescreveráofenômenonãoseráumareta

2.AvariávelXémedidasemerros(alternativa:RegressãoModeloII) PRESSUPOSTOFREQUENTEMENTEIGNORADORisco:subestimar oB

Quarteto deAnscombe ŷ=3,00+0,500x

6.Procedimentosdiagnósticos

R2=0,67

6.AnálisedosresíduosGráficodiagnósticoparachecarospressupostosda

regressão

Resíduosnoeixoverticaleos

valoresesperadodey(ŷ)noeixo

horizontal

Resíduo=ε=y- ŷ

resídu

os

ŷ

resídu

os

ŷ

resídu

os

ŷ

APROVADO! Variânciasnãohomogêneas

Nãolinearidade

POSSÍVELSOLUÇÃO:transformaçãodedados

6.Outrosdiagnósticos

• sensibilidade ou função deinfluênciaFormadeavaliar aestabilidade evalidade geraldasconclusões

Distância deCook

Medeainfluência decada dadoconsiderando

seu resíduo esua“alavancagem”

Altaalavancagem=valorextremo deX

Quarteto deAnscombe

•Fonte:https://onlinecourses.science.psu.edu/stat501/node/337

6.Outrosdiagnósticos

ü Sem outliers

ü Sem observações comaltaalavancagem

•Fonte:https://onlinecourses.science.psu.edu/stat501/node/337

6.Outrosdiagnósticos

ü Umoutlier

ü Sem observações comaltaalavancagem

Resultados compouca alteraçãonos coeficientes er2

Não há dadosinfluentes!

ValordePparaH0:B=0é <0,001nodois casos

•Fonte:https://onlinecourses.science.psu.edu/stat501/node/337

6.Outrosdiagnósticos

ü Não há outliers

ü Umdadocomalta alavancagem

Resultados compouca alteração

Não há dadosinfluentes!

•Fonte:https://onlinecourses.science.psu.edu/stat501/node/337

6.Outrosdiagnósticos

ü Pontovermelho é umoutliereapresenta alta alvancagem

Alteração substancial dasestimatimas doscoeficientes domodelo (aeb)er2(97%->55%)

ValordePparaH0:B=0é <0,001nodois casos

Dadoinfluente!