Estatística básica 5 correlação e regresão

  • View
    38

  • Download
    2

Embed Size (px)

Text of Estatística básica 5 correlação e regresão

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 1

    SUMRIO1. CORRELAO .............................................................................................2

    1.1. Introduo................................................................................................................................................... 2

    1.2. Padres de associao ................................................................................................................................ 3

    1.3. Indicadores de associao.......................................................................................................................... 3

    1.4. O coeficiente de correlao........................................................................................................................ 5

    1.5. Hipteses bsicas ........................................................................................................................................ 5

    1.6. Definio...................................................................................................................................................... 6

    1.7. Distribuio amostral de r (quando = 0) ............................................................................................... 61.8. Distribuio amostral de r (quando 0) ............................................................................................... 71.9. Propriedades de r ....................................................................................................................................... 8

    2. REGRESSO................................................................................................92.1. Estimativa dos parmetros de regresso................................................................................................ 11

    2.2. Estimativa da varincia do termo erro................................................................................................... 12

    2.3. Distribuies das estimativas................................................................................................................... 152.3.1. Distribuio do estimador b.............................................................................................................................. 152.3.2. Distribuio do estimador a .............................................................................................................................. 16

    2.4. Decomposio da soma dos quadrados .................................................................................................. 162.4.1. Decomposio dos desvios................................................................................................................................... 162.4.2. Clculo das variaes ........................................................................................................................................... 17

    2.5. Intervalos de confiana ............................................................................................................................ 182.5.1. Intervalo para o coeficiente linear () .................................................................................................................. 182.5.2. Intervalo para o coeficiente angular () ............................................................................................................... 182.5.3. Intervalo para previses ....................................................................................................................................... 18

    2.6. Testes de hipteses.................................................................................................................................... 202.6.1. Teste para a existncia da regresso..................................................................................................................... 202.6.2. Teste para o coeficiente linear.............................................................................................................................. 20

    2.7. Coeficiente de determinao ou de explicao....................................................................................... 21

    3. EXERCCIOS...............................................................................................224. RESPOSTAS...............................................................................................275. REFERNCIAS ...........................................................................................30

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 2

    CORRELAO E REGRESSO1. CORRELAO

    1.1. INTRODUOAo se estudar uma varivel o interesse eram as medidas de tendncia central, disperso,

    assimetria, etc. Com duas ou mais variveis alm destas medidas individuais tambm de interesseconhecer se elas tem algum relacionamento entre si, isto , se valores altos (baixos) de uma dasvariveis implicam em valores altos (ou baixos) da outra varivel. Por exemplo, pode-se verificar seexiste associao entre a taxa de desemprego e a taxa de criminalidade em uma grande cidade, entreverba investida em propaganda e retorno nas vendas, etc.

    A associao entre duas variveis poder ser de dois tipos: correlacional e experimental. Numarelao experimental os valores de uma das variveis so controlados pela atribuio ao acaso doobjeto sendo estudado e observando o que acontece com os valores da outra varivel. Por exemplo,pode-se atribuir dosagens casuais de uma certa droga e observar a resposta do organismo; pode-seatribuir nveis de fertilizante ao acaso e observar as diferenas na produo de uma determinadacultura.

    No relacionamento correlacional, por outro lado, no se tem nenhum controle sobre asvariveis sendo estudadas. Elas so observadas como ocorrem no ambiente natural, sem nenhumainterferncia, isto , as duas variveis so aleatrias. Assim a diferena entre as duas situaes que naexperimental ns atribumos valores ao acaso de uma forma no tendenciosa e na outra a atribuio feita pela natureza.

    Figura 1.1 - Vrios tipos de relacionamento entre as variveis X e YFreqentemente necessrio estudar o relacionamento entre duas ou mais variveis. Ao estudo

    do relacionamento entre duas ou mais variveis denominamos de correlao e regresso. Se o estudotratar apenas de duas variveis tem-se a correlao e a regresso simples, se envolver mais do que duasvariveis, tem-se a correlao e a regresso mltiplas. A regresso e a correlao tratam apenas dorelacionamento do tipo linear entre duas variveis.

    A anlise de correlao fornece um nmero que resume o grau de relacionamento linear entreas duas variveis. J a anlise de regresso fornece uma equao que descreve o comportamento deuma das variveis em funo do comportamento da outra varivel.

  • S R I E : E s t a t s t i c a B s i c aT e x t o v : C O R R E L A O E R E G R E S S O

    Prof. Lor Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 3

    1.2. PADRES DE ASSOCIAOIndependente do tipo (correlacional ou experimental) a relao entre as variveis pode ser

    resumida atravs de uma equao indicando o padro de associao entre as duas variveis. Asrelaes mais comuns encontradas esto ilustradas na figura 1.1.

    Quando no possvel perceber uma relao sistemtica entre as variveis dito que asvariveis so no correlacionadas, so independentes ou ainda que so ortogonais.

    1.3. INDICADORES DE ASSOCIAOSuponha-se que queiramos determinar se duas variveis aleatrias esto de alguma forma

    correlacionadas. Por exemplo, suponha-se que se queira determinar se o desempenho dos empregadosno trabalho est de alguma forma associado ao escore obtido num teste vocacional.

    Tabela de contingncia 2x2. Uma vez que a correlao entre duas variveis aleatrias reflete oquanto os altos escores de uma delas implicam em altos escores da outra e baixos escores de umaimplicam em baixos escores da outra e vice-versa, no caso de uma relao negativa, pode-se comear aanlise identificando, justamente quantos elementos de uma das variveis so altos e quantos sobaixos. Para determinar se um escore ou valor alto ou baixo, pode-se convencionar que qualquervalor acima da mediana alto e qualquer valor abaixo da mediana baixo. Classificando desta formapode-se ter ento, para o exemplo, 4 possveis resultados:

    Tanto o desempenho no trabalho quanto no teste esto acima da mediana (+ +)

    O desempenho no trabalho est acima mas o do teste est abaixo da mediana (+ )

    Tanto o desempenho no trabalho quanto o do teste esto abaixo da mediana ( )

    O desempenho no trabalho est abaixo da mediana mas o teste no ( +)Estas quatro possibilidades podem ser arranjadas em uma tabela de contingncia 2x2, como a

    mostrada abaixo:

    Tabela 1.1 Desempenho no trabalho e no testeEscore no teste vocacionalDesempenho no trabalho

    Abaixo da mediana () Acima da mediana (+)Acima da mediana (+) (, +) 10 empregados (+, +) 40 empregados

    Abaixo da mediana () (, ) 40 empregados (+, ) 10 empregados

    Observese que se no existir relao entre as duas variveis devese esperar nmero idnticode empregados em cada uma das clulas da tabela, isto , se a pessoa o escore da pessoa no testevocacional est acima ou abaixo da mediana no tem nada a ver com o seu escore no desempenho notrabalho estar acima ou abaixo da mediana.

    O que pode ser visto na tabela acima que parece existir uma forte correlao entre as duasvariveis, pois ao invs de igual nmero em cada clula o que se tem um nmero grande de ambas asvariveis acima da mediana e um nmero grande de escores de ambas as variveis abaixo da med