70
   AULA 17: Regressão linear e análise de variância da regressão 1.1.  Entendendo a relação verificada na população ......................................................... ........................... 2 1.2.  Estimadores dos parâmetros do modelo de regressão......................................................... ................. 4 1.3.  Hipóteses do modelo ........................................................... ........................................................... .......  1.4. Visualizando os desvios....................................................... ........................................................... .......  1.5.  Igualdades envolvendo somatório........................................................... ............................................ 13  1.6. Calculando a reta de regressão .................................................... ...................................................... 14 1.7.  Reta de regressão passando pela origem .......................................................... .................................. 33  2.1.  Somas de quadrados ........................................................................................................................... 35  2.2. Quadrados médios e estatística F .............................................................................. ......................... 38  2.3. Coeficiente de determinação ......................................................... ...................................................... 39 

aula 17 - regressão linear

Embed Size (px)

Citation preview

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 1

    AULA 17: Regresso linear e anlise de varincia

    da regresso

    1. REGRESSO LINEAR ........................................................................................................................ 2

    1.1. Entendendo a relao verificada na populao .................................................................................... 2 1.2. Estimadores dos parmetros do modelo de regresso .......................................................................... 4

    1.3. Hipteses do modelo ............................................................................................................................. 7

    1.4. Visualizando os desvios ......................................................................................................................... 7

    1.5. Igualdades envolvendo somatrio ....................................................................................................... 13

    1.6. Calculando a reta de regresso .......................................................................................................... 14

    1.7. Reta de regresso passando pela origem ............................................................................................ 33 2. ANLISE DE VARINCIA DA REGRESSO ...................................................................................... 35

    2.1. Somas de quadrados ........................................................................................................................... 35

    2.2. Quadrados mdios e estatstica F ....................................................................................................... 38 2.3. Coeficiente de determinao ............................................................................................................... 39

    3. OUTROS EXERCCIOS .................................................................................................................... 49

    4. RESUMO ..................................................................................................................................... 54

    5. QUESTES APRESENTADAS EM AULA .......................................................................................... 56

    6. GABARITO ..................................................................................................................................... 70

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 2

    1. REGRESSO LINEAR

    Na correlao linear, estvamos interessados em ver se duas variveis X e Y tinham uma relao linear forte ou no.

    Pois bem, considerem que X e Y tenham uma relao linear forte. Ou seja, a relao entre ambas quase uma reta. Neste caso, que reta seria essa? Qual a reta que melhor descreve a relao linear entre X e Y?

    justamente isso que a regresso linear vai nos dizer.

    1.1. Entendendo a relao verificada na populao

    Sejam X e Y duas variveis. Um modelo de regresso linear que as relaciona da seguinte forma:

    iii XY ++= Neste modelo, e so constantes e uma varivel aleatria de mdia zero. Mas o que significa este modelo?

    Para entender melhor, vamos a um exemplo. Vamos dar valores.

    Sejam X e Y duas variveis aleatrias que modelam duas caractersticas de uma populao. Poderiam ser peso e altura dos indivduos de um pas. Ou ento lucro bruto e gastos com propaganda de empresas de um dado setor. Ou qualquer outra coisa. Considere o seguinte modelo de regresso:

    iii XY ++= 25 , onde tem desvio padro igual a 2.

    Neste modelo, 5= e 2= . E uma varivel aleatria de mdia zero e desvio padro igual a 2.

    O que significa o modelo?

    Para ver seu significado, vamos considerar o caso em que X igual a 1.

    Quando X vale 1, o valor de Y fica:

    +=++= 725Y Y igual a 7 mais alguma coisa.

    Quando X for igual a 1, Y uma varivel aleatria que assume valores ao redor de 7. Y uma varivel aleatria de mdia 7 e desvio padro igual a 2 ( o mesmo desvio padro da varivel ).

    Simulei no Excel 40 valores para uma varivel aleatria normal de mdia 7 e desvio padro igual a 2.

    Quadro 1 Amostra de 40 valores de Y quando X vale 1

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 3

    6,593141232 9,006039634 7,529331787 8,790447066

    7,852422253 7,316731652 5,709223237 1,517279637

    7,371164634 8,337094106 8,492395516 4,537325404

    7,192761653 7,710131408 4,163608098 6,193114621

    9,048459033 7,557574931 6,200254493 7,898396375

    7,347612528 6,111238398 7,921807047 7,114042863

    7,86536918 4,804578704 6,595492192 7,695790475

    10,32428016 6,267005594 6,12221455 6,72314475

    7,59146052 6,939884906 7,191285009 6,939555013

    8,697223503 6,689966794 8,674250951 7,633455534

    Podemos considerar que a populao de onde retiramos os 40 valores acima tem mdia 7 e desvio padro igual a 2.

    Ou seja, podemos considerar que existe uma populao de valores de Y correspondente a X igual a 1. Esta populao tem mdia 7 e desvio padro igual a 2.

    Quando X for igual a 2, Y fica:

    +=++= 9225Y Agora Y igual a 9 mais alguma coisa. Esse alguma coisa a varivel aleatria , de mdia zero e desvio padro igual a 2.

    Portanto, Y uma varivel aleatria de mdia 9 e desvio padro igual a 2. Assim, quando X for igual a 2, temos outra populao de valores Y, desta vez com mdia 9. Um exemplo de amostra dessa segunda populao, tambm com 40 valores, seria:

    Quadro 2 Amostra de 40 valores de Y quando X vale 2

    6,53861127 9,678841758 10,18699647 12,04425824

    6,235802132 9,645271814 7,816967558 7,710536605

    6,628522819 11,58429767 7,855252513 7,904572561

    8,955476207 10,5235668 10,29363849 6,979009116

    12,78643385 7,361538895 9,911730171 8,295251334

    9,423242246 6,951347174 8,884513449 9,189919391

    8,588672066 8,72768786 12,15872381 9,237865804

    9,438625799 10,71337193 8,195035187 9,452390476

    3,332867904 13,24592769 9,393588155 6,613649783

    7,937743916 10,38333066 9,099585603 9,034490197

    O mesmo vale quando X for igual a qualquer outro valor.

    Nosso modelo iii XY ++= 25 representa simultaneamente inmeras populaes de valores de Y. Para cada valor de X, ns temos uma populao de valores de Y de tal modo que sua mdia igual a X25 + .

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 4

    Os valores de Y variam em torno deste valor mdio graas varivel , aleatria. Podemos pensar que Y e X guardam uma relao quase linear. A relao s no perfeitamente linear devido presena dessa varivel , que representa todas as demais interferncias no valor de Y que no so explicadas pela varivel X.

    A varivel pode ser vista como o erro que se comete quando se aproxima a relao entre X e Y por uma reta. Muitas vezes acaba sendo chamada, realmente, de erro.

    Assim, se o modelo de regresso iii XY ++= 25 representar adequadamente o conjunto formado por todas as populaes de valores de Y, sabemos que, para cada valor de X, temos como calcular a mdia da correspondente populao de valores de Y.

    Repetindo: a relao entre X e Y praticamente uma reta. Os pares ordenados (X,Y) s no se comportam exatamente como uma reta por causa da varivel aleatria .

    Deste modo, os pares ordenados (X,Y) vo se situar em torno da reta ii XY 25 +=

    Considere que X assuma apenas os valores 1, 2, 3, 4, 5. Considere ainda que o modelo

    iii XY ++= 25 (onde tem desvio padro igual a 2) descreva bem a populao de valores de Y.

    Podemos pensar que esta populao , na verdade, dividida em 5 populaes menores. Uma para o caso em que X igual a 1. Outra para o caso em que X igual a 2. E assim por diante, at X igual a 5.

    Abaixo detalhamos as cinco populaes de valores de Y:

    = 1X Y tem mdia 7 e desvio padro igual a 2.

    = 2X Y tem mdia 9 e desvio padro igual a 2.

    = 3X Y tem mdia 11 e desvio padro igual a 2. = 4X Y tem mdia 13 e desvio padro igual a 2.

    = 5X Y tem mdia 15 e desvio padro igual a 2. Ok. Ento nosso modelo representa adequadamente toda a populao (composta pelas cinco sub-populaes acima). Ou seja, tendo acesso a toda a populao, podemos verificar que, para cada valor de X, os valores de Y correspondentes giram em torno da reta dada por

    XY 25 +=

    1.2. Estimadores dos parmetros do modelo de regresso

    Continuemos com o modelo de regresso do exemplo anterior. Sabemos que na populao, verifica-se que X e Y se relacionam por:

    iii XY ++= 25

    Ou seja, os pares ordenados ( )ii YX , giram em torno da reta ii XY 25 += graas varivel aleatria i .

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 5

    Entretanto, comum que no tenhamos acesso a toda a populao. Conhecemos apenas uma amostra. Ora, se temos acesso apenas a uma amostra, como saber qual a reta que representa adequadamente a relao existente na populao inteira?

    Suponha que fizemos uma amostragem de 42 pares de valores de (X,Y), conforme tabela abaixo:

    Quadro 3 Amostra com 42 pares (X,Y)

    Y X Y X Y X

    7,063739369 2 13,00534171 3 9,94831727 3

    11,95962905 5 9,82060755 2 12,55329724 4

    10,86307743 2 5,144500964 1 14,78463119 5

    9,717082904 3 12,88447035 5 10,67968811 3

    10,06782671 2 14,46402381 4 5,624151428 3

    14,90233153 4 9,778894668 3 8,989367058 2

    9,246338915 2 7,114699575 2 17,07556754 5

    12,38290526 4 10,05856893 3 11,80226689 3

    15,98044467 3 15,58187542 5 12,87295011 4

    6,626939124 2 9,415041267 2 8,836479018 3

    11,73251019 3 9,513621757 2 4,243240553 1

    14,69927599 4 9,472612778 3 5,20115496 1

    12,31403234 4 12,09695304 3 14,88629319 5

    5,7256837 2 15,04573598 4 11,74230544 3

    O problema que geralmente surge na regresso linear o seguinte. No sabemos qual a reta que representa adequadamente toda a populao. Neste exemplo que estamos trabalhando, se conhecssemos toda a populao, saberamos que ela pode ser

    representada por ii XY 25 += . Entretanto, se no conhecermos toda a populao, no temos como saber que a reta ii XY 25 += representa a relao entre as variveis estudadas.

    Ou ainda: no sabemos que os pares ordenados vo se situar em torno da reta ii XY 25 += .

    O que pretendemos justamente determinar qual a reta em torno da qual os pontos (X, Y) esto situados. Isto, baseando-nos apenas na amostra do Quadro 3.

    Um mtodo para encontrar a melhor reta de regresso chamado de mtodos de mnimos quadrados. A funo de primeiro grau que pretendemos encontrar da forma:

    ii bXaY +=

    Onde a uma estimativa de , b uma estimativa de e Y uma estimativa de Y . diferena entre Y e sua estimativa, chamamos desvio. O desvio dado por:

    YYe =

    Pelo mtodo de mnimos quadrados, tentamos obter uma reta de tal modo que a soma dos quadrados dos valores de e (desvio) seja mnima.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 6

    possvel demonstrar que os valores de a e b (estimadores de e ), obtidos a partir da considerao de que a soma dos quadrados dos desvios seja mnima, so:

    ( ) ( )[ ]( )2

    =

    XX

    YYXXb

    i

    ii

    XbYa = Ou seja, a partir dos valores de X e Y pertencentes amostra, obtemos os valores de a e b

    descritos acima. A partir deles, construmos a reta ii bXaY += .

    Executando este procedimento no excel para a amostra do Quadro 3, obtemos:

    71,3=a

    33,2=b

    O grfico abaixo representa os resultados obtidos:

    Figura 1 Regresso linear entre variveis X e Y

    Os pontos em azul escuro so os dados observados na amostra. So os pares ordenados correspondentes amostra do Quadro 3. A reta laranja corresponde reta real. a reta

    que representa a populao inteira. Trata-se da reta ii XY 25 += .

    S que esta reta ns no conhecemos. No conhecemos toda a populao. Estamos procurando por uma reta que simbolize a relao entre X e Y. O ideal seria chegar realmente na reta laranja, que representa adequadamente toda a populao.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 7

    Contudo, tendo disponvel apenas uma amostra de 42 pares (X,Y), a reta de regresso que calculamos, de tal forma que os desvios de estimativa cometidos se comportem segundo a condio de mnimos quadrados, foi a reta azul.

    1.3. Hipteses do modelo

    Agora, alguns comentrios adicionais, que ficaram implcitos ao longo do exemplo.

    O modelo de regresso linear faz algumas consideraes. So elas:

    0)( =iE

    2)( =iV 0),cov( =ji , para ji

    Na primeira considerao, temos que o erro (varivel aleatria ) tem mdia zero. Esta condio um pouco mais fcil de entender.

    Basta imaginar a situao em que a varivel erro no tem mdia zero. Significa que j se espera que, em mdia, se cometa um erro diferente de zero. J se sabe que a regresso tem um vis (que pode ser positivo ou negativo). Ou seja, o modelo no est muito adequado. melhor reformular o modelo.

    A segunda considerao nos diz que a varincia do erro constante. Este fato denominado homocedasticia. Isto foi utilizado quando dissemos que havia cinco populaes de valores de Y (com mdias 7, 9, 11, 13 e 15). Em todas elas, o desvio padro era o mesmo (portanto, a varincia tambm). Isto s possvel se a varivel tiver varincia constante. Ou seja, se ela tiver sempre a mesma varincia, independente de qual o valor de X.

    A terceira condio nos diz que os erros cometidos no so correlacionados.

    Pergunta: Professor, preciso me preocupar com estas hipteses?

    Resposta: no, em concursos abertos a candidatos de todas as reas, no h maiores cobranas sobre tais hipteses. O exerccio simplesmente diz que elas foram atendidas e pronto. Nosso trabalho s aplicar as frmulas para achar a e b . S as mencionei porque, se a questo falar qualquer coisa a respeito, a vocs no precisam ficar preocupados, achando que uma coisa de outro mundo. s calcular normalmente os coeficientes a e b, e pronto.

    1.4. Visualizando os desvios

    Considere o diagrama de disperso abaixo, relacionando peso e altura de um certo grupo de indivduos.

  • Prof. Vtor Menezes

    Figura 2 Diagrama de disperso peso x altura

    Considere que esta seja apenas uma amostra contendo pesos e alturas para um certo nmero de pessoas pesquisadas. Vimos que o coeficiente de correlao indica que existe certa relao linear para as variveis peso e altura.

    Na regresso linear, estamos interessados em saber que relao essa. Encontrar a funo de primeiro grau que represent

    Seja Y o peso. Seja X a altura.

    O modelo de uma regresso linear simples :

    Relembrando. Neste modelo,

    ii XY += , a teramos efetivamente uma funo de primeiro grau. A relao entre peso e altura seria exatamente uma reta. Mas no o que acontece. A relao no exatamente uma reta.

    Estamos considerando que, alm da componente linear

    depende de uma parcela aleatria. Trata

    Esta varivel aleatria que responsvel pelo fato dos pontos se dispersarem em torno da reta que representa a relao linedeterminar. A varivel aleatria regresso.

    Suponha que a reta laranja da figura abaixo seja a reta de regresso (ou seja, a reta querepresenta a relao linear existente na populao de valores (

    Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira

    Vtor Menezes www.estrategiaconcursos.com.br

    Diagrama de disperso peso x altura

    Considere que esta seja apenas uma amostra contendo pesos e alturas para um certo o de pessoas pesquisadas. Vimos que o coeficiente de correlao indica que existe

    certa relao linear para as variveis peso e altura.

    Na regresso linear, estamos interessados em saber que relao essa. Encontrar a funo de primeiro grau que representa a relao entre peso e altura.

    O modelo de uma regresso linear simples :

    iii XY ++= Relembrando. Neste modelo, e so constantes. Assim, se o modelo fosse apenas

    , a teramos efetivamente uma funo de primeiro grau. A relao entre peso

    e altura seria exatamente uma reta. Mas no o que acontece. A relao no exatamente

    Estamos considerando que, alm da componente linear iX + , o valor do peso ainda depende de uma parcela aleatria. Trata-se da varivel aleatria .

    Esta varivel aleatria que responsvel pelo fato dos pontos se dispersarem em torno da reta que representa a relao linear entre X e Y. Reta esta que ns estamos querendo determinar. A varivel aleatria pode ser vista como um erro em torno da reta de

    Suponha que a reta laranja da figura abaixo seja a reta de regresso (ou seja, a reta querepresenta a relao linear existente na populao de valores (X,Y)).

    Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    .com.br 8

    Considere que esta seja apenas uma amostra contendo pesos e alturas para um certo o de pessoas pesquisadas. Vimos que o coeficiente de correlao indica que existe

    Na regresso linear, estamos interessados em saber que relao essa. Encontrar a funo

    so constantes. Assim, se o modelo fosse apenas

    , a teramos efetivamente uma funo de primeiro grau. A relao entre peso

    e altura seria exatamente uma reta. Mas no o que acontece. A relao no exatamente

    , o valor do peso ainda

    Esta varivel aleatria que responsvel pelo fato dos pontos se dispersarem em torno da . Reta esta que ns estamos querendo

    pode ser vista como um erro em torno da reta de

    Suponha que a reta laranja da figura abaixo seja a reta de regresso (ou seja, a reta que

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 9

    Figura 3 Reta de regresso

    Considere que a equao da reta de regresso seja:

    106100 = XY E esta reta ns no conhecemos, pois no temos acesso a toda a populao. Ns queremos justamente encontrar esta reta, a partir da amostra fornecida.

    Vamos nos fixar na reta 106100 = XY Vamos tomar o valor de altura igual a 1,86m.

    Figura 4 Reta de regresso: destaque para X = 1,86

    Vamos calcular Y para o caso em que 86,1=X m

    106100 = XY 80106186 ==Y

    O peso correspondente 80 ( 80=Y ). Assim, a reta de regresso passa pelo ponto (1,86; 80).

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 10

    Para a nossa amostra (pontos azuis da figura acima), observe que h diversos valores de peso para a altura igual a 1,86.

    Assim, no nosso grupo de pessoas pesquisadas, h cinco com altura de 1,86m. Uma delas tem peso 70,67 kg. A outra tem 71,01 kg (estes dois primeiros valores esto sobrepostos na figura acima). Uma terceira tem 79,91 kg. A quarta tem 76,79 kg. E a quinta tem 83,69.

    Com nosso modelo de regresso linear, queremos dizer que, para cada valor de X (altura), os valores de Y correspondentes (peso) giram em torno da reta de regresso. Deste modo, considerando todas as pessoas com altura 1,86 m, elas tm, em mdia, um peso de 80 kg.

    Para uma dada amostra, obteremos pontos que no necessariamente ficam sobre a reta de regresso. Eles podem perfeitamente cair fora da reta de regresso por causa de um erro aleatrio ( ). De fato, para o exemplo acima, nenhuma das cinco pessoas com altura de 1,86 tinha peso exatamente igual a 80 kg. A reta de regresso s nos informa valores mdios, em torno dos quais giram os valores da populao.

    Dizendo de outro modo: o que a reta de regresso indica, no caso de 86,1=X que, se tivssemos acesso a toda a populao de pessoas com 1,86 m de altura, o peso de tais

    pessoas teria mdia 80 kg e varincia igual a 2 .

    Assim, quando a altura (= X) vale 1,86, os valores de peso giram em torno de 80. No caso desta amostra, eles foram iguais a 70,67; 71,01; 79,91 76,79; 83,69. Os valores de peso esto dispersos em torno de 80 kg.

    Quando afirmamos que a varivel tem varincia constante, queremos dizer que, se pudssemos analisar toda a populao de pessoas com altura de 1,86 m, os pesos destas

    pessoas teria mdia 80 kg e varincia 2 .

    Mudemos de ponto. A reta de regresso passa pelo ponto (1,90; 84). Ou seja, 84=Y kg quando 90,1=X m.

    Assim, quando 90,1=X m, temos que os valores de Y vo girar em torno de 84 kg. Eles estaro dispersos em torno de 84 kg, tambm com varincia 2 (pois a varincia considerada constante). Tendo acesso toda a populao de pessoas com altura 1,90 m,

    verificaramos que o peso destas pessoas tem mdia 84 kg e varincia 2 .

    E assim por diante. Ou seja, para qualquer valor de X que adotarmos, os valores de Y

    correspondentes tero varincia 2 e mdia dada pela reta de regresso.

    O problema que, em geral, temos acesso apenas a uma amostra. No conhecemos a real reta de regresso. No conhecemos a reta laranja da Figura 3. Neste caso, tentaremos encontrar uma reta que, considerando apenas a amostra que temos disposio, seja a melhor estimativa para a reta real de regresso. Para tanto, voltemos ao nosso diagrama de disperso.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 11

    Figura 5 Retas para representar a relao linear

    Desenhei duas retas (uma verde e uma vermelha) que poderiam representar a relao linear entre peso e altura. Qual delas escolher? A verde? A vermelha? Nenhuma? Ser que existe outra reta que representa melhor a relao linear entre peso e altura?

    Lembrem-se de que estamos procurando, a partir da amostra conhecida (valores dos pontos azuis da figura acima), encontrar uma estimativa para a reta de regresso.

    O mtodo que estamos estudando para encontrar a melhor reta de regresso chamado de mtodos de mnimos quadrados. A funo de primeiro grau que pretendemos encontrar da forma:

    ii bXaY +=

    Onde a uma estimativa de , b uma estimativa de e Y uma estimativa de Y . Suponhamos que a reta vermelha da Figura 5 seja a reta que representa melhor a relao linear, obtida a partir do mtodo de mnimos quadrados. Ela a nossa reta calculada, a partir da amostra.

    Como obt-la? Basta pegar os valores de X e Y da amostra e calcular:

    ( ) ( )[ ]( )2

    =

    XX

    YYXXb

    i

    ii

    XbYa =

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 12

    Figura 6 Reta de regresso obtida por mnimos quadrados

    Lembrem-se de que a reta laranja (Figura 3) a reta de regresso que ns no conhecemos e que representa adequadamente a populao. A reta vermelha da Figura 6 a reta obtida, a partir dos valores pesquisados (pontos azuis da mesma Figura 6), numa tentativa de aproximar a real reta de regresso (reta laranja). Elas podem ser iguais ou no.

    Vamos identificar todos os elementos a que temos nos referido. Para tanto, vamos nos concentrar no ponto em que a altura vale 1,98 (ponto destacado, na Figura 6, com o crculo vermelho).

    Na figura abaixo, temos apenas este ponto:

    Figura 7 Ponto (1,98; 97,41) e reta obtida por mnimos quadrados

    Para a altura 1,98 m (X=1,98), o peso obtido de 97,41 kg. Este o valor de Y.

    41,9798,1 == YX

    Para este valor de X (1,98) nossa reta de regresso calculada (reta vermelha) indica que a estimativa do valor de Y 92,90 kg.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 13

    Ou seja, a estimativa de Y :

    90,92 =Y

    diferena entre Y e sua estimativa, chamamos desvio. O desvio, neste caso, fica:

    51,490,9241,97 === YYe

    Pelo mtodo de mnimos quadrados, tentamos obter uma reta de tal modo que a soma dos quadrados dos valores dos desvios seja mnima.

    Repetindo: possvel demonstrar que os valores de a e b (estimadores de e ), obtidos a partir da considerao de que a soma dos quadrados dos desvios seja mnima, so:

    ( ) ( )[ ]( )2

    =

    XX

    YYXXb

    i

    ii

    XbYa = Ou seja, a partir dos valores de X e Y da amostra, obtemos os valores de a e b descritos

    acima. A partir deles, construmos a reta ii bXaY += , que a reta vermelha da Figura 6.

    1.5. Igualdades envolvendo somatrio

    Para resolver alguns problemas de regresso linear, pode ser til conhecer algumas igualdades envolvendo somatrios, resumidas no quadro abaixo:

    Quadro 4 Igualdades envolvendo somatrio

    Transformaes importantes:

    ( ) ( )[ ] ( ) YXnYXYYXX ni

    ii

    n

    iii =

    == 11

    ( ) ( ) 21

    2

    1

    2XnXXX

    n

    ii

    n

    ii =

    ==

    ( ) ( ) 21

    2

    1

    2YnYYY

    n

    ii

    n

    ii =

    ==

    Alguns livros tentam simplificar um pouco a escrita. Para tanto, eles representam por letra minscula a diferena entre uma varivel e sua mdia.

    Exemplo:

    = =

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 14

    Com isso, as transformaes do quadro acima podem ser reescritas:

    =

    =

    =

    E as frmulas para e ficam:

    = =

    1.6. Calculando a reta de regresso

    At aqui dei resultados prontos, s para que pudssemos entrar em contato com os conceitos envolvidos na regresso. Agora vamos, de fato, fazer contas.

    Para praticar, vamos calcular a reta de regresso para o caso dos quatro alunos que fizeram as provas de fsica e matemtica (exemplo utilizado no tpico de correlao). Vamos considerar que estes 4 alunos so uma amostra de um conjunto maior de estudantes que se submeteram tal prova.

    As notas desses alunos so:

    Aluno Nota de matemtica ( )X

    Nota de fsica ( )Y

    1 2 6

    2 6 7

    3 8 7

    4 10 8

    Mdia 6,5 7

    Estamos supondo que a populao de notas de fsica da qual foram tiradas as notas acima pode ser descrita segundo o seguinte modelo:

    iii XY ++= Ou seja, estamos supondo que existe uma relao entre as notas de matemtica e fsica. A parcela um erro aleatrio. Engloba todas outras variveis (distintas da nota em matemtica) que influenciam na nota de fsica.

    A partir destes valores de notas, construmos o quadro abaixo:

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 15

    Aluno X Y XX YY ( ) XX ( )YY ( )2XX ( )2YY 1 2 6 -4,5 -1 4,5 20,25 1

    2 6 7 -0,5 0 0 0,25 0

    3 8 7 1,5 0 0 2,25 0

    4 10 8 3,5 1 3,5 12,25 1

    TOTAL 8 35 2

    Vamos calcular os coeficientes a e b .

    ( ) ( )[ ]( )2

    =

    XX

    YYXXb

    i

    ii

    23,0358

    =b

    XbYa =

    51,55,63587 =a

    E a reta de regresso estimada (calculada) fica:

    XY 23,051,5 +=

    Repare que no sabemos se esta a real reta de regresso. Mas, a partir dos valores de nossa amostra, esta a nossa estimativa para a reta de regresso. uma reta tal que a soma dos quadrados dos desvios mnima. Lembrando que o desvio corresponde

    diferena entre valor observado (Y ) e sua estimativa (Y ).

    A tabela abaixo mostra os valores estimados da nota de fsica, dados os valores da nota de matemtica.

    Aluno Nota de matemtica ( )X

    Nota de fsica observada ( )Y

    Nota de fsica estimada ( )Y 1 2 6 5,97

    2 6 7 6,89

    3 8 7 7,34

    4 10 8 7,80

    Plotando estes valores num grfico, ficamos com:

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 16

    Figura 8 Reta de regresso estimada

    A reta em vermelho tal que a soma dos quadrados dos desvios em relao s notas de fsica realmente obtidas mnima. a nossa reta estimada (calculada).

    O modelo de regresso :

    iii XY ++= Como no temos acesso populao inteira, no sabemos quais os valores de e . Temos condies apenas de estim-los (obtendo a e b ) Com isso, a reta de regresso estimada :

    ii bXaY +=

    Ou seja, a e b so estimadores para e . So estimadores no viciados. Isto porque, obedecidas algumas condies (aquelas que indicamos anteriormente: 0)( =iE ;

    2)( =iV e 0),cov( =ji , para ji ), possvel demonstrar que: =)(bE e =)(aE

    Questo 1 PETROBRAS 2008/2 [CESGRANRIO]

    Na estimativa de uma regresso linear, o problema da heterocedasticidade ocorre quando

    (A) os dados so transversais.

    (B) h autorrelao dos resduos.

    (C) h correlao positiva entre as variveis independentes.

    (D) a varincia dos erros no constante.

    (E) as variveis independentes so negativas.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 17

    Resoluo.

    Vimos que uma das hipteses do modelo que a varincia dos erros seja constante (homocedasticia). Se a varincia dos erros no constante, temos a heterocedasticidade.

    Gabarito: D

    Questo 2 BACEN 2006 [FCC]

    Uma empresa, com finalidade de determinar a relao entre gastos anuais com propaganda (X), em R$ 1.000,00 e o lucro bruto anual (Y), em R$ 1.000,00, optou por utilizar o modelo

    linear simples iii XY ++= , em que iY o valor do lucro bruto auferido no ano i e i o erro aleatrio com as respectivas hipteses consideradas para a regresso linear simples ( e so parmetros desconhecidos). Considerou, para o estudo, as seguintes informaes referentes s observaes nos ltimos 10 anos da empresa:

    10010

    1=

    =iiY ; 60

    10

    1=

    =iiX ; 650= ii YX ; ( ) 400

    10

    1

    2=

    =iiX ; ( ) 1080

    10

    1

    2=

    =iiY

    Utilizando a equao da reta obtida pelo mtodo dos mnimos quadrados, tem-se que, caso haja um gasto anual com propaganda de 80 mil reais, a previso do lucro bruto anual, em mil reais, ser de:

    a) 84

    b) 102,5

    c) 121

    d) 128,4

    e) 158

    Resoluo.

    As hipteses que o enunciado disse que foram obedecidas so aquelas que indicamos

    anteriormente - 0)( =iE ; 2)( =iV e 0),cov( =ji , para ji . Para calcular a previso, precisamos encontrar os valores de a e b do modelo de regresso.

    ( ) ( )[ ]( )2

    =

    XX

    YYXXb

    i

    ii

    ( )( ) 22 XnX

    YXnYXb

    i

    ii

    =

    261040010610650

    =b

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 18

    25,14050

    360400600650

    ==

    =b

    E o valor de a fica:

    XbYa =

    5,25,710106025,1

    10100

    ===a

    Portanto, o modelo de regresso :

    ii bXaY +=

    ii XY 25,15,2 +=

    Quando 80=iX , a estimativa do lucro bruto fica:

    5,1028025,15,2 =+=iY

    Gabarito: B.

    Outra questo bem parecida:

    Questo 3 BACEN 2006 [FCC]

    Uma empresa, com finalidade de determinar a relao entre gastos anuais em pesquisa e desenvolvimento (X), em milhares de reais, e o acrscimo anual nas vendas (Y), tambm em

    milhares de reais, optou por utilizar o modelo linear simples iii XY ++= , em que iY o acrscimo nas vendas no ano i e i o erro aleatrio com as respectivas hipteses

    consideradas para a regresso linear simples ( e so parmetros desconhecidos). Considerou, para o estudo, as seguintes informaes referentes s observaes nos ltimos 10 anos da empresa:

    16010

    1=

    =iiY ; 100

    10

    1=

    =iiX ; 1900= ii YX ; ( ) 1200

    10

    1

    2=

    =iiX ; ( ) 3060

    10

    1

    2=

    =iiY

    Utilizando a equao da reta obtida pelo mtodo dos mnimos quadrados, obteve-se, para um determinado gasto em pesquisa e desenvolvimento, uma previso de acrscimo nas vendas no valor de 19 mil reais. O valor que se considerou para o gasto com pesquisa e desenvolvimento, em mil reais, foi:

    a) 14

    b) 13,75

    c) 13,0

    d) 12,4

    e) 12,0

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 19

    Resoluo.

    Para calcular a previso, precisamos encontrar os valores de a e b do modelo de regresso.

    ( ) ( )[ ]( )2

    =

    XX

    YYXXb

    i

    ii

    ( )( ) 22 XnX

    YXnYXb

    i

    ii

    =

    5,1200300

    1010200.1101610900.12 ==

    =b

    E o valor de a fica:

    XbYa =

    11516101005,1

    10160

    ===a

    Portanto, o modelo de regresso :

    ii bXaY +=

    ii XY 5,11 +=

    Quando 19 =iY , o valor de iX :

    iX+= 5,1119

    125,1

    18==iX

    Gabarito: E.

    Questo 4 SEFAZ SP 2006 [FCC]

    Em um determinado pas, deseja-se determinar a relao entre a renda disponvel (Y), em bilhes de dlares, e o consumo (C), tambm em bilhes de dlares. Foi utilizado o modelo

    linear simples iii YC ++= , em que Ci o consumo no ano i, Yi o valor da renda disponvel no ano i e i o erro aleatrio com as respectivas hipteses para a regresso

    linear simples, e so parmetros desconhecidos, cujas estimativas foram obtidas atravs do mtodo dos mnimos quadrados. Para obteno desta relao considerou-se ainda as seguintes informaes colhidas atravs da observao nos ltimos 10 anos:

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 20

    =

    =

    10

    190

    iiC ,

    =

    =

    10

    1100

    iiY ,

    =

    =

    10

    1100.1

    iiiCY ,

    =

    =

    10

    1

    2 250.1i

    iY , =

    =

    10

    1

    2 010.1i

    iC

    Para o clculo do coeficiente de correlao de Pearson (r), usou-se a frmula:

    )()(),cov(

    CDPyDPCY

    r

    = em que ),cov( CY a covarincia entre Y e C, )(YDP o desvio padro de Y e )(CDP o desvio padro de C. Ento:

    a) obtendo para um determinado ano uma previso para o consumo de 10 bilhes de dlares, significa que a renda disponvel considerada foi de 12,5 bilhes de dlares.

    b) o valor da estimativa encontrado para o parmetro igual a 0,4 c) o valor da estimativa encontrado para o parmetro igual a 10.

    d) o coeficiente de explicao r2 correspondente 64%.

    e) utilizando a equao da reta obtida pelo mtodo dos mnimos quadrados, tem-se que, em um ano, caso a renda disponvel seja igual a 15 bilhes de dlares, o consumo ser igual a 13 bilhes de dlares.

    Resoluo.

    Vamos encontrar os valores de a e b.

    ( ) ( )[ ]( )2

    =

    XX

    YYXXb

    i

    ii

    ( )( ) 22 XnX

    YXnYXb

    i

    ii

    =

    S que aqui, no lugar de X temos Y. E no lugar de Y temos C.

    ( )( ) 22 YnY

    YCnCYb

    i

    ii

    =

    8,0250200

    1010250.110910100.12 ==

    =b

    Assim, a estimativa para o parmetro igual a 0,8. A letra B est errada. XbYa =

    S que aqui, em vez de X temos Y e em vez de Y temos C.

    YbCa = 1108,09 ==a

    A estimativa do parmetro igual a 1. A letra C est errada.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 21

    Se para um determinado ano a previso de consumo for de 10 bilhes, ento a renda considerada foi:

    bYaC += Y8,0110 +=

    ( ) 25,118,0

    110=

    =Y

    A letra A tambm est errada.

    Caso a renda disponvel seja de 15 bilhes, o consumo ser:

    bYaC += 13158,01 =+=C

    A letra E est correta.

    Gabarito: E.

    Questo 5 TCE/MG 2007 [FCC]

    Um estudo realizado em uma empresa sobre a relao entre o lucro bruto anual (Y), em milhares de reais, e os gastos anuais com propaganda (X), tambm em milhares de reais,

    indica que uma boa opo a utilizao do modelo linear simples iii XY ++= , em que iY o lucro bruto no ano i, iX representa os gastos com propaganda no ano i, i o

    erro aleatrio com as respectivas hipteses consideradas para a regresso linear e e so parmetros desconhecidos. por meio do mtodo dos mnimos quadrados obteve-se o valor de 150 para a estimativa do parmetro , considerando as seguintes informaes obtidas pelas observaes nos ltimos 10 anos:

    500.210

    1=

    =iiY 400

    10

    1=

    =iiX

    Utilizando a equao da reta obtida pelo mtodo dos mnimos quadrados, caso a empresa almeje obter em um determinado ano um lucro bruto de 450 mil reais, deve apresentar um total de gastos com propaganda, em mil reais, de:

    a) 60

    b) 80

    c) 120

    d) 160

    e) 200

    Resoluo.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 22

    Podemos calcular as mdias de X e Y.

    25010500.2

    10

    10

    1===

    =i

    iYY

    4010400

    10

    10

    1===

    =i

    iXX

    Sabemos que a estimativa de dada por:

    XbYa =

    XbY =150 5,240250150 == bb

    A reta de regresso fica:

    ii bXaY +=

    ii XY += 5,2150

    Para obter um lucro de 450 mil reais, temos:

    1205,2150450 =+= ii XX

    Gabarito: C.

    Questo 6 SEAD/PM Santos/2005 [FCC]

    Para resolver questo seguinte, considere que foi realizado um estudo em um pas com a finalidade de se determinar a relao entre a Renda Disponvel (Y), em milhes de dlares, e o consumo (C), tambm em milhes de dlares.

    Sabe-se que foi utilizado o modelo linear simples iii ebYaC ++= , em que Ci o consumo no ano i, Yi a renda disponvel no ano i e ie o erro aleatrio com as respectivas hipteses

    consideradas para a regresso linear simples.

    Este estudo apresentou as seguintes informaes colhidas atravs da observao nos ltimos 10 anos:

    80010

    1=

    =iiC 000.1

    10

    1=

    =iiY 600.83

    10

    1=

    =iiiCY 000.105

    10

    1

    2=

    =iiY 240.67

    10

    1

    2=

    =iiC

    A equao da reta ajustada pelo mtodo dos mnimos quadrados encontrada foi:

    a) ii YC += 60,020

    b) ii YC += 70,010

    c) ii YC += 72,08

    d) ii YC += 74,06

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 23

    e) ii YC += 76,04

    Resoluo.

    Ns temos representado os parmetros do modelo por e . E representamos suas estimativas por a e b . Pois bem, neste exerccio os parmetros esto sendo chamados de a e b . Vamos chamar suas estimativas de a e b .

    Outra mudana nos nomes a que segue. Geralmente chamamos a varivel independente de X e a dependente de Y. Aqui elas foram trocadas, respectivamente, por Y e C.

    ( ) ( )[ ]( )2

    =

    YY

    CCYYb

    i

    ii

    ( )( ) 22 YnY

    CYnCYb

    i

    ii

    =

    72,010010000.105

    8010010600.83

    2 =

    =b

    E com isso j d para marcar a letra C.

    De todo modo, vamos encontrar a estimativa de a

    810072,080 === YbCa

    A reta de regresso fica:

    ii YC += 72,08

    Gabarito: C.

    Questo 7 TJ PAR 2009 [FCC]

    Em uma determinada empresa realizado um estudo sobre a relao entre os gastos com publicidade, em R$ 1.000,00, e o acrscimo no faturamento anual, em R$ 1.000,00. Foi escolhido para anlise o modelo linear simples Yi = + Xi + i, sendo que Yi o acrscimo no faturamento do ano i, Xi representa os gastos com publicidade no ano i e i o erro aleatrio com as respectivas hipteses consideradas para a regresso linear simples ( e so parmetros desconhecidos ). Para obteno das estimativas de e utilizou-se o mtodo dos mnimos quadrados com base nas informaes dos ltimos 10 anos da empresa, ou seja:

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 24

    18010

    1=

    =iiY ; 100

    10

    1=

    =iiX ; 912.1

    10

    1=

    =

    ii

    iYX ; 080.110

    1

    2=

    =iiX ; 440.3

    10

    1

    2=

    =iiY

    Utilizando a equao da reta obtida pelo mtodo dos mnimos quadrados, tem-se que se a empresa almejar um acrscimo no faturamento, em um determinado ano, de R$ 25.000,00 dever apresentar, neste perodo, um total em gastos com publicidade de

    (A) R$ 20.000,00.

    (B) R$ 18.000,00.

    (C) R$ 17.000,00.

    (D) R$ 16.000,00.

    (E) R$ 15.000,00.

    Resoluo:

    Vamos mais rapidamente?

    4,11000108018001912

    =

    =b

    4104,118 ==a

    Modelo:

    XY 4,14 +=

    154,1425 =+= XX

    Gabarito: E

    Questo 8 TJ PI 1009 [FCC]

    Considere que foi obtido atravs do mtodo dos mnimos quadrados o ajustamento do

    modelo iii XY ++= , em que i corresponde a i-sima observao, e so parmetros desconhecidos e i o erro aleatrio, com as respectivas hipteses consideradas

    para a regresso linear simples. Foi utilizada uma amostra aleatria com 100 pares de

    observaes (Xi, Yi), i = 1, 2, 3, . . . , 100; obtendo-se para a estimativa de o valor de 2,5. O valor da mdia das observaes Xi foi igual a 30 e de Yi igual a 100.

    O valor encontrado da estimativa de foi igual a

    (A) 70.

    (B) 50.

    (C) 40.

    (D) 25.

    (E) 20.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 25

    Resoluo:

    =

    = 100 2,5 30

    = 100 75 = 25

    Gabarito: D

    Questo 9 TJ PI 1009 [FCC]

    Considere que foi obtido atravs do mtodo dos mnimos quadrados o ajustamento do

    modelo iii XY ++= , em que i corresponde a i-sima observao, e so parmetros desconhecidos e i o erro aleatrio, com as respectivas hipteses consideradas

    para a regresso linear simples. Foi utilizada uma amostra aleatria com 100 pares de

    observaes (Xi, Yi), i = 1, 2, 3, . . . , 100; obtendo-se para a estimativa de o valor de 2,5. O valor da mdia das observaes Xi foi igual a 30 e de Yi igual a 100.

    Utilizando a equao da reta obtida pelo mtodo dos mnimos quadrados, tem-se que para um valor estimado de 115 para Y, o valor correspondente de X

    (A) 24.

    (B) 36.

    (C) 46.

    (D) 48.

    (E) 52.

    Resoluo:

    No exerccio anterior vimos que a estimativa de 25.

    Assim, a reta obtida pelo mtodo dos mnimos quadrados fica:

    = +

    Para Y estimado em 115, temos:

    115 = 25 + 2,5

    115 25 = 2,5

    =90

    2,5= 36

    Gabarito: B

    Questo 10 SEFAZ SP 2009 [FCC]

    O grfico abaixo demonstra a evoluo da receita tributria anual no estado de So Paulo desde 1999, com os valores arrecadados em bilhes de reais.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 26

    Para estimar a receita tributria em um determinado ano com base no comportamento

    sugerido pelo grfico, adotou-se o modelo tt tY ++= ; t = 1, 2, 3 ..., sendo )ln( tt RTY = Yt = ln (RTt), em que RTt a receita tributria no ano (1998+t) em bilhes de reais e ln o logaritmo neperiano ( eln = 1). e so parmetros desconhecidos e t o erro aleatrio com as respectivas hipteses consideradas para o modelo de regresso linear simples. Utilizando o mtodo dos mnimos quadrados, com base nas observaes de 1999 a 2008,

    obteve-se para a estimativa de o valor de 0,12, sabendo-se que:

    0,3910

    1=

    =ttY

    A previso da receita tributria para 2009, em bilhes de reais, em funo da equao obtida pelo mtodo dos mnimos quadrados igual a

    (A) e4,58

    (B) e4,56

    (C) e4,44

    (D) e4,32

    (E) e4,20

    Resoluo:

    A mdia de Y pode ser calculada a partir do somatrio fornecido:

    =39

    10= 3,9

    A mdia de t igual a 5,5 (mdia dos nmeros naturais de 1 at 10).

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 27

    = 5,5

    Logo:

    =

    = 3,9 0,12 5,5

    = 3,24

    Portanto:

    = +

    = 3,24 + 0,12 11 = 4,56

    Sabemos que:

    = ln

    Logo:

    =

    Portanto, a estimativa da receita tributria ser:

    ,

    Gabarito: B

    Questo 11 MP RO 2005 [CESGRANRIO]

    Considere os dados amostrais de um estudo da relao entre o nmero de anos que os candidatos a empregos em um determinado banco comercial estudaram ingls na faculdade e as notas obtidas em um teste de proficincia nessa lngua.

    Com base nessas informaes, a reta de mnimos quadrados que melhor explica a relao entre o nmero de anos de estudo e a nota do teste de ingls igual a:

    (A) y = 1,33 + 3,56x

    (B) y = 2,25 + 1,32x

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 28

    (C) y = 6,97 + 3,56x

    (D) y = 35,32 + 10,9x

    (E) y = 254,56 + 13,3x

    Resoluo.

    Nas questes anteriores, o enunciado sempre fornecia diversos somatrios, para facilitar o trabalho braal. Isto no aconteceu nesta questo. Ou seja, para calcular a reta de regresso, precisaramos fazer todas as contas na mo, o que toma muito tempo.

    Talvez por este motivo a questo apresente alternativas muito diferentes entre si.

    Observem que, para qualquer valor de x entre 2 e 5, y no supera 10. J podemos descartar as alternativas C, D, E, que prevem valores altos para y (muito superiores a 10), mesmo quando x baixo.

    Para se ter uma idia, considere a letra E. Se fizermos x igual a 1, y ser aproximadamente igual a 270, algo totalmente incompatvel com a tabela fornecida.

    Ficamos entre as alternativas A e B. Para escolher entre ambas, vamos trabalhar com os valores extremos de x. Quando x igual a 2, as retas das letras A e B prevem os seguintes valores para y:

    Letra A: 8,45

    Letra B: 4,89

    Observem que o valor da Letra B muito mais prximo dos valores que y realmente assume, quando x igual a 2. J d para marcar letra B.

    Se voc ainda ficar em dvida, pode fazer o mesmo teste para x igual a 5. Neste caso, as estimativas seriam:

    Letra A: 19,13

    Letra B: 8,85

    Novamente, a estimativa da letra B foi bem melhor.

    Gabarito: B

    Questo 12 PETROBRAS 2008 [CESGRANRIO]

    A tabela abaixo mostra as demandas que ocorreram numa determinada produo.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 29

    Com base nos conceitos de Regresso Linear Simples, quantas unidades compem a demanda para julho?

    (A) 4.000

    (B) 5.000

    (C) 6.000

    (D) 7.000

    (E) 8.000

    Resoluo.

    Outra questo que no forneceu somatrios. A vantagem agora que os nmeros envolvidos so pequenos (isto no evita o trabalho braal, mas pelo menos deixa as contas um pouquinho mais tranqilas).

    Vamos dar nmeros para os meses do ano (1 para janeiro, 2 para fevereiro, e assim por diante).

    Para facilitar ainda mais nossos clculos, vamos indicar a demanda em mil unidades.

    X Y XY

    1 11 11

    2 21 42

    3 17 51

    4 14 56

    5 7 35

    6 5 30

    total 21 75 225

    Temos:

    = 21iX

    =+++++= 913625169412

    iX

    225= XY

    5,3621

    ==X

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 30

    ==

    675Y 12,5

    Logo:

    ( ) ( )[ ]( )2

    =

    XX

    YYXXb

    i

    ii

    14,25,3691

    5,125,36225222

    =

    =

    =

    XnX

    YXnXYb

    XbYa = =+= 5,314,25,12a 20

    Deste modo, quando 7=X , a estimativa da demanda fica:

    == 714,220Y 5,02

    Gabarito: B

    Questo 13 SEFAZ MG 2005 [ESAF]

    Considere o modelo de regresso linear

    ++= ii XY , i = 1, 2, ..., 25 Onde os iY representam observaes da varivel resposta Y, os iX representam observaes da varivel exgena X, e os i so erros no correlacionados com distribuio

    comum normal com mdia zero e varincia 9. Em repetidas amostras do modelo, dado iX , assinale a opo que d a proporo esperada de observaes de Y que diferem em valor absoluto de sua mdia por no mximo 1,5. Em sua resposta faa uso da tabela da funo de distribuio )(X da normal padro dada abaixo.

    X )(X 0,40 0,655

    0,50 0,691

    1,00 0,841

    1,50 0,933

    a) 0,650

    b) 0,950

    c) 0,933

    d) 0,382

    e) 0,975

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 31

    Resoluo.

    Para um dado valor iX , iY dado por:

    ++= ii XY A esperana de Yi fica:

    ( ) ( ) )()()( EXEEXEYE iii ++=++= Como a esperana de igual a zero e os demais termos so constantes, ficamos com:

    ii XYE +=)( Isto equivale a dizer que a mdia de Y est justamente sobre a reta de regresso.

    Para um dado valor de iX , a varincia de Yi fica:

    ++= ii XY ( ) ( ) ( ) VXVVYV ii ++=)(

    A varincia de igual a 9 (dada no exerccio). Os demais termos so constantes (varincia zero).

    ( ) 9)( == VYV i Isto equivale a dizer que a varincia de Y, para um valor de X dado, igual varincia da varivel .

    Assim, a varivel Yi gira em torno de sua mdia com varincia 9. Como o exerccio disse que tem distribuio normal, os valores de Yi giram em torno de sua mdia segundo uma distribuio normal de varincia 9.

    Gostaramos de saber o percentual de valores de Y que est a uma distncia de, no mximo, 1,5 da mdia. Precisaramos consultar a tabela de reas da varivel normal para o valor

    ++ iX 1,5. Contudo, a tabela fornecida no exerccio s para a varivel reduzida (= padro).

    Precisamos utilizar a varivel reduzida:

    )( ii YEYZ =

    Sabemos que a varincia 9.

    392 ==

    5,035,1

    35,1

    ==

    +++=

    ii XXZ

    Portanto, consultamos a tabela para o valor 0,5.

    Da tabela, temos que 69,10% dos valores de Z so menores ou iguais a 0,5.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 32

    Portanto, 30,90% dos valores so superiores a 0,5. Como a varivel normal tem funo densidade de probabilidade simtrica, 30,90% dos valores so inferiores a -0,5.

    Figura 9 rea verde: percentual de valores da varivel Z entre -0,5 e 0,5

    Resulta que 38,2% dos valores esto entre -0,5 e 0,5.

    A proporo esperada de valores de Z que distam no mximo 0,5 de sua mdia igual a 38,2%.

    O mesmo se aplica aos valores de Y que lhes so correspondentes. 38,2% dos valores de Y distam no mximo 1,5 de sua mdia.

    Gabarito: D.

    Questo 14 MPOG 2006 [ESAF]

    Com o objetivo de estimar-se o modelo Y = + X, foi retirada uma amostra com cinco pares de observaes (X,Y), obtendo-se os seguintes resultados:

    Desse modo,

    a) Y = 2 2X

    b) Y = 2 2X

    c) Y = 2X

    d) Y = 2 + 2X

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 33

    e) Y = 2 + 2X

    Resoluo:

    ( )( ) 210

    204555120140

    3555835140

    222==

    =

    =

    =

    XnX

    YXnYX

    i

    ii

    2328 === XbY

    Assim, Y = + X=2+2x Gabarito: D

    1.7. Reta de regresso passando pela origem

    H outro modelo de regresso ligeiramente diferente do que vimos at aqui, em que se faz com que a reta passe pela origem. Este segundo modelo usado em casos excepcionais, quando h alguma razo terica que nos indique ser esse o modelo mais adequado.

    Vamos ver como ficaria este segundo modelo, por meio do exerccio a seguir.

    Questo 15 TCU/2008 [CESPE]

    Uma agncia de desenvolvimento urbano divulgou os dados apresentados na tabela

    a seguir, acerca dos nmeros de imveis ofertados (X) e vendidos (Y) em determinado municpio, nos anos de 2005 a 2007.

    Ano Nmero de imveis

    Ofertados (X) Vendidos (Y)

    2005 1.500 100

    2006 1.750 400

    2007 2.000 700

    Considerando as informaes do texto, julgue o item subseqente.

    A estimativa do valor do coeficiente da reta de regresso XY = , em que Y representa o nmero esperado de imveis vendidos para uma quantidade X de imveis ofertados, superior a 0,23 e inferior a 0,26.

    Resoluo.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 34

    Seja a a estimativa de . Seja Y a estimativa de Y . Dados os valores de X , as estimativas de Y ficam:

    aXY =

    O desvio fica:

    YYe =

    aXYe =

    Somando os quadrados de todos os desvios, num conjunto de n observaes:

    =22 )( aXYe

    E queremos achar o valor de a que minimiza esta soma. possvel demonstrar que a estimativa de a que minimiza a soma dos quadrados dos desvios dada por:

    = )(

    )(2X

    XYa

    TOME NOTA!!!

    Reta de regresso passando pela origem

    Modelo: += XY

    A estimativa de dada por:

    = )(

    )(2X

    XYa

    Esta a frmula que temos que usar.

    Ano X Y YX 2X 2005 1.500 100 150.000 2.250.000

    2006 1.750 400 700.000 3.062.500

    2007 2.000 700 1.400.000 4.000.000

    TOTAL 5.250 1200 2.250.000 9.312.500

    = )(

    )(2X

    XYa

    242,0500.312.9000.250.2

    =a

    Item correto.

    Gabarito: certo

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 35

    Questo 16 MP RONDNIA 2005 [CESGRANRIO]

    No modelo de regresso += XY , o estimador de mnimos quadrados de :

    Resoluo.

    Aqui, o coeficiente de angular da reta de regresso est sendo chamado de (quando, no exerccio anterior, foi chamado de ).

    Trata-se de aplicao direta da frmula estudada.

    Gabarito: C

    2. ANLISE DE VARINCIA DA REGRESSO

    Um teste de hipteses muito comum aquele que testa a hiptese nula de que o coeficiente da reta de regresso nulo. Caso a hiptese nula seja verdadeira, temos que a reta de regresso horizontal.

    Relembrando o significado da reta de regresso. Para cada valor de X ns temos uma sub-

    populao de valores de Y, com mdia dada pela reta de regresso e varincia 2 .

    Se a reta horizontal, ento todas as sub-populaes tero a mesma mdia.

    Aula passada ns vimos uma ferramenta para testar se a mdia de diferentes populaes so iguais entre si. Esta ferramenta era a anlise de varincia.

    Como testar a hiptese de ser igual a zero equivale a testar a hiptese de as varais populaes tm a mesma mdia, ento podemos usar a anlise de varincia para isso. Vamos ver como fica.

    2.1. Somas de quadrados

    Quando utilizamos a regresso linear, obtemos iY , que uma estimativa para Y . A diferena entre estas duas grandezas o desvio.

    iii YYe =

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 36

    Rearranjando os termos:

    iii YeY +=

    Subtraindo Y dos dois lados:

    YYeYY iii +=

    Elevando ao quadrado:

    ( ) ( )22 YYeYY iii += ( ) ( ) ( )YYeYYeYY iiiii ++= 2 222

    Somando as parcelas acima para todos os valores de i:

    ( ) ( ) ( )[ ] ++= YYeYYeYY iiiii 2 222 possvel demonstrar que ( ) 0][ = YYe ii . Portanto:

    ( ) ( ) += 222 YYeYY iii E o que que temos a em cima? Temos somas de quadrados.

    Cada uma destas parcelas recebe um nome especial:

    ( ) 2YYi soma de quadrados total (S.Q.Total)

    2ie soma de quadrados dos resduos (S.Q.Resduos)

    ( ) 2 YYi soma de quadrados do modelo de regresso (S.Q.Regresso) corresponde Soma de quadrado de tratamentos, vista na aula passada.

    Portanto:

    siduosSQgressaoSQSQTotal ReRe += possvel demonstrar que:

    ( )( )[ ] = YYXXbgressaoSQ Re Onde b a estimativa do coeficiente angular da reta de regresso.

    TOME NOTA!!!

    Resumo das somas de quadrados

    siduosSQgressaoSQSQTotal ReRe +=

    ( )( )[ ] = YYXXbgressaoSQ Re

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 37

    Vamos calcular cada um destes valores para aqueles 4 alunos que fizeram as provas de fsica e matemtica.

    Aluno Nota de matemtica

    ( )X Nota de fsica

    ( )Y 1 2 6

    2 6 7

    3 8 7

    4 10 8

    Mdia 6,5 7

    Nesta aula fizemos o modelo de regresso linear para, a partir das notas de matemtica, estimar as notas de fsica. O resultado foi:

    Aluno Nota de matemtica

    ( )X Nota de fsica

    ( )Y Nota de fsica estimada ( )Y

    1 2 6 5,97

    2 6 7 6,89

    3 8 7 7,34

    4 10 8 7,80

    A partir dos valores acima, podemos montar o quadro abaixo:

    Nota de fsica

    ( )Y Nota de fsica estimada ( )Y ( )

    22YYe = ( )2 YY ( )2YY

    6 5,97 0,0009 1,0609 1

    7 6,89 0,0121 0,0121 0

    7 7,34 0,1156 0,1156 0

    8 7,80 0,04 0,64 1

    TOTAL 0,1686 1,8286 2

    Da ltima linha da tabela, temos:

    2=SQTotal 8286,1Re =gressaoSQ 1686,0Re =siduosSQ

    Note que:

    ( ) ( ) += 222 YYeYY iii Ou ainda:

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 38

    siduosSQgressaoSQSQTotal ReRe += Na verdade, substituindo os valores, obtemos:

    9972,12 =

    A diferena se deve aos arredondamentos (os valores apresentados para as notas de fsica estimada esto arredondados).

    2.2. Quadrados mdios e estatstica F

    A anlise de varincia, aplicada reta de regresso, serve para testar a hiptese de que igual a zero.

    Vimos que, para cada valor de X, ns temos uma populao de valores de Y que gira em torno da reta de regresso. Caso a reta seja horizontal, todas as populaes de valores de Y giraro em torno do mesmo valor. Todas elas tero a mesma mdia.

    Logo, as somas de quadrados de desvios, acima definidas, podem ser usadas para testar a hiptese de que o coeficiente igual a zero. A hiptese nula ( 0= ) nada mais que supor que a reta de regresso horizontal. Ou seja, a hiptese de que todas as sub-populaes de Y provm, na verdade, de uma nica populao (ou seja, apresentam mesma mdia e mesma varincia). E vimos na aula passada que a anlise de varincia pode ser utilizada justamente para isso. Basta calcular a estatstica F, com base nos quadrados mdios.

    No caso da regresso linear, temos:

    ( ) 2YYi SQTotal 1n graus de liberdade

    2ie siduosSQ Re 2n graus de liberdade

    ( ) 2 YYi gressaoSQ Re 1 grau de liberdade

    E os quadrados mdios ficam assim.

    Quadrado mdio total: 1

    =

    n

    SQTotalQMTotal

    Quadrado mdio dos desvios: 2

    ReRe

    =

    n

    siduosSQsiduosQM

    Quadrado mdio do modelo de regresso: 1

    ReRe gressaoSQgressoQM =

    Para o caso dos alunos que fizeram as provas de fsica e matemtica, temos:

    32

    142

    =

    =QMTotal

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 39

    =

    =

    241686,0Re siduosQM 0,0843

    8286,11

    8286,1Re ==gressaoQM

    E a estatstica F fica:

    ===

    0842,08286,1

    ReRe

    _

    siduosQMgressaoQM

    testeF 21,71

    2.3. Coeficiente de determinao

    As somas de quadrados servem para definir uma grandeza conhecida como coeficiente de determinao da regresso linear.

    Ele dado por:

    SQTotalgressaoSQ

    rRe2

    =

    Esta grandeza, no caso do modelo iii XY ++= , igual ao quadrado do coeficiente de correlao linear, estudado na aula passada.

    Se a soma dos quadrados dos resduos for pequena, de tal forma que 2r se aproxime de 1,

    isto significa que as diferenas entre os valores observados ( iY ) e a mdia (Y ) so quase totalmente explicados pela reta de regresso.

    Se a soma dos quadrados dos resduos for grande, de tal forma que 2r se aproxime de zero, isto significa que a reta de regresso pouco explica sobre as diferenas entre os valores observados e a mdia. Ou seja, perca de tempo ficar calculando reta de regresso se ela um estimador ruim.

    Como o coeficiente de correlao (r) assume valores entre -1 e 1, ento o coeficiente de determinao (r2) assume valores entre 0 e 1.

    Questo 17 BACEN 2006 [FCC]

    Uma empresa, com finalidade de determinar a relao entre gastos anuais com propaganda (X), em R$ 1.000,00 e o lucro bruto anual (Y), em R$ 1.000,00, optou por utilizar o modelo

    linear simples iii XY ++= , em que iY o valor do lucro bruto auferido no ano i e i o erro aleatrio com as respectivas hipteses consideradas para a regresso linear simples ( e so parmetros desconhecidos). Considerou, para o estudo, as seguintes informaes referentes s observaes nos ltimos 10 anos da empresa:

    10010

    1=

    =iiY ; 60

    10

    1=

    =iiX ; 650= ii YX ; ( ) 400

    10

    1

    2=

    =iiX ; ( ) 1080

    10

    1

    2=

    =iiY

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 40

    Montando o quadro de anlise de varincia, tem-se que:

    a) a variao explicada, fonte de variao devido regresso, apresenta um valor igual a 80;

    b) dividindo a variao residual pela variao total, obtemos o correspondente coeficiente de determinao;

    c) o valor da estatstica F necessria para o teste da existncia de regresso igual ao coeficiente da diviso da variao explicada pela variao residual

    d) a variao residual apresenta um valor igual a 17,5

    e) a variao total apresenta um valor igual a 62,5.

    [Observao: considere que voc j sabe que os coeficientes a e b so dados por: 5,2=a ; 25,1=b , conforme clculos da Questo 2]

    Resoluo.

    Em vez de utilizar o termo soma de quadrados, a questo est utilizando variao. Assim, fazendo a correspondncia dos termos da questo com aqueles que ns vimos:

    - Soma de quadrados total: variao total

    - Soma de quadrados dos resduos: variao residual

    - Soma de quadrados da regresso: variao explicada (ou seja, a parte da variao total que explicada pelo modelo de regresso).

    A variao total fica:

    ( ) = 2YYSQTotal i Utilizando a transformao que vimos:

    ( ) 222 YnYYYSQTotal ii == 801010080.1 2 ==SQTotal

    Portanto a letra E est errada.

    A variao explicada (=variao do modelo = Soma de Quadrados da Regresso) fica:

    ( )( )[ ] = YYXXbgressaoSQ Re Utilizando as transformaes vistas:

    ( )( )YXnXYbgressaoS = Re ( )( ) = YXnXYbgressaoS Re

    ( ) 5,625025,11061065025,1Re ===gressaoSQ Deste modo, a letra A est errada.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 41

    A varincia residual (=Soma de Quadrados de Resduos) igual a:

    5,175,6280ReRe === gressoSQSQTotalsiduosSQ E a letra D est correta.

    Vamos checar a alternativa B.

    Vimos que:

    SQTotalgressaoSQ

    rRe2

    =

    A letra B pretende dizer que SQTotal

    siduosSQr

    Re2= , o que est errado.

    Por fim, vejamos a letra C. A estatstica F dada por:

    )2/(Re1/Re

    ReRe

    _

    ==

    nsiduosSQgressaoSQ

    siduosQMgressaoQM

    testeF

    A alternativa C est errada, pois afirma que a estatstica F dada por siduosSQ

    gressaoSQRe

    Re,

    ignorando as divises pelos graus de liberdade.

    Gabarito: D.

    Questo 18 SEAD/PM SANTOS 2005 [FCC]

    Para resolver questo seguinte, considere que foi realizado um estudo em um pas com a finalidade de se determinar a relao entre a Renda Disponvel (Y), em milhes de dlares, e o consumo (C), tambm em milhes de dlares.

    Sabe-se que foi utilizado o modelo linear simples iii ebYaC ++= , em que Ci o consumo no ano i, Yi a renda disponvel no ano i e ie o erro aleatrio com as respectivas hipteses

    consideradas para a regresso linear simples.

    Este estudo apresentou as seguintes informaes colhidas atravs da observao nos ltimos 10 anos:

    80010

    1=

    =iiC 000.1

    10

    1=

    =iiY 600.83

    10

    1=

    =iiiCY 000.105

    10

    1

    2=

    =iiY 240.67

    10

    1

    2=

    =iiC

    O coeficiente de correlao r de Pearson entre as variveis Y e C obtido pela frmula:

    )()(),cov(

    CDPYDPYC

    r

    = em que:

    Cov(C,Y) a covarincia entre C e Y;

    DP(Y) o desvio padro de Y

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 42

    DP(C) o desvio padro de C.

    Tem-se que o valor do correspondente de determinao 2r igual a:

    a) 60%

    b) 72%

    c) 76%

    d) 80%

    e) 90%

    Resoluo:

    Ns temos representado os parmetros do modelo por e . E representamos suas estimativas por a e b . Pois bem, neste exerccio os parmetros esto sendo chamados de a e b . Vamos chamar suas estimativas de a e b .

    ( ) = 2CCSQTotal i = ( ) 2

    1

    2 CnCn

    ii

    =

    Portanto:

    =SQTotal ( ) 240.38010240.67 221

    2==

    =

    CnCn

    ii

    ( )( ) = CYnYCbgressaoSQ Re ( )8010010600.83Re = bgressaoSQ

    L na Questo 6 ns vimos que 72,0 =b

    Logo:

    ( ) 592.28010010600.8372,0Re ==gressaoSQ Por fim, chegamos a:

    SQTotalgressaoSQ

    rRe2

    =

    80,0240.3592.22

    ==r

    Gabarito: D

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 43

    Questo 19 TCE RO 2005 [CESGRANRIO]

    Avaliaes de terrenos baseiam-se, geralmente, em modelos de regresso linear nos quais o preo de venda uma funo de algumas variveis tais como o tamanho do terreno, suas condies e localizao. Uma amostra de terrenos comercializados no ltimo ms coletou dados sobre o preo da venda, em R$ 1 000,00, o tamanho do terreno, em m2, e a distncia ao centro da cidade, em km. Primeiramente obteve-se o modelo com apenas a varivel tamanho do terreno, X1, como explicativa do preo de venda. Os principais quantitativos relativos a esse modelo foram calculados como:

    Considerando o quadro acima, os valores de X, Y e Z, respectivamente, so:

    (A) 2826, 121 e 3,65E-07

    (B) 2178, 121 e 0,77

    (C) 2178, 36 e 0,77

    (D) 648, 36 e 60,5

    (E) 32,4, 18 e 34,1

    Resoluo.

    O quadrado mdio dos resduos igual a 36 (dado no enunciado).

    3618

    ReRe == siduosSQsiduosQM

    == 3618Re siduosSQ 648 Logo:

    648=X Com isso j podemos marcar a letra D.

    O quadrado mdio dos resduos 36 (dado no enunciado). Portanto, Y = 36.

  • Prof. Vtor Menezes

    A soma de quadrados total de 2826 (dado enunciado). Portanto, a soma de quadrados da regresso :

    SQSQ

    A estatstica F fica:

    =_ QMQM

    testeF

    Gabarito: D

    Questo 20 CAPES 2008 [CESGRANRIO]

    O Coeficiente de Correlao Linear de Pearson entre os desempenhos de determinados alunos em duas avaliaes nacionais igual ada variabilidade nos resultados de uma das avaliaes explicada pela relao linear entre elas

    (A) 15,6%

    (B) 39,4%

    (C) 71,2%

    (D) 84,4%

    (E) 91,8%

    Resoluo.

    O coeficiente de determinao o quadrado do coef

    ==22 844,0r 0,712

    Gabarito: C

    Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira

    Vtor Menezes www.estrategiaconcursos.com.br

    A soma de quadrados total de 2826 (dado enunciado). Portanto, a soma de quadrados da

    siduosSQSQTotalgressao ReRe = == 6482826Re gressaoSQ 2178

    ===

    362178

    361/Re

    ReRe gressaoSQ

    siduosQMgressaoQM

    60,5

    CAPES 2008 [CESGRANRIO]

    O Coeficiente de Correlao Linear de Pearson entre os desempenhos de determinados alunos em duas avaliaes nacionais igual a 0,844. Nesse caso, conclui-se que a proporo da variabilidade nos resultados de uma das avaliaes explicada pela relao linear entre

    O coeficiente de determinao o quadrado do coeficiente de correlao.

    Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    .com.br 44

    A soma de quadrados total de 2826 (dado enunciado). Portanto, a soma de quadrados da

    60,5

    O Coeficiente de Correlao Linear de Pearson entre os desempenhos de determinados se que a proporo

    da variabilidade nos resultados de uma das avaliaes explicada pela relao linear entre

    iciente de correlao.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 45

    Questo 21 PETROBRAS 2008 [CESGRANRIO]

    Um modelo de regresso linear simples de Y em X, com uma varivel explicativa e o termo constante, foi estimado com 32 observaes, gerando um r2 de 0,25. No teste de validade do modelo, o F-calculado ou F-observado igual a

    (A) 10

    (B) 11

    (C) 12

    (D) 13

    (E) 14

    Resoluo.

    SQTotalgressaoSQ

    rRe2

    =

    SQTotalgressaoSQ Re25,0 =

    25,0Re = SQtotalgressaoSQ Lembrando que:

    siduosSQgressaoSQSQTotal ReRe += Logo:

    SQTotalsiduosSQ = 75,0Re A estatstica F fica:

    1030/75,0

    25,0)232/(Re

    1/ReRe

    Re_ =

    =

    ==

    SQTotalSQtotal

    siduosSQgressaoSQ

    siduosQMgressaoQM

    testeF

    Gabarito: A

    Questo 22 BNDES 2008/2 [CESGRANRIO questo adaptada]

    Um experimento foi realizado com o objetivo de estimar o preo de uma ao, dado o seu valor patrimonial, ambos em reais.

    Uma amostra de aes negociadas recentemente forneceu dados sobre o preo e o valor patrimonial por ao. Aplicou-se o modelo de regresso linear simples ++= XY . Alguns resultados da tabela da anlise da varincia, obtida a partir dos dados dessa amostra, esto apresentados a seguir.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 46

    Julgue os itens abaixo:

    I O coeficiente de determinao mostra que o modelo proposto explica aproximadamente 63% da variabilidade total.

    II O valor da estatstica Fcalculado 100, e a concluso do teste que a varivel valor

    patrimonial significativa, isto , deve-se rejeitar a hiptese nula 0:0 =H .

    Resoluo.

    Primeiro item.

    1/ReRe gressaoQMgressaoSQ = 000.56Re =gressaoSQ

    O coeficiente de determinao fica:

    480.88000.56Re2

    ==

    SQTotalgressaoSQ

    r = 0,63

    Portanto, 63% da variao explicada pela reta de regresso. Ou seja, o modelo de regresso explica 63% da variabilidade total. O primeiro item est certo.

    Segundo item.

    gressaoSQSQTotalsiduosSQ ReRe = 480.32000.56480.88Re ==siduosSQ

    A estatstica F fica:

    ==

    ==

    58/480.32000.56

    )260/(Re1/Re

    ReRe

    _

    siduosSQgressaoSQ

    siduosQMgressaoQM

    testeF 100

    O segundo item tambm est certo.

    Gabarito: Certo, certo

    Embora esta informao no tenha sido necessria para resolver a questo, vamos falar sobre o Fsig, que aparece na tabela.

    O valor de Fsig nada mais que o valor descritivo do teste de hipteses para 0= . Ou seja, a probabilidade de uma varivel com distribuio F, com 1 grau de liberdade no numerador e 58 no denominador, assumir valores maiores que 100 (que a estatstica teste).

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 47

    Questo 23 SEFAZ SP 2009 [ESAF]

    Uma amostra aleatria simples (X1, Y1), (X2, Y2), ..., (Xn, Yn) de duas variveis aleatrias X e Y forneceu as seguintes quantidades:

    ( )=

    =

    n

    ii XX

    1

    2414

    ( )=

    =

    n

    ii YY

    1

    2359

    ( )=

    =n

    iii YXX

    1345

    Calcule o valor mais prximo do coeficiente de determinao da regresso linear de Y em X.

    a) 0,88

    b) 0,92

    c) 0,85

    d) 0,80

    e) 0,83

    Resoluo:

    No caso do modelo usual de regresso linear, o coeficiente de determinao igual ao quadrado do coeficiente de correlao.

    Aqui a questo explora outra igualdade envolvendo somatrios.

    O numerador da frmula do coeficiente de correlao :

    ( ) ( )[ ]=

    n

    iii YYXX

    1

    Fazendo a multiplicao, ficamos com:

    ( ) ( )[ ]=

    n

    iiii YXXYXX

    1

    Separando o somatrio da diferena em diferena de somatrios:

    = ( )[ ] ( )[ ]==

    n

    ii

    n

    iii YXXYXX

    11

    A mdia de Y constante e pode sair do somatrio:

    = ( )[ ] ( )[ ]==

    n

    ii

    n

    iii XXYYXX

    11

    A soma dos desvios em relao mdia de X igual a zero:

    = ( )[ ] 01

    =

    YYXXn

    iii

  • Prof. Vtor Menezes

    Logo, outra frmula para o coeficiente de correlao seria:

    E, para esta frmula, o enunciado j deu todas as contas prontas:

    Elevando o coeficiente ao quadrado:

    Fazendo a primeira diviso, temos:

    O 0,83 est sendo multiplicado por um nmerum nmero por outro que seja menor que 1, o nmero original diminui. Logo, a resposta procurada ser menor que 0,83. A nica opo a letra D.

    Gabarito: D

    Questo 24 FUNASA 2009 [CESGRANRIO

    O estatstico de uma indstria dexistente entre a satisfao do clienteanos, e o nvel de ansiedade (Primeiramente estudou-se a relao entre a satisfao do paciente e a sua idade.

    a) Considerando o modelo de regresso

    da tabela da ANOVA.

    Resoluo.

    _ calculadoF

    Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira

    Vtor Menezes www.estrategiaconcursos.com.br

    = ( )[ ]=

    n

    iii YXX

    1

    Logo, outra frmula para o coeficiente de correlao seria:

    ( ) ( )[ ]( ) ( )

    = =

    =

    =n

    i

    n

    iii

    n

    iii

    YYXX

    YXXr

    1 1

    22

    1

    E, para esta frmula, o enunciado j deu todas as contas prontas:

    359414345

    =r

    Elevando o coeficiente ao quadrado:

    359345

    4143452 =r

    Fazendo a primeira diviso, temos:

    35934583,02 =r

    O 0,83 est sendo multiplicado por um nmero menor que 1. Toda vez que multiplicamos um nmero por outro que seja menor que 1, o nmero original diminui. Logo, a resposta procurada ser menor que 0,83. A nica opo a letra D.

    FUNASA 2009 [CESGRANRIO]

    O estatstico de uma indstria de produtos dermatolgicos deseja estudar a relao existente entre a satisfao do cliente (Y), em uma escala de 0 a 100, a sua idade (anos, e o nvel de ansiedade (X2), em ndice. Para isso, foram selecionados 46 pacientes.

    e a relao entre a satisfao do paciente e a sua idade.

    erando o modelo de regresso ++= 110 XbbY , determine os valores de A e B

    ==== 366767Re

    Re AAsiduosQM

    gressaoQMcalculado 2412

    Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    .com.br 48

    o menor que 1. Toda vez que multiplicamos um nmero por outro que seja menor que 1, o nmero original diminui. Logo, a resposta

    e produtos dermatolgicos deseja estudar a relao ), em uma escala de 0 a 100, a sua idade (X1), em

    selecionados 46 pacientes. e a relao entre a satisfao do paciente e a sua idade.

    , determine os valores de A e B

    2412

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 49

    siduosSQgressaoSQSQTotal ReRe = B= 24125363

    =B 2951

    Obs: para esta questo, aberta, no consta o gabarito oficial no site da banca. Se vocs acharem algum erro na minha resoluo, s falar.

    3. OUTROS EXERCCIOS

    Na sequencia, trago exerccios de assuntos que so pouco cobrados. Creio que a probabilidade de serem exigidos em prova pequena. Por este motivo, veremos, de passagem, como resolv-los, sem adentrar muito na teoria.

    Questo 25 CAPES 2008 [CESGRANRIO]

    O teste de hiptese de que a correlao linear entre Y e X1 nula apresentou um valor descritivo (p-value) de 0,480.

    Conclui-se, ento, que

    I - a hiptese que = 0 para qualquer nvel de significncia menor do que 0,480 no deve ser rejeitada;

    II - o coeficiente de determinao menor do que 4,0%;

    III - com 48,0% de confiana afirma-se que a relao entre Y e X1 existe, mas no linear;

    IV- a varivel Y no deve ser expressa como uma funo linear da varivel X1.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 50

    So corretas APENAS as afirmaes

    (A) I e II

    (B) III e IV

    (C) I, II e III

    (D) I, III e IV

    (E) II, III e IV

    Resoluo.

    Considere que estamos estudando se existe relao linear entre duas variveis X e Y. Queremos saber se o coeficiente de correlao entre elas prximo de zero, ou se tem mdulo prximo de 1. Queremos estimar a reta de regresso ( ++= XY ). Uma dada amostra, contendo n pares ordenados para as variveis X e Y, vai fornecer certos valores para o coeficiente de correlao e para as estimativas a e b para os parmetros e . Se pensarmos em todas as amostras possveis, ento os valores de r , a e b so variveis aleatrias. Sendo variveis aleatrias, eles possuem uma certa mdia e um certo desvio padro. Possuem uma certa funo densidade de probabilidade.

    Ora, se r, a e b so variveis aleatrias, podemos fazer tudo o que estudamos anteriormente: realizar teste de hipteses, determinar intervalos de confiana, determinar o tamanho que deve ter a amostra para conseguir um certo erro mximo etc.

    Nesta questo, especificamente, pretende-se realizar um teste de hipteses para o coeficiente de correlao (que est sendo chamado de ). Geralmente, quando nos referimos ao coeficiente de correlao da populao, usamos . Quando nos referimos ao coeficiente de correlao da amostra, usamos r.

    A hiptese nula :

    0:0 =H

    Ou seja, a hiptese nula indica que no h relao linear entre as duas variveis.

    No veremos, com detalhes, como fazer este teste. No veremos como calcular a estatstica teste, nem como determinar o valor crtico, nem qual a distribuio do coeficiente de correlao amostral (r). Isto porque esse tipo de questo no muito comum. Para esta questo em especial, nem era preciso saber nada disso.

    Por qu?

    Porque a questo deu o p-valor. Para decidir se devemos rejeitar a hiptese nula ou no, basta comparar o p-valor com o nvel de significncia.

    Se o p-valor maior que o nvel de significncia, aceitamos a hiptese nula.

    Se o p-valor menor que o nvel de significncia, rejeitamos a hiptese nula.

    O primeiro item afirma que, se o nvel de significncia for menor que o p-valor, ento no rejeitamos a hiptese nula, o que est correto.

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 51

    Segundo item.

    O coeficiente de determinao igual ao quadrado do coeficiente de correlao.

    2059,0 = 0,003

    De fato, este nmero menor que 4%.

    Terceiro item.

    Nada podemos afirmar sobre existir ou no relaes no-lineares. Na minha opinio, o item est errado. No gabarito oficial definitivo, ele foi dado como certo.

    Quarto item.

    A deciso sobre expressar uma varivel como funo linear da outra est relacionada com o nvel de confiana que se pretende adotar. Qualquer deciso baseada em dados amostrais sempre estar sujeita a erro.

    Gabarito: C (na minha opinio, seria letra A. Se algum achar algum erro na minha soluo, por favor me avise).

    Questo 26 BACEN 2002 [ESAF].

    Observaes ( ii YX , ) de duas variveis econmicas satisfazem o modelo linear

    iii XY ++= onde os iX so constantes, e so os parmetros desconhecidos e os i so erros normais no diretamente observveis, no correlacionados com mdia nula e

    mesma varincia 2 . Deseja-se testar a hiptese H0: 0 contra a hiptese alternativa HA: 0

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 52

    Graus de liberdade

    X F(X)

    15 1,341 0,900

    15 1,753 0,950

    15 2,131 0,975

    16 1,337 0,900

    16 1,746 0,950

    16 2,120 0,975

    17 1,333 0,900

    17 1,740 0,950

    17 2,110 0,975

    18 1,330 0,900

    18 1,734 0,950

    18 2,101 0,975

    a) 0.533

    b) 0.440

    c) 0.630

    d) 0.438

    e) 0.300

    Resoluo.

    O teste mais comum sobre o valor de consiste na hiptese de que =0. Caso rejeitemos esta hiptese nula, conclumos que h regresso de X sobre Y. Este procedimento serve para verificarmos a qualidade do modelo de regresso.

    J vimos um modo de fazer isso. Foi por meio da anlise de varincia da regresso, utilizando a relao entre o quadrado mdio da regresso e o quadrado mdio dos resduos.

    Pois bem, existe outra forma de faz-lo.

    Para o teste de , tambm podemos utilizar a distribuio T, com 2n graus de liberdade. A questo no pediu para fazermos o teste completo. Precisamos apenas calcular o p-valor.

    J vimos, na aula de teste de hipteses, que o p-valor a probabilidade de obtermos valores to extremos quanto a estatstica teste. A estatstica teste que estudamos naquela aula, quando no se conhece a varincia do parmetro, foi:

    Xs

    Xtestet

    =_

    No numerador temos a estimativa )(X e o parmetro )( . No denominador o desvio padro da estimativa.

    Aqui a mesma coisa. S muda que b a estimativa. E o parmetro estimado .

  • Raciocnio Lgico, Estatstica,

    Matemtica e Matemtica Financeira p/

    AFRFB e AFT

    Prof. Vtor Menezes www.estrategiaconcursos.com.br 53

    A estatstica teste fica:

    bs

    btestet

    =_

    O valor de que se pretende testar 0. O valor de b obtido foi -2,120 (fornecido no enunciado).

    A varincia de b 1 (fornecido no enunciado). Portanto:

    120,21

    0120,2_ =

    =testet

    Consultando a tabela para o valor 2,120 (e 16 graus de liberdade), obtemos 97,5%.

    Portanto, 97,5% dos valores de t so menores ou iguais a 2,120.

    Ou seja, 2,5% so maiores que 2,120.

    Devido simetria da densidade de t, 2,5% so menores que -2,120.

    Portanto, a probabilidade de obtermos valores to extremos quanto a estatstica teste (ou seja, valores menores ou iguais -2,120) de 2,5%.

    Gabarito: C.

    Desta questo guarde que, para testar a hiptese sobre o valor de , utilize a distribuio T com 2n graus de liberdade.

    Questo 27 INEP 2008 [CESGRANRIO]

    Em um modelo de regresso linear simples, um intervalo de confiana de 95,0% obtido para o coeficiente angular foi (0,24 ; 1,68). Com esse resultado s se pode concluir que

    (A) o intercepto igual a zero.

    (B) o coeficiente angular negativo.

    (C) a relao entre as variveis no linear.

    (D) a varivel dependente assume valores negativos.

    (E) no existe relao linear entre as duas variveis.

    Resoluo.

    Utilizando-se a distribuio T com 2n graus de liberdade tambm possvel determinar intervalos de confiana para . A questo j forneceu o intervalo de confiana pronto. J sabemos que, com confiana de 95%, est entre 0,24 e 1,68. Observem que um intervalo que contempla valores prximos de zero (tanto negativos quanto positivos). Valores positivos para indicam relao direta. Valores negativos para indicam relao inversa. Ora, se a amostra no capaz nem de nos dar uma maior segurana quanto ao sinal de (se positivo ou negativo),

  • Raciocnio Lgico, Estatstica,

    Matemtica e Mat