56
ECO 4272 : Introduction ` a l’´ econom´ etrie Notes sur le mod` ele de r´ egression simple Steve Ambler * epartement des sciences ´ economiques ´ Ecole des sciences de la gestion Universit´ e du Qu´ ebec ` a Montr´ eal c 2014 : Steve Ambler Automne 2014 * Ces notes sont en cours de d´ eveloppement. J’ai besoin de vos commentaires et de vos suggestions pour les am´ eliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message ` a [email protected]. 1

Notes Uqam Regsimple

Embed Size (px)

DESCRIPTION

Notes Uqam Regsimple

Citation preview

  • ECO 4272 : Introduction a` leconometrieNotes sur le mode`le de regression simple

    Steve Ambler

    Departement des sciences economiquesEcole des sciences de la gestion

    Universite du Quebec a` Montrealc2014 : Steve Ambler

    Automne 2014

    Ces notes sont en cours de developpement. Jai besoin de vos commentaires et de vos suggestions pourles ameliorer. Vous pouvez me faire part de vos commentaires en personne ou en envoyant un message a`[email protected].

    1

  • Table des matie`res1 Introduction 4

    2 Objectifs du cours 4

    3 Le mode`le de regression simple 4

    4 Estimateur moindres carres ordinaires (MCO) 54.1 Proprietes algebriques cles de lestimateur MCO . . . . . . . . . . . . . . . . . . 9

    4.1.1 La somme des residus est zero . . . . . . . . . . . . . . . . . . . . . . . . 104.1.2 La valeur moyenne de la variable dependante predite est egale a` la moyenne

    echantillonnale de la variable dependante . . . . . . . . . . . . . . . . . . 104.1.3 Orthogonalite entre la variable explicative et les residus . . . . . . . . . . . 11

    4.2 La notion de lajustement statistique (R2) . . . . . . . . . . . . . . . . . . . . . . 124.3 Lecart type de la regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    5 Hypothe`ses statistiques de base du mode`le 175.1 Esperance conditionnelle nulle de lerreur . . . . . . . . . . . . . . . . . . . . . . 185.2 Observations i.i.d. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185.3 Les observations aberrantes sont peu probables . . . . . . . . . . . . . . . . . . . 185.4 Notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    6 Proprietes statistiques de lestimateur 206.1 Absence de biais de lestimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    6.1.1 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206.1.2 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    6.2 Convergence de lestimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236.3 Efficience de lestimateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    6.3.1 Theore`me Gauss-Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . 246.4 Erreur quadratique moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    7 Proprietes echantillonnales de lestimateur 347.1 Estimateur convergent de 2

    1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    7.2 Estimateur convergent de 21

    en cas dhomoscedasticite . . . . . . . . . . . . . . . 387.3 Detecter lheteroscedasticite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    8 Tests dhypothe`se 418.1 Approche general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 418.2 Hypothe`se alternative bilaterale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 428.3 Hypothe`se alternative unilaterale . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

    9 Intervalles de confiance pour les coefficients 439.1 Intervalles de confiance pour les predictions . . . . . . . . . . . . . . . . . . . . . 44

    10 Un exemple destimation du mode`le de regression simple avec R 45

    2

  • 11 Le mode`le de regression simple lorsque X est une variable dichotomique 51

    12 Concepts a` retenir 56

    13 References 56

    3

  • 1 Introduction

    2 Objectifs du cours

    Presenter le mode`le de regression simple.

    Deriver lestimateur moindres carres ordinaires (MCO).

    Etudier les proprietes algebriques de cet estimateur.

    Etudier la mesure habituelle de lajustement statistique, le R2.

    Regarder les hypothe`ses statistiques derrie`re le mode`le et analyser leurs consequences pour

    lestimateur MCO (absence de biais, convergence, efficience).

    Montrer labsence de biais de lestimateur MCO.

    Deriver les proprietes echantillonnales de lestimateur MCO et montrer sa convergence.

    Distinguer entre les cas derreurs heteroscedastiques et erreurs homoscedastiques.

    Montrer, sous les hypothe`ses dhomoscedasticite et normalite, lefficience de lestimateur

    MCO (theore`me Gauss-Markov).

    Analyser les tests dhypothe`se concernant les parame`tres estimes du mode`le.

    Analyser le calcul dintervalles de confiance pour les parame`tres estimes dans le cadre du

    mode`le.

    3 Le mode`le de regression simple

    Le mode`le de base peut secrire

    Yi = 0 + 1Xi + ui.

    Lidee de base est quune variable economique Yi peut etre predite ou explique par une autre va-

    riable economique Xi. La relation entre les deux variables est lineaire. Sans le terme ui, lequation

    est lequation dune droite. Si on mesure Yi sur laxe vertical, 0 est lordonnee a` lorigine et 1 est

    4

  • la pente de la droite. On peut penser au parame`tre 0 comme etant associe a` une deuxie`me variable

    explicative qui est une constante quon normalise pour etre egale a` un. Autrement dit, on aurait pu

    ecrire le mode`le comme

    Yi = 0 1 + 1 Xi + ui.

    Le mode`le de regression simple contient une constante par defaut. Il est possible aussi detudier le

    mode`le suivant :

    Yi = Xi + ui.

    Ce mode`le, sans constante, a des proprietes statistiques assez differentes. Pour ceux qui sinteressent

    a` poursuivre ce sujet, voir Windmeijer (1994), ou Eisenhauer (2003).

    On appelle communement Yi la variable dependante du mode`le de regression, et on appelle

    Xi la variable explicative du mode`le de regression.

    4 Estimateur moindres carres ordinaires (MCO)

    Nous considerons le proble`me de predire la valeur de la variable dependante Yi, etant

    donnee la valeur de Xi.

    Lerreur de prevision peut secrire Yi 0 1Xi. Le proble`me a` resoudre est celui de choisir les valeurs de 0 et de 1 afin de minimiser la

    somme des erreurs de prevision au carre :

    Notez que le crite`re de minimiser la somme des erreurs au carre nest pas le seul crite`re

    possible. Par exemple, on pourrait decider de minimiser la somme des erreurs en valeur

    absolue.

    Il y a deux raisons fondamentales pour la popularite et limportance de lestimateur MCO

    dans lhistoire de la statistique et de leconometrie.

    1. Dabord, lalge`bre est relativement simple. Le crite`re est une expression quadratique

    (du deuxie`me degre), et donc les conditions du premier ordre donnent un syste`me

    5

  • dequations lineaires. Il est tre`s facile de resoudre un syste`me de deux equations lineaires.

    2. Deuxie`ment, sous certaines conditions (a` voir plus tard), lestimateur MCO des coef-

    ficients 0 et 1 est lestimateur avec la plus petite variance parmi tous les estimateurs

    lineaires et non biaises autrement dit, il est lestimateur le plus efficient parmi les

    estimateur lineaires non biaises.

    Le proble`me de minimisation peut secrire comme suit.

    min0,1

    ni=1

    (Yi 0 1Xi)2 .

    Les conditions du premier ordre (CPOs) pour ce proble`me sont comme suit. Dabord par

    rapport au choix de 0 :

    2ni=1

    (Yi 0 1Xi

    )= 0.

    Ensuite, par rapport au choix de 1 :

    2ni=1

    (Yi 0 1Xi

    )Xi = 0,

    ou` jai ecrit un chapeau sur 0 et 1 pour souligner le fait quil sagit de nos estimateurs

    MCO, cest a` dire les solutions au proble`me de minimisation. 1

    Il sagit de deux equations ou` les deux inconnus sont 0 et 1.

    Il est facile disoler 0 en fonction de 1 et par la suite de trouver la solution pour 1.

    Nous avons a` partir de la premie`re CPO :

    ni=1

    (Yi 0 1Xi

    )= 0

    ni=1

    0 = n 0 =ni=1

    (Yi 1Xi

    )1. En principe, il faudrait verifier les conditions du deuxie`me ordre pour savoir que nous avons trouve un minimum

    et non un maximum. Nous nallons pas faire cet exercice ici.

    6

  • 0 = 1n

    ni=1

    Yi 1 1n

    ni=1

    Xi

    0 = Y 1X.

    Nous venons de trouver la solution pour 0 en fonction des moyennes echantillonnales X

    et Y et de la solution pour 1.

    Maintenant, substituant cette solution dans la deuxie`me CPO, nous avons :

    ni=1

    (Yi Y + 1X 1Xi

    )Xi = 0.

    Multipliant des deux cotes de lequation par 1n

    et rearrangeant, nous obtenons

    1

    n

    ni=1

    YiXi 1n

    ni=1

    Y Xi 1n

    ni=1

    1 (Xi)2 +

    1

    n

    ni=1

    1XXi = 0

    1n

    ni=1

    YiXi Y 1n

    ni=1

    Xi

    1(

    1

    n

    ni=1

    (Xi)2 X 1

    n

    ni=1

    Xi

    )= 0

    1n

    ni=1

    YiXi Y X

    1(

    1

    n

    ni=1

    (Xi)2 XX

    )= 0

    1 =1n

    ni=1 YiXi XY

    1n

    ni=1 (Xi)

    2 X2

    1 =1n

    ni=1

    (Yi Y

    ) (Xi X

    )1n

    ni=1

    (Xi X

    )2 .Cette solution depend des identites

    1

    n

    ni=1

    YiXi XY = 1n

    ni=1

    (Yi Y

    ) (Xi X

    )7

  • et1

    n

    ni=1

    (Xi)2 X2 = 1

    n

    ni=1

    (Xi X

    )2.

    Ceci est facile a` montrer. Nous avons

    1

    n

    ni=1

    (Yi Y

    ) (Xi X

    )

    1

    n

    ni=1

    (YiXi YiX XiY + XY

    )

    =1

    n

    ni=1

    YiXi 1n

    ni=1

    YiX 1n

    ni=1

    XiY +1

    n

    ni=1

    XY

    =1

    n

    ni=1

    YiXi X 1n

    ni=1

    Yi Y 1n

    ni=1

    Xi +n

    nXY

    =1

    n

    ni=1

    YiXi XY Y X + XY

    =1

    n

    ni=1

    YiXi XY .

    La preuve pour le denominateur est semblable.

    Cest une premie`re facon dexprimer la solution. Multipliant numerateur et denominateur

    par n nous avons aussi

    1 =

    ni=1

    (Yi Y

    ) (Xi X

    )ni=1

    (Xi X

    )2 .Cest une deuxie`me facon dexprimer la solution. Maintenant, divisant numerateur et denominateur

    par (n 1) nous avons aussi

    1 =

    1(n1)

    ni=1

    (Yi Y

    ) (Xi X

    )1

    (n1)n

    i=1

    (Xi X

    )2 . Donc, nous avons trois expressions equivalentes pour la solution pour 1.

    Comme aide-memoire, la dernie`re expression est peut-etre la plus utile. Elle dit que les-

    8

  • timateur MCO de 1 est le ratio entre la covariance echantillonnale entre X et Y et la

    variance echantillonnale de X (voir le chapitre sur la theorie des probabilites pour les

    definitions de covariance echantillonnale et variance echantillonnale).

    Pour repeter ceci en notation algebrique :

    1 =Cov (X , Y )

    Var (X).

    Je crois quil nest pas trop difficile de se souvenir de cette facon decrire la solution pour

    1, et de se souvenir de la solution pour 0 en termes des moyennes echantillonnales X et

    Y et 1.

    4.1 Proprietes algebriques cles de lestimateur MCO

    Lestimateur MCO posse`de quelques proprietes de base que nous allons demontrer dans

    cette section.

    Nous allons par la suite nous servir de ces proprietes a` maintes reprises par la suite pour

    trouver dautres proprietes de lestimateur MCO.

    Jappelle ces proprietes les proprietes algebriques puisquelles ne dependent pas dhy-

    pothe`ses concernant les proprietes statistiques des variables aleatoires Y , X ou u.

    Autrement dit, pour nimporte quelles series de donnees sur deux variables X et Y , ces

    proprietes doivent tenir. On na meme pas besoin de supposer queX et Y sont des variables

    aleatoires en bonne et due forme.

    Plusieurs de ces proprietes dependent du fait que le mode`le de regression inclut une constante.

    Pour le cas de mode`les qui nincluent pas une constante, voir larticle de Windmeijer

    (1994), ou encore celui dEisenhauer (2003).

    9

  • 4.1.1 La somme des residus est zero

    Definissons

    ui Yi 0 1Xi,

    le residu de la regression pour lobservation i.

    Nous voulons montrer que :1

    n

    ni=1

    ui = 0.

    Voici la preuve.1

    n

    ni=1

    ui =1

    n

    ni=1

    (Yi Y + 1X 1Xi

    )

    =1

    n

    ni=1

    (Yi Y

    ) 1 1n

    ni=1

    (Xi X

    )= 0.

    4.1.2 La valeur moyenne de la variable dependante predite est egale a` la moyenne echantillonnale

    de la variable dependante

    Definissons

    Yi 0 + 1Xi,

    la valeur predite de Yi.

    Nous voulons montrer que :1

    n

    ni=1

    Yi = Y .

    Voici la preuve :

    Yi Yi ui

    1n

    ni=1

    Yi =1

    n

    ni=1

    Yi 1n

    ni=1

    ui =1

    n

    ni=1

    Yi Y .

    10

  • 4.1.3 Orthogonalite entre la variable explicative et les residus

    Nous voulons montrer que :ni=1

    Xiui = 0.

    Ceci est la definition de lorthogonalite entre deux variables.

    Puisque nous allons utiliser lalge`bre lineaire dans le chapitre sur le mode`le de regression

    multiple, cest peut-etre opportun dintroduire ici le concept dorthogonalite entre deux

    vecteurs. Nous pouvons reecrire cette equation en notation vectorielle comme

    ni=1

    Xiui =

    [X1 X2 . . . Xn

    ]

    u1

    u2...

    un

    X U = 0.

    Donc cest la definition habituelle dorthogonalite entre deux vecteurs en alge`bre lineaire.

    Nous verrons plus loin quil y a aussi une interpretation geometrique.

    Voici la preuve :ni=1

    Xiui =ni=1

    Xiui Xni=1

    ui

    =ni=1

    (Xi X

    )ui

    =ni=1

    (Xi X

    ) (Yi Y + 1X 1Xi

    )

    =ni=1

    (Xi X

    ) ((Yi Y

    ) 1 (Xi X))

    =ni=1

    (Xi X

    ) (Yi Y

    ) 1 ni=1

    (Xi X

    )2=

    ni=1

    (Xi X

    ) (Yi Y

    )

    11

  • n

    i=1

    (Xi X

    ) (Yi Y

    )ni=1

    (Xi X

    )2 ni=1

    (Xi X

    )2=

    ni=1

    (Xi X

    ) (Yi Y

    ) ni=1

    (Xi X

    ) (Yi Y

    )= 0.

    Lorthogonalite est reliee a` linterpretation geometrique de la methode des MCO. Estimer

    un mode`le par MCO revient a` projeter la variable dependante dans lespace traverse par la

    variable explicative (ou les variables explicatives dans le cas de la regression multiple).

    Le principe est illustre par la Figure 1 ci-dessous. Nous constatons sur le graphique que si

    nous prenons la ligne de regression comme un vecteur, la ligne pointillee sur le graphique

    est un vecteur dont la longueur egale la valeur de ui a` ce point. Il forme un angle droit par

    rapport a` la ligne de regression, dou` le terme orthogonal .

    Pour ceux qui veulent aller plus loin, tout ce quon pourrait vouloir savoir concernant lin-

    terpretation geometrique de la regression simple se trouve dans larticle de Davidson et

    MacKinnon (1999).

    Figure 1

    4.2 La notion de lajustement statistique (R2)

    Definissons :

    TSS ni=1

    (Yi Y

    )2,

    12

  • la somme totale des carres ( total sum of squares en anglais) ;

    SSR ni=1

    (Yi Yi

    )2,

    la somme des residus au carre ( residual sum of squares en anglais) ;

    ESS ni=1

    (Yi Y

    )2,

    la somme expliquee des carres ( explained sum of squares en anglais).

    Nous pouvons montrer que :

    TSS = ESS + SSR.

    Voici la preuve :

    TSS =ni=1

    (Yi Y

    )2=

    ni=1

    ((Yi Yi

    )+(Yi Y

    ))2

    =ni=1

    (Yi Yi

    )2+

    ni=1

    (Yi Y

    )2

    +2ni=1

    (Yi Yi

    )(Yi Y

    )

    = SSR + ESS + 2ni=1

    ui

    (Yi Y

    )

    = SSR + ESS + 2ni=1

    uiYi 2Yni=1

    ui

    = SSR + ESS + 2ni=1

    uiYi

    = SSR + ESS + 2ni=1

    ui

    (0 + 1Xi

    )

    13

  • = SSR + ESS + 20ni=1

    ui + 21

    ni=1

    uiXi

    = SSR + ESS.

    Notez que nous avons invoque a` quelques reprises les proprietes algebriques de lestimateur

    MCO que nous avons deja` demontrees.

    Maintenant, definissons

    R2 ESSTSS

    .

    Puisque TSS, ESS et SSR sont la somme de termes au carre (et pour cette raison sont des

    termes positifs sinon strictement positifs), il faut que :

    0 R2 1.

    Il faut aussi que

    R2 = 1 SSRTSS

    .

    Lajustement statistique sappelle aussi le coefficient de determination de la regression.

    Lajustement statistique est defini independamment des proprietes statistiques du mode`le

    de regression. Il a linterpretation du pourcentage de la variation de la variable dependante

    Y autour de sa moyenne qui peut etre explique par les variations de la variable explicative

    X .

    Pour le mode`le de regression simple, il y a une relation algebrique exacte entre le R2 et le

    coefficient de correlation entre les variables X et Y . La relation est

    R2 = Corr (X, Y ) .

    Je montre ce resultat dans lencadre qui suit.

    La lecture de lencadre est facultative, mais je vous encourage a` retenir le resultat (egalite

    entre la mesure R2 et le coefficient de correlation entre X et Y au carre).

    14

  • Je demontre ici que lajustement statistique (dans le mode`le de regression simple) doit etre egal

    au carre du coefficient de correlation entre X et Y . Nous avons

    R2 n

    i=1

    (Yi Y

    )2n

    i=1

    (Yi Y

    )2Nous avons aussi (en multipliant le numerateur et le denominateur dans la definition de la

    correlation echantillonnale par (n 1))

    (Corr (X , Y )

    )2 ni=1 (Xi X) (Yi Y )n

    i=1

    (Xi X

    )2ni=1

    (Yi Y

    )22

    =

    (ni=1

    (Xi X

    ) (Yi Y

    ))2ni=1

    (Xi X

    )2ni=1

    (Yi Y

    )2Donc, il faut montrer que

    ni=1

    (Yi Y

    )2n

    i=1

    (Yi Y

    )2 =(n

    i=1

    (Xi X

    ) (Yi Y

    ))2ni=1

    (Xi X

    )2ni=1

    (Yi Y

    )2

    ni=1

    (Yi Y

    )2 ni=1

    (Xi X

    )2=

    (ni=1

    (Xi X

    ) (Yi Y

    ))2.

    Travaillant avec le bras gauche de cette equation, nous avons

    ni=1

    (Yi Y

    )2 ni=1

    (Xi X

    )2

    =ni=1

    (0 + 1Xi Y

    )2 ni=1

    (Xi X

    )2=

    ni=1

    (Y 1X + 1Xi Y

    )2 ni=1

    (Xi X

    )215

  • =ni=1

    (1Xi 1X

    )2 ni=1

    (Xi X

    )2= 21

    ni=1

    (Xi X

    )2 ni=1

    (Xi X

    )2

    =

    (ni=1

    (Xi X

    ) (Yi Y

    )ni=1

    (Xi X

    )2)2( n

    i=1

    (Xi X

    )2)2

    =

    (ni=1

    (Xi X

    ) (Yi Y

    ))2,

    ce qui fut a` demontrer.

    Donc, meme si nous sommes en train de discuter des proprietes algebriques du mode`le

    de regression simple, et meme si la notion du R2 est definie independamment des proprietes

    statistiques des variables X et Y , nous voyons que le R2 est relie au concept statistique de

    correlation. Il existe des tests dhypothe`se de la significativite de correlations entre variables

    aleatoires (que nous nallons pas explorer dans ce cours).

    Tel quindique plus tot, lajustement statistique R2 est defini independamment des hy-

    pothe`ses statistiques derrie`re le mode`le.

    Nous venons de voir (dans lencadre precedant) quil y a un lien stricte dans le mode`le

    de regression simple entre le R2 et le coefficient de correlation entre la variable

    dependante Y et la variable explicative X .

    Le R2 a aussi une autre interpretation statistique. On peut lutiliser pour tester lhy-

    pothe`se nulle de labsence de relation entre la variable explicative (les variables expli-

    catives a` part la constante dans le mode`le de regression multiple). Voir Giles (2013b,

    2013c). Selon Giles, le R2 suit, sous lhypothe`se nulle (et sous lhypothe`se de lho-

    moscedasticite), une distribution Beta.

    Nous allons voir dans le chapitre sur la regression multiple quon peut construire une

    16

  • autre statistique pour tester la meme hypothe`se qui suit une distribution F de Fisher.

    4.3 Lecart type de la regression

    Definissons :

    s2u =1

    (n 2)ni=1

    (ui)2 =

    SSR(n 2) .

    Dans le cas ou` nous supposons une variance constante du terme derreur du mode`le (voir la

    section suivante concernant les hypothe`ses statistiques du mode`le), cest un estimateur non

    biaise de la variance du terme derreur.

    Il sagit du cas ou` les erreurs sont homoscedastiques, ou` donc Var (ui) = 2u, une variance

    constante.

    Notez que cette hypothe`se (variance constante des erreurs) ne fera pas partie des hypothe`ses

    statistiques de base que nous adopterons.

    Nous divison par (n 2) afint dobtenir un estimateur non biaise. Il y a une autre raison pour la division par (n2). On perd deux degres de liberte car il faut

    estimer deux parame`tres inconnus (0 et 1) afin de calculer les residus de la regression.

    Maintenant, definissons :

    su s2u.

    su est lecart type de la regression.

    Lecart type de la regression est un des resultats destimation que fournissent automatique-

    ment la plupart des logiciels econometriques.

    5 Hypothe`ses statistiques de base du mode`le

    A` partir de ce point, nous elaborons quelques proprietes statistiques de lestimateur MCO.

    Elles dependront de certaines hypothe`ses statistiques de base, que voici.

    17

  • Ces hypothe`ses seront cruciales pour montrer les proprietes dabsence de biais et de conver-

    gence.

    Nous en aurons besoin aussi (avec une hypothe`se additionnelle) pour montrer lefficience

    de lestimateur MCO.

    5.1 Esperance conditionnelle nulle de lerreur

    Nous supposons que :

    E (ui|X = Xi) = 0.

    Intuitivement, lhypothe`se nous dit que le fait de connatre la valeur realisee de la variable

    explicative ne donne pas dinformation concernant la valeur de lerreur.

    5.2 Observations i.i.d.

    Nous supposons que :

    (Xi , Yi) , i = 1, 2, . . . , n i.i.d.

    Nous avons deja` vu le concept dobservations i.i.d. dans le chapitre sur la statistique.

    On suppose que nos observations sont independantes et quelles sont identiquement dis-

    tribuees.

    Notez que nous ne faisons pas une hypothe`se concernant le type de distribution qui gene`re

    les observations (normale, exponentielle, paretienne stable, etc.). Tout ce quon suppose

    cest que les observations sont toujours generees par la meme distribution.

    5.3 Les observations aberrantes sont peu probables

    Nous supposons que :

    0 < E(X4)

  • Cette hypothe`se sert a` nous rappeler que lestimateur MCO peut etre sensible aux observa-

    tions aberrantes.

    Il est toujours bon dexaminer les residus afin de detecter la presence de ces observations,

    qui pourraient indiquer des proble`mes comme des erreurs de transcription des valeurs dans

    les donnees, etc.

    Il est important de noter quen presence dobservations aberrantes importantes, la valeur de

    1 peut etre tre`s sensible a` cette ou a` ces valeurs, meme si elles sont peu nombreuses. Intui-

    tement, meme un nombre tre`s faible de ces observations aberrantes peut avoir une influence

    preponderantes sur les valeurs estimees des parame`tres. Dans un tel cas, les estimateurs

    MCO ne seront pas convergents puisquils dependent dun petit nombre dobservations.

    5.4 Notre approche

    Par rapport a` lapproche dans certains manuels de base en econometrie, nous adoptons une

    approche plus generale.

    1. Souvent, la premie`re fois quon presente le mode`le de regression simple, on suppose que

    les observations sur la variable explicative X sont constantes a` travers des echantillons

    differents. Pour deriver les proprietes statistiques de notre estimateur MCO, on peut traiter

    les observations comme des constantes au lieu de les traiter comme des realisations dune

    variable aleatoire. Lalge`bre est plus facile, mais cest beaucoup moins realiste.

    2. Souvent, lorsquon presente le mode`le de base, on suppose aussi que la variance condition-

    nelle du terme derreur est egale a` sa variance non conditionnelle et quelle est constante.

    Autrement dit,

    Var (ui|X = Xi) = Var (ui) = 2u.

    Lavantage de ces hypothe`ses simplificatrices est de simplifier lalge`bre. On arrive a` une

    expression plus simple pour la variance echantillonnale de nos estimateurs MCO. Mal-

    heureusement, ce sont des hypothe`ses qui tiennent rarement dans les donnees utilisees par

    19

  • les econome`tres appliques. Cette hypothe`se nest pas retenue ici, ce qui va mener a` une

    expression plus compliquee mais plus generale pour la variance echantillonnale de nos es-

    timateurs.

    3. Souvent, lorsquon presente le mode`le de base, on suppose que le terme derreur est dis-

    tribue selon une loi normale. Ceci permet de faire de linference exacte (voir le chapitre sur

    les tests dhypothe`se pour une definition). Cette hypothe`se nest pas retenue ici.

    4. Au lieu de supposer la normalite, nous allons faire lhypothe`se que les echantillons de

    donnees que nous avons a` notre disposition sont assez grandes pour que les statistiques

    utilisees pour faire des tests dhypothe`se soient approximatiement distribuees selon une loi

    normale.

    6 Proprietes statistiques de lestimateur

    6.1 Absence de biais de lestimateur

    6.1.1 1

    Nous avons :

    1 =

    ni=1

    (Xi X

    ) (Yi Y

    )ni=1

    (Xi X

    )2=

    ni=1

    (Xi X

    ) (0 + 1Xi + ui 0 1X u

    )ni=1

    (Xi X

    )2=1n

    i=1

    (Xi X

    )2+n

    i=1

    (Xi X

    )(ui u)n

    i=1

    (Xi X

    )2= 1 +

    ni=1

    (Xi X

    )(ui u)n

    i=1

    (Xi X

    )2= 1 +

    ni=1

    (Xi X

    )uin

    i=1

    (Xi X

    )2 . Ceci montre que lestimateur est egal a` sa vraie valeur plus un terme qui depend du produit

    20

  • des erreurs avec les ecarts des Xi par rapport a` leurs moyennes echantillonnales.

    Notez ce que lon fait pour passer de la premie`re ligne a` la deuxie`me. On substitut Yi

    utilisant sa valeur si le mode`le de regression est literalement vrai. Cela fait apparatre les

    vraies valeurs de 0 et de 1, et fait apparatre aussi lerreur (la vraie et non le residu). On

    fera souvent une substitution semblable lorsquon veut analyser les proprietes statistiques

    dun estimateur.

    Maintenant, il sagit de calculer la valeur esperee de cette expression :

    E(1

    )= 1 + E

    (ni=1

    (Xi X

    )uin

    i=1

    (Xi X

    )2)

    = 1 + E

    (E

    (ni=1

    (Xi X

    )uin

    i=1

    (Xi X

    )2)|X1, X2, . . . Xn

    )

    = 1 + E

    (ni=1

    (Xi X

    )E (ui|X1, X2, . . . Xn)n

    i=1

    (Xi X

    )2)

    = 1 + E

    (ni=1

    (Xi X

    )E (ui|Xi)n

    i=1

    (Xi X

    )2)

    = 1.

    Pour passer de la premie`re ligne a` la deuxie`me dans cette suite degalites, nous avons utilise

    la loi des esperances iterees, qui dit que pour nimporte quelle variable aleatoire Y ,

    E (E (Yi|Xi)) = E (Yi) .

    Nous lavons tout simplement applique a` la variable aleatoire qui est

    ni=1

    (Xi X

    )uin

    i=1

    (Xi X

    )2 . Pour passer de la deuxie`me a` la troisie`me ligne, il faut noter que les esperances desX condi-

    tionnelles aux valeurs des X ne sont plus stochastiques. Nous pouvons les traiter comme

    21

  • des constantes et les ecrire du cote gauche de loperateur desperance conditionnelle. Ce

    faisant, loperateur desperance conditionnelle sapplique uniquement au terme derreur ui.

    La dernie`re egalite suit directement de nos hypothe`ses de base concernant le mode`le, dont

    une stipule que E (ui|Xi) = 0.

    6.1.2 0

    Nous avons :

    E(0

    )= E

    (Y 1X

    )= E

    (0 + 1X +

    1

    n

    ni=1

    ui 1X)

    = 0 + E(1 1

    )X +

    1

    n

    ni=1

    E (ui)

    = 0 +1

    n

    ni=1

    E (E (ui|Xi))

    = 0,

    ou` encore une fois nous avons utilise la loi des esperances iterees :

    E (ui) = E (E (ui|Xi)) .

    Ici, jai suivi la reponse a` la question 4.7 du manuel. Il nest pas forcement evident que

    E(1 1

    )X = 0,

    puisque X doit etre considere comme une variable aleatoire. Il faut remonter a` labsence

    de biais de 1, ou` on a montre que

    1 1 = n

    i=1

    (Xi X

    )uin

    i=1

    (Xi X

    )2 .22

  • Donc, on a

    E(1 1

    )X = E

    (ni=1

    (Xi X

    )uin

    i=1

    (Xi X

    )2)X

    = E(X

    (ni=1

    (Xi X

    )E (ui|Xi)n

    i=1

    (Xi X

    )2))

    = 0.

    Encore une fois, nous avons utilise la loi des esperances iterees.

    6.2 Convergence de lestimateur

    Nous allons remettre ce sujet a` un peu plus tard. En calculant les proprietes echantillonnales

    de lestimateur, nous allons montrer que sa variance decrot avec la taille de lechantillon

    n.

    Si cest le cas, nous avons a` toutes fins pratiques montre sa convergence. Nous avons montre

    labsence de biais, et la variance converge a` zero lorsque n tend vers linfini.

    6.3 Efficience de lestimateur

    Pour montrer lefficience de lestimateur MCO, nous aurons besoin dune hypothe`se addi-

    tionnelle, que le terme derreur du mode`le de regression est homoscedastique, ce qui veut

    dire a une variance constante.

    Si ce nest pas le cas, et si nous connaissons de quoi depend la variance du terme derreur, il

    peut etre possible de trouver un estimateur plus efficient que lestimateur MCO. Il sagit de

    lestimateur moindres carres generalises (generalised least squares ou GLS en anglais),

    que nous naurons pas loccasion detudier en detail dans ce cours. Voir le chapitre 15 du

    manuel.

    Une preuve detaillee du theore`me Gauss-Markov se trouve dans lecadre qui suit. Nous

    naurons probablement pas le temps de voir cette preuve en detail dans le cours. Je vous

    invite fortement a` la lire et a` la comprendre.

    23

  • 6.3.1 Theore`me Gauss-Markov

    Il sagit dune preuve que lestimateur 1 est lestimateur le plus efficient parmi les

    estimateurs qui sont lineaires en Yi.

    Rappelons dabord les hypothe`ses qui doivent tenir pour demontrer le theore`me Gauss-

    Markov.

    1. E (ui|X1, . . . , Xn) = 0 .

    2. Var (ui|X1, . . . , Xn) = 2u, 0 < 2u

  • de 1 est donnee par

    Var(1|X1, . . . , Xn

    )=

    2uni=1

    (Xi X

    )2 . Nous avons aussi montre que lestimateur 1 est conditionnellement non biaise.

    Maintenant, considerons nimporte quel estimateur lineaire

    1 =ni=1

    aiYi

    et qui satisfait la propriete

    E(1|X1, . . . , Xn

    )= 1.

    Nous avons

    1 =ni=1

    aiYi

    =ni=1

    ai (0 + 1Xi + ui)

    = 0

    ni=1

    ai + 1

    ni=1

    aiXi +ni=1

    aiui.

    Nous avons aussi

    E

    (ni=1

    aiui|X1, . . . , Xn)

    =ni=1

    aiE (ui|X1, . . . , Xn) = 0.

    De cette facon, nous avons

    E(1|X1, . . . , Xn

    )= 0

    (ni=1

    ai

    )+ 1

    (ni=1

    aiXi

    ).

    25

  • Par hypothe`se, notre estimateur est conditionnellement non biaise et donc il faut que

    0

    (ni=1

    ai

    )+ 1

    (ni=1

    aiXi

    )= 1.

    Pour que cette egalite tienne pour des valeurs quelconques de 0 et de 1 il faut que

    ni=1

    ai = 0

    etni=1

    aiXi = 1.

    Nous avons donc

    1 = 0

    ni=1

    ai + 1

    ni=1

    aiXi +ni=1

    aiui = 1 +ni=1

    aiui.

    Calculons la variance conditionnelle de 1. Nous avons

    Var(1|X1, . . . , Xn

    )= Var

    (ni=1

    aiui|X1, . . . , Xn)

    =ni=1

    Var (aiui|X1, . . . , Xn) + 2i

  • Definissons

    di ai ai

    Nous avons

    ni=1

    ai2 =

    ni=1

    (ai + di)2 =

    ni=1

    a2i + 2ni=1

    aidi +ni=1

    di2.

    Maintenant, il faut utiliser la definition des ai qui est donnee ci-dessus. Nous avons

    ni=1

    aidi =

    ni=1

    (Xi X

    )din

    i=1

    (Xi X

    )2=

    ni=1Xidi X

    ni=1 din

    i=1

    (Xi X

    )2=

    ni=1Xi (ai ai) X

    ni=1 (ai ai)n

    i=1

    (Xi X

    )2=

    (n

    i=1 Xiai n

    i=1Xiai) X (n

    i=1 ai n

    i=1 ai)ni=1

    (Xi X

    )2= 0.

    La dernie`re egalite tient puisque les deux estimateurs 1 et 1 sont conditionnellement

    non biaises et pour cette raison il faut que

    (ni=1

    Xiai ni=1

    Xiai

    )=

    ni=1

    ai =ni=1

    ai = 0.

    Finalement, nous avons donc

    Var(1|X1, . . . , Xn

    )

    = 2u

    ni=1

    ai2

    27

  • = 2u

    (ni=1

    a2i +ni=1

    di2

    )

    = Var(1|X1, . . . , Xn

    )+ 2u

    ni=1

    di2

    Var(1|X1, . . . , Xn

    ) Var

    (1|X1, . . . , Xn

    )= 2u

    ni=1

    di2 > 0

    si i tel que di 6= 0. Si di = 0,i, lestimateur 1 est tout simplement lestimateurMCO.

    Il y a aussi une preuve du theore`me Gauss-Markov dans le cadre du mode`le de

    regression multiple dans le chapitre suivant. Vous allez constater (jespe`re) que la

    preuve, qui utilise une notation matricielle, est plus simple que la preuve ici. Notez

    que nous navons pas demontre lefficience de lestimateur 0.

    6.4 Erreur quadratique moyenne

    Cette section est une peu plus ardue que les autres. Sa lecture est facultative.

    Nous avons vu que lefficience dun estimateur est un concept relatif. Un estimateur est

    plus efficient quun autre si les deux estimateurs sont non biaises et que le premier a une

    variance moins elevee que le deuxie`me.

    Une autre facon de comparer deux estimateurs est de comparer leurs erreurs quadratiques

    moyennes. Nous avons deja` vu ce concept dans le chapitre sur la statistique.

    Voici la definition de lerreur quadratique moyenne dun estimateur quelconque :

    EQM() E

    ((

    )2).

    Il sagit de lesperance de lecart au carre entre la valeur de lestimateur et sa vraie valeur.

    28

  • Cest une mesure assez intuitive de la precision dun estimateur.

    Nous pouvons montrer que lerreur quadratique moyenne est la somme de la variance de

    lestimateur et du biais de lestimateur au carre. Autrement dit,

    EQM()

    = Var()

    +(

    E(

    ))2.

    Voici la preuve. Nous savons que pour une variable aleatoire quelconque X ,

    Var (X) = E(X2) (E (X))2 .

    Cette formule sapplique aussi a` la variable aleatoire(

    ). Donc nous avons

    Var(

    )= E

    ((

    )2)(

    E(

    ))2

    E((

    )2)

    = Var(

    )+(

    E(

    ))2 E

    ((

    )2)= Var

    ()

    +(

    E(

    ))2,

    ce qui fut a` montrer, puisque

    Var(

    )= Var

    ()

    du au fait que nest pas une variable aleatoire.

    Le crite`re de lerreur moyenne quadratique permet de comparer deux estimateurs qui ne

    sont pas forcement non biaises.

    Il permet aussi de montrer quil peut y avoir dans certaines circonstances un arbitrage entre

    le biais dun estimateur (un plus grand biais est mauvais) et la variance de lestimateur

    (une plus grande variance est mauvaise). Il y a des estimateurs qui sont biaises mais qui

    ont neanmoins une erreur quadratique moyenne inferieure a` nimporte quel estimateur non

    29

  • biaise justement parce quils ont une variance tre`s faible.

    Nous nallons pas mettre beaucoup daccent sur la EQM dans le cours. Dans le contexte

    du mode`le de regression lineaire et lestimateur MCO, le concept defficience est plus au

    centre de lanalyse puisque, sous des hypothe`ses relativement faibles, lestimateur MCO

    est non biaise.

    Les articles de Giles (2013d, 2013e) portent sur lerreur quadratique moyenne dans le

    contexte du mode`le de regression simple.

    Il etudie le mode`le de regression simple sans constante :

    Yi = Xi + ui,

    ou` les Xi sont non aleatoires et ou` on a ui i.i.d. (0, 2) (les erreurs sontindependamment et identiquement distribuees avec moyenne nulle et variance egale

    a` 2). (Le fait de travailler avec des Xi non stochastiques et dimposer une hypothe`se

    concernant lesperance non conditionnelle des erreurs simplifie lanalyse.)

    Il montre que si on minimise lerreur quadratique moyenne, lestimateur quon

    obtient depend de lui-meme, qui est non observable. Donc, cest un estimateur qui

    est non operationnel , cest a` dire que nous pouvons meme pas calculer.

    Dans son deuxie`me article (2013e), Giles montre quil est possible de trouver un es-

    timateur operationnel ( operationnel veut dire que nous pouvons effectivement le

    calculer avec les donnees que nous avons) si on minimise une combinaison lineaire de

    la variance et du biais de lestimateur. Le proble`me peut secrire

    minQ =

    Var

    ()

    2

    + (1 )(

    E(

    ))

    2 .

    La fonction objectif est une somme ponderee de la variance relative (par rapport a` la

    30

  • variance de lerreur) et du biais au carre relatif (par rapport a` la vraie valeur de ) de

    lestimateur .

    La solution a` ce proble`me (que nous allons calculer un peu plus loin) est

    = (1 )ni=1Xi2

    + (1 )ni=1Xi2ou` est lestimateur MCO. On peut facilement calculer cet estimateur pour une valeur

    donnee de .

    Pour = 0 nous avons = . Autrement dit, si on met tout le poids sur la minimisation

    du biais au carre, on obtient lestimateur MCO, qui nest pas biaise.

    Pour > 0, || < ||. Lestimateur est plus pre`s de zero. (Cest un exemple de cequon appelle un shrinkage estimator en anglais.)

    Cette solution est un peu difficile a` montrer. Commencons par definir comme un

    estimateur lineaire quelconque :

    ni=1

    aiYi

    pour des constantes quelconques ai.

    Cette definition nous donne immediatement

    E()

    = E

    (ni=1

    ai (Xi + ui)

    )

    = ni=1

    aiXi + E

    (ni=1

    aiui

    )

    = ni=1

    aiXi

    E(

    )=

    (ni=1

    aiXi 1)

    31

  • puisque nous avons fait lhypothe`se que lesXi sont non stochastiques et que E (ui) = 0.

    La variance de lestimateur est donnee par

    Var()

    =ni=1

    ai2Var (Yi) = 2

    ni=1

    ai2

    pusque nous faisons lhypothe`se que la variance des erreurs est constante.

    Notre proble`me de minimisation peut donc secrire

    minai

    Q =

    (2n

    i=1 ai2

    2

    )+ (1 )

    (n

    i=1 (aiXi 1)

    )2

    ou bien

    minai

    Q =

    (ni=1

    ai2

    )+ (1 )

    (ni=1

    (aiXi 1))2

    .

    Les variables de choix du proble`me sont les ai et non lui-meme.

    En choisissant notre fonction objectif comme une somme ponderee de la variance re-

    lative de lestimateur et du biais au carre relatif, nous avons reussi a` eliminer les pa-

    rame`tres non observables ( et 2) du proble`me.

    Pour un ai quelconque la condition du premier ordre secrit

    Q

    ai= 0 = 2ai + 2 (1 )Xi

    (nj=1

    ajXj 1)

    ai + (1 )Xi(

    nj=1

    ajXj 1)

    = 0.

    Multiplions cette expression par Yi et calculons la somme a` travers les n termes en ai.

    Nous obtenons

    aiYi + (1 )XiYi(

    nj=1

    ajXj 1)

    = 0

    32

  • ni=1

    aiYi + (1 )ni=1

    XiYi

    (nj=1

    ajXj 1)

    = 0

    + (1 )ni=1

    XiYi

    (nj=1

    ajXj 1)

    = 0 (1)

    puisque nous avons defini au depart notre estimateur comme ni=1 aiYi. Nous pouvons aussi multiplier chaque CPO par Xi et calculer la somme a` travers les n

    termes, ce qui donne

    aiXi + (1 )Xi2(

    nj=1

    ajXj 1)

    = 0

    ni=1

    aiXi + (1 )ni=1

    Xi2

    (nj=1

    ajXj 1)

    = 0

    nj=1

    ajXj + (1 )ni=1

    Xi2

    (nj=1

    ajXj 1)

    = 0

    (par un simple changement dindice)

    nj=1

    ajXj + (1 )ni=1

    Xi2

    nj=1

    ajXj (1 )ni=1

    Xi2 = 0

    nj=1

    ajXj

    ( + (1 )

    ni=1

    Xi2

    )=

    ((1 )

    ni=1

    Xi2

    )

    nj=1

    ajXj =

    ((1 )ni=1Xi2)(

    + (1 )ni=1 Xi2) . Maintenant, substituons cette solution pour

    nj=1 ajXj dans lequation (1) et simpli-

    fions :

    + (1 )ni=1

    XiYi

    ( ((1 )2i=1Xi2)(

    + (1 )2i=1 Xi2) . 1)

    = 0

    33

  • = (1 )ni=1

    XiYi

    ( + (1 )ni=1Xi2 (1 )ni=1Xi2(

    + (1 )2i=1Xi2))

    = (1 )ni=1

    XiYi

    ((

    + (1 )2i=1Xi2))

    =ni=1

    XiYi

    ((1 )(

    + (1 )2i=1Xi2))

    =n

    i=1XiYini=1Xi

    2

    (1 )ni=1Xi2 + (1 )2i=1 Xi2

    = (1 )ni=1Xi2

    + (1 )2i=1Xi2. Ceci est le cas puisque pour ce mode`le lestimateur MCO est donne par (exercice)

    =

    ni=1 XiYini=1Xi

    2 .

    7 Proprietes echantillonnales de lestimateur

    Dans cette section, le but principal de lexercice est de deriver la variance (et par extension

    lecart type) de nos estimateurs MCO 0 et 1.

    Les ecarts types de 0 et de 1 font partie de loutput standard de nimporte quel logiciel

    de regression.

    Cet exercice est crucial afin de pouvoir effectuer des tests dhypothe`se concernant les coef-

    ficients et aussi afin de pouvoir calculer des intervalles de confiance pour les estimes.

    Nous avons :

    1 = 1 +

    ni=1

    (Xi X

    )uin

    i=1

    (Xi X

    )2

    34

  • = 1 +1n

    ni=1

    (Xi X

    )ui

    1n

    ni=1

    (Xi X

    )2 . Dabord, travaillons avec le numerateur.

    Nous avons deja` vu que

    Xp X ,

    ce qui veut dire que la moyenne echantillonnale converge en probabilite a` la moyenne dans

    la population. Donc, pour des echantillons assez grands, nous avons

    1

    n

    ni=1

    (Xi X

    )ui 1

    n

    ni=1

    (Xi X)ui v 1n

    ni=1

    vi.

    La variable aleatoire vi que nous venons de definir satisfait les proprietes suivantes :

    1. E (vi) = 0 ;

    2. vi est i.i.d. ;

    3. 2v

  • et, (1 1

    )d N

    (0 ,

    2v

    n (2X)2

    ) Notez tre`s bien ce que nous venons de faire. Nous avons montre la convergence en dis-

    tribution du numerateur, et la convergence en probabilite du denominateur, et par la suite

    nous avons saute tout de suite a` la convergence en distribution du ratio des deux.

    Ceci est un tour de passe-passe que nous pouvons employer lorsque nous parlons de pro-

    prietes asymptotiques (proprietes en grand echantillon) de nos statistiques. Notez que nous

    ne pouvons pas le faire lorsquil sagit desperances. Par exemple,

    E(X

    Y

    )6= E(X)

    E(Y )

    sauf dans le cas de variables aleatoires independantes.

    Par contre, sous certaines hypothe`ses, nous avons

    Xp X , Y p Y X

    Y

    p XY

    ,

    et

    Xd N (X , 2X) , Y p Y XY d N

    (XY

    ,

    (1

    Y

    )22X

    ).

    Nous avons utilise le Theore`me de Slutsky, un des theore`mes les plus utiles en theorie

    des probabilites. Il permet de scinder des expressions compliquees de variables aleatoires

    (produits ou ratios) en morceaux. Si nous pouvons montrer la convergence des morceaux,

    la convergence de lexpression suit immediatement.

    Nous aurons frequemment loccasion dutiliser une version de ce theore`me. Pour plus de

    details, voir le chapitre des notes sur le mode`le de regresson multiple.

    Notez que la variance de 1 decrot avec n et tend vers zero lorsque n tend vers lin-

    fini. Lorsquon parle de convergence en distribution, on utilise normalement une variable

    aleatoire normalisee de telle facon a` ce sa variance ne diminue pas avec la taille de lechan-

    36

  • tillon. Pour cette raison, il serait conventionnel de dire que :

    n(1 1

    )d N

    (0 ,

    2v

    (2X)2

    )

    Maintenant, definissons

    21

    2v

    n (2X)2 .

    Maintenant, si nous divisons(1 1

    )par la racine carree de 2

    1, nous obtenons une

    statistique qui converge en distribution vers une loi normale centree reduite :

    (1 1

    )21

    (1 1

    )1

    d N (0 , 1) .

    Notez que nous venons de montrer a` toutes fins pratiques la convergence de lestimateur

    MCO de 1. Nous avions deja` montre que lestimateur MCO est non biaise. Maintenant,

    nous venons de montrer que la variance de notre estimateur tend vers zero lorsque la taille

    de lechantillon tend vers linfini. Autrement dit,

    limn

    21

    = 0.

    Nous avons tous les prerequis pour conclure que lestimateur MCO de 1 converge en

    probabilite a` sa vraie valeur.

    7.1 Estimateur convergent de 21

    La variance de la variable aleatoire v definie ci-dessus nest generalement pas connue, la

    variance de X non plus.

    Nous savons maintenant que nous pouvons remplacer un moment inconnu de la population

    par un estimateur convergent de ce moment.

    37

  • Definissons :

    21 1n

    1n2

    ni=1

    (Xi X

    )2(ui)

    2(1n

    ni=1

    (Xi X

    )2)2 Ensuite, definissons lecart type estime de 1 comme

    SE(1

    )21.

    La plupart des logiciels de regression calculent cet ecart type. Il faut, par contre, verifier si

    loption par defaut est de calculer cet ecart type robuste (robuste a` la presence de lhetero-

    scedasticite) ou plutot de calculer lecart type qui suppose lhomoscedasticite.

    7.2 Estimateur convergent de 21

    en cas dhomoscedasticite

    Si nous sommes prets a` supposer que

    Var (ui|X = Xi) = Var (ui) = 2u,

    nous pouvons remplacer lestimateur convergent de 21

    par

    21 1n

    1n1

    ni=1 (ui)

    2

    1n

    ni=1

    (Xi X

    )2 . Jai utilise la notation lege`rement differente 2

    1pour distinguer entre le cas general (lors-

    quon ne suppose pas lhomoscedasticite) ou` on utilise un estimateur robuste de la

    variance et le cas particulier ou` on suppose lhomoscedasticite.

    Le manuel est parmi les seuls a` utiliser lestimateur robuste comme lestimateur par defaut.

    Beaucoup de manuels presentent le cas homoscedastique comme le cas de base et montre

    par la suite quest-ce qui arrive si lhypothe`se dhomoscedasticite ne tient pas. Je partage

    lopinion des auteurs que lhomoscedasticite est une hypothe`se forte qui risque de ne pas

    tenir dans le cas de beaucoup dapplications empiriques, et que, pour cette raison, il est

    38

  • bien denseigner le cas general et lestimateur robuste comme loption par defaut dun

    econome`tre applique.

    Lorsquon utilise un logiciel de regression comme R, STATA ou GRETL, il faut lire attenti-

    vement la documentation pour savoir quelle est loption par defaut utilisee pour estimer la

    matrice variance-covariance des coefficients estimes. Dans la plupart des cas loption par

    defaut suppose lhomoscedasticite et il faut specifier loption robuste ou lequivalent

    si vous netes pas prets a` supposer lhomoscedasticite, ce qui sera generalement le cas.

    Les ecarts types robustes peuvent etre plus grands ou plus petits que les ecarts types non ro-

    bustes. Pour une explication plus detaillee et une illustration dans un cas tre`s simple, voir Auld

    (2012). Auld demontre les points suivants.

    1. En presence dheteroscedasticite, si la variance des erreurs nest pas fortement correlee

    avec la variable explicative du mode`le (X), il y aura peu de difference entre lecart

    type calcule avec la methode robuste et lecart type calcule sous lhypothe`se de lho-

    moscedasticite.

    2. Si la variance des erreurs augmente pour des valeurs des Xi qui sont loin de leur

    moyenne echantillonnale X , lecart type calcule avec la methode non robuste (sup-

    posant lhomoscedasticite) sera biaise vers zero (trop petit). Lecart type calcule avec

    la methode robuste sera en general plus grand que lecart type non robuste.

    3. Si la variance des erreurs est plus grande pour des valeurs des Xi qui sont pre`s de leur

    moyenne echantillonnale X , lecart type calcule avec la methode non robuste (suppo-

    sant lhomoscedasticite) sera biaise et sera en moyenne trop grand. Lecart type calcule

    avec la methode robuste sera en general plus petit que lecart type non robuste.

    4. Avec les donnees reeles on rencontre plus souvent le cas ou` lecart type non robuste est

    baisie vers zero (est trop petit). Donc, typiquement les ecarts types robustes sont plus

    eleves que les ecarts types non robustes.

    39

  • 7.3 Detecter lheteroscedasticite

    Il peut etre important de pouvoir detecter la presence derreurs heteroscedastiques. Il y

    a des tests formels, 2 mais il y a aussi des methodes moins formelles que les chercheurs

    appliques peuvent utiliser.

    Une facon simple serait de creer, une fois le mode`le estime, un graphique avec les Xi sur

    laxe horizontal et les residus carres u2i sur laxe vertical.

    Une relation evidente entre les deux (par exemple, des valeurs de u2i qui semblent augmen-

    ter avec les valeurs de Xi ou semblent diminuer avec les valeurs de Xi) est un signe clair

    de la presence dheteroscedasticite.

    Une autre facon serait, une fois le mode`le estime, destimer une regression ou` on prend

    les residus carres comme variable dependante et Xi comme variable explicative, ou des

    fonctions non lineaires des Xi. Par exemple,

    u2i = 0 + 1Xi + i

    ou encore

    u2i = 0 + 1Xi2 + i.

    Lidee est destimer les valeurs de 0 et de 1 par MCO. Soit 1 la valeur estimee du coef-

    ficient 1 Une valeur significative de 1 (voir la section suivante sur les tests dhypothe`se)

    serait un indice clair de la presence dheteroscedasticite. 3 Nous allons revenir sur cette

    question et sur quelques tests formels pour detecter lhomoscedasticite dans le chapitre sur

    la regression multiple.

    2. Nous verrons certains de ces tests formels dans le chapitre sur le mode`le de regression multiple.3. Notez quil ne sagit pas dun test formel avec des proprietes statistiques connues. Il faut interpreter le resultat

    du test a` titre indicatif seulement. Par contre, le test formel appele test Breusch-Pagan est essentiellement base sur uneregression de ce type.

    40

  • 8 Tests dhypothe`se

    8.1 Approche general

    Le principe de base pour tester des hypothe`ses simples est presquidentique a` ce que nous

    avons vu dans le chapitre sur linference statistique.

    Lhypothe`se nulle specifie generalement que le coefficient dinteret (qui peut etre 0 ou

    1 prend une certaine valeur. Lhypothe`se alternative peut etre bilaterale ou unilaterale,

    dependant du contexte.

    Dabord, il faut creer une statistique normalisee qui a une moyenne nulle et une variance

    unitaire sous lhypothe`se nulle. Il sagit dune statistique t meme si en general elle

    nobeit pas a` une loi t de Student. Par exemple :

    t 1 1,0SE

    (1

    )ou` SE

    (1

    )est un estimateur convergent de lecart type du coefficient 1 et 1,0 est la

    valeur que prend le coefficient 1 sous lhypothe`se nulle.

    Si nous sommes prets a` faire lhypothe`se que le terme derreur du mode`le ui obeit a` une loi

    normale avec variance constante, nous pouvons montrer que la statistique t suit une loi t de

    Student. Dans ce cas, bien sur, il est preferable dutiliser la forme homoscedastique pour le

    calcul de lecart type de lestimateur 1.

    Si non, sous les hypothe`ses du mode`le de regression, la statistique t obeit en grand echantillon

    a` une loi normale centree reduite. Voir la section precedente sur les proprietes echantillonnales

    de lestimateur.

    Comme il est habituellement le cas, nous remplacons lecart type dans le denominateur par

    un estimateur convergent.

    Maintenant, nous procedons exactement comme dans le chapitre sur la statistique.

    41

  • 8.2 Hypothe`se alternative bilaterale

    Dabord, si lhypothe`se alternative est bilaterale :

    H1 : 1 6= 1,0,

    nous rejetons lhypothe`se nulle si la statistique calculee est suffisamment loin de zero. La

    p-value du test est donnee par :

    p-value = Pr(|z| > |tact|) = 2 (|tact|)

    ou` tact est la valeur calculee de la statistique et, comme auparavant, (z) est la valeur de la

    distribution normale centree reduite cumulee a` z.

    On appelle appelle communement un test de significativite un test de lhypothe`se nulle

    que la variable explicative nest pas significative, et donc naide pas a` expliquer la variabilite

    de la variable dependante. Dans, ce cas, lhypothe`se nulle est H0 : 1 = 0 et lhypothe`se

    alternative est bilaterale. On peut aussi parler dun test de significativite de la constante

    dans le mode`le de regression simple. Les tests de significativite sont tellement repandus

    que, si loutput fourni par un logiciel deconometrie donne les statistiques t associees

    aux coefficients estimes, il sagit de statistiques appropriees pour tester lhypothe`se nulle

    que le coefficient est egal a` zero.

    8.3 Hypothe`se alternative unilaterale

    Ensuite, si lhypothe`se alternative est unilaterale, il faut distinguer entre les deux cas pos-

    sibles.

    1. Dabord,

    H1 : 1 > 1,0.

    Nous rejetons lhypothe`se nulle si la statistique calculee est suffisamment positive. La

    42

  • p-value du test est donnee par :

    p-value = Pr(z > tact

    )= 1 (tact) .

    2. La deuxie`me possibilite est :

    H1 : 1 < 1,0.

    Nous rejetons lhypothe`se nulle si la statistique calculee est suffisamment negative. La

    p-value du test est donnee par :

    p-value = Pr(z < tact

    )=

    (tact).

    9 Intervalles de confiance pour les coefficients

    Le principe est identique que pour lestimateur de la moyenne de la population que nous

    avons vu dans le chapitre sur linference statistique.

    Pour calculer les deux bornes de lintervalle de confiance de X%, dabord on cherche la

    valeur de z > 0 tel que

    (z) = 1X/1002

    .

    Donc, on cherche la valeur de z > 0 pour laquelle (100X)2

    % de la distribution normale

    centree reduite se trouve a` gauche de z. Cela veut dire bien sur que (100X)2

    % de la distri-

    bution normale centree reduite se trouve a` droite de z.

    Nous avons (pour 1 : le principe pour 0 est identique) :

    X

    100= Pr

    (z 1 1

    1 z)

    = Pr(z1

    (1 1

    ) z1

    )

    43

  • = Pr(z1

    (1 1

    ) z1

    )= Pr

    (1 z1 1 1 + z1

    ),

    ou` 1 SE(1

    ), notre estimateur convergent de lecart type de 1.

    Cela implique que lintervalle de confiance de X% autour de 1 peut etre ecrit de la facon

    suivante :

    1 z1 ,

    ou`

    (z) = 1X/1002

    .

    9.1 Intervalles de confiance pour les predictions

    Souvent, on estime un mode`le de regression pour predire limpact du changement de la variable

    explicative sur la variable dependante. Par exemple, dans le cadre du mode`le developpe en detail

    dans le manuel, on pourrait vouloir predire limpact sur le rendement scolaire dune reduction de

    la taille moyenne des classes de deux eleves. Soit X le changement propose de la valeur de la

    variable explicative. On a tout de suite

    Yi = 1Xi,

    ou` Yi est le changement predit de la variable dependante. Developper un intervalle de confiance

    dans ce cas est facile. Le changement pose X est connue. On peut le traiter comme une constante,

    et donc nous avons

    Var(

    Yi

    )= Var

    (1Xi

    )= (Xi)

    2 Var(1

    )

    44

  • Donc, procedant de la meme manie`re que pour lintervalle de confiance pour 1 lui-meme on a

    X

    100= Pr

    z Xi(1 1

    )(Xi)1

    z

    = Pr(z (Xi)1 Xi

    (1 1

    ) z (Xi)1

    )= Pr

    (z (Xi)1 Xi

    (1 1

    ) z (Xi)1

    )= Pr

    (z (Xi)1 + Xi1 Xi1 z (Xi)1 + Xi1

    ).

    Donc, lintervalle de confiance pour le changement predit est donne par

    Xi1 z (Xi)1

    Si nous remplacons lecart type de 1 par un estimateur convergent (notre truc habituel), lintervalle

    de confiance peut secrire

    Xi1 z (Xi) 1

    10 Un exemple destimation du mode`le de regression simple

    avec R

    Voici un exemple de comment estimer un mode`le de regression simple avec le logiciel R.

    Lexemple provient de Kleiber et Zeileis (2008, chapitre 3), qui contient une analyse beaucoup plus

    de detaillee. Vous pouvez facilement jouer avec le code une fois que le logiciel est installe. Le but

    du mode`le est de predire la demande pour les abonnements a` des revues scientifiques (abonnements

    par des bibliothe`ques universitaires) ou` la variable explicative est le prix par nombre de citations.

    Le mode`le est

    ln (subsi) = 0 + 1 ln (citepricei) + ui,

    45

  • ou` la variable dependante subsi est le nombre dabonnements a` la revue i (mesure en logs), et la

    variable explicative citepricei est le prix annuel dun abonnement divise par le nombre de citations

    annuel darticles publies dans la revue (mesure aussi en logs). Notez que le choix de mesurer les

    deux variables en logs est celui des auteurs. Nous allons revenir sur cette question dans le chapitre

    sur les mode`les de regression non lineaires. 4

    Les donnees sont dans une banque de donnees qui sappelle Journals . Il sagit de

    donnees (avec n = 180) sur les abonnements par des bibliothe`ques universitaires a` des revues

    scientifiques. La taille de lechantillon est le nombre de revues dans lechantillon.

    Afin deffectuer lestimation dun mode`le de regression simple de base et afin deffec-

    tuer tous les calculs et tous les tests, il faut non seulement la version de base de R mais

    aussi les packages AER (qui contient les donnees utilisees pour estimer le mode`le),

    lmtest, sandwich et zoo (ces trois packages permettent de calculer les ecarts types ro-

    bustes du mode`le estime et deffectuer des tests dhypothe`se utilisant les ecarts types ro-

    bustes). Si les packages ne sont pas deja` installes, il faut les installer avec la commande

    install.packages() :

    install.packages("AER")

    install.packages("lmtest")

    install.packages("zoo")

    install.packages("sandwich")

    Notez que sous Linux il est preferable dinstaller le package comme administrateur du syste`me

    ou super-utilisateur. Pour le faire, invoquer le logiciel R avec la commande sudo R.

    Une fois les packages installes, on peut proceder a` charger les donnees et estimer le mode`le

    par MCO. Dans le code R qui suit, jajoute des commentaires pour expliquer ce que font les

    4. Entretemps, a` moins davis contraire, je vous demande dutiliser des variables non transformees dans les exer-cices empiriques.

    46

  • commandes. Les lignes precedees par # sont des commentaires.

    R> # Charger les donnees.

    R> library("AER")

    R> data("Journals")

    R> # Permettre dappeler les variables directement par leurs

    noms.

    R> attach(Journals)

    R> # Calculer des statistiques descriptives concernant les

    variables.

    R> # summary(Journals)

    R> # Creer une base de donnees avec un sous-ensemble des

    variables.

    R> journals # Ajouter le prix par citation a` la base de donnees

    restreinte.

    R> journals$citeprice # Permettre dappeler les variables dans journals

    directement.

    R> attach(journals)

    R> # Produire un nuage de points avec les abonnements et le

    prix par citation.

    R> plot(log(subs) log(citeprice), data = journals)R> # Estimer le mode`le par MCO utilisant la commande lm().R> # Les resultats sont stockes dans lobjet jour lm.

    R> jour lm # Ajouter la ligne de regression estimee au nuage de

    47

  • points.

    R> abline(jour lm)

    R> # Calculer des statistiques de base avec loutput de

    lestimation.

    R> summary(jour lm)

    R> # Ouvrir un fichier pour contenir ces statistiques.

    R> # Le nom du fichier est regumm.out .

    R> outfile capture.output(summary(jour lm), file=outfile)

    R> # Fermer le fichier qui contient loutput.

    R> close(outfile)

    Resumons ce que nous avons fait avec ces commandes.

    La commande data() charge la banque de donnees en memoire. La commande journals

  • La commande close() ferme le fichier.

    Les resultats de lestimation sont comme suit.

    Call:

    lm(formula = log(subs) log(citeprice), data = journals)

    Residuals:

    Min 1Q Median 3Q Max

    -2.72478 -0.53609 0.03721 0.46619 1.84808

    Coefficients:

    Estimate Std. Error t value Pr(>|t|)

    (Intercept) 4.76621 0.05591 85.25

  • la valeur associee au premier quartile (la valeur pour laquelle 25% des residus on une valeur

    inferieure), la valeur mediane (qui nest pas forcement egale a` la moyenne), la valeur associee

    au troisie`me quartile, et la valeur maximale. Ces valeurs (surtout les valeurs minimale et maxi-

    male) peuvent etre utiles pour reperer des observations aberrantes.

    Une mise en garde : le code ci-dessus estime le mode`le par MCO utilisant les options

    par defaut. La fonction lm utilise par defaut une hypothe`se dhomoscedasticite. Donc, les

    ecarts types des deux coefficients (0 et 1 dans notre notation) ne sont pas des ecarts types

    robustes. Afin dobtenir des ecarts types robustes a` la presence de lheteroscedasticite, il faut

    utiliser la commande suivante :

    R> coeftest(jour lm, vcov=vcovHC)

    Notez que pour utiliser cette commande, il faut que les packages sandwich, zoo et

    lmtest soit intalles, tel quindique ci-dessus. Il faut aussi charger en memoire les packages

    lmtest (qui va automatiquement charger zoo aussi) et sandwich avant dutiliser la com-

    mande coeftest(), avec les commandes suivantes :

    R> library("lmtest")

    R> library("sandwich")

    Les resultats de cette commande sont comme suit :

    Coefficients:

    Estimate Std. Error t value Pr(>|t|)

    (Intercept) 4.7662 0.0555 85.8

  • les resultats sont semblables ou non.

    Un graphique avec les donnees (variable dependante sur laxe vertical et variable explica-

    tive sur laxe horizontal) et la ligne de regression est la Figure 2 ci-dessous.

    Figure 2

    l

    l

    l

    l

    l

    ll

    l

    lll

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    ll

    l

    l

    l

    l

    l l

    l

    l

    ll l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    lll

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    l

    l

    l

    l

    l

    ll

    l

    l

    l

    l

    l

    ll

    l

    ll

    l

    l

    l l

    ll

    l

    l

    l

    4 2 0 2

    12

    34

    56

    7

    log(citeprice)

    log(s

    ubs)

    11 Le mode`le de regression simple lorsque X est une variable

    dichotomique

    Jusquici, nous avons suppose que la variable explicative dans le mode`le de regression simple,

    X , est une variable aleatoire continue. Il es souvent le cas que la variable explicative est une

    variable qualitative qui ne peut prendre que deux valeurs : oui ou non, vrai ou faux, present ou

    51

  • absent, etc.

    On peux representer ces deux valeurs possibles de la variable explicative variable dichotomi-

    que par soit 0 soit 1. Dans lexample du livre, limpact de la taille des classes sur le rendement

    scolaire dans les conseils scolaires en Californie, on aurait pu avoir des donnees sur la taille des

    classes ou` Di = 1 pour des ratios ele`ves/professeurs inferieurs a` 20 est Di = 0 pour des ratios

    ele`ves/professeurs au moins egaux a` 20.

    Dans ces cas, 1 na pas linterpretation dun coefficient de pente. Il a linterpretation de la

    moyenne conditionnelle de la variable dependante Y lorsque Di = 1. Lordonnee 0 a lin-

    terpretation de la moyenne conditionnelle de Y lorsque Di = 0. Donc, 1 a linterpretation de

    la difference entre les moyennes de deux populations ou plutot de sous-populations.

    Algebriquement, nous avons

    Yi = 0 + 1Xi + ui

    E (Yi|Xi = 0) = 0 + 1 0 + E (ui|Xi = 0) = 0

    et

    E (Yi|Xi = 1) = 0 + 1 1 + E (ui|Xi = 1) = 0 + 1.

    On ecrit dans le manuel quil y a equivalence entre dune part estimer le mode`le de regression

    simple par MCO avec une variable explicativeX et dautre part calculer les moyennes echantillon-

    nales des sous-echantillons. Dans lencadre qui suit, je montre cette equivalence. Je montre aussi

    lequivalence entre tester la significativite du coefficient estime 1 et tester la significativite de la

    difference entre deux moyennes.

    Le mode`le avec une variable explicative dichotomique peut secire

    Yi = 0 + 1Di + ui,

    ou` Di prend deux valeurs possibles, soit 0 soit 1. Soit n1 le nombre dobservations pour les-

    52

  • quelles Di = 1 et soit n0 le nombre dobservations pour lesquelles Di = 0. Il est clair que

    D 1n

    ni=1

    Di =n1n.

    Lestimateur 0 est donne par la formule habituelle

    0 = Y 1D.

    Lestimateur 1 est donne par la formule habituelle

    1 =

    ni=1

    (Yi Y

    ) (Di D

    )ni=1

    (Di D

    )2 .Dans ce cas, avec Di une variable dichotomique, nous avons

    ni=1

    (Di D

    )2

    =

    n0i=1

    D2 +

    n1i=1

    (1 D)2

    = n0

    (n1n

    )2+ n1

    (1 n1

    n

    )2= n0

    (n1n

    )2+ n1

    (n0n

    )2=n0n1

    2 + n1n02

    n2

    =n0n1 (n0 + n1)

    n2=n0n1n

    .

    Definissons Y 1i la valeur de Yi dans le cas ou` Di = 1. Definissons Y0i la valeur de Yi dans le

    53

  • cas ou` Di = 0. Nous avons

    1 =

    ni=1

    (Yi Y

    ) (Di D

    )n0n1/n

    =

    n1i=1

    (Y 1i Y

    )(1 n1/n)

    n0i=1

    (Y 0i Y

    )(n1/n)

    n0n1/n

    =

    n1i=1

    (Y 1i Y

    )(n0/n)

    n0i=1

    (Y 0i Y

    )(n1/n)

    n0n1/n

    =1

    n1

    n1i=1

    (Y 1i Y

    ) 1n0

    n0i=1

    (Y 0i Y

    )

    =1

    n1

    n1i=1

    Y 1i 1

    n1Y

    n1i=1

    1 1n0

    n0i=1

    Y 0i +1

    n0Y

    n0i=1

    1

    =1

    n1

    n1i=1

    Y 1i n1n1Y 1

    n0

    n0i=1

    Y 0i +n0n0Y

    =1

    n1

    n1i=1

    Y 1i 1

    n0

    n0i=1

    Y 0i .

    Ceci est tout simplement la difference entre la moyenne echantillonnale de Y pour le sous-

    echantillon ou` Di = 1 et sa moyenne echantillonnale pour le sous-echantillon ou` Di = 0.

    Il faut maintenant montrer que 0 est tout simplement egal a` la moyenne echantillonnale

    de Y pour le sous-echantillon ou` Di = 0. Nous avons

    0 = Y n1n

    (ni=1

    (Yi Y

    ) (Di D

    )n0n1/n

    )

    = Y n1n

    (n1i=1

    (Y 1i Y

    )(1 n1/n)

    n0i=1

    (Y 0i Y

    )(n1/n)

    n0n1/n

    )

    = Y n1n

    ( n0n

    n1i=1 Y

    1i n1n

    n0i=1 Y

    0i Y n0n1n + Y n0n1n

    n0n1/n

    )

    = Y n1n

    ( n0n

    n1i=1 Y

    1i n1n

    n0i=1 Y

    0i

    n0n1/n

    )

    54

  • =1

    n

    ni=1

    Yi 1n

    n1i=1

    Y 1i +n1n0n

    n0i=1

    Y 0i

    =1

    n

    (n1i=1

    Y 1i +

    n0i=1

    Y 0i

    ) 1n

    n1i=1

    Y 1i +n1n0n

    n0i=1

    Y 0i

    =

    (1

    n+

    n1n0n

    ) n0i=1

    Y 0i

    =1

    n0

    n0i=1

    Y 0i ,

    ce qui fut a` demontrer. La statistique t pour tester la significativite du coefficient estime 1 est

    donnee par la formule habituelle :

    t =1

    SE(1

    ) .Dans ce cas, nous avons

    t =Y 1 Y 0

    Var(Y 1 Y 0) ,

    =Y 1 Y 0

    Var(Y 1)

    + Var(Y 0) ,

    =

    (Y 1 Y 0) 0

    2Y 1

    n1+

    2Y 0

    n0

    ,

    ou`

    Y 1 1n1

    n1i=1

    Y 1i , Y0 1

    n0

    n0i=1

    Y 0i .

    Cette formule correspond exactement a` la formule derivee dans le chapitre sur la statistique

    et les tests dhypothe`ses pour tester la difference entre les moyennes de deux populations

    differentes.

    Ici, lhypothe`se dheteroscedasticite permet a` la variance de lerreur du mode`le de

    regression de dependre des deux valeurs differentes possibles de Di.

    55

  • 12 Concepts a` retenir

    Comment ecrire le mode`le de regression simple.

    Le proble`me de minimisation auquel lestimateur MCO est une solution.

    Les proprietes algebriques de lestimateur MCO. Il est important de pouvoir suivre les

    demonstrations de ces proprietes et de les comprendre, mais il nest pas necessaire detre

    capable de les reproduire.

    Le concept du R2, et les concepts de somme totale des carres, somme expliquee des carres,

    et somme des residus carres et la relation entre ces sommes.

    Les hypothe`ses statistiques de base du mode`le de regression simple qui sont requises pour

    montrer labsence de biais et la convergence.

    Les hypothe`ses additionnelles necessaires pour montrer lefficience de lestimateur MCO

    (theore`me Gauss-Markov).

    Il faut avoir suivi et compris la derivation des proprietes echantillonnales des coefficients

    estimes.

    Comment tester des hypothe`ses concernant les coefficients estimes du mode`le, contre des

    hypothe`ses alternatives bilaterales ou unilaterales.

    Comment calculer un intervalle de confiance pour les coefficients du mode`le.

    Comment calculer un intervalle de confiance pour un changement predit.

    13 References

    Voir ce lien :

    http://www.er.uqam.ca/nobel/r10735/4272/referenc.pdf

    Dernie`re modification : 28/08/2014

    56

    IntroductionObjectifs du coursLe modle de rgression simpleEstimateur moindres carrs ordinaires (MCO)Proprits algbriques cls de l'estimateur MCOLa somme des rsidus est zroLa valeur moyenne de la variable dpendante prdite est gale la moyenne chantillonnale de la variable dpendanteOrthogonalit entre la variable explicative et les rsidus

    La notion de l'ajustement statistique (R2)L'cart type de la rgression

    Hypothses statistiques de base du modleEsprance conditionnelle nulle de l'erreurObservations i.i.d.Les observations aberrantes sont peu probablesNotre approche

    Proprits statistiques de l'estimateurAbsence de biais de l'estimateur10

    Convergence de l'estimateurEfficience de l'estimateurThorme Gauss-Markov

    Erreur quadratique moyenne

    Proprits chantillonnales de l'estimateurEstimateur convergent de 21Estimateur convergent de 21 en cas d'homoscdasticitDtecter l'htroscdasticit

    Tests d'hypothseApproche gneralHypothse alternative bilatraleHypothse alternative unilatrale

    Intervalles de confiance pour les coefficientsIntervalles de confiance pour les prdictions

    Un exemple d'estimation du modle de rgression simple avec RLe modle de rgression simple lorsque X est une variable dichotomiqueConcepts retenirRfrences