(Econometrie) done

Ass. Cédrick Tombola M. 0

ECONOMETRIE 1

Rappels et recueil d’exercices [résolus]

Sous la supervision du Professeur BOSONGA BOFEKI Licence 1 Economie

C é d r i c k T o m b o l a M . / A s s i s t a n t Copyright © cdktombola-Laréq - mars 2012

UU

PPCC


A travers cette contrée chaotique, des hommes audacieux et tenaces ont lancé le premier chemin de fer de

l’Afrique centrale.

Henry Merton Stanley

N'essayez pas de devenir un homme qui a du succès. Essayez de devenir un homme qui a de la valeur.

Albert Einstein


PLAN SOMMAIRE

AVANT – PROPOS

INTRODUCTION

THEORIE DE LA CORRELATION

MODELE DE REGRESSION LINEAIRE SIMPLE

MODELE DE REGRESSION LINEAIRE MULTIPLE

MODELES DE REGRESSION NON LINEAIRES

VIOLATION DES HYPOTHESES DE BASE

ANNEXES


AVANT-PROPOS

Je ne peux nier, quand j’ai commencé la rédaction de ce recueil, l’ambition de confectionner un vade-mecum

d’introduction à l’Econométrie à l’intention des étudiants de première licence FASÉ. Mais le nombre de projets

sur la file d’attente et les nombreux défis entre lesquels il me faut partager mon temps d’une part, et le besoin

réel et urgent chez les étudiants de disposer d’un recueil qui accompagne le cours magistral assuré par le

professeur d’autre part, m’ont obligé à ne produire qu’une ébauche.

Le projet de proposer ce recueil est né de la déception et de l’insatisfaction que j’éprouvais, encore étudiant,

lors des séances TP d’Econométrie 1. Alors qu’ailleurs ils prennent de la vitesse, nous, me semblait-il, on

tombait, paradoxalement, dans la suffisance.

Ce recueil a donc été rédigé de façon à permettre aux étudiants de porter un autre regard sur les notions qu’ils

apprennent pendant le cours théorique et de voir plus loin que moi. Le choix des applications a également été

fait dans cette optique. On remarquera que, par souci pédagogique et d’excellence, je me suis plus attardé sur

les aspects et les démonstrations les moins populaires, bref, sur les non-dits.

Les étudiants passionnés et qui veulent aller loin en Econométrie, trouveront aussi, en annexe, une initiation au

logiciel économétrique EVIEWS.

Enfin, en le mettant à la disposition du public, je formule le vœu que ce recueil suscite, parmi mes étudiants et

mes collègues de la FASÉ, de nombreux esprits critiques qui pourront nous proposer mieux et ainsi éviter que

nos efforts pour l’avancement de cette faculté ne s’essoufflent et n’atteignent, prématurément, un état

stationnaire , ce qui serait dommage .

Remerciement

Je remercie le professeur Jean-Pierre Bosonga pour la confiance qu’il a eue en moi – à vrai dire, sans vraiment

me connaître – et pour m’avoir orienté dans la rédaction de ce recueil.

Mes sincères remerciements vont à mon aîné et mon ami l’assistant Jean-Paul Tsasa V. Kimbambu, pour nos

nombreuses discussions, parfois laissées en queue de poisson, et pour l’idéal qu’il m’a transmis.

Je remercie aussi mes étudiants de première licence FASÉ, de la promotion 2011-2012, pour avoir beaucoup

exigé et attendu de moi ; ils m’ont contraint à plus de sérieux dans le travail, et je leur en suis reconnaissant.

Bien entendu, ce support n’engage que son auteur. Toute remarque pertinente pouvant en améliorer le

contenu sera la bienvenue.

Dédicace

Je dédie ce recueil à l’avenir du LAREQ et à l’émergence d’une nouvelle classe d’enseignants à l’UPC.

Cédrick Tombola M.

[email protected]


.I. INTRODUCTION

I.1. Quelques points de l’histoire

α. Avant 1930 : Le Moyen-âge économétrique

Les premiers développements de l’Econométrie1 peuvent remonter, selon Gérard Grellet, au 17ème siècle,

l’époque de l’Arithmétique politique [Political Arithmeticians, en anglais] en Angleterre, avec des auteurs

comme William Petty, Gregory King et Charles Devenant, pour leurs tentatives de modélisation à partir des

données empiriques.

Selon d’autres auteurs, on doit la genèse de l’Econométrie aux travaux de tentative d’unification de

l’Economie et la Statistique d’Auguste Cournot et de Jules Dupuit en France, de William Stanley Jevons en

Angleterre et de Henry Ludwell Moore aux Etats-Unis. Ces auteurs tentèrent d’élaborer des lois

économiques { l’instar des lois de la physique newtonienne.

Mais il convient simplement de retenir que nombre de méthodes et techniques auxquelles recourt

l’Econométrie, ont été développées bien avant son institutionnalisation comme discipline des sciences

économiques. A titre d’exemple :

- En 1805, dans son ouvrage intitulé « Nouvelles méthodes pour la détermination des orbites des comètes »,

puis en 1806 dans la deuxième édition du même ouvrage, le mathématicien français Adrien-Marie Legendre

propose, par une méthode algébrique, le premier développement rigoureux de la méthode des moindres

carrés ordinaires.

- En 1809, Carl Friedrich Gauss, dans son traité « Theoria motus corporum coelestium », propose, par une

approche probabiliste, un autre développement rigoureux de la méthode des moindres carrés ordinaires

dont il se réclame la paternité. Dans une lettre adressée à Pierre-Simon de Laplace2, il explique qu’il avait

fait usage de cette méthode déjà en 1795, et de manière un peu plus fréquente, dans ces calculs

astronomiques sur les nouvelles planètes, depuis 1802.

Plus tard, en 1829, Carl F. Gauss et Andrei A. Markov démontrent que l’estimateur des moindres carrés

ordinaires est BLUE [en anglais : Best Linear Unbiaised Estimator]. C’est-à-dire qu’il est le meilleur

estimateur linéaire non biaisé, à variance minimale.

- En 1886, dans son étude sur la transmission des caractères héréditaires, Francis Galton, de qui le terme

régression tire son origine, fournit une première régression linéaire. Plus tard, son disciple Karl Pearson, en

1896, dans son ouvrage « La Grammaire de la Science », développe la notion de corrélation linéaire et

propose un estimateur pour cette grandeur.

La corrélation a été introduite en Economie en 1902, avec l’ouvrage de Arthur Lyon Bowley « Elements of

Statistic ».

- En 1909, Georges Udny Yule invente les premières applications économiques de la méthode de la

corrélation et introduit à la même occasion la notion de corrélation partielle. Et en 1926, il dénonce les

1 On attribue souvent à tort au norvégien R. Frisch, la création du mot économétrie qui revient plutôt à Pavel Compria. 2 Il inclut lui-même un exposé de la méthode des moindres carrés ordinaires dans son traité de 1820 : « Théorie analytique des probabilités ». En 1808, le mathématicien américain Robert Adrain a aussi publié une formulation de la méthode des moindres carrés.


« spurrious correlations », ce qu’il convient de traduire par corrélations fallacieuses. Puis montre que la

corrélation de deux séries chronologiques peut être totalement artificielle.

β. Depuis 1930 : La naissance de l’Econométrie moderne

L’institutionnalisation de l’Econométrie en tant que discipline des sciences économiques s’est réalisée en

1930 – exactement le 29 décembre 1930 – { l’occasion de la création { Cleveland, aux Etats-Unis, par 16

économistes3 dont Ragnar Frisch4 et Irving Fisher sont les plus cités, de l’Econometric Society [la Société

d’Econométrie] avec comme devise : ’’ pour l’avancement de la théorie économique dans ses relations avec la

statistique et les mathématiques’’.

Depuis la création de cette société, et de la Cowles commission – spécialisée dans les méthodes

d’estimation des modèles { équations simultanées –, fondée le 9 septembre 1932, deux ans après

l’Econometric Society, par Alfred Cowles, l’Econométrie a connu un grand essor.

C’est ainsi qu’en 1933, R. Frisch crée la revue Econometrica pour la promotion des études qui ont pour but

une unification des approches quantitatives théoriques et empiriques des problèmes économiques.

On note aussi que dès le départ, pour les promoteurs de l’Econometric Society, il était clair que deux

déviations devraient être évitées :

La construction d'édifices mathématiques purement logiques et déconnectés du réel économique.

La mise en œuvre de pures investigations statistiques qui, en dépit de leur caractère poussé et de

leur apparence réaliste, risque de manquer de consistance ou de pertinence, sans le soutien d'une

pensée économique profonde et rigoureuse.

A ce sujet, R. Frisch écrivit ainsi dans le premier numéro de la revue Econometrica :

"L'expérience a montré que chacun des trois points de vue suivants, celui de la statistique, celui de la théorie

économique et celui des mathématiques est une condition nécessaire, mais par elle même non suffisante, d'une

compréhension effective des relations quantitatives de la vie économique moderne : c'est leur unification qui

est efficace. C'est cette unification qui constitue l'économétrie ’’.

Il faut noter également que le krach financier des années 30, la domination du keynésianisme jusqu’{ la fin

des années 60, le développement de l’inférence statistique à la fin du 19ème siècle et le consensus entre les

économistes autour du cadre IS – LM avant 1970, sont aussi parmi les facteurs explicatifs de l’essor de

l’Econométrie depuis 1930, surtout au sein de la Cowles commission. La révolution Keynésienne [1936], avec

la logique de circuit, a développé un autre type de raisonnement macroéconomique en termes d’agrégats

objectivement mesurables par la comptabilité nationale et de comportements mesurés par les propensions.

Ainsi, entre 1944 et 1960, la plus grande partie de la recherche en Econométrie porta sur les conditions

d’estimation des modèles macroéconométriques { équations simultanées.

- En 1935, Jan Tinbergen estime un premier modèle économétrique à équations simultanées, du type

keynésien, comportant 31 équations de comportement et 17 identités. Il devient ainsi, d’un point de vue

empirique, le père des modèles économétriques.

- En 1944, Trygve Haavelmo pose les conditions générales de solvabilité d’un système d’équations linéaires.

3 R. Frisch, I. Fisher, Hotelling, K. Menger , F. Mills, Ogburn, Ore, Roos, Rorty, J. A. Schumpeter, H. Schultz, Shewart,

Snyder , Wedervang, Wiener, Wilson. 4 Premier lauréat du prix de la Banque de Suède – communément appelé prix Nobel en mémoire de son fondateur Alfred Nobel – d’économie en 1969 avec Jan Tinbergen.


- En 1950, Lawrence Klein ouvre la vogue de la modélisation macroéconométrique. Il estime pour

l’économie américaine (1921-1941), un modèle macroéconométrique de type keynésien à 16 équations. Ce

modèle est amélioré plus tard, en 1955, par L. Klein et Arthur Goldberger, et sera le premier modèle utilisé à

des fins prévisionnelles. Klein introduit également la notion de multicolinéarité. Il est parfois considéré

comme le père des modèles macroéconométriques.

Plusieurs autres travaux seront produits au sein de la Cowles commission. En 1950, Durbin et Watson

élaborent leur célèbre test d’autocorrélation des erreurs. En 1954, Henri Theil et Robert Léon Basmann

introduisent la méthode des doubles moindres carrés. Toujours dans les années 50, il y eut un

développement des modèles à retards distribués par Koyck, Almon, Cagan et Friedman.

L’on peut également citer les travaux suivants développés entre 1950 et 1970 : la méthode des moindres

carrés généralisés et l’introduction du calcul matriciel en Econométrie par Aitken; les tests et corrections de

l’hétéroscedasticité [Glejser, White, …].

L’irruption de l’informatique au début des années 60 va donner un nouveau coup de pousse { l’expansion

de l’Econométrie.

En 1961, James Tobin développe les modèles microéconométriques. Il est, à ce titre, considéré comme le

père des modèles microéconomiques. La même année, Yair Mundlak conçoit les méthodes basées sur les

données de panel.

γ. Les années 1970 : La révolution des anticipations rationnelles

Les années 1970 ont été marquées par cinq faits majeurs qui ont conduit { l’éclatement du paradigme de la

Cowles commission. C’est-à-dire à une remise en cause radicale des modèles macroéconomiques structurels

développés au sein de cette institution. Ces faits sont :

Le premier choc pétrolier [en 1973] ou le quadruplement du prix des produits pétroliers, ce qui

marque, historiquement, la fin des Trente Glorieuses5 ;

La stagflation et la remise en cause de la courbe de Phillips;

La chute du keynésianisme et le rejet des modèles économétriques traditionnels – devenus caducs

– basés sur le paradigme IS – LM ;

Le deuxième choc pétrolier [en 1979] ou le doublement du prix des produits pétroliers ;

La naissance de la MFM [MicroFoundations of Macroeconomics] ou la Macroéconomie

Microfondée, le retour aux modèles walrassiens et le développement des modèles d’équilibre

général calculable [MEGC].

Les critiques les plus acerbes et sévères sont venues essentiellement, dès 1972, de Robert Emerson Lucas6.

C’est ce que la littérature qualifie de la fameuse critique de Lucas. Il discrédite les modèles

macroéconométriques traditionnels, en fustigeant leur incapacité à expliquer et à prévoir les

bouleversements provoqués par le 1èr et le 2ème chocs pétroliers. Il leur reproche de manquer de fondations

microéconomiques suffisamment solides. De plus, Lucas interdit les prévisions myopes et adaptatives, il

pose la problématique des anticipations rationnelles, ce qui veut dire que les agents économiques sont

intelligents et capables de former leurs anticipations sur une base endogène et ainsi anticiper toute mesure

de politique économique. De fait, toute mesure de politique économique, ajoute-t-il, devient inefficace du

fait de la prise en compte des anticipations rationnelles, les agents pouvant l’anticiper et la contrer.

5 Trente Glorieuses : Titre d’un livre de Jean Fourastié, publié en 1977, qui désigne la période de forte croissance économique, de plein-emploi et d’augmentation des salaires réels et des revenus, qu’ont connu les pays développés, de l’après-guerre au premier choc pétrolier. 6 Lauréat du prix Nobel d’Economie 1995.


Cette critique a poussé les économètres à penser plus profondément sur les fondements de leur discipline

et a donné lieu à des critiques plus sévères. L’Econométrie va connaitre un changement radical, surtout en

termes de relations qu’elle entretient avec la théorie économique.

- En 1970, George Box et Gwilym Jenkins développent le modèle ARMA [AutoRegressive with Moving

Average] – qui est un mélange des modèles AR et MA développés en 1927 respectivement par Georges Yule

et Eugen Slustsky –, comme une réponse aux défaillances constatées dans la capacité de prévision des

modèles élaborés à la suite des travaux de Tinbergen.

- Déjà en 1974, Clive William John Granger et Paul Newbold mettent en garde contre les « spurrious

regressions » ou régression fallacieuse, pour le cas d’ajustement par les MCO d’un modèle avec séries non

stationnaires.

- En 1980, dans un article qui a connu un succès d’estime lors de sa parution, intitulé Macroeconomics and

Reality, Christopher Sims7, en généralisant le modèle ARMA en modèle VAR [Vector Auto Regressive] afin

de tenir compte, au même moment, de plusieurs variables, reproche aux économètres d’avoir mis la

charrue devant les bœufs en remettant en cause la distinction à priori entre variables endogènes et

variables exogènes, et considère toute variable comme potentiellement endogène8. C’est ce que la

littérature appellera l’Econométrie sans théorie. La critique de Sims va permettre { l’Econométrie de devenir

beaucoup plus autonome et de s’émanciper de la tutelle de la théorie économique.

- En 1987, Clive Granger et Robert Engle développent la méthode de cointégration dans le traitement des

séries non stationnaires. Une année après, en 1988, Johansen propose une version améliorée du test de

cointégration Engle – Granger.

- En 1982, Robert Engle développe le modèle ARCH afin de prendre en compte la non linéarité et la forte

volatilité des variables financières, ce qui n’était pas possible avec les modèles ARMA et VAR.

Plusieurs méthodes encore ont été développées depuis la fameuse critique de Lucas, et plus loin encore

dans l’histoire, depuis la création de la société d’Econométrie. L’Econométrie a donc connu, ces deux

dernières décennies, un essor vertigineux.

δ. Applications et place de l’économétrie

La démarche en sciences économiques est hypothético-déductive. C’est-à-dire que les théories économiques

ne sont valables que dans le domaine défini par leurs hypothèses. S’il est vrai que l’usage des

mathématiques est la garantie de la rigueur et de la cohérence interne des théories économiques

modernes, la question reste cependant posée quant à la pertinence de leurs hypothèses. Ceci motive le

recours { des outils plus puissants notamment l’Econométrie, qui est un outil de validation des théories.

De fait donc, l’économiste ne doit-il pas être aussi économètre ? John Maynard Keynes, dans les années

1930, écrivait : « L’économiste doit être mathématicien, historien, philosophe, homme d’Etat, … ». S’il faut

transférer la pensée de Keynes aujourd’hui, n’aurait-il pas lui-même ajouté l’économiste doit être

économètre ?

Il est clair qu’il n’est plus possible { ce jour, de faire un bras de fer avec l’irruption et la domination de

l’Econométrie dans le champ de la science économique, au risque, purement et simplement, de se

soustraire de la catégorie d’économistes modernes.

7 Lauréat, avec Thomas Sargent, du prix Nobel d’Economie 2011. 8 Cette démarche de Sims s’inspire de l’un des grands principes de la théorie de l’équilibre général, selon lequel toutes

les variables économiques sont déterminées simultanément.


Pour renchérir, dans une étude publiée en 2006, les économistes Kim, Morse et Zingales ont montré que le

nombre d’articles empiriques cités en économie est passé de 11 % à 60 % entre 1970 et 2000. Ce qui confirme

l’importance de plus en plus croissante de l’Econométrie dans l’univers des économistes.

Par ailleurs, l’Econométrie s'applique à tous les domaines auxquels s'applique la science économique.

L'ouvrage de Levitt et Dubner, Freakonomics, témoigne de la diversité des applications possibles de

l'économétrie. Voici quelques exemples significatifs:

En économie de guerre, Collier – Hoeffler [1999] ont mis en évidence, par le recours à un modèle

économétrique, les déterminants politiques permettant de mettre fin aux guerres civiles et de

relancer l’économie en période post-conflit.

En économie de la croissance, Mankiw, Romer et Weil, en 1992, ont utilisé un modèle de régression

linéaire pour tester empiriquement la pertinence du modèle de Solow. Ils montrent que le modèle

de Solow augmenté du capital humain est cohérent avec les données observées. Barro et Sala-i-

Martin [1995], Easterly et Rebelo [1993], ont aussi eu recours aux méthodes économétriques afin

de rendre compte de l’effet des dépenses publiques sur la croissance.

En économie de la criminalité, Levitt, en 1997, a utilisé un modèle linéaire à variables instrumentales

pour estimer l'effet du nombre de policiers sur la criminalité.

En 2002, Acemoglu, Johnson et Robinson ont utilisé une régression linéaire pour estimer l'effet des

institutions sur le développement actuel des pays.

I.2. Quelques rappels statistiques

La force de la statistique est qu’on n’est pas obligé d’étudier toute la population. Il est possible de tirer des

conclusions sur une population, { partir d’un échantillon suffisamment représentatif.

Et comme les données en elles-mêmes ne sont pas intelligibles, le statisticien recherche la synthèse. Sa

première démarche pour synthétiser les données consiste { calculer les paramètres de description, c’est la

statistique descriptive. Plus tard, la démarche du statisticien consistera à contraster des données

empiriques aux lois théoriques, dont on connait parfaitement les comportements, en vue de faire de la

prédiction, c’est la statistique inférentielle [ou mathématique].

Encadré 1. Conditions de Yule

Le statisticien britannique Georges U. Yule a énoncé un certain nombre de propriétés souhaitées pour les indicateurs des séries statistiques ; ceux-ci doivent être d’une part, des résumés ‘‘maniables’’ et d’autre part, les plus exhaustifs possibles relativement { l’information contenue dans les données. Dans son schéma, une caractéristique statistique doit être une valeur-type :

1. définie de façon objective et donc indépendante de l’observateur, 2. dépendante de toutes les observations, 3. de signification concrète pour être comprise par les non-spécialistes, 4. simple à calculer, 5. peu sensible aux fluctuations d’échantillonnages, 6. se prêtant aisément aux opérateurs mathématiques classiques.

En réalité, on ne dispose pas de caractéristiques répondant simultanément à ces six conditions. Le choix d’un indicateur sera l’objet d’un compromis guidé par la spécificité de l’étude en cours. Source : Adapté de B. Goldfard et C. Pardoux, 1995.

http://fr.wikipedia.org/wiki/%C3%89conom%C3%A9trie#MankiwRomerWeil1992

http://fr.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire

http://fr.wikipedia.org/wiki/R%C3%A9gression_lin%C3%A9aire


Indicateurs de position [ou de tendance centrale] Soit une variable X observée sur un échantillon de n individus. xt est la valeur prise par X pour l’observation t.

1. La moyenne arithmétique :

La moyenne arithmétique9 est la mesure de répartition équitable. Elle conserve la somme totale et satisfait à toutes les conditions de Yule, sauf la 5ème, car elle est une mesure sensible aux valeurs extrêmes. Lorsque les valeurs sont aléatoires, la moyenne arithmétique est appelée « Espérance mathématique ».

2. La médiane [Me] : est la mesure qui divise la série en deux groupes de tailles égales. Après avoir classé les

données en ordre croissant, elle correspond pour n impair [pair], au point milieu [à la moyenne arithmétique de deux points milieux]. Elle satisfait aux conditions 1, 3, 4 et 5 de Yule. Contrairement à la moyenne arithmétique, la médiane résiste aux valeurs extrêmes.

3. Le mode [Mo] : est la valeur dominante de la série, celle qui a la fréquence la plus élevée.

Pour une distribution discrète, le mode satisfait aux conditions 1, 3 et 4 de Yule.

4. Les quartiles

Le premier Quartile Q1 [ou quantile d’ordre 1, x25%]

Valeur telle qu’au moins 25% des valeurs prises par X lui sont inférieures. Après avoir classé les données et séparé la population en deux, le Q1 est la médiane de la première sous-population.

Le deuxième Quartile Q2 [ou quantile d’ordre 2, x50%]

Le Q2 est la médiane.

Le troisième Quartile Q3 [ou quantile d’ordre 3, x75%]

Valeur telle qu’au moins 75% des valeurs prises par x lui sont inférieures. Le Q3 est la médiane de la deuxième sous-population.

Note : Les quartiles non plus ne subissent pas l’influence des valeurs extrêmes. Comme la médiane, les quartiles satisfont aux conditions 1, 3, 4 et 5 de Yule.

Indicateurs de dispersion

5. La variance : La variance empirique :

La variance est la moyenne arithmétique des carrés des écarts d’une variable { sa moyenne arithmétique. Elle donne une idée de la dispersion [ou déviation] de chaque observation xt autour de sa moyenne. Mais comme on le voit, avec la variance on change d’échelle, elle s’exprime dans le carré de l’unité en laquelle s’expriment les observations. Pour revenir { l’échelle du départ, on prend sa racine carrée qui est l’écart-type. Elle satisfait aux conditions 1, 2 et 6 de Yule.

Note : La variance empirique est l’estimateur non biaisé de la variance. La variance est un estimateur biaisé car utilisant un autre estimateur dans son calcul.

6. L’écart-type : L’écart-type empirique :

L’écart-type est la racine carrée de la variance. Il est la mesure de dispersion la plus utilisée. Elle satisfait aux conditions 1, 2 et 6 de Yule, et est plus sensible aux fluctuations d’échantillonnage et aux valeurs extrêmes que la moyenne arithmétique, en raison des élévations au carré.

7. L’étendue : max xt – min xt

L’étendue est la différence entre la plus grande et la plus petite des valeurs observées. Elle est très influencée par les valeurs extrêmes et ne satisfait pas aux conditions 2 et 5 de Yule.

8. L’Etendue [écart] interquartile : EIQ = Q3 – Q1

L’écart interquartile n’est pas sensible aux valeurs extrêmes.

9 Dans le langage courant, on dit simplement moyenne. Or, selon la manière dont le total des individus est calculé, il existe différentes moyennes [moyenne géométrique, moyenne harmonique, moyenne quadratique].


Indicateurs de forme [de la distribution] Parlons tout d’abord de la notion des moments.

Le moment centré sur a d’ordre r

aμr

Les moments ont la vertu de permettre de mettre ensemble les principales mesures de description. A titre d’exemple, si a=0 et r=1, on retrouve la moyenne arithmétique, qui n’est rien d’autre que le moment non centré d’ordre 1. La variance serait donc le moment centré sur la moyenne arithmétique d’ordre 2, etc.

Note : dans la suite, on dira moment centré pour parler de moment centré sur la moyenne arithmétique. On peut aisément vérifier que le moment centré sur la moyenne arithmétique d’ordre 1 (μ1) est nul.

9. L’asymétrie [Skewness en anglais]: est basée sur le moment centré d’ordre 3.

Pour une distribution symétrique, telle que la loi normale, la moyenne arithmétique est égale à la médiane égale au mode. De plus, les moments centrés d’ordre impair sont nuls pour une distribution symétrique.

Le coefficient d’asymétrie de Fisher : γ1 =

γ1 est nul pour une distribution symétrique, telle que la loi normale.

10. L’aplatissement [Kurtosis en grec, qui signifie bosse] : est basé sur le moment centré d’ordre 4 et permet de

mesurer l’importance des queues d’une distribution ou son aplatissement.

Le coefficient d’aplatissement de Fisher : γ2 =

– 3

γ2 est nul pour une distribution mesokurtique. C’est le cas d’une distribution gaussienne [normale]. Cas de la distribution de Student Cas de la distribution normale

La loi normale

La loi normale est une des principales distributions de probabilité. On dit qu’elle est parfaite, car sa densité de probabilité dessine une courbe en cloche ou courbe de Gauss, qui est à la fois symétrique et mesokurtique. Elle a été introduite, en 1733, par le mathématicien Abraham de Moivre, et mise en évidente plus tard, au 19ème siècle, par Carl F. Gauss. Elle est également connue sous le nom de la loi de Gauss. Une variable distribuée selon cette loi est

dite normale ou gaussienne.

Test d’hypothèse [un petit commentaire]

Distribution symétrique

γ1=0

=Me=Mo

Asymétrie à gauche [distribution

étalée à droite]

γ1>0

Asymétrie à droite [distribution

étalée à gauche]

γ1<0

γ2=0

Distribution mesokurtique Distribution leptokurtique

γ2>0 γ2<0

Distribution platokurtique


Un test d'hypothèse est une démarche consistant à évaluer une hypothèse statistique en fonction d'un échantillon. Il s’agit donc de confronter une hypothèse dite nulle [HO] contre une hypothèse de recherche ou alternative [H1]. Une notion essentielle qui concerne les tests est la probabilité que l'on a de se tromper. Il existe deux façons de se tromper lors d’un test statistique :

La première façon de se tromper est de commettre l’erreur [ou risque] de première espèce, noté α, qui est la probabilité de rejeter à tort HO alors qu’elle est vraie. On dit, dans ce cas, que α est la probabilité d’avoir un faux positif.

La deuxième façon de se tromper est de commettre l’erreur [ou risque] de deuxième espèce, noté β, qui est la probabilité de ne pas rejeter HO alors qu’elle est fausse. On dit, dans ce cas, que β est la probabilité d’avoir un faux négatif.

HO est vraie HO est fausse

Ne pas rejeter HO Erreur de 2ème espèce β

Rejeter HO Erreur de 1ère espèce α

L’idéal serait que ces deux erreurs soient nulles, mais puisque l’on ne dispose que d’un nombre fini d’observations, il faut faire un choix. Le risque β étant difficile { évaluer, voire impossible, seul le risque α est utilisé comme critère de décision. Note : On accepte une hypothèse en refusant sa fausseté et non en acceptant sa vérité.

I.3. Quelques tests statistiques de normalité

Dans son article de 194410, qui a marqué une étape décisive dans le développement de l’Econométrie, écrit

dans l’objectif de briser la réticence de ses contemporains vis-à-vis de l’application des méthodes

statistiques aux données économiques, Haavelmo a avancé deux thèses. D’abord, il a défendu l'idée que

l'emploi des mesures statistiques telles que les moyennes, les écarts-type, les coefficients de corrélation, à

des fins d'inférence n'a réellement de sens que dans un contexte probabiliste. De plus, estimait-il, peu

importe la vraie nature des faits économiques, il suffisait, pour les analyser, de faire comme si les données

économiques étaient générées par une loi de probabilité qu'il fallait identifier de façon adéquate.

Avant donc toute étude formelle, le travail de l’économètre est de tester l’adéquation ou la conformité

d’une distribution observée avec une distribution théorique associée à une loi de probabilité. Parmi ces

tests d’adéquation, la conformité { la loi normale est le test le plus utilisé, car elle sous-tend la plupart de

tests paramétriques utilisés en Econométrie. A titre de rappel, pour une distribution gaussienne, ± 2σ

contiennent 95% des observations.

Les nombreux tests11 de normalité d’une distribution que fournit la littérature peuvent se regrouper en

deux familles : Les tests informels et les tests formels.

Si n est le nombre d’observations

Tests informels Tests formels

Histogramme des fréquences [ou

tuyau d’orgue] Box – plot [ou Boîte-à-pattes] QQ – plot [ou droite de Henry]

En termes d’efficacité

Test de Jarque – Bera Si n > 88

Test de Shapiro – Wilk Si n ≤ 50

Test K2 d’Agostino – Pearson Si n ≥ 20

Les tests informels donnent une présomption tandis que les tests formels apportent une approche plus rigoureuse et objective.

Ci-après sont exposés uniquement les tests les plus fréquemment utilisés et les plus opérationnels.

10 Haavelmo, T. (1944), The Probability Approach in Econometrics, Supplement to Econometrica, 12, 1-118. 11

Il existe une batterie de test de normalité, ici nous ne reprenons que quelques uns.

http://fr.wikipedia.org/wiki/Hypoth%C3%A8se_statistique


α. Le Box – plot

Synonyme : Boîte – à – pattes, Boîte à moustache, Diagramme en boites, Box and Whiskers Plot

Le Box – plot, inventé par Tukey en 1977, est un outil graphique très pratique qui permet de caractériser

une distribution en fournissant un résumé riche d’informations sur sa dispersion et son asymétrie.

Du fait qu’il renseigne sur l’asymétrie d’une distribution, le Box – plot est également utilisée comme test de

normalité.

Les étapes à suivre dans sa construction peuvent être résumées comme suit :

a. Porter sur une échelle les valeurs calculées suivantes : Q1, Q2, Q3, Min xi et Max xi

b. Construire la boîte : - La longueur de la boîte est donnée par l’EIQ

- La largeur de la boîte est fixée à priori.

c. Calculer la longueur des moustaches ou des pattes [inférieure et supérieure] : Pour savoir jusqu’où vont les moustaches, on calcule deux valeurs adjacentes :

Frontière Basse [FB]= Q1 – 1.5EIQ Frontière Haute [FH]= Q3 + 1.5EIQ

Selon Tukey, la valeur 1.5 serait plus pragmatique.

Pour la longueur de la moustache inférieure : prendre, parmi les valeurs xi prises par X, la valeur minimale xb directement supérieure à FB, soit xb = min {xi| xi ≥ FB}. Pour la longueur de la moustache supérieure : prendre, parmi les valeurs xi prises par X, la valeur maximale xh directement inférieure à FH, soit xh = max {xi| xi ≤ FH}.

A retenir : - Pour une distribution symétrique, Q2 divise la boîte exactement en deux parties égales.

- Pour une distribution symétrique, Q2= .

Illustration

Considérons l’exemple suivant :

X 6 7 8 9 10 11 12 13 14 15 16 17 18

Q1 = 8.5 Q2 = 12 Q3 = 15.5 EIQ = 7 Min xi = 6 et Max xi= 18 FB = 8.5 – (1.5)7 = – 2 FH = 15.5 + (1.5)7 = 26 = 12 Etendue = 10 Xb = 6 Xh =18

La croix à l’intérieur de la boîte représente la moyenne.

Q1 Q2 Q3

Etendue

FB FH Xb

Max xi

Xh Min xi

*

EIQ


Il ressort, puisque Q2 sépare la boîte en deux parties égales et que les queues ont une longueur identique,

que la distribution est symétrique, ce qui est une présomption de normalité. De plus la médiane (Q2) est

égale à la moyenne.

Note : la Boîte–à–pattes permet également de détecter les valeurs aberrantes ou singulières [déviants ou

atypiques ou encore outliers]. Après avoir construit le Box – plot, est valeur aberrante celle située au-delà des

pattes.

β. Le test de Jarque-Bera [JB]

Le test de Jarque-Bera, proposé en 1980 par Carlos Jarque et Anil Bera, est parmi les tests de normalité les

plus populaires dans les milieux académiques. Mais la remarque { faire, d’ores et déj{, est qu’il est

particulièrement approprié pour grand échantillon, soit n > 88.

Le test JB est fondé sur les coefficients d’asymétrie et d’aplatissement. Sa richesse consiste { ce qu’il

permet de conclure { la fois sur l’asymétrie et l’importance des queues [aplatissement] d’une distribution.

Les hypothèses du test sont :

H0 : Normalité

H1 : Non normalité

Sous l’hypothèse de normalité de la série, la statistique du test JB suit asymptotiquement une distribution

du Khi deux χ2 { degrés de liberté avec le risque d’avoir un faux positif [ou seuil de signification] α = 5%.

La statistique du test est calculée comme suit :

JB = n

=

où n est la taille de l’échantillon, S le Skewness et K la Kurtosis.

Valeur lue dans la table de la loi du Khi carré à deux degrés de liberté Seuil Valeur

1% 5%

9.210 5.991

Critère de décision : Si JB ≥ à la valeur du χ2(2) de la table au seuil α, alors RH0 de normalité.

γ. Le test de Shapiro-Wilk

Le test de Shapiro – Wilk, proposé en 1965 par Samuel Shapiro et Martin Wilk, est considéré dans la

littérature comme l’un des tests de conformité { la loi normale les plus fiables et les plus efficaces,

particulièrement pour petits échantillons [n ≤ 50]12. Ce test est basé sur la statistique W, calculée comme

suit :

W =

12

Lire par exemple Royston (1982), Palm (2002).


où

n : est la taille de l’échantillon

: est la partie entière du rapport

x(i) : correspond à la série des données triées en ordre

croissant

ai : sont des valeurs lues dans la table des coefficients

de Shapiro et Wilk, connaissant n et l’indice i.


H0 : la variable X est gaussienne

H1 : la variable X est non gaussienne

La statistique W est confrontée à une valeur lue dans la table des valeurs limites de W proposée par

Shapiro et Wilk, avec n le nombre d’observations et au seuil α [5% en général].

Critère de décision : Si W < WTable(n) au seuil α, alors RH0 [la variable est non gaussienne]13.

Note : Les deux tables utilisées pour mener ce test sont reprises en annexe.

I.3. Trois piliers de l’économétrie

L’économétrie se fonde sur trois piliers { savoir :

α. La théorie économique ;

β. Les données ;

γ. Les méthodes.

De par sa nature l’Econométrie est intimement liée à la théorie économique qui lui fourni les modèles et théories qu’elle teste. Aujourd’hui encore, malgré l’émancipation de l’Econométrie depuis le fameux article de 1980 de Sims, l’on ne peut trancher en défaveur du mariage théorie économique – Econométrie. Selon Ado et Davidson [1998], L'économétrie est précisément le moyen qui permet au discours économique d'échapper à la vacuité de son formalisme, en permettant une mise en correspondance des théories et des faits économiques. C'est elle qui permet de confirmer ou

Pour tester les théories, l’Econométrie utilise les données observées, les informations fournies par un échantillon. L’économétrie a principalement recours à trois types et deux formats de données. Trois types de données : Chroniques [times series en

anglais], on parle également des

séries chronologiques ou séries

temporelles, notées Xt : sont de

données indicées par le temps.

Ex. Le PIB de la RDC de 2000 à

2010.

Ce sont les méthodes statistiques qui permettent de mettre en œuvre et d’exploiter un modèle à partir d’informations provenant de l’échantillon. La méthode la plus populaire en Econométrie est celle des moindres carrés ordinaires. En recourant aux méthodes statistiques, et à partir d’informations livrées par le monde réel, l’économètre poursuit un triple objectif : Quantifier et tester les théories Faire des prévisions Evaluer l’efficacité des mesures

de politique économique

13

Lire TSASA Jean –Paul (2012) pour les illustrations.

La théorie économique Les données Les méthodes

Les trois piliers de l’économétrie


d'infirmer les modèles théoriques, du moins ceux qui admettent une représentation économétrique.

Données en Coupe longitudinale

[cross section en anglais], on

parle aussi de coupe instantanée,

notées Xi : font référence aux

données observées au même

moment, pour des individus

différents. Ex. Le PIB en 2009 de

tous les pays de l’Afrique

Centrale.

Données en Panel [pooling en anglais], on parle aussi des données croisées, notées Xit : font référence à la combinaison de deux premiers types. Ex. Le PIB de 2000 à 2010 de tous pays de l’Afrique Centrale. On parle aussi de cohorte, lorsque l’échantillon sondé reste le même d’une période { l’autre.

Deux formats des données : Quantitatives [ex : PIB, Taux

d’inflation, etc.]

Qualitatives [ex : paix, sexe,

religion, niveau d’étude, etc.]

L’Econométrie n’a donc pas pour objet d’énoncer la théorie mais de la vérifier.


I.4. Modèle économique versus modèle économétrique

α. Modèle économique

Selon Barbancho14, un modèle est l’expression mathématique d’une certaine théorie économique.

L’exemple de la loi psychologique fondamentale de Keynes est assez pertinent { cet effet. D’après cette loi,

en moyenne et la plupart du temps lorsque le revenu d’un individu augmente, il augmente aussi sa

consommation, mais dans une proportion moindre { l’augmentation de son revenu. Mathématiquement, si

on note la consommation par Ct et le revenu par Yt, cette loi peut être spécifiée comme suit :

Ct= α0 + α1Yt [avec α1 : propension marginale { consommer, 0 < α1 < 1]

En général, le modèle spécifié par l’économiste est défini comme étant une maquette de la réalité ou d’un

phénomène sous forme d’équations dont les variables sont des grandeurs économiques.

A ce sujet, Lester C. Thurow note ceci : « Les équations décrivent à quoi ressemblerait le monde réel s’il

ressemblait à la théorie ».

β. Modèle économétrique

Toujours selon Barbancho, un modèle économétrique n’est autre chose qu’un modèle économique qui

contient les spécifications nécessaires pour son application empirique. C’est donc le modèle économique

auquel on ajoute un terme d’erreur ut.

Ct=α0 + α1Yt + ut [modèle spécifié par l’économètre]

La première partie de ce modèle [α0 + α1Yt] constitue sa partie systématique et la deuxième [ut] sa partie

stochastique ou aléatoire.

Il convient de noter également que le terme d’erreur ut [bruit, perturbation ou aléa] dénote de la différence

entre l’économiste et l’économètre. Il synthétise l’influence sur Ct [variable expliquée] de toutes les autres

variables oubliées et des erreurs éventuelles de spécification de la forme fonctionnelle dans le modèle

spécifié par l’économiste. De plus, sa présence dans le modèle rend les paramètres α0 et α1 inconnus, on ne

sait plus les calculer, il faut donc les estimer.

14

Cité par Kintambu Mafuku (2004).


.II. THEORIE DE LA CORRELATION

L’analyse de la corrélation a pour objet de présenter les mesures statistiques destinées { rendre compte du

sens et de la force de la liaison mathématique qui peut exister entre deux variables quantitatives X et Y. Il

faut, d’ores et déj{, noter que dans ce cadre, la position des variables est symétrique. L’analyse ne permet

pas de distinguer variable endogène de la variable exogène.

L’outil graphique « diagramme de dispersion ou graphique nuage de points » est le plus adapté et indiqué

pour débuter l’étude de la corrélation. Après l’avoir réalisé, la forme du nuage des points renseigne – à

partir d’un simple coup d’œil – sur le type d’une éventuelle liaison entre X et Y. Plusieurs situations sont

possibles :

Figures A. Relations linéaires, de gauche à droite, positive et négative.

Figures B.1. Relation non linéaire monotone

L’analyse du plot donne certes une idée sur le sens et le type d’association entre X et Y, mais elle ne permet

pas de quantifier son intensité.

Depuis toujours, afin de mesurer la force du lien qui peut exister entre X et Y, les statisticiens ont eu recours

au calcul de la covariance. Si on note par n la taille de l’échantillon et i le numéro de l’observation, la

covariance empirique15 entre X et Y est calculée par la formule :

Cov (X, Y) =

15

La covariance empirique étant un estimateur non biaisé de la covariance.

0

100

200

300

400

500

600

0 500 1000 1500 2000

0

2

4

6

8

10

0 5 10 15

0

100

200

300

400

500

600

0 500 1000 1500 2000

0

5

10

15

-4 -2 0 2 4

-80

-60

-40

-20

0

20

40

60

80

100

120

-100 -50 0 50 100 150

Figures B.2. Relation non linéaire

non monotone Figures B. 3. Absence de liaison


L’idée est que si X et Y covarient, leur covariance devrait être grande. Elle serait modérément faible si les

deux variables ne covarient pas.

Malheureusement, comme mesure du degré de dépendance entre X et Y, la covariance présente la

faiblesse d’être fortement influencée par les unités de mesure des variables en présence. C’est cette limite

qui a conduit au développement des coefficients de corrélation.

II.1. Coefficient de corrélation de Bravais – Pearson

Le coefficient de corrélation linéaire de Bravais – Pearson, noté rXY, est un coefficient paramétrique qui

donne la mesure du degré de liaison linéaire entre deux variables quantitatives X et Y normalement

distribuées. Il est donné par le rapport entre leur covariance et le produit non nul de leurs écarts – types.

Ainsi, il standardise la covariance et la corrige de l’influence des unités de mesure des variables.

Formellement, le rXY est donné par la formule :

rXY =

=

[2.1]

Si l’on considère les écarts { la moyenne arithmétique16, la relation [2.1] peut également s’écrire comme

suit :

rXY =

[2.2]

Propriétés de la covariance et propriétés du coefficient de corrélation linéaire

Propriétés de la covariance Propriétés du rXY Commentaires

Cov (X, Y) = Cov (Y, X) rXY = rYX Comme la covariance, le rXY est symétrique.

Cov (X, X) = Var (X) rXX = 1 La corrélation entre une variable et elle-même est égale { l’unité.

Cov (k, X) = 0 rkX = 0 La corrélation entre une constante et une variable est nulle.

– 1 ≤ rXY ≤ 1 Le coefficient de corrélation linéaire est un nombre sans dimension dont l’intervalle de variation est : [–1, +1]17.

α. Hypothèses fortes au calcul du rXY

Le calcul du coefficient de corrélation linéaire de Bravais – Pearson entre les variables X et Y n’est adapté

qu’au strict respect des hypothèses suivantes :

Les variables X et Y doivent être quantitatives ;

Les variables X et Y doivent être sont gaussiennes ;

La relation entre X et Y doit être linéaire18 ;

Note : Lorsque la liaison entre X et Y est non linéaire mais monotone, le rXY ne devient pas hors de propos.

Seulement, dans ce cas d’espèce, il donne des informations sur l’existence de la liaison, mais estime mal son

intensité. N’oublions pas que le coefficient de corrélation linéaire sert avant tout { caractériser une liaison

linéaire. Lorsqu’elle ne l’est pas, ce coefficient peut induire en erreur sur l’existence et l’intensité de la

relation entre variables considérées.

16

La somme des écarts à la moyenne arithmétique est toujours égale à 0, soit = 0. 17

On peut aisément démontrer que par construction, le rXY reste compris entre -1 et 1. 18

Cette information est livrée par le graphique nuage des points.


β. Test sur le coefficient de corrélation de Bravais - Pearson

Puisque le travail se fait sur un échantillon, après calcul et avant toute interprétation, le rXY doit être soumis à un test de significativité qui permet de vérifier si la corrélation calculée existe bel et bien au sein de la population. Les hypothèses du test sont : H0 : ρXY = 0 [hypothèse d’absence de corrélation]

H1 : ρXY ≠ 0n [hypothèse d’absence de décorrélation]

ρXY est la corrélation théorique, inconnue au niveau de la population, rXY est la corrélation empirique

estimée { partir d’informations fournies par l’échantillon.

Sous H0, on démontre que la statistique du test suit une distribution de Student au seuil α [5% sauf

indication contraire] et à (n – 2) degrés de liberté.

Le test est de la forme :

Rejet H0 si

> tα/2 ; (n – 2) [valeur lue dans la table de Student]

γ. Signification clinique du coefficient de corrélation de Bravais - Pearson

La signification clinique ou l’interprétation du rXY n’est valable que si, après test, on rejette l’hypothèse de

décorrélation.

Le travail d’interprétation d’un coefficient de corrélation linéaire se fait toujours en deux temps : une

interprétation par rapport au signe/sens de la liaison et une interprétation par rapport au degré de

dépendance.

A. Interprétation par rapport au signe

Si rXY > 0, X et Y sont positivement corrélées [la

relation linéaire entre X et Y est positive]. Si rXY < 0, X et Y sont négativement corrélées [la

relation linéaire entre X et Y est négative]. Si rXY = 0, X et Y sont non corrélées [pas de liaison

linéaire, mais possibilité d’une liaison d’un autre type].

B. Interprétation par rapport à l’intensité

Si rXY = ± 1, le lien linéaire entre X et Y est parfait.

Dans ce cas, l’une des variables est fonction affine de l’autre, les n points (xi, yi) sont alignés.

Si 0.80 < rXY < 1, le lien linéaire est très fort. Si 0.65 < rXY < 0.80, le lien linéaire est fort [élevé]. Si 0.50 < rXY < 0.65, le lien linéaire est modéré. Si 0.25 < rXY < 0.50, le lien linéaire est faible. Si 0.025 < rXY < 0.25, le lien linéaire est très faible. Si rXY proche de 0, alors il y a absence de lien

entre X et Y.

Note : Le coefficient de corrélation linéaire entre deux variables quantitatives gaussiennes indépendantes


est nul, mais la réciproque n’est pas toujours vraie. Donc rXY = 0 ne signifie pas toujours qu’il y a indépendance entre X et Y. Cela peut tout simplement vouloir dire qu’il y a absence d’une liaison linéaire entre les variables étudiées. Ceci dit, le calcul d’un coefficient de corrélation doit toujours commencer par un examen graphique.

L’autre faiblesse majeure du coefficient de Bravais – Pearson est d’être très sensible aux points aberrants.

II.2. Coefficient de corrélation de rang de Spearman

Le coefficient de corrélation de Spearman, noté ρXY, est un coefficient non paramétrique qui quantifie,

comme le rXY de Bravais – Pearson, le degré d’association linéaire entre deux variables quantitatives. Il est

particulièrement approprié lorsqu’au moins une de deux variables X et Y n’est pas normalement distribuée.

Son calcul nécessite que les données soient transformées en rang. Le rang de X est noté par Ri et celui de Y

par Si. Le ρXY de Spearman n’est rien d’autre que le rapport entre la covariance (Ri, Si) et le produit non nul

de leurs écarts-types. Il est donc un cas particulier du coefficient de corrélation de Bravais – Pearson.

En tenant compte de certaines propriétés de rang, le ρXY de Spearman peut être calculé de manière plus

simple par la formule :

ρXY = 1 –

[2.3]

où Di = Ri - Si et n = nombre d’observations

Avantages du ρXY de Spearman sur le rXY de Bravais – Pearson

Le rXY de Bravais - Pearson Le ρXY de Spearman

A propos de la normalité

Pour calculer rXY, les variables doivent être gaussiennes.

Le ρXY lève l’hypothèse de normalité. De plus, dans le cas des variables distribuées normalement, le ρXY reste adapté car il fournit les mêmes résultats que le rXY de Bravais – Pearson.

Concernant une liaison non linéaire monotone

Le rXY donne une idée sur le sens de la liaison mais estime mal sa force.

Dans ce cas, le ρXY est approprié, il estime mieux que le rXY ce type de liaison.

La présence des points atypiques

Le rXY est fortement influencé par la présence des déviants [points aberrants].

Le ρXY résiste aux points aberrants. Dans ce cas, il est donc préféré au rXY.

Note : Lorsque la liaison entre les deux variables étudiées est non linéaire et non monotone, les deux coefficients rXY et ρXY ne sont plus adaptés. On peut soit transformer les données avant de les calculer ou carrément, lorsqu’on dispose de plusieurs valeurs de Y pour chaque valeur de X ou l’inverse, calculer le rapport de corrélation.

La démarche du test statistique sur le ρXY de Spearman est la même que celle sur le coefficient de

corrélation de Bravais – Pearson.

Remarques importantes sur le calcul du ρXY de Spearman

Le calcul du coefficient de corrélation de Spearman exige que les données soient remplacées par leurs

rangs. Et en présence d’ex aequo dans les données, on leur affecte un rang moyen, donné par la moyenne

arithmétique de leurs rangs respectifs.


Mais lorsqu’on compte plusieurs ex aequo, après avoir remplacé les données par leurs rangs, il est conseillé

de faire subir au coefficient de Spearman quelques corrections ou simplement de lui préférer le coefficient

de Bravais-Pearson, mais calculé sur les rangs. Dans ce recueil, nous optons pour cette dernière option.

En résumé, l’estimation d’un coefficient de corrélation suivra toujours [sauf indication contraire], dans

l’ordre, les cinq étapes suivantes :

(i) Test de linéarité [utiliser un diagramme de dispersion]

(ii) Test de normalité [choisir le plus approprié connaissant n]

(iii) Choix et estimation d’un coefficient de corrélation

(iv) Test de significativité statistique sur le coefficient calculé

(v) Interprétation ou signification clinique du coefficient estimé [valable seulement si H0 est rejetée]

Critère synthétique de choix d’un coefficient de corrélation

Informations fournies par les données Coefficient de corrélation approprié [en termes de robustesse] Type de liaison Normalité

linéaire Variables normales - Coefficient rXY de Bravais – Pearson

- Coefficient ρXY de Spearman

linéaire L’une au moins de deux variables est non normale

- Coefficient ρXY de Spearman Non linéaire monotone Variables normales ou non

Présence des points atypiques

II.3. Limites de la corrélation

Les coefficients de corrélation présentés dans ce chapitre présentent essentiellement quatre faiblesses, à

savoir :

La mesure ne concerne qu’une relation linéaire. Le coefficient de corrélation linéaire sert avant

tout { caractériser une liaison linéaire. Lorsqu’elle ne l’est pas, ce coefficient peut induire en erreur,

surtout sur l’intensité de la liaison entre variables considérées.

La mesure ne concerne que les variables quantitatives. En présence des variables qualitatives

comme la paix, la religion, …, les deux coefficients présentés ci-haut ne sont plus adaptés.

La corrélation n’est ni impact ni causalité. L’objet de la corrélation n’est pas d’établir une causalité

mais simplement de rendre compte du sens et du degré d’association éventuelle entre variables.

La corrélation peut être fortuite [artificielle ou fallacieuse ou encore artefactuelle]. Une

corrélation élevée ne peut tenir qu’{ un facteur confondant ou artefact. En réalité, les deux

variables peuvent simplement être liés à un même phénomène - source : une troisième variable

dont il faut neutraliser l’effet.

Les alternatives face à ces faiblesses sont notamment la corrélation pour variables qualitatives, le

coefficient de corrélation partiel, le rapport de corrélation, la régression linéaire et non linéaire, la causalité,

la cointégration, etc.


Exercices résolus sur la théorie de la corrélation

Exercice 1

Un chercheur désire examiner la relation qu’il peut exister entre l’habilité en lecture (X) et le nombre

d’heures de lecture par semaine (Y). X est mesuré en laboratoire { l’aide d’un test d’habilité en lecture alors

que Y est estimé par les sujets eux-mêmes. 10 sujets ont été échantillons. Les résultats sont :

X 20 5 5 40 30 35 5 5 15 40

Y 5 1 2 7 8 9 3 2 5 8

Estimer la corrélation entre X et Y [passer par les cinq étapes]

Solution de l’exercice 1

Etape 1. Test de linéarité

Etape 2. Test de normalité

Puisqu’étant approprié pour petit échantillon, nous appliquons le test de Shapiro – Wilk.

La statistique à calculer est : W =

Test sur la variable X

i X X(i)

ai

1 20 5 -15 225 0,5739 35 20,0865

2 5 5 -15 225 0,3291 35 11,5185

3 5 5 -15 225 0,2141 30 6,423

4 40 5 -15 225 0,1224 25 3,06

5 30 15 -5 25 0,0399 5 0,1995

6 35 20 0 0 ∑ 41,2875

7 5 30 10 100

W=

= 0.83154032

Wtable =0.842 [à 5%, pour n=10] Puisque W<Wtable, RH0. La variable X est non gaussienne.

8 5 35 15 225

9 15 40 20 400

10 40 40 20 400

∑ 0 2050

=20 ; n=10 ;

=5

0

2

4

6

8

10

0 10 20 30 40 50

Ce graphique fait état d’une association

linéaire positive entre X et Y.


Test sur la variable Y

i Y y(i)

ai

1 5 1 -4 16 0,574 8 4,5912

2 1 2 -3 9 0,329 6 1,9746

3 2 2 -3 9 0,214 6 1,2846

4 7 3 -2 4 0,122 4 0,4896

5 8 5 0 0 0,04 0 0

6 9 5 0 0 ∑ 8,34

7 3 7 2 4

W=

= 0.915205263

Wtable =0.842 [à 5%, pour n=10] Puisque W>Wtable, Non RH0. La variable Y est gaussienne.

8 2 8 3 9

9 5 8 3 9

10 8 9 4 16

∑ 0 76

5 ; n=10 ;

=5

Etape 3. Choix et estimation d’un coefficient de corrélation

Eu égard aux résultats des tests de linéarité et de normalité [X est non gaussienne], le coefficient de

corrélation approprié dans ce cas est le ρXY de Spearman. Les calculs sont confinés dans le tableau ci-après :

X Y Rang de X [Ri] Rang de Y [Si] Di = Ri - Si Di2

20 5 6 5,5 0,5 0,25

5 1 2,5 1 1,5 2,25

5 2 2,5 2,5 0 0

40 7 9,5 7 2,5 6,25

30 8 7 8,5 -1,5 2,25

35 9 8 10 -2 4

5 3 2,5 4 -1,5 2,25

5 2 2,5 2,5 0 0

15 5 5 5,5 -0,5 0,25

40 8 9,5 8,5 1 1

∑ 18,5

ρXY = 1 –

= 0. 887878788

Note : Deux nombres – au moins – identiques ont même rang qui est donné par la moyenne arithmétique de leurs rangs

respectifs.

Etape 4. Test de significativité statistique

La statistique du test est : tcal=

= 5. 45842979 et t0.025 ; 8 = 2.306 [Puisque tcal >ttable, alors RH0

d’absence de corrélation entre X et Y, le coefficient de corrélation calculé est statistiquement significatif].

Etape 5. Signification clinique [interprétation]

Il existe bel et bien une corrélation linéaire positive très forte entre l’habilité en lecture (X) et le nombre

d’heures de lecture par semaine (Y) au sein de la population étudiée.


Exercice 2

Montrer rigoureusement que par construction le coefficient de corrélation linéaire est toujours comprise

entre - 1 et 1 [Utiliser la formule de Bravais – Pearson].


Si le lien linéaire entre X et Y est parfait, Y (X) s’écrirait comme une fonction affine de X (Y) :

Y = α + βX D’une part, on aura :

Cov (X, Y) = E(XY) = E{[X – E(X)] [Y – E(Y)]}

= E{[X – E(X)][ α + βX – E(α + βX)]}

= E{[X – E(X)][ α + βX – α – βE(X)]}

= E{[X – E(X)] β[X – E(X)]}

= β[X – E(X)]2

= βVar(X) D’autre part, on a ceci :

Var(Y) = E[Y – E(Y)]2 = E[α + βX – α – βE(X)]

2

= β2var(X) Et par conséquent,

rXY =

=

=

= 1

Y = α – βX D’une part, on aura :

Cov (X, Y) = E(XY) = E{[X – E(X)] [Y – E(Y)]}

= E{[X – E(X)][ α – βX – E(α – βX)]}

= E{[X – E(X)][ α – βX – α + βE(X)]}

= – E{[X – E(X)] β[X – E(X)]}

= – β[X – E(X)]2

= – βVar(X) D’autre part, on a ceci :

Var(Y) = E[Y – E(Y)]2 = E[α – βX – α + βE(X)]

2

= β2var(X) Et par conséquent,

rXY =

=

=

= – 1

Le domaine de définition de rXY est donc [– 1, + 1]

Exercice 3

Le tableau ci-après renseigne sur l’évolution de l’offre de jus de banane (X) et son prix en USD (Y).

N° 1 2 3 4 5 6 7 8 9 10 11

X 10 8 9 11 14 6 4 12 7 5 8

Y 7 6 7 8 9 6 5 8 6 6 7

Travail à faire :

- Calculer le coefficient de corrélation approprié.

- Tester sa significativité statistique

- Evaluer sa signification clinique


1. Test de linéarité

Le diagramme de dispersion témoigne de l’existence d’une association linéaire positive entre X et Y.

0

2

4

6

8

10

0 5 10 15


2. Test de normalité

Test sur la variable X

i X

ai

1 10 4 -4,5454545 20,661157 0,5601 10 5,601

2 8 5 -3,5454545 12,5702479 0,3315 7 2,3205

3 9 6 -2,5454545 6,47933884 0,226 5 1,13

4 11 7 -1,5454545 2,38842975 0,1429 3 0,4287

5 14 8 -0,5454545 0,29752066 0,0695 1 0,0695

6 6 8 -0,5454545 0,29752066 ∑ 9,5497

7 4 9 0,4545455 0,20661157

W=

= 0,983494579

Wtable=0,850 Puisque W >Wtable, alors Non RH0. La variable X est normalement distribuée.

8 12 10 1,4545455 2,11570248

9 7 11 2,4545455 6,02479339

10 5 12 3,4545455 11,9338843

11 8 14 5,4545455 29,7520661

∑ 0 92,7272727

= 8,545454545 ; n =11 ;

= 5,5

Note : n étant impair, on n’a retenu que la partie entière du ratio

, soit 5.

Test sur la variable Y

i Y

ai

1 7 5 -1,818181818 3,30578512 0,5601 4 2,2404

2 6 6 -0,818181818 0,66942149 0,3315 2 0,663

3 7 6 -0,818181818 0,66942149 0,226 2 0,452

4 8 6 -0,818181818 0,66942149 0,1429 1 0,1429

5 9 6 -0,818181818 0,66942149 0,0695 1 0,0695

6 6 7 0,181818182 0,03305785 ∑ 3,5678

7 5 7 0,181818182 0,03305785

W=

= 0,933474435

Wtable=0,850 Puisque W >Wtable, alors Non RH0. La variable Y est normalement distribuée.

8 8 7 0,181818182 0,03305785

9 6 8 1,181818182 1,39669421

10 6 8 1,181818182 1,39669421

11 7 9 2,181818182 4,76033058

∑ 0 13,6363636

= 6,818181818 ; n=11 ;

= 5,5

3. Choix et estimation d’un coefficient de corrélation

Les deux variables étant gaussiennes et linéairement associées, on peut indifféremment estimer le rXY de

Bravais-Pearson ou le ρXY de Spearman. Dans ce cas, les deux coefficients devraient donner pratiquement la

même chose. Après calcul, on a les résultats suivants :


Le rXY de Bravais-Pearson Le ρXY de Spearman

Corrélation entre X et Y 0,95870624 0,95227273

4. Signification statistique du coefficient calculé

La statistique calculée est : = 10.1129979 pour le rXY de Bravais-Pearson, et = 9.3589914, pour le

ρXY de Spearman.

Et la valeur de la table, au seuil de 5%, est de : t0.025 ; 9 =2.262

Conclusion : le coefficient de corrélation calculé est statistiquement non nul.

5. Signification clinique

il existe bel et bien une corrélation linéaire positive très forte entre quantité offerte de jus de banane et son

prix, ce qui est conforme à la moi de l’offre.

Exercice 4

A partir d’un échantillon de 27 objets, on a trouvé que la valeur d’un coefficient de corrélation linéaire était

0.4. Peut-on en conclure, à un seuil de signification de 0.05 que le coefficient de corrélation diffère

significativement de la valeur zéro ? Qu’adviendrait la réponse obtenue précédemment si l’on considère un

seuil de signification de 0.01.


L’exercice livre les informations suivantes : rXY =0.4 ; n=27 ; α = 0.05.

Après calcul, on a tcal=2.1821789. En considérant le seuil donné, α = 0.05, et 25 degrés de liberté, la

table de la loi de Student donne la valeur : t0.025 ; 25 = 2.060. On peut donc conclure, à un seuil de signification

de 0.05 que le coefficient de corrélation diffère significativement de la valeur zéro.

Au seuil de signification de 0.01, t0.005 ; 25 = 2.787, ce coefficient de corrélation devient non significatif.

Exercice 5

Soit le jeu de données normalement distribuées ci-dessous.

Bloc I Bloc II Bloc III Bloc IV

X Y X Y X Y X Y

10 8,04 10 9,14 10 7,46 8 6,58

8 6,95 8 8,14 8 6,77 8 5,76

13 7,58 13 8,74 13 12,74 8 7,71

9 8,81 9 8,77 9 7,11 8 8,84

11 8,33 11 9,26 11 7,81 8 8,47

14 9,96 14 8,10 14 8,84 8 7,04

6 7,24 6 6,13 6 6,08 8 5,25

4 4,26 4 3,1 4 5,39 19 12,5

12 10,84 12 9,13 12 8,15 8 5,56

7 4,82 7 7,26 7 6,42 8 7,91

5 5,68 5 4,74 5 5,73 8 6,89


Travail demandé :

(i) Estimer pour chaque cas le coefficient de corrélation de Bravais – Pearson

(ii) Quel constat se dégage t-il de ces calculs ?

(iii) A présent, réaliser un graphique nuage des points pour chaque cas. Quelle leçon peut-on tirer ?

(iv) Calculer le coefficient de Spearman pour le bloc IV. Quel avantage présente-t-il ?


(i) Après calcul, on a le coefficient de Bravais-Pearson ci-après, pour chaque cas :


rXY 0,81642052 0,81623651 0,81628674 0,81652144

(ii) Pour les 4 blocs, on obtient pratiquement la même valeur du coefficient de corrélation de Bravais-

Pearson, soit rXY = 0.82. Ce qui semble traduire dans ces différents cas, l’existence d’un lien linéaire

positif très fort.

(iii) Graphique nuage ds points pour chaque bloc


La leçon à tirer est que l’estimation du coefficient de corrélation de Pearson doit toujours s’accompagner d’un

examen graphique. Car, comme on le voit, le coefficient estimé rXY = 0.82, ne correspond, en toute rigueur,

qu’au premier graphique. Le deuxième, par exemple, fait état d’une liaison fonctionnelle presque parfaite

entre X et Y dont le rXY semble sous-estimer l’intensité. Quant au troisième et au quatrième graphiques, il y a un

point atypique qui fausse complètement le rXY de Bravais-Pearson. Pour preuve, il suffit de retirer le point

aberrant, soit le couple (13, 12.74) et (19, 12.5), respectivement dans le troisième et quatrième graphiques, le

coefficient de corrélation de Pearson qui était de rXY=0.82, devient respectivement de 0.99999655 et de 0

[puisque rkX=0].

(iv) On remarquera qu’au bloc IV, la variable X présente plusieurs ex aequo, nous avons donc calculé le

coefficient de Bravais-Pearson sur les rangs.

Coefficient de Bravais-Pearson calculé sur les rangs

Bloc IV 0.5

Lien entre X et Y

A comparer au coefficient de Pearson, le coefficient de rang présente l’avantage de résister aux points

atypiques.

0

5

10

15

0 10 20

0

5

10

0 10 20

0

5

10

15

0 5 10 15 0

5

10

15

0 10 20


Exercice 6

Voici un échantillon de deux variables gaussiennes :

X Y

-2 4

-1 1

0 0

1 1

2 4


- Les deux variables étant supposées gaussiennes par l’exercice, et puisque le test de linéarité ici ne fait pas un

préalable, on passe directement à l’estimation du rXY comme présentée dans le tableau ci-dessous :

X Y Xi – Yi – (Xi – )(Yi – (Xi – 2 (Yi – )2

-2 4 -2 2 -4 4 4

-1 1 -1 -1 1 1 1

0 0 0 -2 0 0 4

1 1 1 -1 -1 1 1

2 4 2 2 4 4 4

Somme 0 0 0 10 14

Moyenne 0 2

rXY = 0

- rXY = 0 signifie que les variables X et Y seraient non corrélées [indépendance]

- Le diagramme de dispersion des couples (xi, yi) est :

Il ressort de ce diagramme de dispersion qu’il existe bel et bien une liaison [de type non linéaire] entre les

variables X et Y.

La nuance à faire, au vu de ces résultats, est qu’un coefficient de corrélation de Bravais – Pearson nul ne

devrait pas toujours s’interpréter comme une absence de relation entre variables en cause. La meilleure

interprétation serait que les deux variables étudiées sont non linéairement corrélées, car un rXY =0 laisse

toujours la possibilité d’existence, entre les variables considérées, d’une liaison d’un autre type.

0

1

2

3

4

5

-3 -2 -1 0 1 2 3

Travail à faire :

- Estimez le coefficient de corrélation de Bravais - Pearson

- A quoi renvoie ce résultat ?

- Faites maintenant un diagramme de dispersion. Que voyez-vous ? Quelle

nuance pouvez-vous donc formuler dans ce cas ?


Exercice 7

A Washington, un journaliste a découvert qu’il existe une très forte corrélation entre le fait d’avoir un nid de

cigognes sur sa demeure et le fait d’avoir des enfants. D’où il conclut que les cigognes apportent les bébés.

Quelle remarque pouvez-vous faire à une telle conclusion ?


La remarque principale à formuler à ce type de corrélation que rien ne peut expliquer – ou qui en réalité tient à

un autre phénomène-source – est que la corrélation peut être fortuite ou artificielle. Par ailleurs, à bien

analyser les choses, tenant compte des réalités de Washington, la présence d’un nid de cigognes sur le toit

signifierait plutôt que la famille qui y habite est aisée et donc disposée, financièrement, à avoir plus d’enfants.

Exercice 8

En résolvant un TP de statistique 1 sur le calcul du coefficient de corrélation linéaire, un étudiant de G1 FASE

fournit le tableau suivant :

Xi Yi Xi – Yi – (Xi – )*(Yi – ) (Xi – )² (Yi – )²

80 32 -20 -18 360 400 324

100 50 0 0 0 0 0

115 62 15 12 180 225 144

110 56 10 6 60 100 36

70 8 -30 -42 1260 900 1764

125 80 25 30 750 625 900

105 62 6 12 72 36 144

90 50 -10 0 0 100 0

110 62 10 12 120 100 144

95 38 -5 -12 60 25 144

∑

1 0 2862 2511 3600

=100 =50 rXY =

= 0.9519

Sans avoir { refaire tous les calculs, { regarder ce tableau, vous concluez qu’il y a erreur de calcul. Par quoi la

voyez-vous ?


Par la somme des écarts de la variable X à sa moyenne arithmétique. Cette somme est forcément égale à zéro,

une valeur différente indique tout simplement une erreur de calcul.

Exercice 9

Soient les données sur les variables X et Y reprises dans le tableau ci-après et le nuage de points

correspondant :

X 1 1,1 1,25 1,5 2 2,25

Y 3 6,8 8,3 9,3 9,81 9,85

0

2

4

6

8

10

12

0,9 1,4 1,9 2,4


Estimer les coefficients de corrélation de Bravais-Pearson et de Spearman, puis commenter.


Les calculs sont synthétisés dans le tableau ci-après :

X Y x y xy x² y² Ri Si Di Di²

1 3 -0,52 -4,84 2,50 0,2669 23,46 1 1 0 0

1,1 6,8 -0,42 -1,04 0,43 0,1736 1,09 2 2 0 0

1,25 8,3 -0,27 0,46 -0,12 0,0711 0,21 3 3 0 0

1,5 9,3 -0,02 1,46 -0,02 0,0003 2,12 4 4 0 0

2 9,81 0,483 1,97 0,95 0,2336 3,87 5 5 0 0

2,25 9,85 0,733 2,01 1,47 0,5378 4,03 6 6 0 0

∑ 5,21 1,28 34,77 0

Moyenne 1,52 7,84

rXY = 0,78 ρXY = 1

Les calculs montrent simplement que le ρXY de Spearman est préféré au rXY de Bravais-Pearson lorsque la

liaison entre X et Y est non linéaire mais monotone, car comme on le voit, le rXY a sous-estimé l’intensité

d’une relation non linéaire certes, mais visiblement parfaite entre X et Y.

Exercice 10

[Il y a au moins une réponse exacte, à cocher, à la question suivante].

Le coefficient de corrélation linéaire entre deux variables statistiques :

(a) ne peut être calculé que si les deux variables sont quantitatives

(b) est un nombre positif ou nul

(c) n’est égal à zéro que lorsque les variables sont indépendantes

(d) est un nombre sans dimension.

Solution de l’exercice 10 : (a), (b) et (d)


.III. MODELE DE REGRESSION LINEAIRE SIMPLE

III.1. Modélisation et hypothèses

La corrélation, comme développée au chapitre précédent, sert avant tout { quantifier le degré d’association

linéaire entre deux variables quantitatives dont la position, dans l’étude, est symétrique. Elle ne permet

donc ni d’établir une causalité, ni de mesurer l’impact d’une variable sur l’autre.

Dans le modèle de régression linéaire simple par contre, la position des variables dans l’analyse n’est pas

symétrique. On connait, { priori, la variable aléatoire qui cause l’autre [Y=f(X)]19, ce qui rend possible la

mesure de l’impact ou de la contribution de X dans l’explication de Y. La plupart du temps, et comme le mot

l’indique, le modèle de régression linéaire simple considère que la variable à expliquer Y est une fonction

affine de la variable explicative X. Mathématiquement, cette dépendance linéaire s’écrit de la sorte :

[3.1] Yt = β0 + β1Xt

où β0 et β1 sont les paramètres du modèle qui permettent de caractériser la relation de dépendance linéaire

qui existe à chaque date t entre Xt et Yt.

Encadré 2. Fonction affine

Une fonction affine est toute fonction de la forme : Y = a + bX [avec a et b *]

a : est l’ordonnée { l’origine ou l’origine

b : est la pente de la droite ou le coefficient angulaire [directeur]

La fonction affine est appelée aussi fonction linéaire si a =0

Graphe d’une fonction affine [considérons le cas où a > 0 et b > 0]

La pente d’une droite mesure la variation de Y quand

on se déplace le long de la droite en accroissant X

d’une unité.

Géométriquement, la pente b est donnée par :

b = tg (α) = é é

é =

Et l’équation d’une droite passant par deux points, de

coordonnées (X0, Y0) et (X1, Y1), est :

Y – Y0 = b (X – X0)

Algébriquement, la pente s’obtient en dérivant Y par rapport à X :

b =

ou b =

=

[Si données discrètes]

19

Cette information est généralement fournie par la théorie économique, ou peut simplement découler de l’objectif de

l’étude du modélisateur.

Y

X

a

0

Y = a + bX

D

E

F ∆X = X1 – X0

∆Y = Y1 – Y0

α


Sous sa spécification économétrique, le modèle [3.1] s’écrit comme suit :

[3.2] Yt = β0 + β1Xt + ut

Dans ce cas de la régression linéaire simple β0 est le terme constant ou l’origine et β1 la pente.

Comme pour la corrélation, avant toute analyse, il intéressant de toujours commencer par un examen

graphique – à travers un diagramme de dispersion – du type de relation qui lie les deux variables

considérées. Il faut noter, par ailleurs, que le raisonnement qui sera développé dans la suite de ce chapitre,

ne peut s’appliquer que si Y peut s’écrire comme une fonction affine de X.

Considérons le jeu de données ci-après où un chercheur veut expliquer l’habilité en lecture (Y) de dix sujets

échantillonnés par le nombre d’heures de lecture par semaine (X). Y est mesurée en laboratoire { l’aide

d’un test d’habilité en lecture alors que X est estimé par les sujets eux-mêmes.

Y 20 5 5 40 30 35 5 5 15 40

X 5 1 2 7 8 9 3 2 5 8

D’un point de vue pratique, régresser Y sur X présente un objectif double :

Ajuster un modèle linéaire pour expliquer les valeurs prises par Y par celles de X. Autrement, il

s’agit de faire un ajustement linéaire, c’est-à-dire de remplacer le nuage de points des couples (x i,

yi) par une droite qui s’y adapte le mieux que possible.

Prédire les valeurs de Y pour les nouvelles valeurs de X.

Pour le jeu de données ci-dessus, on a les graphiques suivants :

Graphique nuage de points

Sens de l’ajustement linéaire

L’ajustement linéaire [ou régression linéaire] consiste donc { tracer une droite d’ajustement – appelée

également droite de régression – qui, sans passer par tous les points du nuage, s’y approche le mieux. Pour

ça, il faut donc un critère quantifiant la qualité de l’ajustement.

Le critère auquel on se réfère dans ce chapitre, et très souvent en économétrie, est le critère ou la méthode

des Moindres Carrés Ordinaires [MCO]20. On utilise souvent le terme anglais OLS [Ordinary Least Squares]

pour désigner la même méthode.

20

Certains auteurs ironisent en disant que la méthode nous sert { mettre un chapeau sur nos β.

0

10

20

30

40

50

0 2 4 6 8 10

0

10

20

30

40

50

0 2 4 6 8 10

et


Hypothèses

L’application du critère des moindres carrés ordinaires repose sur les hypothèses suivantes :

Hypothèses sur la partie systématique Hypothèses sur la partie stochastique

H1. Les variables X et Y sont observées sans erreur. Y est

aléatoire par l’intermédiaire de ut, c’est-à-dire que la seule erreur possible sur Y provient des insuffisances de X à expliquer ses valeurs dans le modèle.

H2. Les variables X et Y doivent être gaussiennes et

stationnaires en niveau.

H3. Le modèle est linéaire en ses paramètres tels que

l’exprime l’équation [3.2].

H4. Le nombre d’observations n doit être supérieur au nombre des paramètres à estimer.

H5. Hypothèse de centralité : E(ut)=0 C’est-à-dire qu’en moyenne, l’influence de ut sur le modèle est nulle, ce qui revient à admettre que le modèle est correctement spécifié.

H6. Hypothèse non autocorrélation des erreurs :

E(uiuj) = 0 i ≠j Les erreurs ut de différentes périodes sont indépendantes les unes des autres.

H7. Hypothèse d’homoscédasticité des erreurs :

E(uiuj) = i =j

Les erreurs ut ont une variance constante et finie. Plus explicitement, il s’agit d’assumer que les variables explicatives omises dans le modèle influent toutes pratiquement de façon constante sur la variable expliquée.

H8. Hypothèse de normalité des erreurs: ut (0, )

Cette hypothèse est la clé de l’inférence statistique. Elle est donc nécessaire pour mener les tests.

H8. Hypothèse d’indépendance entre la partie systématique et la partie aléatoire : Cov (Xt, ut)=0.

Cette hypothèse signifie que l’erreur et les variables explicatives ont une influence séparée sur la variable endogène.

Note : (i) Lorsque les hypothèses H4, H5 et H6 sont réalisées, on dit que les erreurs sont des bruits blancs.

Et lorsqu’on y ajoute l’hypothèse H7, on parle des bruits blancs gaussiens.

(ii) Lorsque toutes les hypothèses sous-tendant la méthode des MCO sont remplies, le théorème de

Gauss – Markov avance que ses estimateurs sont BLUE [Best Linear Unbiased Estimator], c’est-à-dire qu’ils

sont les meilleurs estimateurs linéaires, non biaisés et à variance minimale.

III.2. Estimateurs des moindres carrés ordinaires

Le critère des MCO permet d’obtenir l’équation de la meilleure droite d’ajustement : = + Xt, appelée

également droite des moindres carrés.

Le travail, qui permet d’obtenir la droite, consiste à choisir les paramètres et , en utilisant les

informations apportées par l’échantillon, de manière à rendre minimale la somme des carrés des écarts

[résidus] entre les valeurs observées de Y et ses valeurs prédites par le modèle.

Note : Les résidus, notés et, sont l’estimation de l’erreur ut sur base de données de l’échantillon [et = ], elle

est donnée par : et = Yt – .

Mathématiquement, le critère des MCO se présente comme suit :

Min S =

=

=

La détermination de et se fait en appliquant les conditions du premier ordre :

= 0 [3.3]

= 0 [3.4]


En appliquant ces dérivées partielles, on obtient les équations normales, à partir desquelles sont tirés les

estimateurs des MCO :

∑Y = n + ∑X [3.5]

∑XY = ∑X + ∑X2 [3.6]

A partir de [3.5], en divisant toute la relation par n, on détermine l’estimateur de β0 :

= – [3.7]

Après substitution de dans la deuxième équation normale [3.6], on tire l’estimateur de β1 :

=

[3.8]

Un développement mathématique simple permet d’exprimer par le produit de la covariance empirique

entre X et Y et de la variance empirique de X.

=

=

[3.9]

En utilisant les variables centrées, est donnée par le rapport :

=

[3.10]

et sont donc les estimateurs des moindres carrés ordinaires. est le paramètre d’intérêt qui capture

entièrement la dépendance linéaire de Y envers X.

1ère conséquence : La droite des moindres carrés = + Xt passe forcément par l’origine et le point

de coordonnées ( , ), appelé le centre de gravité ou le point moyen du nuage de points. Pour le vérifier, il

suffit de réaliser une projection pour le point :

( ) = +

= ( – ) +

=

Ce résultat montre que lorsqu’on travaille sur les écarts { la moyenne arithmétique [variables centrées], on

reste sur la même droite d’ajustement – ce qui implique que la pente reste inchangée –, mais l’on soulève

les axes jusqu’au centre de gravité.

0

5

10

15

20

25

30

35

40

45

0 1 2 3 4 5 6 7 8 9 10

( , ) =

=

Y

X

x

y


Ainsi, en travaillant avec les écarts { la moyenne arithmétique, l’origine peut disparaitre

momentanément, car une petite manipulation suffit à le retrouver. La fonction affine = + Xt devient

linéaire :

= [3.11]

2ème conséquence : la droite des moindres carrés a pour équation :

– =

(Xt – ) [3.12]

On démontre aussi que la moyenne arithmétique de est égale à :

=

=

= –

+

=

3ème conséquence : la somme – et donc la moyenne arithmétique – des résidus est nulle dans une régression

avec constante. En effet :

=

= n - n - n

= n – n( – ) - n

= 0

4ème conséquence : il existe un lien entre la pente d’une régression linéaire simple et le coefficient de

corrélation de Bravais – Pearson rXY:

=

=

= rXY

L’écart – type étant non négatif, la pente et le coefficient de corrélation de Pearson rXY auront toujours le

même signe.

Synthèse des formules des formules pour l’estimation des β0 et β1

Données brutes Variables centrées rXY connu Connaissant l’origine et le centre de gravité

Modèle estimé = + Xt = + Xt

=

Formules

Equations normales

=

=

= rXY

- Tracer la droite des moindres carrés ;

- est la pente de la droite, soit :

=

∑Y = n + ∑X

∑XY = ∑X + ∑X2

Estimateurs21

=

= –

21

L’estimateur est une formule, et l’estimation est la valeur qu’on trouve en appliquant l’estimateur.


III.3. Décomposition de la variance totale et coefficient de détermination R2

L’analyse de la variance a pour objet de dériver un indicateur synthétique, appelé coefficient de

détermination R2, qui évalue la qualité de l’ajustement réalisé en appliquant le critère des moindres carrés. Il

indique donc dans quelle mesure, la variable explicative X nous permet d’améliorer nos connaissances sur la

variable endogène Y.

Soit yt = + et [3.13]

La somme des carrés, dans [3.13], donne :

∑ = ∑

[3.14]

Après développement de la relation [3.14], on obtient l’équation d’analyse de la variance :

SCT = SCE + SCR [3.15]

∑ = ∑

+ ∑ [3.16]

Interprétation de l’équation d’analyse de la variance :

SCT est la somme des carrés totaux. Elle indique la variabilité totale de Y.

SCE est la somme des carrés expliqués. Elle indique la variation de Y due à sa régression linéaire sur X.

SCR est la somme des carrés résiduels. Elle indique la variabilité de Y non expliquée par le modèle.

Dérivation du coefficient de détermination R2

A partir de l’équation [3.15], le R2 correspond au rapport :

R2 =

[3.17]

Ainsi, le R2 peut être interprété comme la proportion de variance de Y expliquée par le modèle.

Toujours à partir de la relation [3.15], on peut déduire les informations suivantes :

Au meilleur des cas Au pire des cas

SCR = 0 SCE = 0

SCT = SCE SCT = SCR

R2

= 1 R2

= 0

Le modèle est parfait, la droite de régression passe par tous les points du nuage.

Le modèle est mauvais, la meilleure prédiction de Y est sa propre moyenne.

Intervalle de variation du R2 0 ≤ R

2 ≤ 1

Autres formules du R2

R2 =

= 1 -

=

=

=

= =

Avec la pente de la droite de régression de X sur

Y, soit = +

Yt.

Plus le R2 est proche de 1, meilleur est l’ajustement, la connaissance des valeurs de X permet de


deviner avec précision celles de Y.

Plus le R2 est proche de 0, mauvais est l’ajustement, X n’apporte pas d’informations utiles sur Y.

Il faut tout de même faire attention quant au crédit à accorder au R2, il doit toujours être accompagné

d’autres tests [Student et Fisher essentiellement] avant de trancher sur la bonté d’un modèle, mais il reste un critère non négligeable pour la prévision.

Relation entre le coefficient de corrélation de Pearson et le R2

Pour une régression linéaire simple, et seulement dans ce cas, le R2 n’est rien d’autre que le carré du

coefficient de corrélation de Pearson. La démonstration est relativement simple.

Partant de la relation = rXY

, on peut tirer rXY et en l’élevant au carré, on a :

=

=

=

=

=

=

= R2

Par conséquent rXY = signe (β

)

Note : Comme le coefficient de corrélation linéaire de Pearson, le R2, pour une régression linéaire simple,

est symétrique.

III.4. Test de significativité des paramètres

Etant donné que les valeurs et ne sont que des estimations des paramètres β0 et β1 inconnus de la

population, il faut donc s’assurer de leur fiabilité statistique. Pour appliquer les tests sur les paramètres, il

est important de connaître leurs variances et la variance résiduelle.

La démonstration22 du théorème de Gauss – Markov conduit à la construction de la matrice – symétrique –

des covariances – variances suivante23 :

=

=

Et la variance résiduelle est donnée par :

=

22

Pour les détails, lire par exemple Bourbonnais (2005), Bofoya (2007), Bosonga (2010). 23

Appelée souvent matrice COVA, notée par la lettre Omega (Ω).


Test de significativité individuelle

Le test de significativité individuelle porte sur chaque paramètre. Les hypothèses du test sont :

H0 : βi = 0 [le paramètre est statistiquement nul, non significatif]

H1 : βi ≠ 0n [le paramètre est statistiquement non nul, significatif]

Il s’agit d’un test bilatéral [two-tail ou two-sided]24. Il est basé sur la statistique t de Student calculée

comme suit :

=

[3.18]

Sous H0, la formule [3.18] devient :

=

[3.19]

On démontre, sous H0, que cette statistique suit une distribution de Student au seuil α [5% sauf indication

contraire] et à (n – 2) degrés de liberté.

Critère de décision : Si > tα/2 ; (n – 2) [valeur lue dans la table de Student], alors RH0, le paramètre est

statistiquement non nul, la variable lui associée est par conséquent non pertinente dans la prédiction de Y.

Intervalle de confiance des paramètres βi

Le RH0 revient simplement { refuser que le paramètre βi de la population est nul, cela ne signifie nullement

que serait la vraie valeur du paramètre βi. Ainsi, on peut, en se basant sur les paramètres estimés et en

assumant un risque donné, construire des intervalles de confiance pour les paramètres βi.

Ces intervalles de confiance sont trouvés en appliquant la formule :

I = ± tα/2 ; (n – 2) [3.20]

Test de significativité conjointe ou globale

Un autre test consiste à tester la significativité conjointe de tous les paramètres estimés du modèle. C’est le

tes basé sur la statistique de Fisher, appelé aussi test d’analyse de la variance ANOVA. La statistique du test

est donnée par le rapport suivant :

F=

[3.21]

Une manipulation simple permet d’exprimer F en fonction du R2 comme ci-après :

F =

[3.22]

Le test F teste statistiquement la raison d’être du modèle. Par ailleurs, partant de la relation [3.22], d’aucuns

considèrent qu’il teste la significativité du coefficient de détermination.

24

C’est-à-dire que H0 est rejetée que le coefficient soit positif ou négatif.


Dans le cas d’une régression linéaire simple, le test F est confondu au test de significativité individuelle de la

pente. Les deux tests sont basés sur les mêmes hypothèses, et on démontre dans ce cas que :

F =

[3.23]

Preuve :

F =

=

=

=

=

=

Les hypothèses du test sont donc25 :

H0 : β1 = 0 [le modèle n’est pas bon]

H1 : β1 ≠ 0n [le modèle est bon]

Comme on le voit, valider la significativité de la pente revient, en même temps, à admettre la bonté du

modèle.

Sous H0, on démontre que la statistique F suit une loi de Fisher à respectivement 1 et (n-2) degrés de liberté.

Critère de décision : Si F > F [1 ; (n – 2)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire], on

rejette H0, le modèle est bon.

Significativité de la pente versus significativité du rXY de Bravais – Pearson

Partant de la relation [3.22] et [3.23] ci-haut, on montre facilement que tester = 0, revient à tester rXY = 0.

Cela implique qu’accepter la significativité de la pente, c’est accepter également la significativité du

coefficient de corrélation linéaire.

En effet, en considérant les relations [3.22] et [3.23], et en sachant que le R2 correspond au carré du rXY, on

établit :

=

=

=

25

Le test de significativité globale ne porte que sur les paramètres associés aux variables exogènes.


III.5. Prévision dans le modèle de régression linéaire simple

L’un des objets de l’ajustement linéaire qu’on effectue est de nous aider { prédire les valeurs de Y pour les

nouvelles de X, bref à prévoir.

Connaissant la nouvelle valeur de X pour un horizon h, notée Xn+h, on distingue deux types de prévision de la

valeur de Y { l’horizon considéré : la prévision ponctuelle et la prévision par intervalle.

La prévision ponctuelle est très simple. Connaissant Xn+h, il suffit de substituer cette valeur dans

l’équation estimée pour obtenir la valeur correspondante de Y, soit :

= + Xn+h [3.24]

Partant de la prévision ponctuelle, la prévision par intervalle est faite en appliquant la formule ci-

après :

Yn+h I = ± tα/2 ; (n – 2) [3.25]

où est l’écart-type de l’erreur de prévision26. Il est donné par la formule :

=

[3.26]

Encadré 3. Régression sans terme constant

Soit le modèle : Yt = βXt + ut

Le travail d’estimation de ce modèle doit inclure les nuances suivantes :

La droite des MCO passe forcément par l'origine des axes ;

La droite des MCO ne passe plus forcément par le barycentre ou le centre de gravité du nuage des points ;

La décomposition de la variance telle que décrite dans ce chapitre n'est plus valable ;

Le test d'analyse de la variance (Fisher) n'a plus de sens ;

Le coefficient de détermination R2 ne peut plus être lu en termes de proportion de variance expliquée par la régression. Il peut même prendre des valeurs négatives ;

La pente de la régression peut être interprétée d'une autre manière. Elle représente directement

le rapport entre les variables c’est-à-dire = .

L'estimateur des MCO de la pente de la régression sans constante s'écrit :

L'estimateur de la variance de l'erreur et le Student théorique doivent tenir compte des degrés de liberté, c’est-à-dire :

=

et

=

tα/2 ; (n – 1)

Source : Adapté de R. Rakotomalala, 2011.

26

L’erreur de prévision capte l’écart entre ce qui sera réalisé et ce qu’on prévoit.


Exercices sur le modèle de régression linéaire simple

Exercice 1

Le tableau ci-dessous représente l’évolution du revenu disponible brut et de la consommation des ménages

en euros pour un pays donné sur la période 1992-2001. [Pour les calculs, prendre 4 chiffres après la virgule].

Année Revenu Consommation

1992 8000 7389.99

1993 9000 8169.65

1994 9500 8831.71

1995 9500 8652.84

1996 9800 8788.08

1997 11000 9616.21

1998 12000 10593.45

1999 13000 11186.11

2000 15000 12758.09

2001 16000 13869.62

On cherche à expliquer la consommation des ménages (C) par le revenu (R), soit :

Ct = α + βRt + ut

Travail à faire :

(i) Tracer le nuage de points et commenter.

(ii) Estimer la consommation autonome et la propension marginale à consommer et .

(iii) En déduire les valeurs estimées de Ct.

(iv) Calculer les résidus et vérifier la propriété selon laquelle la moyenne des résidus est nulle.

(v) Calculer l’estimateur de la variance de l’erreur.

(vi) Tester la significativité de la pente.

(vii) Construire l’intervalle de confiance au niveau de confiance de 95% pour le paramètre β.

(viii) Calculer le coefficient de détermination et effectuer le test de Fisher permettant de déterminer

si la régression est significative dans son ensemble.

(ix) Ecrire et vérifier l’équation d’analyse de la variance. Interpréter.

(x) Après un travail minutieux, un étudiant de L1 FASE trouve le coefficient de corrélation linéaire

entre Ct et Rt suivant rXY = 0.99789619. Sans le moindre calcul, tester la significativité de ce

coefficient. Argumenter.

(xi) En 2002 et 2003, on prévoit respectivement 16800 et 17000 euros pour la valeur du revenu.

Déterminer les valeurs prévues de la consommation pour ces deux années, ainsi que

l’intervalle de prévision au niveau de confiance de 95%.


(i) Le graphique nuage de points est donné ci-dessous :

0

5000

10000

15000

0 5000 10000 15000 20000


Ce graphique témoigne de l’existence d’une association linéaire positive, presque parfaite, entre la

consommation des ménages (Ct) par le revenu (Rt), ce qui autorise l’estimation de la relation les liant par la

méthode des moindres ordinaires.

(ii) Pour simplifier l’estimation de la consommation autonome ( ) et de la propension marginale à

consommer , posons ce qui suit :

Yt =Ct ; Xt = Rt ; α=β0 et β= β1. Ce qui nous permet d’écrire le modèle donné dans l’exercice comme suit :

Yt = β0 + β1Xt + ut

A partir des calculs effectués dans le tableau ci-dessous, on a :

Estimation de la propension marginale à consommer

=

=

= 0,78098

Estimation de la consommation autonome

= – = 9985,575 – 0,78098(11280) = 1176,0896

Le modèle estimé est par conséquent : = 1176,0896 + 0,78098Xt.

(iii) Voir tableau ci-dessous. Ces valeurs sont trouvées en remplaçant dans l’équation de la droite des

moindres : = 1176,0896 + 0,78098Xt, pour chaque date, Xt par sa valeur.

(iv) Voir tableau ci-dessous. Les résidus sont calculés d’après la formule et =

(v) L’estimateur de la variance de l’erreur est donnée par

=

, connaissant n =10 et

(voir

tableau), on obtient :

=

=

20646,1728

(vi) La pente ici est la propension marginale à consommer, soit . Le test de significativité de ce

coefficient requiert son écart-type . Connaissant la variance de l’erreur, la variance de est calculée comme

suit :

Var ( ) =

=

= 0,0003

= 0,0179

Par conséquent son ratio de Student est :

=

=

= 43,5352 t0.025 ; 8 = 2.306.

Puisque > ttable la pente est statistiquement significative.

(vii) L’intervalle de confiance au niveau de confiance de 95% (au seuil de 5%) pour le paramètre β1 est

construire comme suit :

I = [ – (t0.025 ; 8) ; + (t0.025 ; 8)

]

En faisant les remplacements nécessaires, on trouve : I = [0,7396 ; 0,8224]


(viii) Le coefficient de détermination R2 peut être calculé par la formule (les valeurs viennent du tableau

ci-dessous) :

R2 =

=

=

0,9958

Connaissant le t de Student de la pente, la statistique de Fisher peut se calculer comme suit :

F =

= (43,5352)2 = 1895,3136 F [1 ; 8] = 5, 32. Puisque F >Ftable RH0, la régression est significative dans son

ensemble.

(ix) L’équation d’analyse de la variance est :

SCT = SCE + SCR =

+ 39296098,1837 =39130928, 8011 +165169, 3826

(x) Nous savons que dans un modèle linéaire simple, accepter la significativité de la pente revient à

accepter celle du coefficient de corrélation linéaire. La pente étant significative, le rXY l’est aussi

naturellement.

(xi) La prévision ponctuelle ne pose aucun problème. La prévision par intervalle requiert l’estimation de

l’écart-type de l’erreur de prévision. Elle est donnée par :

Yn+h I = ± (t0.025 ; 8)

où

=

En effectuant les remplacements nécessaires, au niveau de confiance de 95% (au seuil de 5%), on a les résultats

suivants :

Prévision ponctuelle Prévision par intervalle

2002 = 1176,0896 + 0,78098(16800) = 14296,5998 Yn+h [13949,0697 ; 14644,1299]

2003 = 1176,0896 + 0,78098(17000) = 14452,7963 Yn+h [14105,2657 ; 14800,3269]

Le tableau récapitulant tous les calculs est repris ci-dessous.


Année Yt Xt yt xt xtyt et

1992 7389,99 8000 -2595,585 -3280 8513518,8 10758400 7423,9516 -33,9615958 1153,389989 6737061,4922 -2561,6234 6561914,4650

1993 8169,65 9000 -1815,925 -2280 4140309 5198400 8204,93434 -35,28434098 1244,984718 3297583,6056 -1780,6407 3170681,1566

1994 8831,71 9500 -1153,865 -1780 2053879,7 3168400 8595,42571 236,2842864 55830,26401 1331404,4382 -1390,1493 1932515,0386

1995 8652,84 9500 -1332,735 -1780 2372268,3 3168400 8595,42571 57,41428643 3296,400286 1776182,5802 -1390,1493 1932515,0386

1996 8788,08 9800 -1197,495 -1480 1772292,6 2190400 8829,72054 -41,64053713 1733,934332 1433994,2750 -1155,8545 1335999,5393

1997 9616,21 11000 -369,365 -280 103422,2 78400 9766,89983 -150,6898313 22707,42527 136430,5032 -218,6752 47818,8294

1998 10593,5 12000 607,875 720 437670 518400 10547,8826 45,56742347 2076,390081 369512,0156 562,3076 316189,8106

1999 11186,1 13000 1200,535 1720 2064920,2 2958400 11328,8653 -142,7553217 20379,08188 1441284,2862 1343,2903 1804428,8884

2000 12758,1 15000 2772,515 3720 10313755,8 13838400 12890,8308 -132,7408121 17620,12319 7686839,4252 2905,2558 8440511,3336

2001 13869,6 16000 3884,045 4720 18332692,4 22278400 13671,8136 197,8064427 39127,38879 15085805,5620 3686,2386 13588354,7011

∑ 0 0 50104729 64156000 0 165169,3825 39296098,1837 0 39130928,8011

n=10 ; =9985,575

=11280

Exercice 2

Soit le modèle linéaire Yt = β0 + β1Xt + ut. Où Yt représente la quantité offerte de pommes et Xt le prix.

On donne les informations suivantes : = 5 et =3.

Après estimation, on a la droite de régression suivante : = + Xt. Connaissant le couple (Y=2.5 ; X=2) par lequel passe cette droite de régression, trouver et .


Connaissant le couple (Y=2.5 ; X=2) et le centre de gravité du nuage de points ( = 5 ; =3), on peut reproduire la droite des moindres carrés de cette estimation comme ci-

après :

Y 5 2.5

X 3 2


En mesurant la pente de cette droite, on trouve la pente =

= 2,5.

Connaissant la pente et les deux moyennes et , est calculé comme suit :

= = 5 – (2,5)3 = – 2,5

Et le modèle estimé (équation de la droite des MCO) est : = – 2,5+ 2,5Xt

Exercice 3

Soit un modèle linéaire simple : Yt = β0 + β0Xt + ut

On donne les informations suivantes :

∑YX=184500 ∑Y2=26350 ∑X2=1400000 =60 =400 n=7

Travail demandé :

- Estimer les coefficients du modèle

- Evaluer la qualité de cet ajustement

- Tester la significativité globale du modèle


En fonction des données en présence, les formules suivantes seront utilisées pour répondre aux trois questions

posées :

=

et = –

R2 =

F =

Après calcul, sachant que ∑YX =∑XY, on a les résultats suivants :

=0,0589 ; = 36,44 ; R2=0,8455 ; F = 27, 3618

Le R2 étant relativement élevé, environ 85%, l’ajustement effectué est de bonne qualité. Et puisque F > F [1 ; 5] =

6,61, on en conclut que le modèle est globalement bon.

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

5,5

0 1 2 3 4


Exercice 4

Soit le modèle : Yt= β0 + β1Xt + ut

Yt : salaire moyen horaire par jour [en USD]

Xt : nombre d’années d’études

On donne par ailleurs les informations suivantes : rXY= 0.951916 ; σx=3.894440 et σy=2.945636

Après estimation, sur base d’un échantillon de 13 observations, un étudiant de L1 FBA présente les résultats

incomplets ci-après :

= 0.030769 + …………….. Xt

Travail demandé :

(i) Compléter les pointillés.

(ii) Tester la significativité du rXY.

(iii) Interpréter ces résultats. Semblent-ils logiques ?

(iv) Calculer le R2.

(v) Tester la significativité de la pente et la significativité d’ensemble du modèle.


(i) Connaissant rXY, σx et σy, la pente est estimée par la formule = rXY

, ce qui donne, en

remplaçant :

=0, 7200. On a ainsi :

= 0,030769 + 0, 7200 Xt

(ii) Le t calculé pour rXY= 0,951916 donne tcal = 10,3054 et le t0.025 ; 11 = 2,201. Puisque tcal > ttable, on

conclut que le rXY est statistiquement non nul.

(iii) Il y a lien fort et positif entre le salaire moyen horaire par jour et le nombre d’années d’études. En

effet, ces résultats semblent logiques car il est tout à fait normal que ceux qui beaucoup étudié gagnent un peu

plus que ceux qui ont étudié un peu moins.

(iv) On sait que, pour un modèle de régression linéaire simple avec terme constant, le R2 n’est rien

d’autre que le carré du coefficient de corrélation de Bravais – Pearson. Ainsi :

R2 = (0, 951916)2 = 0,9061

(v) Connaissant le R2, on a : F = 106, 2009 F [1 ; 11] = 4, 84. On sait de plus que dans un modèle linéaire

simple, le F n’est rien d’autre que le carré du t de Student associé à la pente. Le t de Student de la pente est

donc obtenu en prenant la racine carré de F, soit :

10,3054 > t0.025 ; 11 = 2,201

En conclusion, la pente est statistiquement significative et le modèle est valable dans l’ensemble.


Exercice 5

Le tableau suivant donne l’âge et la tension artérielle Y de 12 femmes :

Individu 1 2 3 4 5 6 7 8 9 10 11 12

Age (X) 56 42 72 36 63 47 55 49 38 42 68 60

Tension artérielle (Y) 136 132 136 130 138 132 136 130 142 134 136 140

Travail demandé :

(i) Déterminer l’équation de la droite de régression de Y sur X.

(ii) Tester la significativité de la pente. Quelle conclusion peut-on tirer ?

(iii) Estimer la tension artérielle d’une femme âgée de 50 ans.


L’équation de la droite de régression de Y sur X est :

= 129,5193 + 0,1079Xt

(5,0449) (0,0942)

(.) : écart-type

La statistique t de Student de la pente est tcal = 0,1079/0,0942 = 1,1455. Le Student théorique, au seuil de 5% et à

10 degrés de liberté est ttable = 2,228. D’où la pente est statistiquement nulle, ce qui signifie que l’âge n’explique

en rien la tension artérielle.

La tension artérielle d’une femme âgée de 50 ans est : = 129,5193 + 0,1079(50) =134,9149

Exercice 6

Les données statistiques ci-dessous portent sur les poids respectifs des pères et de leur fils aîné.

Père 65 63 67 64 68 62 70 66 68 67 69 71

Fils 68 66 68 65 69 66 68 65 71 67 68 70

Travail demandé :

(i) Calculer la droite des moindres carrés du poids des fils en fonction du poids des pères.

(ii) Calculer la droite des moindres carrés du poids des pères en fonction du poids des fils.

(iii) Que vaut le produit des pentes des deux régressions ?

(iv) Juger de la qualité des ajustements faits en (i) et (ii).


Soient Y=Fils et X=Père.

La droite des moindres carrés du poids des fils en fonction en fonction des pères, après estimation est :

= 35,8248031 + 0,47637795Xt

Et la droite des moindres carrés du poids des pères en fonction en fonction des fils, après estimation est :

= -3,37687366 + 1,03640257Xt


Le produit de deux pentes donne le R2 qui, comme le coefficient de corrélation linéaire, est un indicateur

symétrique. On a ainsi :

R2 =0,47637795 * 1,03640257 = 0,49371933

Au regard de la valeur du R2 faible, environ 49%, les ajustements effectués en (i) et (ii) ne sont de bonne qualité.

Exercice 7

Cocher la bonne la réponse.

1. La droite des MCO d’une régression linéaire simple avec constante passe-t-elle par le point ( , ) ?

A. Toujours

B. Jamais

C. Parfois

2. Pour une régression linéaire simple, le R2 est symétrique :

A. Oui

B. Non

C. Parfois

3. Pour une régression linéaire simple, le R2 correspond au carré du F de Fisher :

A. Oui

B. Non


1 A ; 2A ; 3B.

Exercice 8

Soient les données suivantes :

= 114

= 36

= 226

= 702

Estimer la relation Yt = β0 + β1Xt + ut

Indication : n = 6.

Exercice 9

Soit le modèle suivant sans terme constant : Yt = βXt + ut.

Trouver l’estimateur des MCO.


En appliquant le critère des MCO, minimisation de la somme des erreurs quadratiques, à cette relation, on

obtient :


Exercice 10

Soit les résultats d’une estimation économétrique :

= - 32.95 + 1.251Xt

n = 20

R2 = 0.23

= 10.66

1) A partir des informations connues, on demande de retrouver les statistiques suivantes : la somme

des carrés des résidus (SCR), la somme des carrés totaux (SCT), la somme des carrés expliqués

(SCE), la statistique F de Fisher et l’écart-type de la pente.

2) La pente est-elle significativement supérieur à 1 ?

Exercice 11

Montrer algébriquement que :

1. La somme des résidus est toujours égale à 0.

2. Tester l’hypothèse H0 : β1 = 0 [avec β1 la pente], revient { tester l’hypothèse rXY = 0.

Solution de l’exercice 11 : voir texte.

Exercice 12

Le tableau ci-après renseigne sur la quantité offerte d’un bien (Y) et son prix (X)

N° 1 2 3 4 5 6 7 8 9 10

Y 23 25 30 28 33 36 31 35 37 42

X 5 7 9 6 8 10 9 7 8 11

Travail à faire :

(i) Tracer le diagramme de dispersion et commenter.

(ii) Régresser Y sur X.

(iii) Calculer les résidus de cette régression.

(iv) Juger de la qualité de cet ajustement.

(v) Tester la significativité individuelle et conjointe des paramètres.

Exercice 13

Le coefficient de corrélation linéaire entre deux variables X et Y est r = 0.60. Si les écarts-type de X et Y sont

respectivement 1.50 et 2 ; et leurs moyennes, respectivement, 10 et 20. Trouvez les équations de régression

de Y en X et de X en Y.


.IV. MODELE DE REGRESSION LINEAIRE MULTIPLE

IV.1. Formulation et hypothèses de base

Le modèle de régression linéaire multiple n’est qu’une extension du modèle de régression linéaire simple au

cas multivarié dans lequel interviennent plusieurs variables exogènes dans l’explication du phénomène

étudié. On parle aussi de modèle de régression linéaire général ou standard pour souligner que ce modèle

reste valable quel que soit le nombre d’exogènes qui s’y figurent. Dans sa forme générale, il s’écrit de la

sorte :

où chaque est un coefficient marginal qui – après estimation – saisit, ceteris paribus, l’effet d’une

variation d’un point de la variable exogène Xj sur la variable endogène ; t=1, …, n correspond { la date des

observations.

Si l’on considère plusieurs dates, la relation [4.1], sous forme matricielle, s’écrit :

où k est le nombre de variables explicatives, k+1 le nombre de paramètres que l’on prendra l’habitude de

noter par K dans la suite de ce chapitre.

Sous forme compacte, on a :

[4.2] Y = Xβ + U

En principe, le critère des moindres carrés ordinaires, comme pour le modèle simple, ne soulève aucune

difficulté, à la différence que pour le modèle multiple au lieu de calculer une droite, on calcule un plan ou un

hyperplan‡‡‡‡‡‡‡.

‡‡‡‡‡‡‡ En algèbre linéaire, les hyperplans sont des sous-espaces vectoriels particuliers. Dans un espace à 3 dimensions, la notion d’hyperplan est confondue avec celle de plan, mais cela n’est plus vrai quand on dépasse 3 dimensions.


Hypothèses de base

La méthode des moindres carrés ordinaires repose sur les hypothèses suivantes :

Hypothèses stochastiques Hypothèses structurelles

H1. Les erreurs sont IID (0, ). Cette hypothèse implique que

les erreurs sont normalement distribuées, non-autocorrélées et homoscédastiques. Formellement, on a :

où

H2. Il y a indépendance entre la partie systématique et la partie

stochastique, soit E(XU) = 0.

H3. Le modèle est linéaire ou linéarisable en X

[ou sur ses paramètres] tels que l’exprime la relation [4.2].

H4. Les exogènes Xj et la variable endogène Y sont observées sans erreur. Y est aléatoire par l’intermédiaire de ut.

H5. Les exogènes Xj et la variable endogène Y

sont gaussiennes et stationnaires en niveau.

H6. Le nombre d’observations n doit être

supérieur au nombre des paramètres à estimer.

H7. La matrice X’X est non singulière de rang K, c’est-à-dire et existe. Cette hypothèse implique l’absence de colinéarité entre les exogènes, autrement dit les différents vecteurs Xj sont linéairement indépendants. En cas de multicolinéarité, la méthode des MCO devient défaillante.

IV.2. Estimateurs des MCO et propriétés

Comme vu au chapitre précédent, les différents sont obtenus en minimisant la somme quadratique des

résidus. Mathématiquement, le problème se présente comme suit :

[4.3]

En notation matricielle§§§§§§§, la relation [4.3] s’écrit :

[4.4]

Par conséquent, on a :

[4.5]

§§§§§§§

Un bref rappel matriciel est proposé en annexe 1 de ce chapitre.


En effectuant dans la parenthèse, il vient :

[4.6]

Les termes et étant des scalaires provenant des variables identiques, ils sont égaux et on peut

donc les regrouper. Ce qui permet d’écrire :

[4.7]

En appliquant les conditions du premier ordre, on obtient les équations normales telles que :

En considérant un modèle simple, la relation [4.8] devient :

En effectuant dans chaque bloc, on obtient :

On retrouve ainsi les équations normales, vues au chapitre précédent, pour un modèle simple. Mais

pourquoi normales ? La réponse à cette question est proposée ci-après.

Dans le système ci-haut, renvoyons tous les termes dans un membre, il vient :

Exprimée sous forme vectorielle, la dernière équation s’écrit : X’e = 0. Un vecteur tel que e, orthogonal à

tout vecteur de l’hyperplan engendré par X, est dit normal { l’hyperplan. D’où le qualificatif "d’équations

normales".

En pratique, l’estimation ponctuelle par les MCO se fait en pré-multipliant chaque côté de la relation [4.8]

par , ce qui permet d’écrire******** :

[4.9] ********

où est une matrice forcément symétrique, de même que son inverse ( )–1.


Propriétés des estimateurs

Le théorème de Gauss – Markov avance, au respect des hypothèses de base susmentionnées, que dans la

famille des estimateurs linéaires non biaisés, ceux des MCO sont les meilleurs car ayant la variance la plus

faible.

α. Estimateurs linéaires

Pour démontrer cette propriété, il suffit, dans l’équation [4.9], de poser ψ= , il vient :

β. Estimateurs sans biais

Réécrivons la relation [4.9] comme suit :

Ainsi,

[4.10]

En passant à l’espérance mathématique de , il ressort clairement que est sans biais :

[4.11] E( =

γ. Estimateurs convergents

Les variances des estimateurs OLS sont calculées comme suit.

Var( ) = E

Connaissant les relations [4.10] et [4.11], il vient†††††††† :

Après une petite manipulation simple, on obtient :

[4.12]

Ou encore :

††††††††

Il faut noter en passant que la matrice est symétrique, elle est donc égale à sa transposée.


Et l’estimateur de la variance résiduelle est donné par la formule suivante :

Ainsi obtient-on :

[4.13]

Lorsque le nombre d’observations tend vers l’infini, l’expression [4.13] ci-dessus tend vers zéro. Par

conséquent, l’estimateur est convergent. Toutefois, la condition suffisante serait que les variables

exogènes ne tendent pas à devenir colinéaires lorsque n tend vers l'infini. De plus, selon le théorème de

Gauss-Markov, Var( ) ≤ Var( ) [avec un estimateur linéaire et non biaisé obtenu par une autre méthode

que les MCO]

La relation [4.13] est la matrice COVA. Sur sa diagonale principale, on lit les variances estimées de [

],

nécessaires pour mener les tests statistiques.

Conséquence du théorème de Gauss-Markov

Soit le modèle de régression linéaire multiple suivant :

où ut N(0, ). L’application de la méthode OLS { cette équation implique que

.

1ère conséquence : Sous l’hypothèse de normalité des erreurs, non seulement que l’estimateur des MCO est

BLUE par le théorème de Gauss-Markov, mais il devient le meilleur estimateur sans biais de . La variance

des estimateurs des MCO atteint la borne de l’inégalité de Cramer-Rao, borne inférieure pour tous les

estimateurs.

2ère conséquence : Sous l’hypothèse de normalité, on obtient des tests exacts. Sachant que

, cela revient à dire que l’on connaît les distributions exactes des tests. On peut donc

construire les tests de Student et de Fisher dans les petits échantillons.


IV.3. R2 et R2 ajusté

Connaissant l’équation d’analyse de la variance : SCT = SCE + SCR, le R2 correspond au rapport :

[4.14] R2 =

Lorsque la régression est faite sur données centrées, le coefficient de détermination se calcule avec la

formule :

[4.15] R2 =

Il faut noter que, comme pour le modèle simple, le coefficient de détermination reste un indicateur du

caractère explicatif de l’équation de régression { bien modéliser Yt. Il mesure ainsi la part de variance de la

variable endogène attribuable à sa régression sur les X. Ceci est confirmé par le fait que le coefficient de

détermination n’est rien d’autre que le carré du coefficient de corrélation de Bravais-Pearson entre les

valeurs observées et les valeurs prédites de Y.

[4.16] R2 =

=

Note importante: Le coefficient de corrélation linéaire entre et Y ( ) est appelé coefficient de

corrélation multiple. Cela suggère d'ailleurs de construire le graphique nuage de points confrontant et Y

pour évaluer la qualité de la régression. Si le modèle est parfait, les points seraient parfaitement alignés.

Bien évidement [0 ≤ R2 ≤ 1], plus R2 est proche de 1, plus le caractère explicatif du modèle est important. Le R2 est certes un indicateur de qualité, mais il présente l’inconvénient d’être mécanique. C’est-à-dire que sa valeur augmente avec l’augmentation des variables explicatives, mêmes non pertinentes { l’explication du phénomène étudié. A l’extrême, si on augmente le nombre de variables explicatives, mêmes impertinentes, tels que le nombre

de paramètres devienne égal au nombre d’observations, on aurait un R2=1. Ainsi, en tant que tel, le R2 n’est

pas l’outil approprié pour juger de l’apport des variables supplémentaires lors de la comparaison de

plusieurs modèles. Lorsqu’il augmente de manière mécanique, de l’autre c té l’on perd en degrés de

liberté.

La mesure alternative, plus robuste { l’ajout des variables, qui corrige ce problème associé aux degrés de

liberté est le R2 ajusté de Henry Theil, appelé aussi R2 corrigé. Elle se définit comme suit :

[4.17]

Comme on le voit, il s’agit l{ d’un R2 corrigé par les degrés de liberté. Il peut d’ailleurs s’exprimer en

fonction du R2 ; en manipulant la relation [4.17], on obtient :

[4.18]


Cependant, il faut faire attention de ne pas interpréter le en termes de part de variance expliquée. Son

seul avantage est qu’il permet de comparer plusieurs modèles‡‡‡‡‡‡‡‡. De plus, le peut prendre des valeurs

négatives. Dans ce dernier cas, il faut l’assimiler { zéro.

Note importante :

Dans un modèle linéaire simple, R2

Dans un modèle linéaire multiple, < R2

Si n est grand, alors R2

Le R2 et le n’ont de sens que dans un modèle qui comporte un terme constant.

Coefficient de corrélation partielle

Dans le chapitre sur la corrélation, nous avions mis en évidence qu’il était possible que la corrélation entre

deux variables Xi et Xj ne tienne qu’{ un artefact statistique ou à un facteur confondant – une troisième

variable Xk à laquelle Xi et Xj seraient liées en réalité –, appelé aussi phénomène-source. L’on peut se

souvenir de l’exemple du journaliste qui a découvert qu’il existait une très forte corrélation entre le fait

d’avoir un nid de cigognes sur sa demeure et le fait d’avoir des enfants { Washington, oubliant que cela ne

tenait qu’au rang social des familles étudiés, car la présence d’un nid de cigognes sur le toit signifierait

plut t que la famille qui y habite est aisée et donc disposée, financièrement, { avoir plus d’enfants.

Ainsi, dans la sélection des variables pertinentes { l’explication d’un phénomène, pour éviter une telle

éventualité où la corrélation entre la variable endogène et l’exogène ne tiendrait qu’{ un artefact, on a

recours au coefficient de corrélation partielle.

Le coefficient de corrélation partielle mesure la liaison entre deux variables lorsque l’influence d’une

troisième variable [des autres variables présentes dans le modèle] est retirée.

Coefficient de corrélation partielle du premier ordre Coefficient de corrélation partielle du deuxième ordre

Soit Y une variable endogène, et Xi, Xj et Xk des

exogènes, le coefficient de corrélation partielle

mesure le lien entre Y et chaque X, l’influence juste

d’une troisième variable exogène étant exclue.

Partant de l’exemple choisi, on peut calculer ainsi six

coefficients de corrélation partielle du premier ordre :

;

; ;

; ;

Dans ce cas, le coefficient de corrélation partielle du premier ordre peut être calculé à partir des coefficients§§§§§§§§ de corrélation de Bravais-Pearson comme suit :

En suivant les indices, l’étudiant peut aisément généraliser.

En considérant l’exemple ci-contre, le coefficient de corrélation partielle du deuxième ordre sert à quantifier le lien entre Y et chaque X, l’influence de deux autres étant exclue. Ainsi, partant du même exemple, il est possible de calculer trois coefficients de corrélation partiels du deuxième ordre, soit :

;

;

Etapes de calcul Supposons que l’on veule mesurer le lien entre Y et Xi, l’influence de Xj et de Xk étant neutralisée, soit

, on aura les étapes ci-après :

(i) Calcul des résidus e1 issus de la régression de

Y sur Xj et Xk ; (ii) Calcul des résidus e2 issus de la régression de

Xi sur Xj et Xk ; (iii)

correspondra au carré du

coefficient de corrélation linéaire calculé entre e1 et e2 :

‡‡‡‡‡‡‡‡

Pour la comparaison des modèles, on utilise aussi les critères d’information [Aikaïké (AIC) ; Schwarz (SC) ; Hannan-Quinn (HQC), etc.]. A la différence que ces critères sont à minimiser dans le choix du meilleur modèle. §§§§§§§§

Appelés dans ce cas coefficients d’ordre zéro.


La notion de corrélation partielle est importante dans la mesure où elle permet de juger de la pertinence

d’introduire une variable exogène dans le modèle. Plus élevé sera le coefficient de corrélation partielle

d’une variable, plus importante sera sa contribution { l’explication globale du modèle.

IV.4. Test de significativité des paramètres


Comme pour le cas simple, le test de significativité individuelle, qui porte sur chaque paramètre, est mené

en calculant les ratios de Student. Pour un test bilatéral, les hypothèses du test sont :

Le ratio de Student est calculé comme suit :

[4.19] =

Sous H0, la formule [4.19] devient :

[4.20] =

On démontre, sous H0, que cette statistique suit une distribution de Student au seuil α [5% sauf indication

contraire] et à (n – K) degrés de liberté.

Critère de décision : Si > tα/2 ; (n – K), alors RH0, le paramètre est statistiquement non nul, la variable lui

associée est par conséquent non pertinente dans la prédiction de Y.

Comme cela a été vu au chapitre précédent, l’estimation par intervalle se fait en appliquant la formule ci-

après :

[4.21] I = ± tα/2 ; (n – 2)

Test de significativité conjointe ou globale

Le test de significativité globale sert à tester la pertinence du modèle. Il répond à la question de savoir si

l’ensemble des exogènes apporte de l’information utile { la connaissance de la variable endogène. Ceci dit,

seuls les paramètres associés aux variables explicatives interviennent dans le test, la constante n’est donc

prise en compte ici, car c’est bien l’influence des exogènes sur la variable expliquée que l’on cherche {

établir.

Dans la littérature anglophone, ce test est parfois considéré comme un test de significativité du R2, dans le

sens où il évaluerait le pouvoir explicatif des exogènes, pris dans leur globalité, sur l’endogène.



Et la statistique à calculer est :

[4.22] F=

Sous H0, on démontre que la statistique F suit une distribution de Fisher à respectivement (K – 1) et (n – K)

degrés de liberté.

Critère de décision : Si F > F [(K – 1) ; (n – K)] [valeur lue dans la table de Fisher, au seuil de 5%, sauf indication contraire],

on rejette H0, le modèle est bon.

Application de tests de significativité : Test des rendements d’échelle

Soit le modèle suivant :

[4.23] Ln Qt = Ln A + β1Ln Lt + β2 Ln Kt + ut

où Qt est la production, Lt le travail, Kt le capital et β1 et β2 les élasticités de la production au travail et au

capital, respectivement.

La théorie macroéconomique avance qu’il y a rendements { l’échelle constants s’il se vérifie que :

[4.24] β1 + β2 = 1.

Comment alors tester une telle hypothèse ?

Pour tester cette restriction sur les paramètres, on suivra les étapes suivantes :

Estimer le modèle [4.23] sans restriction sur les paramètres, dit modèle non contraint ;

Calculer les variances de et , ainsi que leur covariance Cov( , )

Calculer ensuite le ratio de Student avec la formule :

[4.25] tcal =

Connaissant [4.24] et en sachant que Var = Var( ) + Var( ) + 2Cov( , ), la formule [4.25]

devient :

[4.26] tcal =

Tester enfin l’hypothèse des rendements d’échelle constants contre celle des rendements

d’échelle non constants, soit :

Critère de décision : Si > tα/2 ; (n – K) RH0 selon laquelle il y a rendements { l’échelle constants.


IV.5. Prévision dans le modèle de régression linéaire multiple

Soit la régression suivante de Yt sur le terme constant et sur les exogènes Xj :

Si le vecteur des valeurs des exogènes pour un horizon h est connu, soit R= ,

la prévision ponctuelle est faite en substituant R dans [4.27]. Ainsi obtient-on :

Ce qui, en écriture matricielle, s’écrit :

Sous forme compacte, on a :

[4.29]

Partant de la prévision ponctuelle, la prévision par intervalle est faite en appliquant la formule ci-après :

[4.30] Yn+h I = ± tα/2 ; (n – K)

où est l’écart-type de l’erreur de prévision*********. Il est donné par la formule :

[4.31] =

*********

L’erreur de prévision capte l’écart entre ce qui sera réalisé et ce qu’on prévoit.


Synthèse des formules sur la régression linéaire multiple

Formules Indications

Modèle d’analyse :

Estimation

Ponctuelle donne une matrice K 1 des paramètres estimés du modèle.

Par intervalle Iβi = ± tα/2 ; (n – 2)

fixe un intervalle de confiance, avec un risque α, dans lequel le βi inconnu de la population serait compris.

Modèle estimé :

Matrice COVA

sur sa diagonale principale, on lit les

variances estimées de (

), nécessaires

pour mener les tests statistiques.

R2

Données brutes R2 =

le coefficient de détermination reste un indicateur du caractère explicatif de l’équation de régression { bien modéliser Yt.

, appelé coefficient de corrélation multiple, est le coefficient de corrélation de Bravais-Pearson entre les valeurs observées et les valeurs prédites de Y.

Données centrées R2 =

étant connu R2 =

=

R2 ajusté de Theil

il s’agit l{ d’un R2 corrigé par les degrés de liberté.


=

tα/2 ; (n – K) [sous H0] Si > tα/2 ; (n – K) RH0

conjointe F=

F [(K – 1) ; (n – K)] Si F > F [(K – 1) ; (n – K)] RH0

Prévision

Ponctuelle Permet de deviner la valeur de Y à la période h, les exogènes de la même période étant fixées. Par intervalle

Yn+h I = ± tα/2 ; (n – K)

où =


IV.6. Utilisation des variables indicatrices††††††††† Synonyme : variables qualitatives, binaires, dummy, muettes, dichotomiques, auxiliaires, artificielles.

Une variable indicatrice est une variable spéciale qui ne prend que deux valeurs, à savoir :

1 pour indiquer que le phénomène (ou l’événement) a lieu ;

0 pour indiquer que le phénomène (ou l’événement) n’a pas lieu.

Elle est utilisée en économétrie pour saisir les facteurs qualitatifs – comme la race, le sexe, la religion ou

même un événement tel qu’une guerre, une grève, un tsunami, etc. – que l’on désire intégrer dans les

modèles. Comme variable explicative, on la note généralement par la lettre D, pour dire dummy.

Il est également important de noter que les variables binaires peuvent intervenir dans le modèle de deux

manières, soit comme endogène [modèle de probabilité linéaire, modèles Logit, Probit, Tobit, Gombit] soit

comme exogène [modèles ANOVA et ANCOVA]. Dans ce recueil, nous ne nous intéressons qu’au cas où la

variable muette entre comme explicative dans le modèle.

Aussi, l’utilisation de ces variables dépend fortement du problème posé. Comme exogènes, les variables

dummy sont utilisées pour répondre à un triple objectif :

Corriger les écarts aberrants (ou déviants) ;

Capter la présence de la discrimination ;

Capter les variations saisonnières.

α. Corriger les valeurs singulières (ou anormales)

Lorsque la variable endogène comporte, à certaines dates, des valeurs atypiques – c’est-à-dire des valeurs

anormalement élevées ou anormalement basses – associées en général à la survenance de chocs ou

d’événement rares, il y a lieu d’incorporer une dummy dans le modèle afin d’en tenir compte. La démarche

consisterait simplement à détecter les valeurs anormales et à les corriger, en mettant 1 à ces dates là et 0

ailleurs, afin que les déviants ne perturbent pas l’estimation statistique des autres variables.

Considérons le jeu de données ci-après, où Yt est l’endogène et Xt l’exogène. On veut estimer le modèle :

Yt = β0 + β1Xt + ut [A]

Date 11 février 12 février 13 février 14 février 15 février

Yt 10 12 2 15 17

Xt 5 7 8 9 10

On observant l’évolution de Yt, il y a un écart criant au 13 février qui frappe notre attention. La conséquence

directe serait que, s’il faut régresser Yt sur Xt, cette valeur aura tendance à fausser la vraie relation existant

entre les deux variables en cause, en rabattant la droite des moindres carrés de façon à avoir une moyenne.

On s’en rend bien compte { travers le graphique nuage de points avec droite de régression, y

correspondant, suivant.

†††††††††

Le terme anglo-saxon dummy est le plus utilisé.


Et l’estimation par OLS, donne la droite suivante :

= 1.6081 + 1.2297Xt

[0.1265] [0.7728]

R2 =0.1660

Avec [.] le ratio de Student. Comme on le voit, la valeur anormale a complètement perturbé l’estimation de

la relation, presque parfaite, entre Yt et Xt. On doit donc introduire une variable indicatrice Dt dans le

modèle. On mettra 1 à la date du 13 février et 0 partout ailleurs. Le modèle à estimer devient :

Yt = β0 + β1Xt + β2Dt + ut [B]

Date 11 février 12 février 13 février 14 février 15 février

Yt 10 12 2 15 17

Xt 5 7 8 9 10

Dt 0 0 1 0 0

L’estimation par OLS du modèle [B] donne à présent :

= 2.7288 + 1.3898Xt – 11.8475Dt

[2.6032] [10.5862] [–20.9805]

R2 =0.9962

L’incorporation dans le modèle d’une dummy a donc permis de corriger la valeur atypique.

Note importante :

La correction effectuée n’est valable que si le coefficient associé à la variable dummy est

statistiquement significatif.

Après estimation, le signe affecté { la variable binaire est proportionnelle { l’anomalie constatée

dans les données. S’il s’agit d’une observation anormalement basse, comme c’est le cas dans

l’exemple ci-haut, le signe affecté à la dummy sera –, ce qui indique que l’écart criant avait

tendance à ramener la droite de régression vers le bas. En revanche, s’il est plut t question d’une

observation anormalement élevée, le signe affecté à la dummy sera +, ce qui indique que le déviant

avait tendance à tirer la droite de régression vers le haut.

Attention à ne pas saisir les écarts anormalement élevés et anormalement bas par une même une

variable muette. Lorsque la série présente à la fois les deux types d’écarts, il convient de les capter

par deux variables auxiliaires différentes, l’une pour les observations exceptionnellement élevées

et l’autre pour celles exceptionnellement basses.

0

5

10

15

20

0 2 4 6 8 10 12


β. Capter la présence de la discrimination

L’explication d’un phénomène peut parfois nécessiter la présence des variables qualitatives. Supposons

que l’on souhaite expliquer, pour dix étudiants de première licence en Economie échantillonnés, le

phénomène " cote obtenue en macroéconomie CMi" ; tout naturellement les variables comme présence au

cours PCi, nombre d’heures d’étude consacrées à la macroéconomie HEi…s’avèrent pertinentes. Mais il est

tout à fait aussi possible que des variables comme la religion de l’étudiant REi, ou sa tribu TEi, soient

déterminantes dans l’explication du phénomène étudié. Dans ce cas, l’utilisation d’une variable binaire

permet de segmenter les individus en deux groupes et de déterminer si le critère de segmentation est

réellement discriminant.

Dans l’exemple de tout { l’heure sur la cote obtenue en macroéconomie, si l’on assume que l’appartenance

ou non à la religion catholique est déterminante dans la réussite, ce qui revient à dire que la religion est un

facteur de discrimination, le modèle à estimer sera :

CMi = β0 + β1 PCi + β2HEi + β3REi

où REi =

Puis estimer, comme vu précédemment, en appliquant les MCO. Après estimation, si β3 est statistiquement

significatif, on en conclurait que la religion (catholique) a joué sur la cotation en macroéconomie, elle est

donc bien un facteur discriminant de la note obtenue en macroéconomie. A l’opposé, si β3 est

statistiquement non significatif, on en conclurait que la religion (catholique) n’a pas joué sur la réussite en

macroéconomie.

Note importante :

Dans le cas de variables dummy à plusieurs modalités, par exemple l’état civil (célibataire, marié,

divorcé, autres), il est convenable de coder alors autant de variables indicatrices qu’il y a de

modalités moins une‡‡‡‡‡‡‡‡‡. Ainsi, pour l’état civil, on définira trois variables binaires : célibataire (=1

si l’individu est célibataire, 0 sinon), marié (= 1 si l’individu est marié, 0 sinon), divorcé (= 1 si

l’individu est divorcé, 0 sinon), la modalité autres étant implicitement contenue dans le terme

constant [et ne serait donc spécifiée à part que dans un modèle sans terme constant].

La codification dépend du modélisateur et doit être prise en compte dans l’interprétation des

résultats. A titre exemplatif, si l’on considère la variable qualitative sexe, le modélisateur est libre

de coder 1 = femme et 0 = homme et inversement. Il doit seulement en tenir compte lors de

l’interprétation.

γ. Capter les variations saisonnières

Les variables indicatrices sont aussi utilisées pour prendre en compte les mouvements saisonniers qui

caractérisent certaines variables comme les dépenses de publicité, qui sont généralement plus importantes

en certaines périodes de l’année qu’en d’autres.

Supposons que l’on s’intéresse { la relation entre le chiffre d’affaires (Cht) et les dépenses de publicité

(Dpubt). On peut écrire :

‡‡‡‡‡‡‡‡‡

L’une d’elles étant implicitement contenue dans le terme constant.


Cht = β0 + β1Dpubt + ut [i]

En utilisant les données trimestrielles, il ne serait pas correct d’estimer directement le modèle [i], parce

qu’on n’aurait pas tenu compte de l’effet saisonnier, les dépenses de publicité ne sont pas les mêmes tous

les trois mois [trimestre].

On peut capter l’effet saisonnier en introduisant dans [i] une variable dummy. Pour notre cas, on aura

autant de variables dummy qu’il y a de trimestres, soit quatre dummy. Sachant qu’on compte quatre

trimestres par année, l’introduction des variables dummy se fera comme suit :

Trimestre D1t D2t D3t D4t ∑

2005

1èr trimestre 1 0 0 0 1

2ème trimestre 0 1 0 0 1



2006

1èr trimestre 1 0 0 0 1




Et le modèle [i] devient :

Cht = β0 + β1Dpubt + β2D1t + β3D2t + β4D3t + ut [ii]

ou encore :

Cht = β1Dpubt + β2D1t + β3D2t + β4D3t + β5D4t + ut [iii]

Si le modèle contient un terme constant, celui-ci joue d’office le r le de l’une de quatre variables dummy.

Dans [ii] par exemple, β0 joue le rôle de D4t [on a le choix pour la variable binaire à écarter]. En revanche, en

absence du terme constant, il convient de prendre en compte, comme dans la relation [iii], toutes les

variables dummy.

Une fois cette gymnastique terminée, on peut alors, sans difficulté normalement, appliquer les MCO soit

sur le modèle [ii], soit sur le modèle [iii].


ANNEXES DU CHAPITRE IV

ANNEXE 1 : Quelques rappels de calcul matriciel

Le calcul matriciel a été introduit en Econométrie par Alexander Craig Aitken.

1. Opérations matricielles

Addition et soustraction

Soient deux matrices carrées§§§§§§§§§ A et B de format 2. La somme ou la soustraction de ces deux matrices

s’effectue comme suit :

A B =

=

L'addition et la soustraction des matrices ne sont donc définies que pour des matrices de même format ou de

même ordre.

Propriétés importantes de l’addition et la soustraction des matrices

(i) A B = B A

(ii) A (B C) = (A B) C

Multiplication par un scalaire

Soient un scalaire k (un nombre réel) et la matrice carrée A ci-dessus. La multiplication de A par le scalaire k

s’effectue de la sorte :

kA =k

=

La multiplication par un scalaire est donc possible quel que soit l’ordre de la matrice A.

Propriétés importantes de la multiplication par un scalaire

(i) kA = Ak

(ii) k(A B) = kA kB

Produit matriciel

Soient les deux matrices carrées A et B ci-dessus. Ces deux matrices sont conformables pour le produit ou la

multiplication matricielle puisque le nombre de colonnes de la première matrice est égal au nombre de lignes

de la deuxième matrice [principe du produit matriciel]. Le produit matriciel s’effectue en faisant la somme

algébrique des produits des éléments de chaque ligne de la première matrice par les éléments

correspondants de chaque colonne de la deuxième matrice.

§§§§§§§§§

Une matrice carrée est une matrice dont le nombre de lignes est égal au nombre de colonnes. On dit matrice carrée de format n ou d’ordre n m.


Pour les matrices carrées A et B ci-haut, on obtient :

AB =

2 2 2 2

Propriétés importantes du produit matriciel

Soient trois matrices conformables A, B et C, on a les propriétés essentielles suivantes :

(i) A(B + C) = AB + AC

(ii) A(BC) = (AB)C

(iii) AB ≠ BA en général

Transposée d’une matrice

La transposée d’une matrice A de format m n, notée AT ou A’, est une matrice de format n m obtenue

en permutant les lignes et les colonnes de A.

Soit A =

AT =

Propriétés importantes de la transposition des matrices

Soient trois matrices conformables A, B et C, on a :

(i) (A + B + C)T = AT + BT + CT

(ii) (ABC)T = CTBTAT

(iii) (AT)T = A

(iv) (kA)T = kAT

Rang d’une matrice

Soit une matrice A d’ordre m n. Le rang de la matrice A, noté r (A), est le nombre de ses vecteurs lignes [ou

ses vecteurs colonnes] linéairement indépendants, dit autrement, c’est le nombre de ses lignes (ou ses

colonnes) non entièrement nulles, après échelonnement de la matrice.

Si le rang d’une matrice A donnée correspond au minimum entre le nombre de ses lignes et de ses

colonnes, on dira que A est de rang maximum.

Une matrice carrée A d’ordre n est dite non – singulière si son rang est maximum, soit [r (A) = n].


2. Matrices carrées

Matrice diagonale Matrice scalaire Matrice unité ou identité

est une matrice carrée dont un au moins des éléments situés sur sa diagonale principale est non nul, tous les autres éléments étant nuls. Exemple :

A =

est une matrice diagonale dont tous les éléments, non nuls, sur sa diagonale principale sont égaux. Exemple :

B =

notée I, est une matrice scalaire dont

les éléments sur la diagonale principale sont égaux à 1. Exemple :

I =

Matrice symétrique Matrice idempotente Trace d’une matrice carrée

Soit une matrice carrée A. On dit que A est une matrice symétrique si AT = A. Exemples : La matrice unité I est forcément

symétrique. On vérifie donc que IT = I;

La matrice (X'X), dans

l’estimation des β, est

symétrique, soit (X'X)' =(XTX).

Soit une matrice carrée A. on dit que A est une matrice idempotente si AA = A. Exemple :

M = [I – X(X'X)–1X']

La trace d’une matrice carrée A, notée tr (A), se définit comme étant la somme algébrique des éléments de sa diagonale principale. Soient deux matrices A et B, dont les dimensions respectives sont de (m n) et de (n m). Par conséquent, AB et BA sont deux matrices carrées et :

tr (AB) = tr (BA) Pour trois matrices A, B et C, si le produit donne des matrices carrées, on a :

tr (ABC) = tr (CAB) = tr (BCA)

Propriétés importantes de la matrice unité

(i) II = I

(ii) InAn = An

(iii) tr (In) = n

Déterminant d’une matrice carrée

D’ordre 2

Soit la matrice carrée A, d’ordre 2, son déterminant noté est calculé comme suit :


D’ordre 3

Le déterminant d’une matrice carrée A d’ordre 3 est calculé en appliquant la règle de Sarrus********** comme

suit :

=

D’ordre n quelconque

Le déterminant d’une matrice A d’ordre n est donné par la somme algébrique des produits obtenus en

multipliant les éléments d’une ligne (ou d’une colonne) de la matrice A par leurs cofacteurs correspondants,

notés Cij.

La matrice des cofacteurs, quant à elle, est trouvée en pré – multipliant la matrice des mineurs, notée Mij,

par (–1)i+j, soit :

Cij = (–1)i+jMij

La méthode des cofacteurs, dite aussi méthode d’expansion de LAPLACE††††††††††, permet de calculer un

déterminant d’ordre n { l’aide des mineurs [déterminants d’ordre (n – 1)]. On a toujours intérêt à

développer un déterminant des lignes ou des colonnes où apparaissent beaucoup de zéros.

Note : Le mineur mij de la matrice A est le déterminant calculé en supprimant la ligne i et la colonne j de A.

Propriétés importantes des déterminants

(i)

(ii)

(iii) Si une ou plusieurs lignes ou colonnes d’une matrice sont linéairement dépendantes, alors le déterminant de cette matrice est nul. On dit qu’une telle matrice est singulière.

(iv) Si une matrice carrée A est de rang maximum, alors son déterminant est différent de zéro.

Inverse d’une matrice carrée

Soit A une matrice carrée et B une autre matrice carrée du même ordre que A. On dit que B est l'inverse de A si

AB = BA = I.

L'inverse de A, noté A–1

, n'existe que si A est une matrice carrée de rang maximum. Cet inverse est unique.

**********

Du nom du mathématicien français Pierre – Frédéric Sarrus (1798 – 1861). ††††††††††

Du nom du mathématicien, astronome et physicien français Pierre – Simon de LAPLACE (1749 – 1827).


Il existe, dans la littérature, plusieurs méthodes de calcul de l’inverse d’une matrice carrée. Dans ce papier, nous n’en présentons que deux.

Méthode classique (ou méthode de l’adjointe) Méthode itérative (ou gaussienne)

Par la méthode de l’adjointe, l’inverse de la matrice B, notée B–1

, se calcule de la sorte :

B–1 =

où est la matrice adjointe, et n’est rien d’autre que la transposée de la matrice des cofacteurs Cij, soit :

B–1 =

Soit la matrice A, d’ordre n, dont on veut trouver l’inverse. La méthode itérative consiste { mettre c te à côte la matrice A et la matrice unité I de même

ordre, puis { échelonner A jusqu’{ la rendre unité. A–1

sera ce que serait devenue la matrice unité { l’issue de l’échelonnement, soit :

Propriétés importantes de l’inverse d’une matrice carrée

(i) B B–1 = I

(ii) (B–1)–

1 = B

(iii) (BT)–1 = (B–1

)T (B–1)TBT = I

ANNEXE 2 : La fonction DROITEREG d’Excel

La fonction DROITEREG d’Excel permet d’obtenir presque tous les résultats, en un clic, mis en évidence

dans ce chapitre, et au chapitre précédent. Il suffit, pour ce faire, de sélectionner une plage en

conséquence ayant 5 lignes et dont le nombre de colonnes doit correspondre au nombre de paramètres à

estimer dans le modèle, puis de saisir la commande DROITEREG (plage contenant Y ; plage contenant les

exogènes ; VRAI ; VRAI) suivi de CTRL + SHIFT + ENTER.

Soit le modèle Yt = β0 + β1X1t + β2X2t + β3X3t + ut, la figure ci-dessous montre comment procéder sur Excel.

En appuyant simultanément sur les touches CTRL + SHIFT + ENTER, on obtient :


ANNEXE 3 : La régression linéaire avec le logiciel Eviews

Sur le logiciel économétrique Eviews, après création de la feuille de travail et saisie des données, aller dans

Quick Estimate Equation, puis entrer les variables, séparées par des espaces, dans l’ordre apparaissant

dans le modèle à estimer, en notant le terme constant par la lettre C, choisir ensuite la méthode

d’estimation – pour notre cas LS ou Least squares – et valider.

En considérant le modèle de tout { l’heure, on a les étapes suivantes :

En validant, on a les résultats suivants :

Dependent Variable: Y

Method: Least Squares

Sample: 1 8

Included observations: 8

Variable Coefficient Std. Error t-Statistic Prob.

C -247.3274 122.8357 -2.013481 0.1143

X1 1.133525 0.520299 2.178604 0.0949 X2 2.944909 3.361460 0.876080 0.4304

X3 7.146491 2.286172 3.125963 0.0353 R-squared 0.974926 Mean dependent var 264.3750

Adjusted R-squared 0.956120 S.D. dependent var 41.95895

S.E. of regression 8.789365 Akaike info criterion 7.491815

Sum squared resid 309.0117 Schwarz criterion 7.531536

Log likelihood -25.96726 Hannan-Quinn criter. 7.223914 F-statistic 51.84210 Durbin-Watson stat 1.160052

Prob(F-statistic) 0.001169


Le même résultat peut être obtenu en saisissant, sur la barre de commande Eviews, la commande LS suivi de Y C X1 X2 X3. Du tableau des résultats ci-dessus, appelés parfois output de l’estimation, il ressort les informations importantes suivantes :

Les colonnes coefficient, Std. Error, t-Statistic renseignent respectivement sur la valeur de chaque

paramètre estimé, son écart – type (Standard Error) et de son ratio de Student.

La colonne Prob. renvoie, pour chaque coefficient estimé, la probabilité de commettre l’erreur de

première espèce. Si cette probabilité est faible (< 0.05, de manière générale) RH0, le paramètre

concerné est donc statistiquement significatif (non nul).

Les lignes R-squared, Adjusted R-squared, S.E. of regression, Sum squared resid, F-statistic et Prob(F-

statistic) correspondent respectivement au R2, au R2 ajusté, au , à la SCR, à la statistique de

Fisher et la probabilité critique associée à la statistique de Fisher.

Mean dependent var et S.D. dependent var représentent respectivement la moyenne et l’écart –

type de la variable dépendante.

Akaike info criterion, Schwarz criterion et Hannan-Quinn criter. sont des critères d’information

intervenant dans le choix du modèle optimal. Le meilleur modèle étant celui qui minimise ces

critères.

A. Après estimation, la série prédite est obtenue automatiquement en tapant, sur la barre de commande, la

commande FIT (nom de la série) puis valider.

B. Après estimation, la série des résidus est générée en saisissant la commande GENR (nom)=resid


Exercices sur le modèle de régression linéaire multiple

Exercice 1

On examine l’évolution d’une variable Yt en fonction de deux exogènes X1t et X2t. On dispose de n

observations de ces variables. On note X = où 1 est le vecteur constant et X1 et X2 sont les

vecteurs des variables explicatives.

1. On a obtenu les résultats suivants :

=

(a) Donner les valeurs manquantes.

(b) Que vaut n ?

2. La régression de Y sur la constante et les deux exogènes donne :

Yt = - 1.61 + 0.61X1t + 0.46X2t ; SCR = 0.3 ; =73.48 et = – 1.6

(a) Calculer la somme des carrés expliqués (SCE), la somme des carrés totale (SCT), le R2 et le R2 ajusté

de Theil.

(b) Déduire la matrice COVA, et tester la significativité individuelle de chaque paramètre ainsi que leur

significativité conjointe.

Exercice 2

Afin de déterminer les facteurs explicatifs de la réussite de la licence en sciences économiques, on spécifie

le modèle suivant :

NLi = β0 + β1NDi + β2DSi + ut

où :

NL = note moyenne obtenue en licence

ND = note moyenne obtenue en troisième graduat

DS = variable indicatrice de sexe (1 pour les hommes et 0 pour les femmes)

L’estimation { partir d’un échantillon de 60 étudiants conduit aux résultats suivants :

= 8.5 + 0.3NDi – 1.2DSi

[4.5] [7.1] [2.3]

n=60

R2=0.72

[.] = t de Student

Travail demandé : le sexe a-t-il une influence sur la note obtenue en licence de sciences économiques ?


La variable binaire DS a un ratio de Student de 2.3 >t(0,025 ; 57)=1.96, elle est donc statistiquement significative. Le

fait d’être homme ou femme est bel et bien un facteur discriminant de la réussite de la licence en sciences

économiques.


Il est à noter que le signe négatif affecté à DS indique qu’il est « pénalisant » d’être un homme (DS = 1) et qu’en

moyenne, sur l’échantillon retenu, les femmes (0) ont une note de 8.5, tandis que les hommes ont une note

inférieure de 1.2 point à celle des femmes, soit 7.3.

Exercice 3

Soit le modèle :

Yi = β0 + β1Xi + β2Di1 + β2Di2 + ui

où Yi est le salaire perçu par l’individu i ; Xi le nombre d’années d’expérience ; Di1 et Di2 deux variables

dummy.

On dispose du tableau ci-dessous :

Ind. 1 2 3 4 5 6 7 8 9 10 11 12

Yi 350 150 305 290 310 270 340 400 430 410 400 290

Xi 2 1 2 2 2 2 5 3 5 4 3 2

Les individus 3, 5, 8, 10, 15, 12 sont des étrangers (étrangères) et les individus 3, 5, 7, 8 et 9 sont des ouvriers

(nationaux et étrangers).

Di1 =

et Di2 =

Construisez les chroniques Di1 et Di2.

Exercice 4

Soit le modèle :

Yt = β0 + β1X1t + β2X2t + ut

On dispose des données du tableau ci-dessous :

Yt X1t X2t

10 4 7

12 6 4

16 5 8

18 8 6

20 7 9

Exercice 5

Soit le tableau suivant :

Année Yt X1t X2t X3t

1989 220 57 51 34

1990 215 43 53 36

1991 250 63 54 39

1992 245 65 52 38

1993 249 68 53 37

1994 301 69 56 42

Travail à faire :

(a) Trouver les valeurs du vecteur .

(b) Calculer le coefficient de détermination R2.

(c) Mener les tests de significativité individuelle sur chaque

paramètre.


TD :

- Si on considère le modèle suivant : Yt = β0 + β1X1t + β2X2t + β3X3t + ut, estimer les paramètres β0, β1, β2,

β3, et tester leur significativité individuelle et la significativité globale du modèle.

- Calculer le R2. Quelle critique peut-on formuler l’égard de cet indicateur ? - Calculer le 2

- Trouver l’intervalle de prévision pour 1997 sachant que pour cette dernière année X1t sera égal à

78, X2t sera égal à 54 et X3t atteindra 48.

Exercice 6

Soit le modèle Yt = β0 + β1X1t + β2X2t + εt

où Yt est la quantité offerte des pommes, X1t le prix des pommes, X2t une subvention forfaitaire accordée de

manière journalière et εt le terme d’erreur.

Connaissant les données du tableau ci-dessous, il est demandé :

- d’estimer les paramètres β0, β1 et β2.

- de calculer le R2 et le R2 ajusté de Theil.

- de montrer que le R2 n’est autre que le r de Bravais-Pearson entre Yt et .

- de vérifier l’équation d’analyse de la variance.

- de dériver la matrice COVA.

Date Yt X1t X2t

2 janvier 2012 10 4 7 3 janvier 2012 12 6 4 4 janvier 2012 16 5 8 5 janvier 2012 18 8 6 6 janvier 2012 20 7 9


.V. MODELES DE REGRESSION NON LINEAIRES

Comme vu jusqu’ici, l’application de la méthode des moindres carrés ordinaires exige que le modèle soit

linéaire ou linéarisable en X. Cependant, il est fréquent de rencontrer en économie des modèles non

linéaires dans leur spécification, comme c’est le cas des fonctions de production de type Cobb – Douglas et

CES [Constant Elasticity of Substitution]‡‡‡‡‡‡‡‡‡‡.

Les modèles non linéaires sont généralement regroupés en deux familles, à savoir :

Modèles non linéaires mais linéarisables ;

Modèles non linéaires et non linéarisables.

Pour la première famille de ces modèles, le plus souvent, une transformation logarithmique suffit à les

rendre linéaires, ce qui, du reste, valide leur estimation par les MCO. Et c’est précisément sur ce type de

modèles que porte ce chapitre. Quant { la deuxième famille de ces modèles, il convient d’appliquer les

méthodes d’estimation non linéaire, que nous n’abordons pas directement ici.

A titre d’avertissement, le présent chapitre n’a pour objet la présentation de nouvelles méthodes

d’estimation. Il présente plut t les artifices de calcul – entendus comme préalables – nécessaires à

l’estimation, par les MCO, de la première famille de modèles non linéaires.

V.1. Linéarisation des modèles non linéaires

A. Le modèle double log ou log – log B. Le modèle log – lin (ou semi-log)

Forme : Yt =A [a]

En appliquant la transformation logarithmique, il vient :

LnYt = LnA + βLnXt + ut [b]

où β =

=

A présent, en posant :

= LnYt ; β0 = LnA; β1 = β et

=LnXt,

on retrouve ainsi le modèle linéaire bien connu, qu’on peut écrire de la sorte :

= β0 + β1

+ ut [c]

Exemple : la forme Cobb – Douglas Q =AKαLβ.

Avantage : une lecture directe des élasticités.

Forme : Yt = [m]

La transformation logarithmique de [m] donne :

LnYt = β0 + β1Xt + ut [n]

Exemple : La formule de l’intérêt composé Yt = Y0(1 + r)t [o] où Y0 est une constante, (1 + r) un paramètre et t le temps

(la variable exogène). La transformation logarithmique de [o] donne :

=

+

+ ut [p]

où = LnYt,

=LnY0, =Ln(1 + r),

= t.

Avantage : Le modèle [o] permet le calcul du taux de croissance d’une part, et de la tendance (croissante ou décroissante) caractérisant l’évolution de Yt selon le signe de

(positif ou négatif) d’autre part.

‡‡‡‡‡‡‡‡‡‡

La fonction Cobb-Douglas, du nom de ses auteurs Charles William Cobb et Paul Douglas, a été proposée en 1928 ; alors que la CES, appelée aussi SMAC (des noms de Solow, Minhas, Arrow et Chenery), a été introduite en 1961.


C. Les modèles du trend linéaire D. Le modèle lin – log (ou semi-log)

Forme :

= β0 + β1t+ ut où

= LnYt et t =tendance ou trend Avantage : Le modèle de trend linéaire, appelé également modèle de tendance, peut être utilisé en lieu et place du modèle log – lin afin d’analyser le comportement (croissant ou décroissant) du trend linéaire affectant Yt. En effet, la tendance sera croissante si le coefficient associé à la variable t est positif et décroissante dans le cas contraire.

Forme : [i]

En appliquant la transformation logarithmique, il vient :

Yt = β0 + β1LnXt+ ut [ii] où β1 est une semi-élasticité, soit :

β1 =

=

[iii]

L’élasticité peut être retrouvée, en divisant la relation [iii] par Yt. Et cela est beaucoup plus commode en prenant les moyennes comme suit :

=

[iv]

Si l’on pose

=LnXt, la relation [ii] est ramenée à la formulation standard antérieure comme suit :

Yt = β0 + β + ut [v]

Avantage :

Ce modèle permet l’estimation des modèles d’Engle : « La dépense totale consacrée à la nourriture tend à croître selon une progression arithmétique lorsque la dépense totale augmente en progression géométrique.

Cette forme peut servir également au traitement de l’hétéroscédasticité dont il sera question plus loin.

E. Les modèles réciproques F. Le modèle log – hyperbole (ou log – inverse)

Forme 1 : Yt = β0 + β1 + ut [j]

La forme linéaire standard est retrouvée en posant

simplement =

, ainsi obtient-on :

Yt = β0 + β1 + ut [k]

Cette spécification est notamment utilisée pour estimer la courbe de Phillips, qui est la relation entre l’inflation et le taux de chômage.

Forme 2 :

= β0 + β1Xt + ut [l]

En posant =

, il vient :

= β0 + β1Xt+ ut [m]

Forme : Yt =

En appliquant la transformation logarithmique sur cette forme, on obtient :

LnYt = β0 + β1 + ut

Cette forme s’apparente beaucoup { la forme réciproque sauf que la variable dépendante est exprimée sous forme logarithmique. Quand Xt augmente, LnYt diminue.

En posant =

et =LnYt, on obtient :

= β0 + β1 + ut

Le modèle log-hyperbole est apte à représenter une fonction de production de court terme.

G. Le modèle polynomial

Forme : Yt =

Une manipulation simple permet d’écrire ce modèle sous la forme :


Yt =

où =Xt ; = ; … ; =

Le modèle polynomial trouve des applications dans les cas suivants :

L’estimation d’une tendance pour une chronique accusant, par exemple, deux points de retournement : Yt = β0 + β1t

2 + β2t3 + ut où t représente le temps.

L’estimation d’une fonction de coût total :

CTt = β0 + β1Qt + β2 + ut où CT est le coût total et Q la quantité produite.

V.2. Modèles de cycle de vie du produit

Les modèles de cycle de vie d’un produit, appelés parfois modèles de diffusion, ont pour objet de

déterminer l’évolution probable des ventes d’un produit connaissant le seuil de saturation, puisqu’il est

vérifié que les ventes évoluent en fonction du temps, { un rythme alternativement lent, puis rapide jusqu’{

maturité (seuil de saturation) qui correspond { un point d’inflexion { partir duquel le rythme de croissance

des ventes diminue.

A. Le modèle logistique B. Le modèle de Gompertz

Le modèle logistique est aussi connu sous le nom de modèle (ou courbe) de Verhulst, du nom de son auteur Pierre-François Verhulst, qui le proposa en 1838.

Forme :

[e]

où Ymax représente le seuil de saturation et r la vitesse de diffusion.

Une manipulation triviale permet d’écrire :

Après application de la transformation logarithmique, il vient :

= β0 + β1t+ ut [f]

où

; β0 =Lnb et β1=Lnr

Le modèle de Gompertz, du nom du mathématicien anglais Benjamin Gompertz, a été introduit en 1825.

Forme : Yt = [x]

où est le seuil de saturation et r la vitesse de diffusion.

Deux transformations logarithmiques sont nécessaires pour linéariser ce type de modèles. Dans un premier temps, la transformation logarithmique du modèle [x] donne :

LnYt = brt + a

Après manipulation et en log-linéarisant, il vient :

= β0 + β1t+ ut [y]

où ; β0 =Lnb et β1=Lnr

Note : L’estimation par OLS de ces deux modèles n’est possible que si l’on ne connaît, ou plut t que l’on postule la valeur du seuil de saturation.


ANNEXE DU CHAPITRE V

La commande NLS d’Eviews

En effet, plusieurs modèles non linéaires se prêtent facilement, comme vu précédemment, à la linéarisation,

ce qui rend beaucoup plus aisée leur estimation par la méthode des MCO. Mais lorsque cette gymnastique

de linéarisation devient redoutable, ce qui est le cas des fonctions de production du type CES, on peut,

grâce { la commande NLS d’Eviews – qui donne l’estimation fournie par la méthode des moindres non

linéaires – , directement estimer de tels modèles sans avoir besoin de les rendre linéaires.

Exemple

En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites, pendant dix

jours, moyennant les facteurs travail (L) et capital (K), on demande d’estimer le modèle ci-après :

Q=

Jour 1 2 3 4 5 6 7 8 9 10

Q 25 28 32 35 39 37 44 40 38 45

K 12 13 10 15 22 17 21 23 25 20

L 3 5 9 8 12 13 10 11 14 19

Solution

La commande Eviews est NLS Q=c(1)*K^c(2)*L^c(3). On obtient les résultats suivants :

Dependent Variable: Q


Sample (adjusted): 1 10

Included observations: 10 after adjustments

Convergence achieved after 8 iterations

Q=C(1)*K^C(2)*L^C(3) Coefficient Std. Error t-Statistic Prob.

C(1) 12.45037 3.586039 3.471900 0.0104

C(2) 0.190189 0.125849 1.511251 0.1745

C(3) 0.232165 0.078957 2.940398 0.0217

R-squared 0.823231 Mean dependent var 36.30000


S.E. of regression 3.081806 Akaike info criterion 5.332234

Sum squared resid 66.48269 Schwarz criterion 5.423009

Log likelihood -23.66117 Durbin-Watson stat 2.381746

où les coefficient c(2) et c(3) donnent directement les élasticités du produit au capital et au travail, respectivement.


Exercices sur les modèles de régression non linéaires

Exercice 1

Soit le modèle log-linéaire suivant : Yt = Y0(1 + r)t. Connaissant les valeurs du tableau ci-après qui montre

l’évolution des ventes d’une entreprise au cours de 15 mois, on demande d’ajuster cette fonction et de

trouver Y0 et r.

N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Yt 10 15 20 18 20 22 24 21 27 26 33 29 34 38 37 t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Interpréter les résultats.

Exercice 2

On dispose des informations suivantes sur les ventes des syllabus d’économétrie :

Année 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009

Ventes 24 36 45 49 54 63 78 79 83 99

On Se propose d’ajuster, par OLS, sur ces données une fonction du type :

Yt =

a) Effectuer cet ajustement en supposant que la valeur du coefficient β0 = 3 ;

b) Donner la valeur de r ;

c) Calculer le coefficient de détermination R2 ;

Exercice 3

Mêmes données et mêmes questions qu’{ l’exercice 2, en ajustant le modèle suivant :

On prendra Ymax = 10.

Exercice 4

En considérant les données du tableau ci-dessous qui renseigne sur les quantités produites, pendant dix

jours, moyennant les facteurs travail (L) et capital (K), on demande d’estimer le modèle ci-après :

Q=

Jour 1 2 3 4 5 6

Q 25 28 32 35 39 37

K 12 13 10 15 22 17

L 3 5 9 8 12 13

- Calculer le R2 et le 2. - Mener le test des rendements d’échelle. Les rendements { l’échelle sont-ils constants ?


.VI. VIOLATION DES HYPOTHESES DE BASE

En présentant la méthode des moindres carrés ordinaires, nous avions émis un faisceau d’hypothèses de

base§§§§§§§§§§, sous respect desquelles cette méthode fournissait les meilleurs estimateurs linéaires,

convergents et sans biais, et que le théorème de Gauss-Markov était vérifié. Cependant, dans la pratique, il

est possible que l’une ou l’autre de ces hypothèses fondamentales soit relâchée.

Ce chapitre présente donc à la fois les tests de vérification et les stratégies à adopter en cas de violation

éventuelle de l’une ou l’autre hypothèse.

VI.1. Autocorrélation des erreurs

A. Problème

Il y a autocorrélation des erreurs lorsque l’hypothèse est violée. La conséquence directe

est que les estimateurs des MCO, bien qu’ils gardent encore leur caractère non biaisé, ne sont plus

efficients, puisque n’ayant plus une variance minimale. Formellement, on a :

En absence d’autocorrélation En présence d’autocorrélation

Y = Xβ + U

E(U) = 0

E(UU’) =

Y = Xβ + U

E(U) = 0

E(UU’) =

Par conséquent

les t de Student et F de Fisher ne sont plus

utilisables.

Il faut noter aussi que l’autocorrélation des erreurs est un phénomène que l’on ne retrouve qu’en travaillant

sur séries temporelles. En principe, le problème ne se pose pas sur cross sections, sauf le cas rare de

corrélation spatiale des résidus, qui ne nous intéresse pas directement ici.

B. Tests de détection

On recourt généralement { deux tests pour détecter l’éventuelle autocorrélation des erreurs : le test de

Durbin et Watson et le LM – Test de Breush – Godfrey.

Le test de Durbin et Watson

Soit le modèle linéaire simple ci-après :

[6.1] Yt = β0 + β1Xt + ut

Le test très populaire de Durbin et Watson (DW), du nom de ses auteurs James Durbin et Geoffrey Watson

qui l’on proposé en 1951, permet de détecter une autocorrélation d’ordre 1, AR(1), selon la forme :

[6.2] ut = ρut–1 + vt

où vt est un bruit blanc*********** et (condition de convergence)

§§§§§§§§§§

Erreurs homoscédastiques, non autocorrélées et normalement distribuées. De plus la matrice (X’X) doit être

non singulière, ce qui correspond { assumer l’absence de multicolinéarité. ***********

Voir annexe 3.


On fait donc l’hypothèse, pour des raisons de simplification, que l’erreur n’est liée qu’{ son passé immédiat.

Et l’estimateur de ρ, basé sur les résidus et issus de la relation [6.2], est donné par :

[6.3]

Or, si n +∞,

=

, ce qui permet d’écrire la relation [6.3] de la sorte :

[6.4]

où est le coefficient de corrélation linéaire de Bravais – Pearson.

Par conséquent, varie dans l’intervalle [– 1, + 1].

Les hypothèses pour mener le test DW sont :

La statistique associée à ce test est :

[6.5] DW = d =

Pour comprendre pourquoi d est une statistique pertinente pour tester l’autocorrélation, on réécrit d comme suit :

d =

En éclatant cette somme en ses composantes, on a :

[6.6] d =

Connaissant la relation [6.3], et en sachant que pour grands échantillons,

=

, [6.5] devient :

[6.7] DW=d )

Il ressort donc de [6.6] que DW varie de 0 à 4 :

Valeur de Valeur conséquente de DW Implications

=1 DW =0 Autocorrélation positive

=0 DW=2 Absence d’autocorrélation

=– 1 DW = 4 Autocorrélation négative

Connaissant la taille de l’échantillon n, le nombre des variables explicatives k et le risque α (5% sauf

indication contraire), la table de Durbin-Watson donne deux valeurs dLower et dUpper, qui permettent de

mener le test en situant la statistique calculée DW dans l’une des zones du schéma ci-après :


2 4 0 dL dU 4 – dU 4 – dL

Do

ute

Do

ute

Zone I Autocorrélation

positive

Zone II Absence d’autocorrélation

Zone III Autocorrélation

positive

On dira donc qu’il y a autocorrélation des erreurs (ou présomption d’autocorrélation zone de doute ou

zone d’indétermination) si la statistique DW calculée tombe soit dans la zone I, dans l’une de deux zones de

doute ou dans la zone III. La zone II étant la seule zone où l’on conclurait { l’indépendance des erreurs.

Note importante :

La statistique DW ne s’interprète pas lorsque le modèle est spécifié en coupe instantanée ;

Pour mener le test DW, il est nécessaire que le modèle comporte un terme constant. Pour les

modèles sans terme constant, il existe des tables statistiques appropriées ;

Dans le cas où la régression comporte, parmi les variables explicatives, la variable dépendante retardée Yt–1 et que les résidus sont autocorrélés d’ordre 1, la statistique DW est alors biaisée vers 2. Elle ne peut donc être utilisée directement pour tester l’autocorrélation. La statistique h

développée par Durbin (1970) doit alors être utilisée.

Le LM – Test de Breusch – Godfrey [BG]

Comme cela vient d’être expliqué, le test DW ne permet de tester qu’une autocorrélation d’ordre 1, soit

AR(1). Or, il est tout à fait possible que les erreurs nous poursuivent. Ainsi, les erreurs peuvent être :

AR(2) : ut = ρ1ut–1 + ρ2ut–2 + vt

AR(3) : ut = ρ1ut–1 + ρ2ut–2 + ρ3ut–3 + vt

AR(P) : ut = ρ1ut–1 + ρ2ut–2 + … + ρput–p + vt

A cet effet, Trevor Breusch et Leslie Godfrey ont, séparément, proposé, respectivement en 1979 et 1978, un

test – qui porte leurs noms, appelé aussi test du multiplicateur de Lagrange LM – beaucoup plus complet

que le test DW en ce qu’il permet de tester une autocorrélation des erreurs d’ordre supérieur { 1, et qui

reste valide en présence de la variable dépendante décalée en tant que variable explicative.

Soit le modèle linéaire simple de l’équation [6.1] :

Yt = β0 + β1Xt + ut

où ut est à présent AR(p), p étant à déterminer.

Comme le test DW, le test BG teste l’H0 d’absence d’autocorrélation contre H1 de présence

d’autocorrélation, et se déroule en trois étapes suivantes :

(1). Estimer par les MCO le modèle [6.8] et tirer les résidus et de cette estimation ;

(2). Estimer par les MCO l’équation intermédiaire suivante :

[6.8] et = β0 + β1Xt + ρ1et–1 + ρ2et–2 + … + ρpet–p + ut Puis y tirer la valeur du R2.


(3). Calculer la statistique du test, sachant que ce test peut être mené à deux niveaux :

Soit effectuer un test de Fisher classique de nullité des ρi, comme suit :

Et la statistique du test est dans ce cas :

F

où K est le nombre des paramètres du modèle [6.8]

Critère de décision : Si F > F [(K – 1) ; (n – K)] RH0, il y a autocorrélation.

Soit recourir à la statistique LM qui suit une distribution du (p). P étant le nombre de retards

introduits dans le modèle [6.8]. On a :

LM = n R2

Critère de décision : Si LM > (p) RH0, il y a autocorrélation.

C. Correction d’une autocorrélation

Lorsque le test conclut { l’évidence d’une autocorrélation, la correction se fait en appliquant la méthode

des Moindres Carrés Généralisés [MCG ou GLS pour le sigle anglais] de Gauss-Aitken, qui consiste

simplement { l’application des MCO sur les données transformées.

Revenons au modèle simple { une variable où le terme d’erreur suit un processus AR(1) :

[6.9] Yt = β0 + β1Xt + ut

où ut = ρut –1 + vt

En substituant ut, par son expression, dans [6.9], on obtient :

[6.10] Yt = β0 + β1Xt + ρut –1 + vt

où ut –1= Yt –1 – β0 – β1Xt –1

Et en tenant compte de ut –1, [6.10] devient :

[6.11] Yt = β0 + β1Xt + ρ(Yt –1 – β0 – β1Xt –1) + vt

En effectuant dans la parenthèse et après manipulation, il vient :

[6.12] = α0 + α1

+ vt

où =Yt – ρYt –1 ; α0 = β0(1 – ρ) ; α1 = β1 et

= (Xt – ρ Xt –1)

Une telle transformation est appelée : transformation en quasi-différences.


Lorsque ρ connu, l’application des MCO sur ce dernier modèle donne un estimateur BLUE. Le seul inconvénient de la transformation en quasi-différences qui persisterait serait une perte d’information, en l’occurrence

et . Afin de contourner cette difficulté, Prais et Winsten (1954) ont proposé de prendre

en compte la première observation en utilisant la procédure suivante :

et

=

Procédures d’estimation de ρ Il existe plusieurs méthodes pour estimer ρ, dont les plus populaires sont :

La procédure d’estimation directe ; La méthode basée sur la statistique DW ; La méthode itérative de Cochrane-Orcutt.

(a) Procédure d’estimation directe

(b) Méthode basée sur la statitistique DW

(c) Méthode itérative de Cochrane-Orcutt

Modèle : Y = Xβ + U [A] On suppose que les erreurs suivent un processus AR(1) : ut = ρut –1 + vt

A partir des résidus et du modèle [A], estimer ρ par la formule :

ou encore, pour grands échantillons :

où est le coefficient de corrélation linéaire.

A partir de la statistique DW issue de l’estimation du modèle [A], et connaissant la relation [6.7], estimer ρ par la formule :

Soit le modèle linéaire simple : Yt = β0 + β1Xt + ut

où ut = ρut –1 + vt

En quasi-différences, on a : Yt – ρYt –1 = β0(1 – ρ) + β1(Xt – ρ Xt –1) + vt En faisant fi de la première observation que l’on perd, la procédure itérative de Cochrane-Orcutt se présente comme suit :

(i) Fixer une première valeur de ρ : on peut soit donner une valeur à priori, soit =0, soit encore partir de la valeur de ρ telle que calculée en (a) ;

(ii) Utiliser cette valeur de ρ pour estimer le modèle en quasi-différences ci-dessus ;

(iii) A partir des résidus issus de

l’estimation effectuée en (ii), réestimer ρ par la formule donnée en (a), ce qui permet d’obtenir un ρ1 ;

(iv) Utiliser le nouveau ρ calculé en (iii) pour estimer à nouveau le modèle en quasi-différences. Les résidus issus de cette régression permettent d’obtenir un ρ2 :

(v) Et ainsi de suite.

Le processus itératif se termine quand on note la convergence, c’est-à-dire quand les coefficients estimés ne varient plus sensiblement d’une régression { l’autre


Note : Le logiciel Eviews permet automatiquement d’effectuer la correction de l’autocorrélation des erreurs

sans passer par tous ces calculs. Pour ce faire, il suffit tout simplement d’insérer, à la commande

d’estimation, la variable AR(1) ou AR(2), ou encore MA(1) ou MA(2). Mais il faut noter également que la

correction de l’autocorrélation n’est acceptée que si le coefficient associé au processus introduit dans le

modèle [AR(1), MA(1), etc.] est significatif.

VI.2. Hétéroscédasticité

A. Problème

D’un point de vue étymologique, le terme hétéroscédasticité comprend deux mots. D’abord « hétéro » qui

fait référence à « plusieurs », ensuite le terme « scédasticité », associé à la « fonction scédastique », qui signifie « variance conditionnelle ». Hétéroscédasticité signifie donc différentes variances. On dit qu’il y a hétéroscédasticité lorsque l’hypothèse de la constance de l’erreur

, émise lors de la

présentation de la méthode des moindres carrés ordinaires, est violée. Comme pour l’autocorrélation, la conséquence directe de cette violation est que les estimateurs des MCO,

bien que encore non biaisés, ne sont plus efficients, puisque n’ayant plus une variance minimale. Et par

conséquent les t de Student et F de Fisher ne sont plus utilisables { des fins d’inférence.

Il faut noter également que l’hétéroscédasticité est un problème qui se pose plus dans les modèles spécifiés

en coupe transversale que ceux des chroniques.


Il existe toute une batterie de tests permettant de détecter l’ hétéroscédasticité, dont notamment††††††††††† :

Le test de Park

Le test de Goldfeld – Quandt

Le test de Glejser

Le test de Breusch – Pagan – Godfrey

Le test d’égalité des variances

Le test de Koenker – Basset

Le test de Harvey

Le test de rang de Spearman

Le test de White

Le test ARCH

Dans ce papier, nous ne revenons que sur les deux derniers tests, qui sont les plus utilisés dans la pratique.

Le test de White (1980)

Soit le modèle linéaire multiple suivant :

[6.13] Yt = β0 + β1X1t + β2X2t + β3X3t + ut

Le test de White, proposé par Halbert White en 1980, teste les hypothèses suivantes :

††††††††††† J’invite le lecteur qui désire prendre connaissance de tous ces tests à consulter les manuels de Kintambo

(2004) et Bosonga (2010).


Le test de White présente l’avantage qu’il ne nécessite pas que l’on spécifie les variables qui sont { la cause

de l’hétéroscédasticité.

Pour tester H0, ce test peut se faire de deux façons ci-après :

(i) Test de White avec termes croisés, qui est basé sur l’estimation du modèle :

[6.14]

où et sont les résidus issus de l’estimation par OLS du modèle [6.13] et vt le terme d’erreur.

(ii) Test de White sans termes croisés, basé sur l’estimation du modèle suivant :

[6.14]

où et sont les résidus issus de l’estimation par OLS du modèle [6.13] et vt le terme d’erreur.

Ce est basé sur la statistique LM, donnée par :

LM = n R2 (m)

où m est le nombre de régresseurs (exogènes) dans l’expression estimée.

Critère de décision : Si LM > (m) RH0, il y a hétéroscédasticité.

Le test de AutoRegressive Conditionnal Heteroscedasticity (Test ARCH)

Les hypothèses à formuler pour ce test sont :

Partant des résidus et issus de l’estimation du modèle [6.13], la détection de l’hétéroscédasticité par le test

ARCH se fait en régressant le carré des résidus et sur leurs décalages‡‡‡‡‡‡‡‡‡‡‡ puissance deux, soit :

[6.15]

Le test est fondé soit sur un test de Fisher classique, soit sur le test du multiplicateur de Lagrange (LM) :

LM = n R2 (m)

où m est le nombre de régresseurs (exogènes) présents dans le modèle [6.15].

Critère de décision : Si LM > (m) RH0, il y a hétéroscédasticité.

‡‡‡‡‡‡‡‡‡‡‡

Le nombre de retards étant à déterminer.


C. Correction de l’hétéroscédasticité

Soit le modèle :

Yi = β0 + β1Xi + ui

La correction de l’hétéroscédasticité se fait en appliquant les moindres carrés pondérés, c’est-à-dire les

moindres carrés ordinaires sur l’un des modèles transformés ci-dessous :

(1)

si E(

(2)

si E(

(3)

si E(

VI.3. Multicolinéarité§§§§§§§§§§§

A. Problème

Il y a multicolinéarité lorsque l’hypothèse de l’orthogonalité des exogènes ou encore de leur indépendance

linéaire est relâchée. Dans ce cas, la méthode des moindres carrés ordinaires est défaillante et il

devient difficile d’isoler l’impact individuel de chaque exogène sur l’endogène.

On distingue généralement deux types de multicolinéarité : la multicolinéarité parfaite ou exacte et la quasi

multicolinéarité ou multicolinéarité imparfaite.

En cas de multicolinéarité parfaite, la matrice est singulière, et par conséquent son inverse ( )–1

n’existe pas, ce qui rend la méthode OLS complètement défaillante ; il est n’est donc pas possible devant

une telle situation d’estimer les paramètres du modèle.

Dans la pratique, c’est plut t le cas de quasi multicolinéarité qui est fréquent. En effet, la multicolinéarité

imparfaite correspond au cas où la matrice est non singulière, mais son déterminant est proche de 0. La

conséquence directe est qu’on aura des valeurs très grandes dans la matrice inverse ( )–1 qui, par la

méthode classique, est calculée comme suit :

[6.16] ( )–1 =

Dans [6.16], si 0, la matrice ( )–1 aura des valeurs de plus en plus grandes, la matrice COVA

( ) également. La conséquence, et donc le problème posé par la multicolinéarité est que, du

fait de la valeur élevée des variances des coefficients estimés, les résultats de l’estimation perdent en précision,

c’est-à-dire que les t de Student seront faibles, et les coefficients statistiquement nuls, pendant que le R2 et le F

sont élevés.

L’autre problème posé par la multicolinéarité est l’instabilité de paramètre et l’effet de masque qui rend difficile

la mise en évidence de la contribution individuelle de différentes variables explicatives sur l’endogène.

Note : Si les problèmes d’autocorrélation des erreurs et d’hétéroscédasticité peuvent se poser quel que soit

le nombre d’exogènes intervenant dans le modèle, le problème de multicolinéarité, en revanche, n’a de

sens que dans un modèle de régression linéaire multiple.

§§§§§§§§§§§ La notion de multicolinéarité a été introduite, dans les années 50, par Lawrence Klein.



Les tests de détection de la multicolinéarité les plus populaires sont le test de Klein et le test de Farrar et

Glauber.

Le test de Klein

Soit le modèle :

Le test de Klein se fait en trois étapes que voici :

(a) Estimer le modèle [6.17] et calculer le R2 ;

(b) Calculer la matrice des coefficients de corrélation linéaire entre variables exogènes, prises deux à

deux, soit :

(c) Comparer, enfin, le R2 de la régression aux différents coefficients de corrélation. Il y a présomption

de multicolinéarité si au moins un des élevé au carré est supérieur au R2.

Note : Le test de Klein n’est pas un test statistique au sens test d’hypothèses mais simplement un critère de

présomption de multicolinéarité. C’est pourquoi il doit être complété par le test de Farrar et Glauber qui est

bien un test statistique.

Le test de Farrar et Glauber

Le test de Farrar et Glauber teste les hypothèses suivantes :

Ce test est basé sur la statistique du , calculée { partir de l’échantillon comme suit :

où n est la taille de l’échantillon ; K le nombre de paramètres ; Ln le logarithme népérien et D le déterminant de

la matrice des coefficients de corrélation linéaire entre exogènes, soit :


D =

est le nombre de degrés de liberté.

Critère de décision : si > RH0.

C. Remèdes à la multicolinéarité

Parmi les techniques permettant d’éliminer la multicolinéarité, on peut citer :

Augmenter la taille de l’échantillon

Appliquer la « Ridge Regression » qui est une réponse purement numérique, il s’agit de transformer

la matrice en une matrice ( ) où k est une constante choisie arbitrairement qui et I la

matrice unité.

Face à ces artifices de calcul, la seule parade vraiment efficace consiste, lors de la spécification du modèle, à

éliminer les séries explicatives susceptibles de représenter les mêmes phénomènes et donc d’être corrélées

entre elles, ceci afin d’éviter l’effet masque************.

VI.4. Normalité des erreurs

A. Problème

Le problème d’absence de normalité se pose lorsque l’hypothèse ut (0, ) est violée. A titre de rappel,

l’hypothèse de normalité, émise lors de la présentation de la méthode OLS, est la clé de l’inférence

statistique. Elle est donc nécessaire pour mener les tests statistiques et construire les intervalles de

confiance. Sa violation ne touche pas le caractère non biaisé des paramètres mais rend l’inférence, dans le

modèle linéaire, impossible car les distributions des estimateurs ne sont plus connues.


Les tests de normalité ont été rigoureusement présentés dans la partie introductive de ce recueil portant

sur les rappels statistiques, le lecteur est donc convié { s’y rapporter.

C. Remèdes à la non-normalité des résidus

Le meilleur remède à la non-normalité des résidus est d’agrandir la taille de l’échantillon. La transformation

de Box – Cox, sur les variables non normales intervenant dans le modèle, est souvent aussi indiquée.

************

Bourbonnais (2005).


Exercices sur le chapitre 6

Exercice 1

Soit le modèle ci-après :

Yt = β0 + β1X1t + β2X2t + εt

où (t= 1, …, n) et n=30

En l’estimant par OLS, on a obtenu =0,52 et =0,28. On aussi calculé la statistique de Durbin-Watson :

d=DW=0,78.

a) Effectuer, au seuil de 5%, le test d’hypothèse β2=0.

b) Que faut-il penser de l’hypothèse de non autocorrélation des résidus ?

Exercice 2

En cherchant { expliquer le phénomène réussite en économétrie, en 2012, l’assistant Dandy Matata a

spécifié le modèle suivant :

Yi = β0 + β1X1i + β2X2i + εi

où Yi est la cote obtenue en économétrie par l’étudiant i ; X1i est la présence au cours d’économétrie et X2i le

nombre d’heures d’études consacrées { ce cours.

15 étudiants ont été échantillonnés. L’estimation a permis de calculer la statistique DW = 0.4.

Tester l’autocorrélation du premier ordre dans le modèle spécifié par l’assistant Matata.

Exercice 3

Soit l’échantillon de taille n=5 :

Yt X1t X2t

8 3 6

2 1 2

6 3 6

0 1 2

4 2 4

∑Yt=20 ∑ X1t=10 ∑ X2t=20

(a) Quel est le problème posé par l’estimation du modèle :

Yt = a + bX1t + dX2t + ut

(b) Comment peut-on le résoudre ?

Exercice 4

Au regard des résultats ci-après, sur l’estimation de l’hypothèse de Kuznet en RDC pour la période allant de

1975 à 2011, quel problème, selon vous, s’est posé dans l’estimation de cette relation ? Par quoi le voyez-

vous ?


Variable endogène : IGI

Méthode d’estimation : Moindres carrés ordinaires

Variables explicatives Coefficients t- statistic Probabilité critique

Constante 0.453311 0.784894 0.4417

PIBH 0.000813 0.268563 0.7910

PIBH2 - 0.00000426 - 0.772470 0.4489

R2 = 0.891141 R2 ajusté = 0.873561 F – stat. = 114.9272

où IGI est le coefficient d’inégalité de GINI et PIBH le PIB réel par habitant.

Exercice 5

Le tableau ci-dessous reporte les résultats du test de White, après estimation de la relation entre coefficient

d’inégalité de GINI (IGI) et le PIB réel par habitant (PIBH) en RDC.

White Heteroskedasticity Test:

F-statistic 6.482164 Probability 0.004122

Obs*R-squared 10.21371 Probability 0.006055

Test Equation:

Dependent Variable: RESID^2


Date: 06/25/12 Time: 15:46

Sample: 1975 2011

Included observations: 37

Variable Coefficient Std. Error t-Statistic Prob.

C -18.82177 41.99457 -0.448195 0.6569

LPIB 1.623484 3.731230 0.435107 0.6662

LPIB^2 -0.034949 0.082874 -0.421711 0.6759

R-squared 0.276046 Mean dependent var 0.014520


S.E. of regression 0.017509 Akaike info criterion -5.174612

Sum squared resid 0.010423 Schwarz criterion -5.043997

Log likelihood 98.73032 F-statistic 6.482164

Durbin-Watson stat 0.214247 Prob(F-statistic) 0.004122

Travail demandé :

Après avoir rappelé les principales caractéristiques de ce test (hypothèses nulle et alternative, principe

général du test, règle de décision), commenter les résultats. Conclure quant à la nature des résidus.

Rappel : la valeur critique de la loi du Khi-deux à 2 degrés de liberté et au seuil de 5% est égale à 5,991.


ANNEXES

ANNEXE 1 : TABLES STATISTIQUES

Test de Shapiro et Wilk [table des coefficients]

n 2 3 4 5 6 7 8 9 10

J

1 0.7071 0.7071 0.6872 0.6646 0.6431 0.6233 0.6052 0.5888 0.5739

2

0.0000 0.1677 0.2413 0.2806 0.3031 0.3164 0.3244 0.3291

3

0.0000 0.0875 0.1401 0.1743 0.1976 0.2141

4

0.0000 0.0561 0.0947 0.1224

5

0.0000 0.0399

n 11 12 13 14 15 16 17 18 19 20

J

1 0.5601 0.5475 0.5359 0.5251 0.5150 0.5056 0.4963 0.4886 0.4808 0.4734 2 0.3315 0.3325 0.3325 0.3318 0.3306 0.3290 0.3273 0.3253 0.3232 0.3211

3 0.2260 0.2347 0.2412 0.2460 0.2495 0.2521 0.2540 0.2553 0.2561 0.2565

4 0.1429 0.1586 0.1707 0.1802 0.1878 0.1939 0.1988 0.2027 0.2059 0.2085 5 0.0695 0.0922 0.1099 0.1240 0.1353 0.1447 0.1524 0.1587 0.1641 0.1686

6 0.0000 0.0303 0.0539 0.0727 0.0880 0.1005 0.1109 0.1197 0.1271 0.1334

7

0.0000 0.0240 0.0433 0.0593 0.0725 0.0837 0.0932 0.1013 8

0.0000 0.0196 0.0359 0.0496 0.0612 0.0711

9

0.0000 0.0163 0.0303 0.0422 10

0.0000 0.0140

n 21 22 23 24 25 26 27 28 29 30

J

1 0.4643 0.4590 0.4542 0.4493 0.4450 0.4407 0.4366 0.4328 0.4291 0.4254 2 0.3185 0.3156 0.3126 0.3098 0.3069 0.3043 0.3018 0.2992 0.2968 0.2944

3 0.2578 0.2571 0.2563 0.2554 0.2543 0.2533 0.2522 0.2510 0.2499 0.2487

4 0.2119 0.2131 0.2139 0.2145 0.2148 0.2151 0.2152 0.2151 0.2150 0.2148 5 0.1736 0.1764 0.1787 0.1807 0.1822 0.1836 0.1848 0.1857 0.1064 0.1870

6 0.1399 0.1443 0.1480 0.1512 0.1539 0.1563 0.1584 0.1601 0.1616 0.1630

7 0.1092 0.1150 0.1201 0.1245 0.1283 0.1316 0.1346 0.1372 0.1395 0.1415 8 0.0804 0.0878 0.0941 0.0997 0.1046 0.1089 0.1128 0.1162 0.1192 0.1219

9 0.0530 0.0618 0.0696 0.0764 0.0823 0.0876 0.0923 0.0965 0.1002 0.1036 10 0.0263 0.0368 0.0459 0.0539 0.0610 0.0672 0.0728 0.0778 0.0822 0.0862

11 0.0000 0.0122 0.0228 0.0321 0.0403 0.0476 0.0540 0.0598 0.0650 0.0697

12

0.0000 0.0107 0.0200 0.0284 0.0358 0.0424 0.0483 0.0537 13

0.0000 0.0094 0.0178 0.0253 0.0320 0.0381

14

0.0000 0.0084 0.0159 0.0227

15

0.0000 0.0076


Test de Shapiro et Wilk [Table des valeurs limites de W]

N W ‘95%’ W ‘99%’

10 0.842 0.781 11 0.850 0.792

12 0.859 0.805 13 0.856 0.814

14 0.874 0.825

15 0.881 0.835 16 0.837 0.844

17 0.892 0.851

18 0.897 0.858 19 0.901 0.863

20 0.905 0.868

21 0.908 0.873 22 0.911 0.878

23 0.914 0.881 24 0.916 0.884

25 0.918 0.888

26 0.920 0.891 27 0.923 0.894

28 0.924 0.896

29 0.926 0.898 30 0.927 0.900

31 0.929 0.902

32 0.930 0.904 33 0.931 0.906

34 0.933 0.908 35 0.934 0.910

36 0.935 0.912

37 0.936 0.914 38 0.938 0.916

39 0.939 0.917

40 0.940 0.919 41 0.941 0.920

42 0.942 0.922

43 0.943 0.923 44 0.944 0.924

45 0.945 0.926 46 0.945 0.927

47 0.946 0.928

48 0.947 0.929 49 0.947 0.929

50 0.947 0.930


Table de distribution de la loi T de Student [Test bilatéral] (Valeurs de T ayant la probabilité P d'être dépassée en valeur absolue)

Pr

ddl 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.05 0.02 0.01 0.001

1 0.158 0.325 0.510 0.727 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657 636.619

2 0.142 0.289 0.445 0.617 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925 31.598

3 0.137 0.277 0.424 0.584 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841 12.929

4 0.134 0.271 0.414 0.569 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604 8.610

5 0.132 0.267 0.408 0.559 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032 6.869

6 0.131 0.265 0.404 0.553 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707 5.959

7 0.130 0.263 0.402 0.549 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499 5.408

8 0.130 0.262 0.399 0.546 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355 5.041

9 0.129 0.261 0.398 0.543 0.703 0.883 1.100 1.383 1.833 2.263 2.821 3.250 4.781

10 0.129 0.260 0.397 0.542 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169 4.587

11 0.129 0.260 0.396 0.540 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106 4.437

12 0.128 0.259 0.395 0.539 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055 4.318

13 0.128 0.259 0.394 0.538 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012 4.221

14 0.128 0.258 0.393 0 537 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977 4.140

15 0.128 0.258 0.393 0.536 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947 4.073

16 0.128 0.258 0.392 0.535 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921 4.015

17 0.128 0.257 0.392 0.534 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898 3.965

18 0.127 0.257 0.392 0.534 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878 3.922

19 0.127 0.257 0.391 0.533 0 688 0.961 1.066 1.328 1.729 2.093 2.539 2.861 3.883

20 0.127 0.257 0.391 0.533 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845 3.850

21 0.127 0.257 0.391 0.532 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831 3.819

22 0.127 0.256 0.390 0.532 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819 3.792

23 0.127 0.256 0.390 0.532 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807 3.767

24 0.127 0.256 0.390 0.531 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797 3.745

25 0.127 0.256 0.390 0.531 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787 3.725

26 0.127 0.256 0.390 0.531 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779 3.707

27 0.137 0.256 0.389 0.531 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771 3.690

28 0.127 0.256 0.389 0.530 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763 3.674

29 0.127 0.256 0.389 0 530 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756 3.649

30 0.127 0.256 0.389 0.530 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750 3.656

40 0.126 0.255 0.388 0.529 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704 3.551

80 0.126 0.254 0.387 0.527 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660 3.460

120 0.126 0.254 0.386 0.526 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617 3.373

∞ 0.126 0.253 0.385 0.524 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576 3.291


Table de distribution de la loi F de Fisher-Snedecor (Valeurs de F ayant la probabilité α d'être dépassées : F = S1

2/S22)

Nu1 = 1 Nu1 = 2 Nu1 = 3 Nu1 = 4 Nu1 = 5

Nu2 α = 0.05 α = 0.01 α = 0.05 α = 0.01 α = 0.05 α = 0.01 α = 0.05 α = 0.01 α = 0.05 α = 0.01

1 161.4 4052.00 199.5 4999.00 213.7 3403.00 224.6 5625.00 230.2 5764.00

2 18.51 98.49 19.00 99.00 19.16 99.17 19.25 99.25 19.30 99.30

3 10.13 34.12 9.55 30.81 9.28 29.46 9.12 28.71 9.01 28.24

4 7.71 21.20 6.94 18.00 6.59 16.69 6.39 13.98 6.26 13.32

3 6.61 16.26 5.79 13.27 5.41 12.06 5.19 11.39 5.03 10.97

6 3.99 13.74 3.14 10.91 4.76 9.78 4.53 9.13 4.39 8.75

7 3.39 12.23 4.74 9.35 4.33 8.43 4.12 7.85 3.97 7.45

8 3.32 11.26 4.46 8.63 4.07 7.39 3.84 7.01 3.69 6.63

9 5.12 10.56 4.26 8.02 3.86 6.99 3.63 6.42 3.48 6.06

10 4.96 10.04 4.10 7.56 3.71 6.33 3.48 5.99 3.33 5.64

11 4.84 9.65 3.98 7.20 3.59 6.22 3.36 5.67 3.20 5.32

12 4.75 9.33 3.88 6.93 3.49 5.93 3.26 5.41 3.11 5.06

13 4.67 9.07 3.80 6.70 3.41 5.74 3.18 5.20 3.02 4.86

14 4.60 8.86 3.74 6.31 3.34 5.56 3.11 5.03 2.96 4.69

15 4.34 8.68 3.68 6.36 3.29 5.42 3.06 4.89 2.90 4.56

16 4.49 8.53 3.63 6.23 3.24 5.29 3.01 4.77 2.85 4.44

17 4.45 8.40 3.59 6.11 3.20 5.18 2.96 4.67 2.81 4.34

18 4.41 8.28 3.53 6.01 3.16 5.09 2.93 4.58 2.77 4.25

19 4.38 8.18 3.52 5.93 3.13 5.01 2.90 4.50 2.74 4.17

20 4.35 8.10 3.49 5.85 3.10 4.94 2.87 4.43 2.71 4.10

21 4.32 8.02 3.47 5.78 3.07 4.87 2.84 4.37 2.68 4.04

22 4.30 7.94 3.44 5.72 3.05 4.82 2.82 4.31 2.66 3.99

23 4.28 7.88 3.42 5.66 3.03 4.76 2.80 4.26 2.64 3.94

24 4.26 7.82 3.40 5.61 3.01 4.72 2.78 4.22 2.62 3.90

25 4.24 7.77 3.38 5.37 2.99 4.68 2.76 4.18 2.60 3.86

26 4.22 7.72 3.37 5.33 2.98 4.64 2.74 4.14 2.39 3.82

27 4.21 7.68 3.33 5.49 2.96 4.60 2.73 4.11 2.37 3.78

28 4.20 7.64 3.34 5.43 2.95 4.57 2.71 4.07 2.56 3.75

29 4.18 7.60 3.33 5.42 2.93 4.34 2.70 4.04 2.34 3.73

30 4.17 7.56 3.32 5.39 2.92 4.31 2.69 4.02 2.53 3.70

40 4.08 7.31 3.23 5.18 2.84 4.31 2.61 3.83 2.43 3.31

60 4.00 7.08 3.15 4.98 2.76 4.13 2.32 3.65 2.37 3.34

120 3.92 6.85 3.07 4.79 2.68 3.93 2.43 3.48 2.29 3.17

∞ 3.84 6.64 2.99 4.60 2.60 3.78 2.37 3.32 2.21 3.02

S12 est la plus grande des deux variances estimées. avec n degrés de liberté au numérateur.


0 4 2

dL du 4-du 4-dL

Absence

d’autocorrélation DOUTE DOUTE Autocorrélation

positive

Autocorrélation négative

Table de Durbin-Watson

La table donne les limites inférieures et supérieures des seuils de signification du test de Durbin et Watson pour α = 5 %.

k = 1 k = 2 k = 3 k = 4 k = 5

n dL du dL du dL du dL du dL du

15 1.08 1.36 0.95 1.54 0.82 1.75 0.69 1.97 0.56 2.21

16 1.10 1.37 0.98 1.54 0.86 1.73 0.74 1.93 0.62 2.15

17 1.13 1.38 1.02 1.54 0.90 1.71 0.78 1.91 0.67 2.10

18 1.16 1.39 1.05 1.53 0.93 1.69 0.82 1.87 0.71 2.06

19 1.18 1.40 1.08 1.53 0.97 1.68 0.86 1.85 0.75 2.02

20 1.20 1.41 1.10 1.54 1.00 1.68 0.90 1.83 0.79 1.99

21 1.22 1.42 1.13 1.54 1.03 1.67 0.93 1.81 0.83 1.96

22 1.24 1.43 1.15 1.54 1.05 1.66 0.96 1.80 0.86 1.94

23 1.26 1.44 1.17 1.54 1.08 1.66 0.99 1.79 0.90 1.92

24 1.27 1.45 1.19 1.55 1.10 1.66 1.01 1.78 0.93 1.90

25 1.29 1.45 1.21 1.55 1.12 1.66 1.04 1.77 0.95 1.89

26 1.30 1.46 1.22 1.55 1.14 1.65 1.06 1.76 0.98 1.88

27 1.32 1.47 1.24 1.56 1.16 1.65 1.08 1.76 1.01 1.86

28 1.33 1.48 1.26 1.56 1.18 1.65 1.10 1.75 1.03 1.85

29 1.34 1.48 1.27 1.56 1.20 1.65 1.12 1.74 1.05 1.84

30 1.35 1.49 1.28 1.57 1.21 1.65 1.14 1.74 1.07 1.83

31 1.36 1.50 1.30 1.57 1.23 1.65 1.16 1.74 1.09 1.83

32 1.37 1.50 1.31 1.57 1.24 1.65 1.18 1.73 1.11 1.82

33 1.38 1.51 1.32 1.58 1.26 1.65 1.19 1.73 1.13 1.81

34 1.39 1.51 1.33 1.58 1.27 1.65 1.21 1.73 1.15 1.81

35 1.40 1.52 1.34 1.58 1.28 1.65 1.22 1.73 1.16 1.80

36 1.41 1.52 1.35 1.59 1.29 1.65 1.24 1.73 1.18 1.80

37 1.42 1.53 1.36 1.59 1.31 1.66 1.25 1.72 1.19 1.80

38 1.43 1.54 1.37 1.59 1.32 1.66 1.26 1.72 1.21 1.79

39 1.43 1.54 1.38 1.60 1.33 1.66 1.27 1.72 1.22 1.79

40 1.44 1.54 1.39 1.60 1.34 1.66 1.29 1.72 1.23 1.79

45 1.48 1.57 1.43 1.62 1.38 1.67 1.34 1.72 1.29 1.78

50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77

55 1.53 1.60 1.49 1.64 1.45 1.68 1.41 1.72 1.38 1.77

60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 1.41 1.77

65 1.57 1.63 1.54 1.66 1.50 1.70 1.47 1.73 1.44 1.77

70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 1.46 1.77

75 1.60 1.65 1.57 1.68 1.54 1.71 1.51 1.74 1.49 1.77

80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 1.51 1.77

85 1.62 1.67 1.60 1.70 1.57 1.72 1.55 1.75 1.52 1.77

90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78

95 1.64 1.69 1.62 1.71 1.60 1.73 1.58 1.75 1.56 1.78

100 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78

k : nombre de variables exogènes; n : nombre d’observations et α = 0.05.


0 4 2

dL du 4-du 4-dL

Absence

d’autocorrélation DOUTE DOUTE Autocorrélation

positive

Autocorrélation négative

Table de Durbin-Watson

La table donne les limites inférieures et supérieures des seuils de signification du test de Durbin et Watson pour α = 1 %.

k = 1 k = 2 k = 3 k = 4 k = 5

n dL du dL du dL du dL du dL du

15 0.81 1.07 0.70 1.25 0.59 1.46 0.49 1.70 0.39 1.96

16 0.84 1.09 0.74 1.25 0.63 1.44 0.53 1.66 0.44 1.90

17 0.87 1.10 0.77 1.25 0.67 1.43 0.57 1.63 0.48 1.85

18 0.90 1.12 0.80 1.26 0.71 1.42 0.61 1.60 0.52 1.80

19 0.93 1.13 0.83 1.26 0.74 1.41 0.65 1.58 0.56 1.77

20 0.95 1.15 0.86 1.27 0.77 1.41 0.68 1.57 0.60 1.74

21 0.97 1.16 0.89 1.27 0.80 1.41 0.72 1.55 0.63 1.71

22 1.00 1.17 0.91 1.28 0.83 1.40 0.75 1.54 0.66 1.69

23 1.02 1.19 0.94 1.29 0.86 1.40 0.77 1.53 0.70 1.67

24 1.04 1.20 0.96 1.30 0.88 1.41 0.80 1.53 0.72 1.66

25 1.05 1.21 0.98 1.30 0.90 1.41 0.83 1.52 0.75 1.65

26 1.07 1.22 1.00 1.31 0.93 1.41 0.85 1.52 0.78 1.64

27 1.09 1.23 1.02 1.32 0.95 1.41 0.88 1.51 0.81 1.63

28 1.10 1.24 1.04 1.32 0.97 1.41 0.90 1.51 0.83 1.62

29 1.12 1.25 1.05 1.33 0.99 1.42 0.92 1.51 0.85 1.61

30 1.13 1.26 1.07 1.34 1.01 1.42 0.94 1.51 0.88 1.61

31 1.15 1.27 1.08 1.34 1.02 1.42 0.96 1.51 0.90 1.60

32 1.16 1.28 1.10 1.35 1.04 1.43 0.98 1.51 0.92 1.60

33 1.17 1.29 1.11 1.36 1.05 1.43 1.00 1.51 0.94 1.59

34 1.18 1.30 1.13 1.36 1.07 1.43 1.01 1.51 0.95 1.59

35 1.19 1.31 1.14 1.37 1.08 1.44 1.03 1.51 0.97 1.59

36 1.21 1.32 1.15 1.38 1.10 1.44 1.04 1.51 0.99 1.59

37 1.22 1.32 1.16 1.38 1.11 1.45 1.06 1.51 1.00 1.59

38 1.23 1.33 1.18 1.39 1.12 1.45 1.07 1.52 1.02 1.58

39 1.24 1.34 1.19 1.39 1.14 1.45 1.09 1.52 1.03 1.58

40 1.25 1.34 1.20 1.40 1.15 1.46 1.10 1.52 1.05 1.58

45 1.29 1.38 1.24 1.42 1.20 1.48 1.16 1.53 1.11 1.58

50 1.32 1.40 1.28 1.45 1.24 1.49 1.20 1.54 1.16 1.59

55 1.36 1.43 1.32 1.47 1.28 1.51 1.25 1.55 1.21 1.59

60 1.38 1.45 1.35 1.48 1.32 1.52 1.28 1.56 1.25 1.60

65 1.41 1.47 1.38 1.50 1.35 1.53 1.31 1.57 1.28 1.61

70 1.43 1.49 1.40 1.52 1.37 1.55 1.34 1.58 1.31 1.61

75 1.45 1.50 1.42 1.53 1.39 1.56 1.37 1.59 1.34 1.62

80 1.47 1.52 1.44 1.54 1.42 1.57 1.39 1.60 1.36 1.62

85 1.48 1.53 1.46 1.55 1.43 1.58 1.41 1.60 1.39 1.63

90 1.50 1.54 1.47 1.56 1.45 1.59 1.43 1.61 1.41 1.64

95 1.51 1.55 1.49 1.57 1.47 1.60 1.45 1.62 1.42 1.64

100 1.52 1.56 1.50 1.58 1.48 1.60 1.46 1.63 1.44 1.65

k : nombre de variables exogènes; n : nombre d’observations et α = 0.01.


ANNEXE 2 : INITIATION AU LOGICIEL ECONOMETRIQUE EVIEWS

Les machines un jour pourront résoudre tous les problèmes, mais jamais aucune d'entre elles ne pourra en poser un !

Albert Einstein Lancement de l’écran d’accueil Eviews

Une fois installé, le logiciel Eviews est lancé comme tout autre en double-cliquant sur l’icône Eviews au

bureau.

Voici comment se présente Eviews au lancement :

Création d’une feuille de travail [workfile]

Le travail sur Eviews commence par la création d’une feuille de travail où l’on spécifie essentiellement la

fréquence des données [annuelles, trimestrielles, mensuelles, etc.], leur nature [régulières, irrégulière,

panel] et la taille de l’échantillon. Cette opération peut se faire de deux manières :

(a) Dans la barre de menu, aller dans File New Workfile

Une boîte de dialogue s’ouvre où il faut distinguer trois zones.

Barre de commande

Barre de menu

Ici, préciser la fréquence des données et la

taille de l’échantillon. Cette zone change selon

que les données sont régulières [pour séries

temporelles], irrégulières [pour séries en

coupes transversales] ou en panel.

Dans cette zone, donner un nom à la feuille

de travail créée. Comme sur Excel, Eviews

donne également la possibilité de travailler

sur plusieurs pages. Dans page on peut les

particulariser en tapant un nom.

Ici, préciser si les données sont régulières,

irrégulières ou en panel]


Supposons que l’on ait une série temporelle annuelle, qui va de 2000 à 2010. Il suffira de choisir :

- Dated regular frenquency dans l’onglet Workfile structure type

- Annual dans l’ongle Frenquency

- Puis préciser la taille de l’échantillon dans Start date et End date.

Enfin, on peut nommer cette workfile [ECOMATH par exemple], et cette première page [EXERCICE par

exemple] :

En cliquant sur OK, la feuille de travail est créée.

(b) Dans la barre de commande, saisir la commande create a 2000 2010

Note : Eviews n’est pas sensible à la casse !

Création des variables et saisie des données dans Eviews

Considérons, pour la période 2000-2010, les statistiques sur le taux de croissance du PIB [notée TCPIB]

et le taux de chômage [notée CHOM], produites par la BCC.

Pour créer les deux séries, dans la barre de commande, on saisit la commande data TCPIB CHOM puis

Enter.

Une fois les deux séries créées, on peut soit :

- saisir les données comme on le ferait sur Excel

- si les données sont saisies sur Excel, les copier-coller, série par série [après avoir pris soin de

remplacer toutes les virgules éventuelles par des points]

- importer les données à partir d’Excel dans Eviews

A partir d’Excel, importation des données dans Eviews

Suivre les étapes ci-après :

1. Enregistrer les données saisies sur Excel sous Excel 97-2003, en ayant en mémoire juste les noms

donnés aux séries, puis fermer le fichier ;

2. Dans Eviews, créer une feuille de travail avec la même taille d’échantillon que les données

enregistrées sur Excel. Puis créer les variables avec les mêmes noms que sur Excel.

3. Dans la barre de Menu Eviews, aller dans File Import Read Text-Lotus-Excel… Une boîte

de dialogue apparaît où il faut reprendre le nom du fichier Excel. Rechercher le fichier où il a été

enregistré, puis le sélectionner. Dans Types de fichiers, choisir Excel (*.xls), puis valider.

4. Une nouvelle boîte de dialogue apparaît. Là, dans Names of series or number if named in file, taper

les noms des séries dans le même ordre que sur Excel, puis OK.


Illustration de l’étape 3

Illustration de l’étape 4

En validant, Eviews importe automatiquement toutes les données à partir d’Excel.

Statistique descriptive des données et graphiques

En un clic, Eviews peut également fournir les paramètres essentiels de position, de dispersion et de

forme d’une série. Ce qui permet par exemple, pour grand échantillon, de trancher sur la conformité

d’une distribution à la loi normale à partir de la statistique de Jarque – Bera.

Pour avoir ces informations, aller dans la barre de commande Eviews et saisir la commande stats TCPIB

CHOM puis Enter [la commande est stats suivi du (des) nom(s) de(s) la variable(s)].

Pour les deux séries de notre exemple, on obtient :


On lit par exemple, pour chaque série, sa Moyenne [Mean], sa Médiane [Median], son Maximum, son

Minimum, son Ecart-Type [Std. Dev.], son coefficient d’asymétrie [Skewness], son coefficient

d’aplatissement [Kurtosis], sa statistique Jarque – Bera, etc

De même, il y a lieu d’avoir les mêmes résultats, dans la barre de commande, saisir la commande show

TCPIB CHOM puis valider, dans la fenêtre qui s’ouvre, aller dans View Descriptive Stats

Common Sample.

Graphiques

Dans la barre de commande, saisir les commandes :

scat TCPIB CHOM [pour un nuage des points]

line TCPIB CHOM [pour avoir des lignes]

Pour avoir d’autres types de graphiques proposés par Eviews, dans la fenêtre des données, aller dans

View Graph. Puis valider le graphique de son choix.

Estimation du coefficient des coefficients de corrélation de Bravais – Pearson et de Spearman

Après avoir affiché les deux variables que l’on veut mettre en cause, il suffit d’aller dans View

Covariance Analysis. En validant, Eviews renvoie une boîte, où on a la possibilité de choisir soit un

coefficient paramétrique (Bravais-Pearson) ou non paramétrique (Spearman) :


Si on choisit par exemple ordinary [corrélation paramétrique, Bravais-Pearson], on obtient :

Covariance Analysis: Ordinary Date: 06/21/12 Time: 04:18

Sample: 1 11

Included observations: 11 Correlation t-Statistic Probability Observ. TCPIB TCPIB 1.000000 ----- ----- 11

CHOM TCPIB -0.677304 -2.761860 0.0220 11

CHOM CHOM 1.000000 ----- ----- 11

Eviews renvoie le coefficient, son Student et la probabilité critique, ce qui facilite beaucoup

l’interprétation des résultats, avec comme critère : rejeter H0 si probabilité critique < au seuil de

signification.

Dans cet exemple, on observe une relation inverse significative entre le taux de taux de chômage et la

croissance du PIB en RDC, pour la période 2000-2010, la loi d’Okun se vérifie-t-elle ?

Estimation par OLS du modèle linéaire et tests

Pour estimer par OLS, il suffit d’aller dans Quick Estimate Equation, puis entrer les variables, séparées

par des espaces, dans l’ordre apparaissant dans le modèle à estimer, en notant le terme constant par la

lettre C, choisir ensuite la méthode d’estimation – pour notre cas LS ou Least squares – et valider.

Le même résultat peut être aussi obtenu en saisissant, sur la barre de commande Eviews, la commande

LS suivi de nom de la variable endogène C noms des variables exogènes séparées deux à deux par un espace Pour estimer un modèle sans terme constant, il suffit de retirer C dans la commande à passer. Tests Après avoir lancé la commande d’estimation par OLS, tous les tests portant sur les résidus figurent dans l’onglet Residuals Tests.


ANNEXE 3 : UN MOT SUR LES TESTS DE RACINE UNITAIRE ADF ET PHILLIPS-PERRON

Laboratoire d’Analyse – Recherche en Economie Quantitative One pager Avril 2012 Numéro-010 Lien : http://www.lareq.com

Processus stochastique et absence de trend Une interprétation prudente et plus attentive

Cédrick Tombola Muke

"Dieu ne joue pas aux dés" Albert Einstein

Avertissement

Ce papier est écrit dans l’objectif de mettre en garde contre le risque des conclusions erronées lors des

tests Augmented Dickey Fuller (ADF) et Phillips-Perron (PP). Il est écrit au moment où, parmi la plupart

de nos étudiants du niveau de la licence, la mauvaise procédure et la mauvaise interprétation de ces

tests ont gagné le terrain.

L’objet de notre papier repose sur le fait que nombre d’économètres en herbe, en menant ces tests,

oublient que ceux-ci considèrent que la composante déterministe suit une tendance linéaire et qu’un

processus DS (stationnaire en dème différence) n’exclut pas la possibilité d’un trend d’un autre type.

De plus, ironie du sort, on ne pense à détecter la nature du trend que si les tests concluent à une non –

stationnarité déterministe et qu’il convient d’appliquer l’écart à la tendance. Ce qui, curieusement,

revient à accepter la possibilité d’avoir un trend de type non linéaire dont on ne s’est pas donné la peine

de détecter au début du test.

Que faire ? Ce papier se propose de répondre, prudemment, à cette question, d’abord en privilégiant les

aspects théoriques, ensuite en considérant une étude des cas qui permet de mettre en exergue la

problématique soulevée ci-dessus.

I. Processus non stationnaire

A titre de rappel, un processus est stationnaire, au sens faible, si ses moments d’ordre 1 et d’ordre 2

sont indépendants du temps. Dans le cas contraire, il est dit non – stationnaire. Pour ce dernier type de

chroniques, l’une au moins de trois conditions ci-après est violée :

(i) E(Yt) = μ

(ii) E( ) =

(iii) Cov (Yt, Yt+k) = γk ou γ-k

Les travaux pionniers de Nelson et Plosser (1982), qui ont souligné la présence d’une racine unitaire dans

les principales séries macroéconomiques, distinguent en effet deux types de processus dans la famille

des processus non – stationnaires :

http://www.lareq.com/


Les processus TS [Trend Stationary] qui s’expriment comme une fonction du temps et d’un bruit

blanc :

Yt = f(t) + Zt où Zt est un bruit blanc [white noise]

Ce type de processus est rendu stationnaire en lui retirant sa tendance déterministe [Zt = Yt - f(t)].

Les processus DS [Differency Stationary] qui sont caractérisés par la présence d’au moins une

racine unitaire. De tels processus sont rendus stationnaires après d différences, (1 – B)dYt.

D’un point de vue économique, un processus TS implique que les chocs aléatoires frappant l’économie

n’auront qu’un effet transitoire sur l’évolution de la chronique qui aura tendance ensuite à revenir sur son

trend de long terme stable. En revanche, les chocs frappant l’économie auront un effet persistant et

durable sur l’évolution de la chronique si le processus est DS.

II. Tests de non – stationnarité

Le but et l’avantage des tests de non – stationnarité consistent en la confirmation ou non de la non

stationnarité46, en la détermination du type de processus et en la précision de la bonne méthode de

stationnarisation.

On fait généralement deux catégorisations de ces tests, synthétisées dans le tableau ci-après.

Tableau 1. Catégorisation de tests de non stationnarité

Catégorisation quant aux hypothèses testées

Tests d’H0 de présence de racine unitaire Tests d’H0 d’absence de racine unitaire

- Test Dickey – Fuller [DF]

- Test Augmented Dickey – Fuller [ADF]

- Test de Phillips – Perron [PP]

- Test de Ng – Perron

- Etc.

- Test de Kwiatkowski – Phillips – Schmidt – Shin

[KPSS]

Catégorisation portant sur le type de trend pris en compte

Tests basés sur une tendance linéaire Tests basés sur une tendance non linéaire

- Test DF

- Test ADF

- Test PP

- Test de Ng – Perron

- Test KPSS

- Etc.

- Tendance polynomiale : Test de Ouliaris, Park et

Phillips

- Tendance linéaire par morceaux et chocs : test

de Perron

La critique que nous formulons dans ce papier concerne essentiellement l’interprétation des résultats de

tests ADF et PP.

46

En effet, un examen graphique est parfois assez éloquent pour se prononcer sur la non – stationnarité d’une

chronique.


Tests ADF et PP : la composante déterministe suit une tendance linéaire

Dickey et Fuller (1976) sont les premiers à avoir fourni un ensemble d’outils statistiques formels pour

détecter la non – stationnarité dans un processus autorégressif du premier ordre. Dans leurs premiers

développements, ils ont assumé que le processus εt était un bruit blanc, or rien, à priori, ne conduit à la

satisfaction d’une telle hypothèse. La prise en compte de cette faiblesse a conduit les deux auteurs à

proposer, en 1981, un test augmenté (ADF).

Le test de Phillips - Perron47, en revanche, propose une correction non paramétrique des tests de Dickey

– Fuller afin de tenir compte des erreurs hétéroscédastiques.

La procédure des tests ADF et PP est basée sur l’estimation, par les MCO, de trois modèles

autorégressifs, en intégrant tous les retards significatifs en différences premières, suivants :

[1] ∆Yt = ρYt-1 + + εt

[2] ∆Yt = c + ρYt-1 + + εt

[3] ∆Yt = c + bt + ρYt-1 + + εt

Le modèle [3] est le modèle général où la composante déterministe suit un trend linéaire (t). Rappelons

que les tests ADF et PP sont des tests d’hypothèse nulle de présence de racine unitaire et portent sur le

paramètre ρ :

H0 : ρ = 0 [non stationnarité ou présence de racine unitaire]

H1 : ρ < 0 [stationnarité ou absence de racine unitaire]

La procédure du test est la suivante.

Tableau 2. Procédure du test de non stationnarité

Modèle à

estimer Conclusion du test Processus

Méthode de

stationnarisation

1. Estimer le

modèle [3]

Tester b

Il y a un trend linéaire TS Ecart à la tendance

Il n’y a pas un trend linéaire

.

2. Estimer le

modèle [2]

Tester c

Significatif Tester ρ

Non RH0 DS avec dérive Filtre aux différences

RH0 stationnaire

Non significatif

.

3. Estimer le modèle [1]

Tester ρ

Non RH0 DS sans dérive Filtre aux différences

RH0 stationnaire

Comme il ressort du tableau, un processus TS signifie simplement l’absence d’une composante

déterministe suivant un trend linéaire, un autre type de trend reste possible.

47

Proposé par Phillips (1987), Phillips et Perron (1988).


Non – stationnarité de nature mixte

Dans l’estimation du modèle [3], on dit qu’une chronique est caractérisée par une non – stationnarité de

nature mixte, si après tests de significativité des paramètres b et ρ, on conclut qu’il y a existence, à la

fois, d’un trend linéaire et d’une racine unitaire.

Pour ce dernier cas, on peut aisément appliquer le filtre aux différences pour stationnariser la série. En

effet, Dickey, Bell et Miller (1986) ont montré que si l’objectif poursuivi est la prévision, appliquer le filtre

aux différences en présence d’une non – stationnarité de nature mixte, est plus réconfortant qu’alarmant,

car dans ce cas, estiment ces auteurs, la différenciation élimine le trend linéaire.

En conclusion, lorsqu’on mène les tests ADF et PP, conclure sur un processus DS implique simplement

qu’on a récusé la présence d’une tendance linéaire dans la série. Il serait donc erroné de conclure,

brutalement, à l’absence d’un trend, oubliant que les tests menés sont eux-mêmes basés sur l’hypothèse

d’une tendance linéaire.

Figures 1. Quelques types de trend

0

50

100

150

200

250

1 13

25

37

49

61

73

85

97

109

121

133

145

157

169

181

193

Trend linéaire (t)

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

1 13

25

37

49

61

73

85

97

109

121

133

145

157

169

181

193

Trend quadratique (t2)

0

1E+86

2E+86

3E+86

4E+86

5E+86

6E+86

7E+86

8E+86

1 12

23

34

45

56

67

78

89

100

111

122

133

144

155

166

177

188

199

Trend exponentiel (et)

0

1

2

3

4

5

6

1 13

25

37

49

61

73

85

97

109

121

133

145

157

169

181

193

Trend logarithmique [Log(t)]


III. Etude des cas de l’indice des prix [rubrique alimentation] en RDC48

La série sera abrégée IP dans la suite de ce papier.

Figure 2. Analyse du plot de la série IP

La série IP présente une tendance haussière. Elle semble non stationnaire affectée d’une tendance. Mais

de quel type ? Visiblement, d’un trend non linéaire.

Figure 3. Analyse du corrélogramme de la série IP

Ce corrélogramme fait état d’une décroissance lente de toutes les autocorrélations de IP. On constate

aussi que la première autocorrélation partielle est significativement différente de zéro. Ceci est indicatif

d’une série non stationnaire.

48

Les données sont reprises en annexe 1 et proviennent de la section économique de l’Ambassade Américaine. Elles

sont mensuelles et couvrent la période allant de 2000 à 2009.

0

100

200

300

400

500

600

700

800

900

00 01 02 03 04 05 06 07 08 09

IP


Tests ADF et PP de la série IP en niveau

Les résultats de ces tests sont repris intégralement en annexe 2 de ce papier. Le nombre de retard,

retenu pour les deux tests, a été trouvé en appliquant la stratégie d’estimation séquentielle fondée sur

la significativité des coefficients des retards en différences premières, proposée par Perron (1993).

Alors que l’analyse du plot a indiqué que la série comportait un trend, les tests ADF et PP, synthétisés ci-

après, disent qu’il y a absence de trend. C’est donc ici qu’il faut éviter toute conclusion hâtive. Il n’y a

pas absence d’un trend dans la série IP, il y a plutôt absence d’un trend linéaire.

Tableau 3. Test ADF et PP de la série IP à niveau

Retard Dérive Trend

linéaire

En niveau

Conclusion Statistique ADF

Statistique PP

Valeur critique [à 5%]

IP 0 Non Non 6.706690 8.150683 -1.943540 Non-stationnaire Type stochastique

P-value 1.0000 1.0000

La série étant caractérisée par une non – stationnarité de nature stochastique (DS), il convient d’appliquer le filtre aux différences pour la rendre stationnaire. Tableau 4. Tests ADF et PP de la série IP en différences premières

En différences premières

Conclusion Statistique ADF Statistique PP Valeur critique [à 5%]

IP – 7.150804 – 7.167671 -1.943563 stationnaire

P-value 0.0000 0.0000

Figure 4. Plot de la série stationnaire, vraisemblablement en moyenne

-60

-40

-20

0

20

40

60

80

00 01 02 03 04 05 06 07 08 09

DIP

Economy & Finance

(Econometrie) done