49
1 LA RÉGRESSION MULTIPLE Michel Tenenhaus

LA RÉGRESSION MULTIPLE

Embed Size (px)

DESCRIPTION

LA RÉGRESSION MULTIPLE. Michel Tenenhaus. La régression multiple. Une variable à expliquer numérique Y k variables explicatives numériques ou binaires X 1 ,…, X k. Cas Ventes : les données. X 8. X 1. X 2. X 3. X 4. X 5. X 6. X 7. Y. !. !. Cas Ventes. Variable à expliquer : - PowerPoint PPT Presentation

Citation preview

Page 1: LA RÉGRESSION MULTIPLE

1

LA RÉGRESSION MULTIPLE

Michel Tenenhaus

Page 2: LA RÉGRESSION MULTIPLE

2

La régression multiple

• Une variable à expliquer numérique Y

• k variables explicatives numériques ou binaires X1,…, Xk

Page 3: LA RÉGRESSION MULTIPLE

Cas Ventes : les données

Total Remises publicité Marché aux Budget de Frais de de laSEMESTRE total grossistes Prix recherche Investissements Publicité ventes branche Ventes________ ________ __________ ________ _________ _______________ _________ ________ _________ ________

1 398 138 56 12 50 77 229 98 5540 2 369 118 59 9 17 89 177 225 5439 3 268 129 57 29 89 51 166 263 4290 4 484 111 58 13 107 40 258 321 5502 5 394 146 59 13 143 52 209 407 4872 6 332 140 60 11 61 21 180 247 4708 7 336 136 60 25 -30 40 213 328 4627 8 383 104 60 21 -45 32 201 298 4110 9 285 105 63 8 -28 12 176 218 4123 10 277 135 62 11 76 68 175 410 4842 11 456 128 65 22 144 52 253 93 5741 12 355 131 65 24 113 77 208 307 5094 13 364 120 64 14 128 96 195 107 5383 14 320 147 66 15 10 48 154 305 4888 15 311 143 67 22 -25 27 181 60 4033 16 362 145 67 23 117 73 220 239 4942 17 408 131 66 13 120 62 235 141 5313 18 433 124 68 8 122 25 258 291 5140 19 359 106 69 27 71 74 196 414 5397 20 476 138 71 18 4 63 279 206 5149 21 415 148 69 8 47 29 207 80 5151 22 420 136 70 10 8 91 213 429 4989 23 536 111 73 27 128 74 296 273 5927 24 432 152 73 16 -50 16 245 309 4704 25 436 123 73 32 100 43 276 280 5366 26 415 119 75 20 -40 41 211 315 4630 27 462 112 73 15 68 93 283 212 5712 28 429 125 74 11 88 83 218 118 5095 29 517 142 74 27 27 75 307 345 6124 30 328 123 77 20 59 88 211 141 4787 31 418 135 79 35 142 74 270 83 5036 32 515 120 77 23 126 21 328 398 5288 33 412 149 78 36 30 26 258 124 4647 34 455 126 78 22 18 95 233 118 5316 35 554 138 81 20 42 93 324 161 6180 36 441 120 80 16 -22 50 267 405 4801 37 417 120 81 35 148 83 257 111 5512 38 461 132 82 27 -18 91 267 170 5272 39 500 100 83 30 50 90 300 200 .

X1 X2 X3 X4 X5 X6 X7

X8 Y

! !

Page 4: LA RÉGRESSION MULTIPLE

4

Cas Ventes• Variable à expliquer :

Y = Ventes semestrielles (KF)• Variables explicatives :

X1 = Marché total (MF)

X2 = Remises aux grossistes (KF)

X3 = Prix (F)

X4 = Budget de Recherche (KF)

X5 = Investissement (KF)

X6 = Publicité (KF)

X7 = Frais de ventes (KF)

X8 = Total budget publicité de la branche (KF)

Page 5: LA RÉGRESSION MULTIPLE

5

Problème de prévision des ventes

Prévoir les ventes semestrielles (en KF) y du 39e semestre sous le scénario suivant :

Marché total (MF) = 500Remises aux grossistes (KF) = 100Prix (F) = 83Budget de Recherche (KF) = 30Investissement (KF) = 50Publicité (KF) = 90Frais de ventes (KF) = 300Total budget publicité de la branche (KF) = 200

Page 6: LA RÉGRESSION MULTIPLE

6

Cas Ventes : Graphiques des liaisons deux à deux

Page 7: LA RÉGRESSION MULTIPLE

7

Cas Ventes : les corrélations

Correlation Matrix

1.000 -.069 .549 .164 .144 .200 .903 -.020 .721

-.069 1.000 .022 .010 -.093 -.120 -.050 -.146 -.084

.549 .022 1.000 .455 -.058 .255 .625 -.181 .287

.164 .010 .455 1.000 .157 .105 .364 -.128 .084

.144 -.093 -.058 .157 1.000 .241 .216 -.123 .453

.200 -.120 .255 .105 .241 1.000 .134 -.195 .568

.903 -.050 .625 .364 .216 .134 1.000 -.022 .637

-.020 -.146 -.181 -.128 -.123 -.195 -.022 1.000 -.096

.721 -.084 .287 .084 .453 .568 .637 -.096 1.000

Marché total

Remises auxgrossistes

Prix

Budget derecherche

Investissements

Publicité

Frais de ventes

Total publicitéde la branche

Ventes

Marchétotal

Remisesaux

grossistes PrixBudget derecherche

Investissements Publicité

Frais deventes

Totalpublicité

de labranche Ventes

Correlation

Corrélation R significative au risque 5% si |R| > 2/ (= 0.32 pour n = 38)

n

Page 8: LA RÉGRESSION MULTIPLE

8

Cas Ventes : choix de modèles

• Quel est le meilleur modèle à une variable?

• Quel est le meilleur modèle à deux variables?

Page 9: LA RÉGRESSION MULTIPLE

9

1. Les données

• Y

= Variable à expliquer

numérique

(ou dépendante)

• X1, …, Xk

= Variables explicatives

numériques ou binaires

(ou indépendantes)

X1XkY1i

x11

x1i

xk1

xki

y1

yi

nx1nxknyn

Le tableau des données

Page 10: LA RÉGRESSION MULTIPLE

10

2. Le modèle• Chaque valeur observée yi est considérée comme

une réalisation d’une variable aléatoire Yi définie par :

où les xji sont fixes et i est un terme aléatoire de loi N(0,).

• Les i sont indépendants les uns des autres.

ikiki110i xxY

Page 11: LA RÉGRESSION MULTIPLE

11

MT PUB

Ventesyi = 0 + 1*MTi + 2*PUBi + i

x1i x2i

Zone deprobabilitéà 95%

i

yi

i

i

i + 2

i - 2

Un outlier

Page 12: LA RÉGRESSION MULTIPLE

12

3. Les problèmesA) Estimation des coefficients de régression

0, 1,…, k.

B) Estimation de l’écart-type du terme

résiduel i.

C) Analyse des résidus

D) Mesurer la force de la liaison entre Y et les

variables X1,…,Xk : R, R2

E) La liaison globale entre Y et X1,…, Xk

est-elle significative ?

Page 13: LA RÉGRESSION MULTIPLE

13

Les problèmes (suite)

F) L’apport marginal de chaque variable Xj (en plus

des autres) à l’explication de Y est-il significatif ?

G) Sélection automatiques des « bonnes »

variables Xj.

H) Comparaison de modèles

I) Intervalle de prévision à 95% de y.

J) Intervalle de confiance à 95% de E(Y).

Page 14: LA RÉGRESSION MULTIPLE

14

4. Estimation des coefficients de régression j

Notations :

- yi = valeur observée

-

= valeur calculée

= prévision de yi

- ei = yi - = erreur

Méthode des moindres carrés :

On recherche minimisant .

kiki110i xˆxˆˆy

k10ˆ,,ˆ,ˆ

n

1i

2ie

iy

Page 15: LA RÉGRESSION MULTIPLE

15

Résultats SPSSANOVAb

7903373 8 987921.639 15.041 .000a

1904830 29 65683.798

9808203 37

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Total publicité de la branche, Marché total, Remises auxgrossistes, Budget de recherche, Investissements, Publicité, Prix, Frais de ventes

a.

Dependent Variable: Ventesb.

Coefficientsa

3129.231 641.355 4.879 .000 1817.512 4440.950

4.423 1.588 .605 2.785 .009 1.175 7.672

1.676 3.291 .043 .509 .614 -5.055 8.408

-13.526 8.305 -.201 -1.629 .114 -30.512 3.459

-3.410 6.569 -.054 -.519 .608 -16.846 10.026

1.924 .778 .234 2.474 .019 .334 3.515

8.547 1.826 .434 4.679 .000 4.811 12.282

1.497 2.771 .130 .540 .593 -4.169 7.164

-.022 .401 -.005 -.054 .958 -.841 .798

(Constant)

MT

RG

PRIX

BR

INV

PUB

FV

TPUB

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig. Lower Bound Upper Bound

95% Confidence Interval for B

Dependent Variable: VENTESa.

Page 16: LA RÉGRESSION MULTIPLE

16

Résultats SPSS

Casewise Diagnosticsb

.477 5540 5417.73 122.27

.995 5439 5184.05 254.95

-.863 4290 4511.08 -221.08

-.205 5502 5554.49 -52.49

-1.663 4872 5298.16 -426.16

.638 4708 4544.43 163.57

.329 4627 4542.62 84.38

-1.896 4110 4595.95 -485.95

.503 4123 3993.96 129.04

.611 4842 4685.29 156.71

.921 5741 5504.94 236.06

-.173 5094 5138.44 -44.44

-.002 5383 5383.53 -.53

1.511 4888 4500.74 387.26

-.713 4033 4215.69 -182.69

-.859 4942 5162.17 -220.17

-.051 5313 5326.12 -13.12

.024 5140 5133.79 6.21

1.849 5397 4923.16 473.84

-.994 5149 5403.76 -254.76

.984 5151 4898.92 252.08

-1.357 4989 5336.90 -347.90

.016 5927 5922.80 4.20

.197 4704 4653.64 50.36

.903 5366 5134.61 231.39

-.134 4630 4664.31 -34.31

.176 5712 5666.85 45.15

-1.192 5095 5400.51 -305.51

1.630 6124 5706.31 417.69

-.266 4787 4855.09 -68.09

-1.127 5036 5324.75 -288.75

-.409 5288 5392.92 -104.92

-.157 4647 4687.18 -40.18

-.390 5316 5415.89 -99.89

.685 6180 6004.57 175.43

-.466 4801 4920.47 -119.47

.685 5512 5336.53 175.47

-.217 5272 5327.66 -55.66

. . 5593.84 . Ma

Case Number1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

Std. Residual VentesPredicted

Value Residual Status

Missing Casea.

Dependent Variable: Ventesb.

Page 17: LA RÉGRESSION MULTIPLE

17

Graphique SPSSPrévision des ventes

SEMESTRE

39

37

35

33

31

29

27

25

23

21

19

17

15

13

11

9

7

5

3

1

7000

6000

5000

4000

3000

Ventes

Prévision

Page 18: LA RÉGRESSION MULTIPLE

18

Graphique SPSS Régression simple de Ventes sur Prévision

Prévision

70006000500040003000

VE

NT

ES

7000

6000

5000

4000

3000

19

8

La droite des moindres carrés est exactement la première bissectrice.

Page 19: LA RÉGRESSION MULTIPLE

19

5. Estimation de l’écart-type du terme résiduel

Estimation de 2 :

Estimation de :

1kn

n

1i

2i

2

2ˆˆ

Page 20: LA RÉGRESSION MULTIPLE

20

Résultats SPSS

ANOVAb

7903373 8 987921.639 15.041 .000a

1904830 29 65683.798

9808203 37

Regression

Residual

Total

Model1

Sum ofSquares df Mean Square F Sig.

Predictors: (Constant), Total publicité de la branche, Marché total, Remises auxgrossistes, Budget de recherche, Investissements, Publicité, Prix, Frais de ventes

a.

Dependent Variable: Ventesb.

Model Summary

.898a .806 .752 256.29Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Total publicité de la branche,Marché total, Remises aux grossistes, Budget derecherche, Investissements, Publicité, Prix, Frais deventes

a.

Page 21: LA RÉGRESSION MULTIPLE

21

6. Analyse des résidus

Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +

avec N(0, )

0 1.96-1.96

Loi de

95%

Un résidu ei est considérécomme trop important si

i ˆe 2

ou

ie2

ˆ

Résidustandardisé

Page 22: LA RÉGRESSION MULTIPLE

22

2i

2i

2i e)yy()yy(

Somme descarrés totale

Somme descarrés expliquée

Somme descarrés résiduelle

A) Formule de décomposition

7. Coefficient de détermination R2

et corrélation multiple R

2i

2i

)yy(

)yy(B) R2 =

)y,y(cor

R 2

C) R =

Page 23: LA RÉGRESSION MULTIPLE

23

Visualisation de la qualité de la régression multiple

Page 24: LA RÉGRESSION MULTIPLE

24

8. La liaison globale entre Y et X1,…,Xk est-elle significative ?

Modèle : Y = 0 + 1X1 + … + kXk + Test : H0 : 1 = … = k = 0 (Y = 0 + ne dépend pas des X)

H1 : Au moins un j 0 (Y dépend d’au moins un X)

Statistique utilisée :

Décision de rejeter H0 au risque de se tromper :

Rejet de H0 si F F1- (k , n-k-1)

2

2

ˆ( ) / Carré moyen expliqué

/( 1) Carré moyen residueli

i

y y kF

e n k

Fractile d’une loi de Fisher-Snedecor

Page 25: LA RÉGRESSION MULTIPLE

25

Niveau de signification

Loi de F sous H0

F observé

Niveau de signification

On rejette H0 au risque de se tromper si NS

Plus petite valeur de conduisant au rejet de H0

F1-(k,n-k-1)

Page 26: LA RÉGRESSION MULTIPLE

26

9. L’apport marginal de Xj est-il significatif ?

Modèle : Y = 0 + 1X1 + … + jXj + … + kXk +

Test : H0 : j = 0 (On peut supprimer Xj)

H1 : j 0 (Il faut conserver Xj)

Statistique utilisée :

Décision de rejeter H0 au risque de se tromper :

Rejet de H0 si | tj | t1-/2 (n-k-1)

j

jj s

ˆt

Fractile d’une loi de Student

2

j j 2 2j ji j

i

ˆ1ˆoù s écart-type( )1 R (X ;autres X) (x x )

VarianceInflationFactor

Page 27: LA RÉGRESSION MULTIPLE

27

Indiquer les variables significatives du modèle ( = 0.05)

Coefficientsa

3129.231 641.355 4.879 .000

4.423 1.588 2.785 .009

1.676 3.291 .509 .614

-13.526 8.305 -1.629 .114

-3.410 6.569 -.519 .608

1.924 .778 2.474 .019

8.547 1.826 4.679 .000

1.497 2.771 .540 .593

-.022 .401 -.054 .958

(Constant)

MT

RG

PRIX

BR

INV

PUB

FV

TPUB

Model1

B Std. Error

UnstandardizedCoefficients

t Sig.

Dependent Variable: VENTESa.

Page 28: LA RÉGRESSION MULTIPLE

28

Niveau de signification

On rejette « H0 : j = 0 » au risque de se tromper si NS

0 |tj|-|tj|

Loi de tj sous H0

NS/2NS/2

Plus petite valeur de conduisant au rejet de H0

t1-/2(n-k-1)

/2

Page 29: LA RÉGRESSION MULTIPLE

29

Mesure de la multi-colinéarité :Tolérance et VIF

• Tolérance (Xj) = 1 - R2(Xj ; Autres X)

Il est préférable d’observer une tolérance supérieure à 0.33.

• VIF = Variance Inflation Factor

= 1 / Tolérance• Il est préférable d’observer un VIF

inférieur à 3.

Page 30: LA RÉGRESSION MULTIPLE

30

Mesure de la multi-colinéarité :Tolérance et VIF

Coefficientsa

3129.231 641.355 4.879 .000

4.423 1.588 .605 2.785 .009 .142 7.051

1.676 3.291 .043 .509 .614 .946 1.057

-13.526 8.305 -.201 -1.629 .114 .439 2.276

-3.410 6.569 -.054 -.519 .608 .630 1.587

1.924 .778 .234 2.474 .019 .752 1.330

8.547 1.826 .434 4.679 .000 .778 1.285

1.497 2.771 .130 .540 .593 .116 8.621

-2.15E-02 .401 -.005 -.054 .958 .882 1.133

(Constant)

MT

RG

PRIX

BR

INV

PUB

FV

TPUB

Model1

B Std. Error

UnstandardizedCoefficients

Beta

StandardizedCoefficients

t Sig. Tolerance VIF

Collinearity Statistics

Dependent Variable: VENTESa.

Page 31: LA RÉGRESSION MULTIPLE

31

La multi-colinéarité S(X1,…,Xk) est la somme des carrés expliquée par les

variables X1,…,Xk.

1) F partiel

2) On obtient un |tj| petit si :

- |cor(Y,Xj)| est petite (ex : RG)

ou bien

- R2(Xj ; Autres variables X) est grande (ex : FV).

2complet modèle

k1j1j1k12j

2j2

jj ˆ

)X,,X,X,,X(S)X,,X(S

s

ˆtF

Page 32: LA RÉGRESSION MULTIPLE

32

10. Sélection des variables

Régression pas à pas descendante (Backward)

On part du modèle complet.

A chaque étape on enlève la variable Xj ayant

l’apport marginal le plus faible :

|tj| minimum ou NS(tj) maximum

à condition que cet apport soit non significatif

(NS(tj) 0.1 = valeur par défaut de SPSS).

Page 33: LA RÉGRESSION MULTIPLE

33

Cas VentesRégression pas à pas descendante

• Compléter le tableau suivant :

• Prévoir les ventes du 39e semestre et donner un intervalle de prévision à 95% de ces ventes à l’aide du modèle obtenu.

Nombre devariables

explicatives

Coefficient dedétermination

R2Ecart-type

résiduel

Variable la moins significative

avec NS 0.1

Modèlesatisfaisant

8

Page 34: LA RÉGRESSION MULTIPLE

34

Etape 1

Variable enlevée : Total publicité de la branche

Coefficientsa

3129.231 641.355 4.879 .000

4.423 1.588 2.785 .009

1.676 3.291 .509 .614

-13.526 8.305 -1.629 .114

-3.410 6.569 -.519 .608

1.924 .778 2.474 .019

8.547 1.826 4.679 .000

1.497 2.771 .540 .593

-2.15E-02 .401 -.054 .958

(Constant)

MT

RG

PRIX

BR

INV

PUB

FV

TPUB

Model1

B Std. Error

UnstandardizedCoefficients

t Sig.

Dependent Variable: VENTESa.

Model Summary

.898a .806 .752 256.29Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Total publicité de la branche,Marché total, Remises aux grossistes, Budget derecherche, Investissements, Publicité, Prix, Frais deventes

a.

Page 35: LA RÉGRESSION MULTIPLE

35

Etape 2

Variable enlevée : Budget de recherche

Model Summaryb

.898a .806 .760 251.99Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Frais de ventes, Remises auxgrossistes, Publicité, Investissements, Budget derecherche, Prix, Marché total

a.

Dependent Variable: Ventesb.

Coefficientsa

3115.648 579.517 5.376 .000

4.426 1.561 2.836 .008

1.706 3.191 .535 .597

-13.445 8.029 -1.675 .104

-3.392 6.451 -.526 .603

1.931 .756 2.554 .016

8.558 1.784 4.798 .000

1.482 2.710 .547 .588

(Constant)

MT

RG

PRIX

BR

INV

PUB

FV

Model1

B Std. Error

UnstandardizedCoefficients

t Sig.

Dependent Variable: VENTESa.

Page 36: LA RÉGRESSION MULTIPLE

36

Etape 3

Variable enlevée : Frais de ventes

Model Summaryb

.897a .804 .766 249.04Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Frais de ventes, Remises auxgrossistes, Publicité, Investissements, Prix, Marchétotal

a.

Dependent Variable: Ventesb.

Coefficientsa

3137.547 571.233 5.493 .000

4.756 1.412 3.368 .002

1.705 3.153 .541 .593

-14.790 7.521 -1.966 .058

1.885 .742 2.539 .016

8.519 1.761 4.837 .000

.950 2.484 .382 .705

(Constant)

MT

RG

PRIX

INV

PUB

FV

Model1

B Std. Error

UnstandardizedCoefficients

t Sig.

Dependent Variable: VENTESa.

Page 37: LA RÉGRESSION MULTIPLE

37

Etape 4

Variable enlevée : Remises aux grossistes

Model Summaryb

.896a .803 .772 245.69Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Publicité, Remises auxgrossistes, Marché total, Investissements, Prix

a.

Dependent Variable: Ventesb.

Coefficientsa

3084.009 546.374 5.645 .000

5.222 .704 7.415 .000

1.700 3.111 .546 .589

-13.467 6.589 -2.044 .049

1.984 .686 2.893 .007

8.328 1.666 4.998 .000

(Constant)

MT

RG

PRIX

INV

PUB

Model1

B Std. Error

UnstandardizedCoefficients

t Sig.

Dependent Variable: VENTESa.

Page 38: LA RÉGRESSION MULTIPLE

38

Etape 5

Toutes les variable sont significatives au seuil .10

Model Summaryb

.895a .801 .777 243.07Model1

R R SquareAdjustedR Square

Std. Error ofthe Estimate

Predictors: (Constant), Publicité, Marché total,Investissements, Prix

a.

Dependent Variable: Ventesb.

Coefficientsa

3302.036 369.212 8.943 .000

5.192 .695 7.475 .000

-13.172 6.497 -2.027 .051

1.968 .678 2.903 .007

8.229 1.639 5.021 .000

(Constant)

MT

PRIX

INV

PUB

Model1

B Std. Error

UnstandardizedCoefficients

t Sig.

Dependent Variable: VENTESa.

Page 39: LA RÉGRESSION MULTIPLE

39

Analyse des résidusdu modèle simplifié

Casewise Diagnosticsb

.729 5540 5362.82 177.18

.956 5439 5206.56 232.44

-1.018 4290 4537.47 -247.47

-.365 5502 5590.64 -88.64

-1.678 4872 5279.78 -407.78

.739 4708 4528.26 179.74

.414 4627 4526.34 100.66

-2.325 4110 4675.01 -565.01

.524 4123 3995.55 127.45

.861 4842 4632.66 209.34

.890 5741 5524.61 216.39

-.210 5094 5144.98 -50.98

-.032 5383 5390.75 -7.75

1.560 4888 4508.78 379.22

-.717 4033 4207.19 -174.19

-.773 4942 5129.93 -187.93

.065 5313 5297.31 15.69

.164 5140 5100.20 39.80

1.610 5397 5005.73 391.27

-.887 5149 5364.48 -215.48

1.119 5151 4878.93 272.07

-1.383 4989 5325.20 -336.20

-.235 5927 5984.15 -57.15

.359 4704 4616.66 87.34

.869 5366 5154.76 211.24

-.401 4630 4727.47 -97.47

.303 5712 5638.26 73.74

-1.299 5095 5410.81 -315.81

1.819 6124 5681.84 442.16

-.181 4787 4831.01 -44.01

-1.169 5036 5320.03 -284.03

-.388 5288 5382.34 -94.34

-.163 4647 4686.67 -39.67

-.568 5316 5454.14 -138.14

.908 6180 5959.38 220.62

-.432 4801 4906.08 -105.08

.566 5512 5374.36 137.64

-.234 5272 5328.85 -56.85

. . 5643.73 . Ma

Case Number1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

Std. Residual VENTESPredicted

Value Residual Status

Missing Casea.

Dependent Variable: VENTESb.

Page 40: LA RÉGRESSION MULTIPLE

40

11. Comparaison de modèles

Modèle complet

0 1 2 3 4

5 6 7 8

Y MT RG Pr ix BR

INV PUB FV TPUB

Modèle simplifié

0 1 3 5 6Y MT Pr ix INV PUB

Page 41: LA RÉGRESSION MULTIPLE

41

Test sur le modèle complet

Modèle complet 0 1 2 3 4

5 6 7 8

Y MT RG Pr ix BR

INV PUB FV TPUB

Test :

Statistiqueutilisée :

H0 : 2 = 4 = 7 = 8 = 0

H1 : Au moins un de ces j 0

2 21 2

21

R (Modèle complet) - R (Modèle simplifié) /(k k )F

1 R (Modèle complet) /(n k 1)

où : k1 = Nb de variables du modèle completk2 = Nb de variables du modèle simplifié

Décision : On rejette H0 au risque de se tromper si :

F F1- [k1-k2, n-k1-1]

Page 42: LA RÉGRESSION MULTIPLE

42

12. Intervalle de prévision de yi

Modèle : Yi = 0 + 1x1i + … + kxki + i

yi = future valeur de Yi

i

kiki110i

yde prévision

xˆxˆˆy

Intervalle de prévision de yi au niveau 0.95

ˆ2yiFormule simplifiée :

Outlier

Une observation i est mal reconstituée par le modèlesi yi n’appartient pas à son propre intervalle de prévision.

Page 43: LA RÉGRESSION MULTIPLE

43

5540 5362.82 4825.70 5899.93

5439 5206.56 4669.92 5743.20

4290 4537.47 4006.12 5068.83

5502 5590.64 5040.60 6140.67

4872 5279.78 4754.74 5804.83

4708 4528.26 4006.77 5049.76

4627 4526.34 4002.33 5050.34

4110 4675.01 4141.94 5208.07

4123 3995.55 3457.09 4534.01

4842 4632.66 4105.49 5159.84

5741 5524.61 5002.01 6047.22

5094 5144.98 4630.96 5659.00

5383 5390.75 4864.49 5917.01

4888 4508.78 3995.53 5022.02

4033 4207.19 3680.87 4733.52

4942 5129.93 4617.44 5642.41

5313 5297.31 4788.64 5805.97

5140 5100.20 4573.84 5626.57

5397 5005.73 4497.49 5513.97

5149 5364.48 4848.23 5880.73

5151 4878.93 4368.28 5389.58

4989 5325.20 4805.30 5845.11

5927 5984.15 5454.76 6513.55

4704 4616.66 4081.25 5152.08

5366 5154.76 4642.24 5667.29

4630 4727.47 4206.29 5248.65

5712 5638.26 5123.96 6152.56

5095 5410.81 4902.30 5919.33

6124 5681.84 5158.52 6205.16

4787 4831.01 4290.88 5371.14

5036 5320.03 4789.04 5851.02

5288 5382.34 4830.58 5934.11

4647 4686.67 4158.39 5214.94

5316 5454.14 4931.40 5976.87

6180 5959.38 5421.50 6497.26

4801 4906.08 4382.03 5430.13

5512 5374.36 4833.82 5914.91

5272 5328.85 4793.84 5863.86

. 5643.73 5116.90 6170.55

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

VENTES Prévision de yINF95%pour y

SUP95%pour y

RésultatsSPSS pourle modèlesimplifié

Page 44: LA RÉGRESSION MULTIPLE

44

Graphique SPSS

Semestre

39

37

35

33

31

29

27

25

23

21

19

17

15

13

11

9

7

5

3

1

7000

6000

5000

4000

3000

VENTES

Prévision

Inf 95%

Sup 95%

8

Page 45: LA RÉGRESSION MULTIPLE

45

Graphique SPSS Intervalles de prévision de y à 95%

Prédiction

70006000500040003000

VE

NT

ES7000

6000

5000

4000

3000

8

Page 46: LA RÉGRESSION MULTIPLE

46Prédiction

70006000500040003000

VE

NT

ES7000

6000

5000

4000

3000

8

Page 47: LA RÉGRESSION MULTIPLE

47

13. Intervalle de confiance de E(Y)

Modèle : Yi = 0 + 1x1i + … + kxki + i

i 0 1 1i k ki

i

ˆ ˆ ˆy x x

= estimation de E(Y )

Intervalle de confiance de E(Yi) au niveau 0.95

i

ˆy 2

n

Formule simplifiée :

Page 48: LA RÉGRESSION MULTIPLE

48

RésultatsSPSS pourle modèlesimplifié

5540 5362.82 5153.19 5572.44

5439 5206.56 4998.16 5414.96

4290 4537.47 4343.08 4731.86

5502 5590.64 5349.83 5831.44

4872 5279.78 5103.37 5456.20

4708 4528.26 4362.72 4693.81

4627 4526.34 4353.05 4699.63

4110 4675.01 4475.99 4874.02

4123 3995.55 3782.50 4208.60

4842 4632.66 4450.00 4815.33

5741 5524.61 5355.60 5693.63

5094 5144.98 5004.75 5285.21

5383 5390.75 5210.75 5570.74

4888 4508.78 4371.41 4646.14

4033 4207.19 4027.00 4387.39

4942 5129.93 4995.42 5264.43

5313 5297.31 5178.17 5416.44

5140 5100.20 4919.90 5280.51

5397 5005.73 4888.42 5123.04

5149 5364.48 5216.27 5512.70

5151 4878.93 4751.60 5006.25

4989 5325.20 5164.73 5485.68

5927 5984.15 5795.19 6173.11

4704 4616.66 4411.44 4821.89

5366 5154.76 5020.11 5289.42

4630 4727.47 4562.92 4892.02

5712 5638.26 5497.01 5779.51

5095 5410.81 5292.35 5529.28

6124 5681.84 5510.61 5853.06

4787 4831.01 4613.78 5048.23

5036 5320.03 5126.65 5513.41

5288 5382.34 5137.60 5627.08

4647 4686.67 4500.86 4872.48

5316 5454.14 5284.71 5623.56

6180 5959.38 5747.79 6170.96

4801 4906.08 4732.66 5079.50

5512 5374.36 5156.10 5592.63

5272 5328.85 5124.67 5533.03

. 5643.73 5462.08 5825.37

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

VENTESEstimation de

E(Y)INF95%

pour E(Y)SUP95%pour E(Y)

Page 49: LA RÉGRESSION MULTIPLE

49

Graphique SPSS Intervalle de confiance de E(Y) à 95%

Unstandardized Predicted Value

70006000500040003000

VE

NT

ES

7000

6000

5000

4000

3000