Régression linéaire simple -...

Preview:

Citation preview

Régression linéaire simple et calibration

1- Régression linéaire et MMC

2- Intervalles de confiance et tests dans le cas normal

3- intervalle de prédiction

4- Étude des résidus

5- Exemple numérique (à la main et sur SAS)

6- Cas particulier de la calibration

7- Compléments en annexe

1

Deux approches: Corrélation ou

Régression

2

Régression: La connaissance de la valeur prise par X permet-elle de

prédire la valeur prise par Y ?

3

4

5

Fonction à minimiser!

6

apprenez--la sous cette

forme!

Important: les estimateurs sont

des v.a 7

Remarque uniquement pour les

curieux

8

La variation totale se décompose de la manière suivante

avec:

9

Autrement dit, en rajoutant les coefficients nécessaires

Variance totale= variance expliquée par la régression linéaire + variance résiduelle

Coefficient de détermination

10

Propriété importante: Le carré du coefficient de corrélation est égal au coefficient de détermination

11

Revenons au modèle linéaire: Jusqu’à maintenant nous n’avons pas fait de statistique puisque nous n’avons pas introduit

de variable aléatoire

Supposons que l’erreur ε suivant une loi normale N(0, σ²) et testons que X explique significativement Y H0: régression non significative (ou pente=0 ou coefficient de

corrélation théorique=0)

On reprend la décomposition en sommes de carrés

12

Si la somme des carrés due à la régression est « beaucoup plus grande » que

la somme des carrés résiduelle, alors la régression est significative

13

14

/* Exemple: Dans une expérience chimique liée à la transition de phase du bismuth,

on a relevé la pression en différentes températures. *

data bismuth;

input Temperature pression; cards; 208 25366

209 25356

210 25356

219 25256

221 25267

221 25306

224 25237

225 25267

248 25138

248 25148

250 25143

340 24731

340 24751

341 24771

427 24424

427 24444

427 24419

499 24117

501 24102

501 24092

225 25202

231 25157

230 25157

;

proc reg data=bismuth;

model pression= temperature;

run;

15

16

Annexe pour les curieux: Pour déterminer la valeur critique lors de la comparaison des sommes de carrés, il faut

connaître les lois suivies par ces sommes de carrés si l’erreur ε est une loi normale de moyenne 0 et d’écart-type σ?

17

Note: Ceci est le test de Fisher pour démontrer qu’une régression est

significative.

On verra que dans le cas d’une régression simple à une variable explicative, il

est équivalent au tes de la nullité de la pente avec un test de Student. 18

Variances de la pente et de

l’ordonnée à l’origine

et donc

Intervalles de confiance des

paramètres

19

Inférence sur les estimateurs des paramètres Propriété: a est une estimation sans biais du paramètre α b est une estimation sans biais du paramètre β Note: a est une réalisation de la v.a A b est une réalisation de la v.a B

Qualité des estimateurs

20

Important: variances des estimateurs de la pente et de l’ordonnée à l’origine

Note: Comme on ne connait pas σ² on l’estime par l’estimateur sans biais suivant

21

Propriétés des écarts résiduels:

Calcul de la variance des écarts résiduels

Pour les curieux!

22

Q: Qu’arrive-t-il si l’erreur ε suit une loi normale? Dans ce cas: R: les v.a A , B et Y* sont des v.a normales

Écart-type!

Note: 23

Loi de l’estimateur de la variance des résidus

Servira lors des test de régression

Pour les curieux: On démontre « facilement » que:

24

Comment construire des I.C pour les estimateurs des paramètres?

N’ayez pas peur de ces formules; en général, SAS se chargera de les

calculer pour vous 25

26

Exemple du bismuth:

proc reg data=bismuth ;

model pression= temperature;

run;

27

/* Demandons les IC des paramètres ordonnée

à l'origine et pente */

proc reg data=bismuth outest = Sortie Tableout;

/* on stocke les IC et d'autres valeurs

dans la table Sortie avec l'instruction

Tableout*/

model pression= temperature;

run;

proc print data=Sortie; /* On lit les IC */

run;

28

Ce tableau fournit les IC de:

L’ordonnée à l’origine: (26130.97; 26220.46)

La pente: (-4.2753 ; -3.9962)

Étude d’une valeur prévisionnelle

Important: x0 est une nouvelle valeur de X n’appartenant aux valeurs de X ayant servi à calculer la droite de régression. D’autre part, nous ne connaissons pas Yo , mais uniquement Yo* Essayons donc de trouver un intervalle « prévisionnel » pour Yo

en nous servant de son estimation Yo* 29

La variable Y définie par:

suit pour x=x0 suit la loi normale

La loi de Y* est

Pour le nouvel x0, il suffit de remplacer x par x0 dans la formule précédente

30

Sachant que:

31

32

Attention: ne pas confondre :

L’intervalle de confiance de la moyenne des prédictions pour

un X0 donné

et

l’intervalle de prévision d’une prédiction individuelle pour un

X0 donné.

Propriété: Le second IC est toujours plus grand que le

premier

Remarque: La moyenne des prédictions pour un X0 donné

est un paramètre fixe (l’IC est est intervalle de confiance),

La prédiction individuelle pour un X0 donné est une variable

aléatoire (l’intervalle est un intervalle de pari)

33

Comment demander sous SAS la valeur prévisionnelle de la pression et

ses IC pour une température donnée xo= 310.

Exemple du Bismuth:

data bismuthBis; /* la valeur 310 est une nouvelle température dont on

ignore la pression correspondante */

input Temperature pression;

cards; 208 25366

209 25356

210 25356

219 25256

221 25267

221 25306

224 25237

225 25267

248 25138

248 25148

250 25143

340 24731

340 24751

341 24771

427 24424

427 24444

427 24419

499 24117

501 24102

501 24092

225 25202

231 25157

230 25157

310 .

;

34

proc reg data=bismuthBis ;

model pression= temperature;

output out=SortieBis

p=pression_predite r=residu

LCL= B_inf_ind UCL=B_sup_ind

LCLM=B_inf_moy UCLM=B_sup_moy ;

run;

title;

proc print data=SortieBis;

/* On lit les IC des prédictions individuelles et des prédictions des moyennes */

var temperature pression B_inf_ind pression_predite B_sup_ind

B_inf_moy B_sup_moy ;

run;

35

36

37

Le modèle est-il bon?

Inspection graphique

Quand on a la formule de régression, encore faut-il qu’elle

représente bien les données!

Inspections graphiques des hypothèses de la régression…

38

L’inspection des résidus est capitale!

39

40

41

Quels graphes supplémentaires faire

avec les résidus ?

1) Tracé des résidus contre chaque prédicteur

2) Tracé des résidus contre la réponse estimée

42

43

Détection des valeurs « atypiques »

1) Par le calcul de l’intervalle de prévision (ou de prédiction)

2) Par l’inspection graphique si un résidu se « détache » des autres

44

Exemple : le nombre d’accident et le nombre d’immatriculations sont divisés par 1000

45

46

47

48

49

50

51

52

Programme SAS

data voitures;

input x y;

cards;

150 84

160 75

210 90

215 100

230 104

250 112

260 130

300 140

320 120

340 150

400 160

420 170

;

53

proc gplot data=voitures;

plot y*x;

symbol1 v=dot i=RL c=red;

run; quit;

title 'Regression de Y sur X';

proc reg data=voitures;

model y=x;

output out=fichierSortie1 P=Yetoile R=Residu;

run;

title 'Residus contre x';

proc gplot data=fichierSortie1;

plot Residu*x;

symbol1 v=dot i=none;

run; quit; 54

Graphe de y contre x

55

Fisher

Test de Student sur la pente 56

Graphe des résidus contre x : PAS DE TENDANCE!

57

Prédiction pour une nouvelle valeur x=500 On indique à SAS la valeur manquante par un point .

data voitures;

input x y;

cards;

150 84

160 75

210 90

215 100

230 104

250 112

260 130

300 140

320 120

340 150

400 160

420 170

500 .

;

58

proc reg data=voitures ;

model y=x;

output out=fichierSortie2 P=Yetoile

L95=BInfI U95=BSupI ;

run;

proc print data=fichierSortie2;

var x y BInfI Yetoile BSupI;

run;

59

Lire la valeur correspondant au nouveau x=500

60

Intervalles de prédiction pour les valeurs individuelles

61

Cas particulier de la calibration

Une courbe de calibration est une équation empirique liant la

réponse d’un instrument spécifique à la concentration, par

exemple, d’un produit chimique dans une solution.

Nous nous contenterons ici d’une réponse linéaire y = a+bx

Dans le cas de Beer-Lambert, l’équation se réduit (en

théorie) à y= bx.

Données: N couples (Xi , Yi)

Les calculs peuvent être faits avec Excel .

62

63

Rappelons les formules de la Pente, de l’ordonnée à l’origine et du coefficient de

corrélation…

64

Exemple de données de calibration

65

Écart-type des résidus

Écart-type de la pente

Écart-type de l’ordonnée à l’origine

Calculons les IC à 99% avec tn-2 = 2.58

66

67

Précision de la prédiction de la prédiction

d’une concentration à partir de la courbe

de calibration

D’où calcul de l’écart-type

1)Une seule valeur Yo, sans réplication:

Ex: Yo = 2.9 d’où Xo = 0.72

avec la droite Y= 1.930 X + 1.518

Sy/x = 0.4329 d’où Sxo= 0.26

D’où l’IC à 95% est:

C= XO ± t* 0.26

avec t=2,57 le quantile d’un Student de n-2 ddl 68

2) m réplications YO pour le même XO

La prédiction X0 est la moyenne des prédictions avec les

YO

L’écart-type en XO est:

69

70

Détermination des limites de

détection et de quantification

71

On cherche à doser une certaine substance.

Soit le test H0: il n’y as pas de substance dans la solution

H1: la quantité de substance n’est pas nulle

LoD: La limite de détection LoD est la plus petite concentration que l'on

peut distinguer du blanc avec un risque alpha de 1ère espèce de garder

des échantillons ne contenant rien.

C'est-à-dire la valeur à partir de laquelle un test statistique de comparaison de

la réponse à la valeur 0 devient significatif avec un risque d'erreur alpha

LoQ: correspond à la plus petite valeur de la concentration pour laquelle

rejeter à tort H1 (la quantité d’analyte n’est pas nulle) au risque béta de

seconde espèce.

En gros: La limite de détection est la plus petite quantité du composé à

doser pouvant être détectée mais non nécessairement quantifiée comme

exacte.

La limite de quantification est la plus petite quantité du composé

pouvant être dosé par la méthode.

72

73

Réponse analytique

74

Méthode 1:

Lecture directe de n mesures (réponse ou grandeur de l'analyte) de blancs

d'analyse indépendants sur des échantillons contenant l'ensemble des

constituants, à l'exception de la substance à rechercher.

LD = mblanc + 3 Sblanc,

LQ = mblanc + 10 Sblanc

où mblanc et Sblanc la moyenne et l'écart-type sur les n mesures de

blancs.

Note : Le facteur multiplicatif 3 correspond à un risque de 0,13 % de

conclure à la présence de la substance recherchée alors qu'elle est

absente.

75

76

Méthode 2 :

Utilisation de la droite d'étalonnage : Y = a + b X

YLD = a + 3 Sa d’où XLD = 3 Sa / b

YLQ = a + 10 Sa d’où XLD = 10 Sa / b

avec Sa l'écart-type sur l'ordonnée à l'origine de la droite

de régression

77

Exemple: Estimation des limites de détection et de quantification du dosage

de l’acide sorbique par électrophorèse capillaire, à partir de données de

linéarité acquises sur une gamme de 1 à 20 mg.L-1.

78

Exemple, placé en post-scriptum, sur

l’utilité de toujours commencer par un

graphe

Attention de nouveau: commencer d’abord par des graphes!

Pour enfoncer le clou avec un exemple célèbre d’Anscombe: 4 ensembles de

données (X,Y).

Calculons les droites de régression pour chaque couple (Y,Y) et comparons-les

79

Les relations entre les couples (X,Y) sont très dissemblables. Ne jamais se

contenter seulement des résumés numériques!

80

Annexe: Les développements

suivants sont réservé uniquement à

ceux terrassés par une passion

soudaine pour les statistiques et pour

SAS…

81

Reprenons les développements théoriques du début du cours et

illustrons-les par des simulations.

82

83

84

85

86

Et si nous refaisions de nouvelles mesures, qu’obtiendrions-nous?

Et si nous nous aidions de simulations?

87

Résultat de 400 simulations des estimations des

paramètres ordonnée à l’origine et pente

88

89

La méthode des moindres carrés: dans le cas normal, les estimateurs des

paramètres par la MMC sont efficaces (de variance minimum parmi tous les

estimateurs possibles)

1er

2ème

90

data chromato;

input ETHANOL SURFACE ;

cards;

0.2 2.88

0.2 1.72

0.6 4.70

0.6 5.28

1 10.92

1 7.70

1.4 12.35

1.4 11.40

1.8 13.47

1.8 12.52

;

proc print data=chromato;

run;

proc gplot data=chromato;

plot surface*ethanol;

symbol1 v=dot i=rl color=green;

run;

proc reg data=chromato;

model surface=ethanol;

run;

Programme SAS pour l’exemple sur l’éthanol et la chromato

91

92

93

Recommended