3
TECHNIQUES AU QUOTIDIEN Corr@lation et r@gression : int@r@t dans l'@valuation des m@thodes de dosage J.F. Morin* - J.P. Godet* - F. Galland** * Service de M@decine Nucl@aire et de Biophysique [Pr P.P. Morin] - CHU A - Morvan 29200 Brest * * Service de M@decine Nucl@aire et de Biophysique [Pr P. Jallet] - CHU - 49033 Angers cedex Introduction Dans de tres nombreux travaux relatifs ~] I'evaluation de m~thodes de dosage il est fait simultan~ment LIsage de ia correlation et de ta r6gression. Beaucoup d'auteurs illustrent leurs donn6es par un diagramme de dispersion et y ajoutent une droite de r6gression ainsi qu'un coeffi- cient de corr@tation r, La droite n'est que rarement exptoi- t@e ; ie coefficient de corrGlation, par contre, semble jouer un r61e d~terminant : une valeur proche de 4, accompagn@e d'un laconique p < 0,0 .... paraTt suffire pour affirmer la concordance des m~thodes compa- r@es, Cette utitisation conjointe de la correlation et de la r@gression peut surprendre car ces concepts statistiques reposent sur des hyposth~ses diff@rentes et visent des objectifs distincts. IIs ant cependant quelques points communs, ne serait-ce que des proc~d~s de calcul et peut-@tre est-ce IQ I'origine de la confusion fr@quente entre ces deux notions. Le but de ce rapport est de rappeler, aussi simplement que possible, ce que sont corr@lation et r@gression et de discuter de leur int@r~t dans I'~valuation des m@thodes de dosage. Par souci de simplicit~ aucune formule n'est ici propos@e, nous renvoyons le lecteur int@ress@ aux ouvrages sp@cialis~s.., et ~ sa machine Q calculer. Corr@lation et r@gression : Principes, objectifs et points communs Corr61ation La notion de correlation g~n6ralise en quelque sorte celle de liaison fonctionnelle. Imaginons pour le com- prendre une population ~< d'individus >> sur lesquels sont mesur@s deux caract@res X et Y. II peut se faire que X et Y soient rigidement li~s, c'est-Q- dire que la connaissance des valeurs de l'un d~termine les valeurs de I'autre comme ce serait le cas pour une population de carr6s oQ la connaissance de la Iongueur du c6t6 implique celle de I'aire du carr& II y a !~ une relation fonctionnelte Y = f(X), stricte, entre ies deux caract~res X et Y. Par contre, connaTtre la tailte d'un sujet n'implique nul- lement la connaissance exacte de son poids. Si I'on choi- sit des individus de m6me taille, les poids observ6s se disperseront autour d'une valeur moyenne, On salt cependant qu'entre ces deux caract~res existe une liai- son qui fait que, en moyenne, les individus plus grands p~sent plus Iourd. Lorsqu'une telle tendance se mani- feste, on dit que les caract@res sont corr@16s ou encore qu'il existe entre eux une liaison stochastique, Bien entendu, les deux caract@res peuvent n'avoir aucun lien entre eux comme cela serait, semble-t-il, entre l'~ge d'un capitaine et la direction du vent. Darts ce cas, les caract~res sont dits ind6pendants. Toutes les nuances peuvent exister entre.liaison fonction- nelie et ind6pendance totale. Mais comment mesurer I'intensit~ de cette liaison ? On d6montre en statistique math6matique que deux caract~res al~atoires ind6pendants X et Y ant une cova- riance nulle ; une valeur non nulle signe une liaison entre eux ; comme la valeur de la covariance d@pend, non seulement de I'intensit6 de la liaison, mais aussi des uni- t@s employ6es pour exprimer X et Y, on d6finit un indice, ind~pendant de ces unit@s, en divisant la covariance par le produit des @cart-types de X et Y. Cet indice, not6 p, porte le nom de coefficient de cor- r@lation lin@aire de BRAVAIS et PEARSON ; il prend ses valeurs dans I'intervalle [- I, + 4] ; il a pour valeur 0 Iors- que les variables sont ind6pendantes ; torsqu'elles sont lin~airement ti~es, c'est-(~-dire Iorsque Y = ~ X + /5, il a pour valeur - I ou + I selon que ~ est n@gatif ou positif. L'ind@pendance des caract@res implique p = O, mais ta r6ciproque n'est pas vraie, sauf si X et Y sont des varia- bles gaussiennes. De plus, en I'absence de tout rensei- gnement sur X et Y, la valeur de pest insuffisante pour juger de la Iin6arit6 de la liaison, mis ~ part les cas limi- tes p= + I. I1 est rare qu'une population soit ~tudi6e dans sa fota- lit~ ; on ne la connaft g~n~ralement que par echantil- Ion interpos6, et donc avec un certain flou cr66 par les fluctuations statistiques. Cef ~chantillon permet le cal- cul du coefficient empirique de correlation lin6aire r, esti- mation de p. Mais, du fair des fluctuations d'6chan- Trait d'Union n ° 7 - page 37

Corrélation et régression : intérêt dans l'évaluation des méthodes de dosage

Embed Size (px)

Citation preview

TECHNIQUES AU QUOTIDIEN

Corr@lation et r@gression : int@r@t dans l'@valuation des m@thodes de dosage

J.F. M o r i n * - J .P. G o d e t * - F. G a l l a n d * *

* Serv ice d e M @ d e c i n e Nucl@aire et d e Biophysique [Pr P.P. Morin] - CHU A - M o r v a n 29200 Brest * * Serv ice d e M @ d e c i n e Nucl@aire et d e Biophysique [Pr P. Jallet] - CHU - 49033 Angers c e d e x

Introduct ion

Dans de tres nombreux travaux relatifs ~] I 'evaluation de m~thodes de dosage il est fait simultan~ment LIsage de ia correlat ion et de ta r6gression. Beaucoup d'auteurs illustrent leurs donn6es par un d iag ramme de dispersion et y a joutent une droi te de r6gression ainsi qu'un coeffi- cient de corr@tation r, La droite n'est que rarement exptoi- t@e ; ie coeff ic ient de corrGlation, par contre, semble jouer un r61e d~terminant : une valeur proche de 4, accompagn@e d'un lacon ique p < 0,0 .... paraTt suffire pour affirmer la conco rdance des m~thodes compa- r@es,

Cette utitisation conjointe de la correlat ion et de la r@gression peut surprendre car ces concepts statistiques reposent sur des hyposth~ses diff@rentes et visent des objectifs distincts. IIs ant c e p e n d a n t quelques points communs, ne serait-ce que des proc~d~s de calcul et peut-@tre est-ce IQ I 'origine de la confusion fr@quente entre ces deux notions.

Le but de ce rappor t est de rappeler , aussi s implement que possible, ce que sont corr@lation et r@gression et de discuter de leur int@r~t dans I '~valuat ion des m@thodes de dosage. Par souci de simplicit~ aucune formule n'est ici propos@e, nous renvoyons le lecteur int@ress@ aux ouvrages sp@cialis~s.., et ~ sa mach ine Q calculer.

Corr@lation et r@gression : Principes, object i fs et points c o m m u n s

Corr61ation

La notion de correlat ion g~n6ral ise en que lque sorte cel le de liaison fonct ionnel le. Imaginons pour le com- prendre une popu la t ion ~< d' individus >> sur lesquels sont mesur@s deux caract@res X et Y.

II peut se faire que X et Y soient r ig idement li~s, c'est-Q- dire que la connaissance des valeurs d e l'un d~termine les valeurs de I 'autre c o m m e ce serait le cas pour une populat ion de carr6s oQ la connaissance de la Iongueur du c6t6 impl ique cel le de I'aire du car r& II y a !~ une

relation fonct ionnelte Y = f(X), stricte, entre ies deux caract~res X et Y.

Par contre, connaTtre la tai l te d 'un sujet n ' impl ique nul- lement la connaissance exacte de son poids. Si I'on choi- sit des individus d e m6me tail le, les poids observ6s se disperseront autour d 'une valeur moyenne, On salt cependant qu'entre ces deux caract~res existe une liai- son qui fait que, en moyenne, les individus plus grands p~sent plus Iourd. Lorsqu'une tel le t endance se mani- feste, on dit que les caract@res sont corr@16s ou encore qu'il existe entre eux une liaison stochastique,

Bien entendu, les deux caract@res peuvent n'avoir aucun lien entre eux comme cela serait, semble-t-il, entre l '~ge d'un cap i ta ine et la direct ion du vent. Darts ce cas, les caract~res sont dits ind6pendants.

Toutes les nuances peuvent exister entre.liaison fonction- nelie et i nd6pendance totale. Mais comment mesurer I'intensit~ de cette liaison ?

On d6mont re en statistique math6mat ique que deux caract~res al~atoires ind6pendants X et Y ant une cova- r iance nulle ; une valeur non nulle signe une liaison entre eux ; c o m m e la valeur de la covar iance d@pend, non seulement de I'intensit6 de la liaison, mais aussi des uni- t@s employ6es pour expr imer X et Y, on d6finit un indice, ind~pendant de ces unit@s, en divisant la covar iance par le produit des @cart-types de X et Y. Cet indice, not6 p, por te le nom de coeff ic ient de cor- r@lation lin@aire de BRAVAIS et PEARSON ; il prend ses valeurs dans I' intervalle [ - I , + 4] ; il a pour valeur 0 Iors- que les var iables sont ind6pendantes ; torsqu'elles sont l in~airement ti~es, c'est-(~-dire Iorsque Y = ~ X + /5, il a pour valeur - I ou + I selon que ~ est n@gatif ou positif.

L' ind@pendance des caract@res impl ique p = O, mais ta r6ciproque n'est pas vraie, sauf si X et Y sont des varia- bles gaussiennes. De plus, en I 'absence de tout rensei- gnement sur X et Y, la va leur de pes t insuffisante pour juger de la Iin6arit6 de la liaison, mis ~ part les cas limi- tes p= + I.

I1 est rare qu 'une popu la t ion soit ~ tud i6e dans sa fota- lit~ ; on ne la connaft g~n~ra lement que par echanti l - Ion interpos6, et donc avec un certain flou cr66 par les f luctuations statistiques. Cef ~chant i l lon permet le cal- cul du coefficient empir ique de correlation lin6aire r, esti- mation de p. Mais, du fair des fluctuations d '6chan-

Trait d'Union n ° 7 - page 37

....... TECHNIQUES AU QUOTIDIEN

t i l lonnage, on peut trouver pour rune valeur non nulle alors que X et Y sont ind~pendants. Pour sortir de cette impasse on r~alise un test d'hypoth~se.

Lorsque X et Y sont ind~pendants et distribu~s selon une Ioi de GAUSS [ou Ioi normale], les valeurs de r suivent une Ioi de probabil i t~s connue. Les valeurs de r ~loign~es de 0 sont ~ I '~vidence peu probables.

En consequence, si la valeur calcul~e pour r est tr6s dif- f~rente de O, - sup~rieure ~ un seuil r s pr~alablement choisi, - on est en droit de mettre en doute I'hypoth~se d ' ind~pendance p = 0 ; on la rejette alors, avec un ris- que connu de se tromper, au profit de I'hypoth~se alter- native p =~ O, c'est-~-dire en faveur d 'une l iaisonentre X et Y. Une valeur proche de O, - c'est-~-dire en d e ( ~ du seuil, - conduit (~ admettre I'hypoth~se d ' ind~pen- dance.. , faute d'arguments pour pouvoir la rejeter.

Voil(~ pr~sent~es sch~mat iquement la correlat ion Iin~aire et I' interpr~tation possible du coefficient r. On retiendra I 'aspect al~atoire des deux caract6res X et Y et la n~cessit~ de leur nature gaussienne pour juger de I'hypoth~se p = 0 ~ partir de la valeur du coeff icient empir ique r.

d

R~gression

En correlation, X et Y jouent un r61e sym~trique ; ainsi la valeur de rest la m~me si I'on ~change entre elles, dans les calculs, les valeurs x i e t Yi de X et Y,

En r~gression, les deux caract~res n'ont plus cette par- ticularit~. L'un, en g~n6ral Y, dite variable expliqu~e ou li~e, est de nature al~atoire ; I'autre, X, var iable expli- cante ou contr61~e, est non al~atoire. ...... ,~.,

On peut citer pour exemptes les tests de dilution et de surcharge ; dilutions et surcharges sont laiss~es au libre arbitre de I'exp~rimentateur et n'ont rien d'al~atoire au contraire des concentrations mesur~es sur ces dilutions et surcharges qui, comme toute mesure, sont soumises aux erreurs al~atoires. Un autre exemple est celui o02, voulant comparer une nouvelle m~thode de dosage cel le prat iqu~e usuellement, on choisit les s~rums de I'~tude en fonction de leur concentration d6j6 mesur~e,

Lorsque I'on prat ique une r~gression on cherche (~ ajus- ter aux couples de points exp~rimentaux Ix i, yii] une fonction Y = f(X] qui repr~sente au mieux la liaison sto- chastique entre X et Y. Si I'on par le de r~gression, sans autre precision, il s'agit de r~gression lin~aire ; la liai- son entre X et Y est suppos~e representable par une droite Y = ~ X +/5. Les coefficients inconnus o~ et/5 sont estim~s en ~valuant sur l '~chantil lon les param~tres a et b de la droite de r~gression y = ax + b.

La m~thode classiquement utilis~e pour calculer ces param6tres est cel le des moindres carr~s ; les vateurs de a et b sont obtenues en minimisant I'expression

[Yi-a.xi-b)2 qui est la somme des carr~s des ~carts [ou r~sidus) des points observes ~ la droite, ~carts compt~s paral l~ lement ~ I'axe des Y. Ce proc~d~ est en accord avec le fait que seute var iable Y est al~atoire et donc entach~e d'erreur.

Ce calcul presuppose naturellement t'existence d'une liaison entre caract6res ; on serait d'ailleurs bien surpris de ne pas la trouver dans les exemples pr~c~demment ~voqu~s. Ce qui importe cette fois n'est pas tant la valeur de r que de la validit~ du module ajust~. II paraTt donc

indispensable de v6rifier I 'ad~quat ion du module en r~alisant, si ce la est possible, un test de lin~arit~.

R6gression et corr(~lation

II existe entre ces deux concepts des points communs.

Lorsque deux caract~res al~atoires X et Y sont ind~pen- dants, la valeur moyenne prise par I'un est ind~pen- dante de la valeur de I'autre ; en d'autres termes, en I 'absence de liaison, la pente de la droite de r~gression ajust6e aux couples [x i, Yi] est statistiquement nulle, II revient donc au m~me de comparer ~ z~ro la pente de la droite de r~gression que de tester, en s'aidant de r, I'hypoth~se p = O. Bien entendu, ce test exige lui aussi, pour ~tre r6alis~, que les deux caract~res soient gaussiens.

D'autre part, le carr6 du coeff icent de corr61ation r 2, appel~ coefficient de d6termination, peut ~tre interpr6t6 dans le cadre de la r6gression. II repr6sente la part de la var iance du caract~re Y expl iqu6e par la r~gression alors que son compl6ment (~ 4 illustre la dispersion des points autour de la droite.

De nombreuses calculatrices de poche fournissent, une fois entr~s les n couples [x i, Yi], les valeurs de r, a et b, Ce sont d'ailleurs les m~mes registres statistiques qui sont sollicit~s Iorsque I'on appuie sur les touches grav ies ,, r >, ou ,, Reg >>. II est naturellement tr~s tentant, Iorsque les donn~es sont en m~moire, de sortir toute I'information disponible ; cela expl ique probab lement pourquoi le coefficient de correlation et la droite de r~gression sont presque toujours simultan6ment proposes bien que I'un des deux ne soit g~n~ralement d 'aucune utilit6.

Int6r~t de la corr(~lation et de la r6gression

Correlation

Lorsque I'on compare deux m~thodes de dosage d'un m6me param~tre biologique il est naturel de trouver une liaison entre elles et donc un coefficient r statistiquement different de z6ro.., o0 alors c'est (~ d~sesp6rer des tech- niques biologiques. La valeur de r ne fait que confirmer une ~vidence et son contenu informationnel est prati- quement nul,

r peut m~me ne pas avoir de sens si I'hypoth~se de nor- malit~ des caract~res X et Y n'est pas respect6e et cela malgr~ la robustesse, souvent cit~e, du test.

Pour prendre un exemple, on ne devrait pas, en toute rigueur, corr61er entre elles des concentrations de TSH mesur6es chez des euthyro'fdiens car la distribution de ces valeurs pr~sente une dissym~trie prononc6e et n'est doric pas gaussienne ; I 'usage du Iogari thme des con- centrations conduit (~ des distributions moins dissym6tri- que et qui se pr~tent mieux ~ une etude correlative,,. en supposant que celle-ci soit utile.

Mais c'est faire usage abusif de r que de le calculer sur des couples de points [x i, Yi] isus de populat ions diff6- rentes comme cela serait le cas, par exemple, de concentrat ions de TSH ~valu~es sur des s6rums d'hyperthyrofdiens et d'euthyroi'diens. Dans de tels cas rest toujours proche de 4, On peut d'ailleurs d~montrer

Trait d'Union n ° 7 - p a g e 38

TECHNIQUES AU QUOTIDIEN

que r tend vers 1 Iorsque I'on fai,t croftre I 'ampl i tude des caracteres analyses. II taut savoir en outre que la valeur de r peut etre fortement modi f iee par des points aberrants.

Ces faits laissent entendre combien peut etre trompeuse la comparaison, subjective, ou meme object ive - par test statistique, - de coefficients de correlations.

Enfin, il appa ra i t que la valeur de r n 'appor te aucune solution aux vraies questions que pose la compara ison de deux methodes : l inearite de la liaison, existence ou non d'erreurs constantes et/ou proportionnettes.

En ce qui concerne les tests de surcharge ou de dilu- tion, la correlat ion ne peut etre utiNsee car I'une des var iables est contr61ee ; ~ tout coup, rest tres voisin de I etant donnee I 'ampl i tude de variat ion des surcharges et des dilutions ; it n'est pas non plus un bon indice de linearite ; seul son carre, le coeff icient de determinat ion, presente de I'interet, interprete dans ie cad re de la regression.

R(~gression La regression ,, conventionnel le >>, c'est-(~-dire l ineaire et selon la methode des moindres carres, pose c o m m e hypothese de travai l la l inearite de la liaison. Aussi la premi .~re chose ~ faire est de s'en assurer, soit de fa?on subject ive en s 'aidant d'un d i a g r a m m e de dispersion, soit de fa?on ob ject ive en realisant, si possible, un test de linearite. I1 arrive en effet que I'une de~me thodes ,< sature >> et que le nuage de points [x i, Yi] s'inflechisse (~ I'une des extremites de la distribution ; les estimations a et b de e et/5 sont alors sans interet puisque le mode le n'est plus Iineaire.

Si le mode le l ineaire peut etre accep te , on pourra conclure ~ I ' identite des deux methodes si les tests d'hypotheses indiquent que c~ ne differe pas statistique- ment de t et/3 de 0 ; dans ce cas, la liaison entre X et Y est representable par la droite identite Y = X : les deux methodes fournissent donc, aux fluctuations statistiques pres, les memes concentrat ions. Ces tests d 'hypotheses ex igent pour etre realisables que les distributions statis- t iques de a et b soient gaussiennes et do ivent tenir comp te de la correlat ion entre a et b.

Enfin il ne taut perdre de vue que ia methode des moin- dres carres fait I 'hypothese d 'une va r iance condit ion-

nelle constante et suppose I'une des techniques exempte d'erreurs, ce qui n'est jamais le cas,

II existe des methodes d 'analyse statistique qui prennent en compte les ecarts ~ ces hypotheses. Ainsi, une regres- sion l ineaire ponderee permet la prise en charge d 'une var iance condi t ionnel le var iab le ; d e meme, Iorsque ta reproduct ibi l i te des deux methodes est du meme ordre de grandeur., il n'y a pas de raison de minimiser tes resi- dus para l le lement ~ un axe plut6t que para l le lement

I'autre ; il est alors pre ferab le d 'evatuer une droi te de regression o r thogona le ; sa pente, toujours superieure

cel le de la droi te des moindres carres, est plus en accord avec cel le ajustee manuel lement au nuage de points. En fait ces methodes raffinees ne sont vra iment indispensables que torsque les ecarts aux condit ions d 'app l i ca t ion de la me thode des moindres carres sont importants.

Pour ce qui est des tests de surcharge et de dilution, les facteurs importants sont respect ivement la pente et I 'ordonnee ~ I 'or ig ine; I 'analyse par regression Iineaire est la methode de choix. II taut s'assurer au prea- lable que la l inearite est bien effect ive ; le test, - une analyse de variance, - se fait sans difficultes car les mesu- res sont, en general , repetees ptusieurs fois pour cha- que surcharge et chaque dilution. On peut ensuite com- parer la pente de la droi te 6 4 et son ordonnee 6 I'ori- g ine (3 0,

Conclusion

Ce rappor t a pour seul object i f de rappe ler les condi- tions d'util isation de la correlat ion et de la regression lineaires et de souligner qu'i l en est fait un usage sou- vent intempestif, parfois meme ~ la limite de la fraude.

Le coeff ic ient r ne doi t etre utilise que pour verifier I 'absence de liaison entre deux caracteres gaussiens ; it est un indice de fa ib le valeur informationnel le quand il s'agit de compare r deux methodes de dosage.

La regression lineaire est par contre mieux adap tee pour a ider ~ I 'evaluat ion de ces methodes ; encore faut-i l I 'exploiter p le inement apres s'etre assure de la l inearite de la liaison entre les caracteres etudies.

Trait d'Union n ° 7 - p a g e 39