13
22.1 Chapitre 22 Introduction ` a la r´ egression logistique La r´ egression ordinaire permet d’analyser une variable r´ eponse quantitative en fonction d’une ou plusieurs variables explicatives. Souvent, c’est un esultat binaire (ou dichotomi- que) d’une exp´ erience ou d’une observation que l’on souhaite mettre en relation avec des variables explicatives; par exemple: – des patients peuvent survivre ou d´ ec´ eder; les diff´ erentes th´ erapies et les facteurs de risque peuvent ˆ etre consid´ er´ es comme des variables qui contribuent ` a expliquer la survie ou le d´ ec` es; – des personnes peuvent ˆ etre atteintes par une maladie. On souhaite ´ etudier la relation entre les chances d’ˆ etre atteint et certains facteurs explicatifs ou facteurs de risque (par exemple, ˆ age, fum´ ee, sexe); – des personnes peuvent avoir ou ne pas avoir un emploi selon leur ˆage, sexe, type de formation; – un appareil peut fonctionner ou ne pas fonctionner; cet ´ etat peut ˆ etre mis en relation avec son ˆage, les conditions de l’environnement, etc. La egression logistique permet d’´ etudier la relation entre une variable r´ eponse binaire et plusieurs variables explicatives. Ce chapitre donne une br` eve introduction ` a la r´ egression logistique. On trouvera un traitement plus approfondi dans le livre de Hosmer et Lemeshow (1989), duquel cette introduction est tir´ ee. 22.1 Introduction En g´ en´ eral, le r´ esultat d’une observation binaire est appel´ e “succ` es” ou “´ echec”. Il est repr´ esent´ e math´ ematiquement par une variable al´ eatoire Y telle que Y = 1 s’il y a succ` es et Y = 0 s’il y a ´ echec. Cette variable a une distribution de Bernoulli et on note par p = P (Y = 1) la probabilit´ e de succ` es; donc P (Y = 0) = 1 p. L’esp´ erance math´ ematique et la variance de Y sont, respectivement, E (Y )= p et σ 2 (Y )= p(1 p). Le r´ esultat Y peut d´ ependre des valeurs assum´ ees par p variables explicatives X 1 ,...,X p au moment de l’observation et nous souhaitons ´ etudier cette relation. L’exemple suivant montre que les techniques de r´ egression ordinaire ne sont pas adapt´ ees `a ce type d’analyse. Exemple 1. La Table 1 concerne un ´ echantillon de 100 personnes, pour lesquels la pr´ esence (CHD = 1) ou l’absence (CHD = 0) d’une maladie cardiovasculaire a ´ et´ e observ´ ee. On souhaite ´ etudier la relation entre CHD et la variable explicative ˆ age (AGE). La Figure 1 montre un diagramme de dispersion de CHD versus AGE. Evidemment, ce diagramme ne donne pas une information tr` es utile mˆ eme si on remarque une proportion plus ´ elev´ ee de cas (CHD = 1) pour les personnes ag´ ees que pour les jeunes. Il n’est pas opportun d’adapter une droite ` a ce diagramme. Il est, toutefois, raisonnable de d´ ecrire la relation entre la probabilit´ e de CHD pour une valeur donn´ ee de AGE, c’est ` a dire, la probabilit´ e condition- nelle P (CHD|AGE), par une fonction math´ ematique simple (mod` ele) de la variable AGE. La Figure 2, qui repr´ esente les fr´ equences relatives de CHD = 1 selon les cat´ egories d’ˆ age efinies par la variable AGRP de la Table 1, nous sugg` ere l’allure de cette fonction. c A. Marazzi

Introduction à la régression logistique

Embed Size (px)

Citation preview

  • 22.1

    Chapitre 22

    Introduction a` la regression logistique

    La regression ordinaire permet danalyser une variable reponse quantitative en fonctiondune ou plusieurs variables explicatives. Souvent, cest un resultat binaire (ou dichotomi-que) dune experience ou dune observation que lon souhaite mettre en relation avec desvariables explicatives; par exemple: des patients peuvent survivre ou deceder; les dierentes therapies et les facteurs derisque peuvent etre consideres comme des variables qui contribuent a` expliquer lasurvie ou le dece`s;

    des personnes peuvent etre atteintes par une maladie. On souhaite etudier la relationentre les chances detre atteint et certains facteurs explicatifs ou facteurs de risque(par exemple, age, fumee, sexe);

    des personnes peuvent avoir ou ne pas avoir un emploi selon leur age, sexe, type deformation;

    un appareil peut fonctionner ou ne pas fonctionner; cet etat peut etre mis en relationavec son age, les conditions de lenvironnement, etc.

    La regression logistique permet detudier la relation entre une variable reponse binaire etplusieurs variables explicatives. Ce chapitre donne une bre`ve introduction a` la regressionlogistique. On trouvera un traitement plus approfondi dans le livre de Hosmer et Lemeshow(1989), duquel cette introduction est tiree.

    22.1 Introduction

    En general, le resultat dune observation binaire est appele succe`s ou echec. Il estrepresente mathematiquement par une variable aleatoire Y telle que Y = 1 sil y a succe`set Y = 0 sil y a echec. Cette variable a une distribution de Bernoulli et on note parp = P (Y = 1) la probabilite de succe`s; donc P (Y = 0) = 1p. Lesperance mathematiqueet la variance de Y sont, respectivement, E(Y ) = p et 2(Y ) = p(1 p). Le resultat Ypeut dependre des valeurs assumees par p variables explicatives X1,. . .,Xp au moment delobservation et nous souhaitons etudier cette relation. Lexemple suivant montre que lestechniques de regression ordinaire ne sont pas adaptees a` ce type danalyse.

    Exemple 1. La Table 1 concerne un echantillon de 100 personnes, pour lesquels la presence(CHD = 1) ou labsence (CHD = 0) dune maladie cardiovasculaire a ete observee. Onsouhaite etudier la relation entre CHD et la variable explicative age (AGE). La Figure 1montre un diagramme de dispersion de CHD versus AGE. Evidemment, ce diagramme nedonne pas une information tre`s utile meme si on remarque une proportion plus elevee de cas(CHD = 1) pour les personnes agees que pour les jeunes. Il nest pas opportun dadapterune droite a` ce diagramme. Il est, toutefois, raisonnable de decrire la relation entre laprobabilite de CHD pour une valeur donnee de AGE, cest a` dire, la probabilite condition-nelle P (CHD|AGE), par une fonction mathematique simple (mode`le) de la variable AGE.La Figure 2, qui represente les frequences relatives de CHD = 1 selon les categories dagedenies par la variable AGRP de la Table 1, nous sugge`re lallure de cette fonction.

    c A. Marazzi

  • 22.2

    Table 1. Age (AGE) et presence (1) ou absence (0) dune maladie cardiovasculaire (CHD)pour un echantillon de 100 personnes. AGRP represente des categories dage et ID est lenumero du cas.

    ID AGRP AGE CHD ID AGRP AGE CHD ID AGRP AGE CHD

    1 1 20 0 35 3 38 0 68 6 51 02 1 23 0 36 3 39 0 69 6 52 03 1 24 0 37 3 39 1 70 6 52 14 1 25 0 38 4 40 0 71 6 53 15 1 25 1 39 4 40 1 72 6 53 16 1 26 0 40 4 41 0 73 6 54 17 1 26 0 41 4 41 0 74 7 55 08 1 28 0 42 4 42 0 75 7 55 19 1 28 0 43 4 42 0 76 7 55 110 1 29 0 44 4 42 0 77 7 56 111 2 30 0 45 4 42 1 78 7 56 112 2 30 0 46 4 43 0 79 7 56 113 2 30 0 47 4 43 0 80 7 57 014 2 30 0 48 4 43 1 81 7 57 015 2 30 0 49 4 44 0 82 7 57 116 2 30 1 50 4 44 0 83 7 57 117 2 32 0 51 4 44 1 84 7 57 118 2 32 0 52 4 44 1 85 7 57 119 2 33 0 53 5 45 0 86 7 58 020 2 33 0 54 5 45 1 87 7 58 121 2 34 0 55 5 46 0 88 7 58 122 2 34 0 56 5 46 1 89 7 59 123 2 34 1 57 5 47 0 90 7 59 124 2 34 0 58 5 47 0 91 8 60 025 2 34 0 59 5 47 1 92 8 60 126 3 35 0 60 5 48 0 93 8 61 127 3 35 0 61 5 48 1 94 8 62 128 3 36 0 62 5 48 1 95 8 62 129 3 36 1 63 5 49 0 96 8 63 130 3 36 0 64 5 49 0 97 8 64 031 3 37 0 65 5 49 1 98 8 64 132 3 37 1 66 6 50 0 99 8 65 133 3 37 0 67 6 50 1 100 8 69 134 3 38 0

  • 22.3

    Figure 1. Diagramme de CHD et AGE.

    20 30 40 50 60 70

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    AGE

    CH

    D

    Figure 2. Diagramme des proportions dhommes avec CHD = 1 selon AGE en groupes.

    20 30 40 50 60 70

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    AGE

    CH

    D

    Figure 3. p(AGE) = exp(5.31 + 0.111 AGE)/(1 + exp(5.31 + 0.111 AGE))

    20 30 40 50 60 70

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    AGE

    CH

    D

    c A. Marazzi

  • 22.4

    Considerons dabord le cas dune seule variable explicative quantitativeX . Nous nous pro-posons dutiliser une fonction mathematique p(x) simple comme mode`le pourP (Y = 1|X = x). Sagissant dune probabilite, la fonction p(x) doit etre bornee parles valeurs 0 et 1. Elle ne peut donc pas etre lineaire. LExemple 1 sugge`re que p(x) a uneforme sigmodalequi peut etre approchee par une fonction de distribution cumulative, parexemple, la fonction de distribution normale F = . Plus precisement, on peut utiliser lemode`le

    p(x) = (0 + 1x).

    Ici, 0 et 1 sont les parame`tres du mode`le ou coecients. Si 1 est la fonction inversede (transformation probit), on obtient

    1(p(x)) = 0 + 1x,

    cest-a`-dire, une relation lineaire. Ce mode`le, connu comme le mode`le probit, a joui dunecertaine popularite dans lessai biologique (Finney, 1978).Toutefois, la forme la plus utilisee est celle de la fonction de distribution logistique FL,cest-a`-dire:

    FL(0 + 1x) =exp(0 + 1x)

    1 + exp(0 + 1x).

    On pose donc le mode`lep(x) = FL(0 + 1x)

    appele mode`le logit ou logistique. La transformation inverse

    F1L (y) = ln(y/(1 y)), 0 < y < 1,est appelee la transformation logit et lexpression ln(p/(1p)) est appele le logit de p, notelogit(p). Donc,

    F1L (p(x)) = logit(p(x)) = ln(

    p(x)1 p(x)

    )= 0 + 1x

    est une fonction lineaire. La fonction K(x) = logit(p(x)) est appelee une link functiondans la theorie des mode`les lineaires generalises (McCullagh et Nelder (1989)). On observequelle peut varier entre et +.Le mode`le peut etre etendu a` lanalyse dune variable reponse binaire Y en fonction deplusieurs variables explicatives X1, . . . , Xk, qui peuvent etre quantitatives, qualitatives oucategorielles (en categories ordonnees exprimees de facon numerique). Dans ce cas, oncherche une fonction p(x1, . . . , xk) a` plusieurs variables comme mode`le pour la probabiliteconditionnelle P (Y = 1|X1 = x1, . . . , Xk = xk). Le mode`le logit utilise la fonction

    p(x1, . . . , xk) =exp(0 + 1x1 + . . .+ kxk)

    1 + exp(0 + 1x1 + . . .+ kxk),

    cest-a`-dire la relation lineaire

    K(x1, . . . , xk) = 0 + 1x1 + . . .+ kxk,

    avec link function

    K(x1, . . . , xk) = ln(p(x1, . . . , xk)/(1 p(x1, . . . , xk)).

  • 22.5

    En pratique, les coecients 0, 1, . . . , k doivent etre determines a` laide des donneesOn utilise la methode du maximum de vraisemblance (Chapitre 8). En general, cettemethode fournit des estimateurs avec de bonnes proprietes statistiques: les estimateurs ontapproximativement une distribution normale et leurs variances sont relativement petites.Toutefois, ces proprietes ne sont valables que si la taille n de lechantillon est large et lenombre de parame`tres est petit (McCullagh et Nelder (1989)).Les estimations sont souvent associees a` des tests dhypothe`ses du type

    H0 : h = h+1 = . . . = k = 0

    avec 1 h k. Lhypothe`se H0 arme que Xh, Xh+1, . . . , Xk ne sont pas utiles pourexpliquer la probabilite conditionnelle de succe`s P (Y = 1|X1 = x1, . . . , Xk = xk). A laidede ces tests, le proble`me de la construction dun mode`le adequat cest-a`-dire, avec unbon degre dajustement et un faible nombre de parame`tres peut etre aborde. Enn, onpeut calculer des intervalles de conance pour les parame`tres 0, 1, . . . , p.

    Remarque. En general, les mode`les logit et probit fournissent des valeurs tre`s proches.Toutefois, linterpretation des parame`tres du mode`le logit est avantageuse, car elle sappuiesur des importants concepts utilises en epidemiologie (Section 4, ci-dessous).

    22.2 Estimation et tests: cas dune seule variable explicative

    Nous allons esquisser la methode du maximum de vraisemblance pour le cas dune seulevariable explicative X , cest-a`-dire la regression logistique simple. La vraisemblance dunechantillon (xi, yi), i = 1, . . . , n (ou` les xi sont les valeurs observees de X et les yi cellesde Y donc yi = 0 ou 1) est

    p(xi)yi(1 p(xi))1yi ,ou`

    p(x) =exp(0 + 1x)

    1 + exp(0 + 1x)depend de 0 et 1. Comme on admet que les observations sont independantes, la vraisem-blance de lechantillon selon le mode`le est

    L(0, 1) = ni=1p(xi)yi(1 p(xi))1yi .

    Le crite`re du maximum de vraisemblance determine les valeurs de 0 et 1 qui rendentmaximale cette vraisemblance. Dans ce but, il convient de considerer loppose de sonlogarithme, cest-a`-dire, la fonction log-likelihood

    (0, 1) = lnL(0, 1)

    = ni=1

    [yi ln p(xi) + (1 yi) ln(1 p(xi))].

    On minimise alors cette fonction en annulant ses derivees partielles selon 0 et 1. Onobtient ainsi les conditions

    ni=1

    (yi p(xi)) = 0 etni=1

    xi(yi p(xi)) = 0.

    Les solutions 0 et 1 de ces equations sont les estimateurs du maximum de vraisemblancede 0 et 1. En general, elles sont calculees a` laide de programmes de calcul numerique.

    c A. Marazzi

  • 22.6

    A laide des estimations 0 et 1, on peut estimer les probabilites de succe`s pour dierentesvaleurs x de la variable explicative:

    p(x) =exp(0 + 1x)

    1 + exp(0 + 1x).

    Les valeurs de la fonction p(x) sont parfois appelees les probabilites ajustees.

    Exemple 2. Avec les donnees de la Table 1, on obtient les coecients estimes indiquesdans la Table 2, cest-a`-dire, 0 = 5.310 et 1 = 0.111 et donc

    p(x) =exp(5.31 + 0.111AGE)

    1 + exp(5.31 + 0.111AGE) .

    La Figure 3 donne le graphique de cette fonction qui sadapte assez bien aux frequencesrelatives de CHD selon AGE (en groupes). La valeur du log likelihood (0, 1) est 53.677.

    Table 2. Resultats de lajustement dun mode`le logistiquea` une seule variable explicative X = AGE aux donnees de la Table 1.

    Estimation ErreurVariable Coecient Standard Coe./

    AGE 0.111 0.024 4.61Constante -5.310 1.134 -4.68

    Log-likelihood=-53.677

    Les programmes usuels fournissent aussi les ecarts types (0) et (1) de 0 et 1. Graceau fait que la distribution des estimateurs est approximativement normale on peut con-struire des intervalles de conance avec coecient de couverture 1 2:

    [j (j)z1, j + (j)z1], j = 0, 1,

    ou` z1 est le quantile 1 de la distribution normale standard (par exemple, = 0.025et z0.975 = 1.96).

    Enn, on peut aussi tester lhypothe`se

    H0 : j = 0

    (j = 1 ou j = 2) contre lune des deux alternatives

    H1 : j > 0 (unilaterale) ou H1 : j = 0 (bilaterale).

  • 22.7

    Le procede le plus simple utilise la statistique

    T = j/(j).

    Sous lhypothe`se, la statistique T a approximativement une distribution normale standard.Au niveau , on rejette donc H0 en faveur dune alternative unilaterale H1 (par exemple)si T > z1. De facon equivalente, on rejette H0 si la valeur observee t0 de T est telle queP (T > t0) < . Ce test est connu comme le test de Wald. Un autre test sera presentedans la section suivante.

    Exemple 3. Les ecarts types et les valeurs de la statistique T pour les coecients 0 et1 de lExemple 1 sont donnes dans la Table 2. Pour lhypothe`se H0 : 1 = 0 (1 est lecoecient de la variable AGE) on obtient t0 = 0.111/0.024 = 4.610. A laide dune tablede la distribution normale on trouve que P (T > 4.610) < 0.0001 et on conclut que lavariable AGE est importante pour expliquer la probabilite de CHD=1.

    22.3 Estimation et tests: cas de plusieurs variables explicatives

    Un des buts principaux de la regression logistique est celui dexaminer les eets conjointsde plusieurs variables explicatives et de leurs interactions.

    Exemple 4. Comme un petit poids a` la naissance (LBW = Low Birth Weight) a uneinuence negative sur le developpement de lenfant, les facteurs de risque de LBW sontde grand interet en medecine preventive. Dans une etude de 189 cas, 8 facteurs de risquepotentiels (age maternel, fumee, hypertension, etc.) ont ete enregistres. Les donnees sontreportees en Hosmer et Lemeshow (1989). n1 = 59 bebes avaient un poids au-dessous de lanormale et n0 = 130 un poids normal. Quatre variables furent choisies comme predicteurs:lage de la me`re (AGE), son poids aux dernie`res re`gles (PDS), le nombre de visites medicalesquelle a eues durant le premier trimestre (VST) et sa race, en 3 categories, codees a` laidede deux variables indicatrices RACE1 et RACE2.

    Souvent, comme dans lExemple 4, des informations concernant un grand nombre de vari-ables explicatives X1, . . . , Xk sont disponibles. Comme dans le cas de la regression mul-tiple ordinaire, elles forment une matrice du mode`le X dont les lignes sont les vecteurs(1, xi1, . . . , xik) et xik indique la i-e`me observation (observation du cas i) de la variable k.Le mode`le

    K(x1, . . . , xk) = 0 + 1x1 + . . .+ kxk,

    est alors ajuste par la methode du maximum de vraisemblance. Dans ce but, on resoutun syste`me de (k + 1) equation pour les coecients 0 et 1, . . . , k, que lon obtient enannulant les derivees partielles de la fonction log likelihood (0, 1, . . . , p):

    (0, 1, . . . , k)0

    =ni=1

    (yi p(xi1, . . . , xip) = 0,

    (0, 1, . . . , k)j

    =ni=1

    xij(yi p(xi1, . . . , xip) = 0, j = 1, . . . , k.

    c A. Marazzi

  • 22.8

    Linterpretation des donnees fournie par la regression multiple est superieure a` celle fourniepar la regression simple. La regression multiple tient compte des eventuelles associationsentre les variables explicatives. Les coecients de chaque variable sont epures des contri-butions fournies par les autres variables et representent, donc, des eets propres.

    Exemple 4 (continuation). La Table 3 donne les coeecients estimes dune regressionlogistique de LBW en fonction de AGE, PDS, RACE (RACE1 et RACE2) et VST. Ladernie`re colonne donne les valeurs de la statistique j/(j) pour le test de Wald de chaquecoecient. On voit immediatement que les eets de PDS et RACE1 sont signicatifs(P < 0.05). Au contraire, les eets de AGE et de VST sont nettement non-signicatifs etces variables peuvent etre ecartees du mode`le. Toutefois, RACE2 ne peut pas etre elimineepuisquelle est utilisee en combinaison avec RACE1.

    Table 3. Estimation des coecients dune regression logistique multiplesur des donnees concernant des bebes de faible poids a` la naissance.

    Estimation ErreurVariable Coecient Standard Coe./

    AGE -0.024 0.034 -0.71PDS -0.014 0.00652 -2.14RACE1 1.004 0.497 2.02RACE2 0.433 0.362 1.20VST -0.049 0.167 -0.30Constante 1.295 1.069 1.21

    Log-Likelihood=-111.286

    Pour tester une hypothe`se lineaire qui concerne plusieurs coecients on utilise le test durapport de vraisemblance. Supposons que le mode`le courant (ou complet) soit

    K(x1, . . . , xk) = 0 + 1x1 + . . .+ kxk

    et que lhypothe`se a` tester soit

    H0 : h = h+1 = . . . = k = 0

    avec 1 h k (cest le type dhypothe`se lineaire le plus frequent). Le mode`le reduit estdonc

    K(x1, . . . , xk) = 0 + 1x1 + . . .+ h1xh1.

    On denit dabord la deviance du mode`le courant par rapport au mode`le sature (voir noteci-dessous):

    D(mode`le courant) = 2 ln(vraisemblance du mode`le courantvraisemblance du mode`le sature

    ).

    La deviance est une mesure de comparaison entre les probabilites p(xi ) ajustees a` laidedu mode`le courant et celles ajustees a` laide du mode`le sature, cest-a`-dire, les frequencesobservees.

  • 22.9

    La statistique du test du rapport de vraisemblance est

    G = 2 ln(

    vraisemblance du mode`le reduitvraisemblance du mode`le complet

    )

    = D(mode`le reduit)D(mode`le complet)= 2 [ln(vraisemblance du mode`le reduit) ln(vraisemblance du mode`le complet)] .

    Dans son esprit, ce calcul est similaire a` la dierence des sommes des carres des residusdans la regression ordinaire. Sous lhypothe`se H0, la statistique G a approximativementune distribution 2 avec k h+1 degre de liberte. On rejette donc H0, au niveau , si lavaleur observee g0 de G depasse le quantile 1 de la distribution 2 a` k h + 1 degrede liberte.Exemple 4 (continuation). On peut tester si lensemble des 5 variables de la Table 3explique la probabilite dune reponse positive de facon signicative. Lhypothe`se est:

    H0 : 1 = 2 = 3 = 4 = 5 = 0.

    La vraisemblance du mode`le complet (a` 6 coecients) doit etre comparee a` celle du mode`lereduit K(x1, . . . , x5) = 0. On trouve

    ln(vraisemblance du mode`le complet) = 111.29,ln(vraisemblance du mode`le reduit) = 117.34.

    Doncg0 = 2((117.34) (111.29)) = 12.1

    et P (G > 12.1) = 0.033 (G a 5 = 6 1 degres de liberte); le mode`le complet est doncsignicatif. Par analogie, on pourrait tester sil est opportun dinclure les variables VST etAGE en supposant que PDS, RACE1 et RACE2 soient incluses de toute facon. La vraisem-blance dun mode`le a` 6 coecients (5 variables et un intercept) devrait etre comparee a`celle dun mode`le a` 3 variables; G aurait 6 3 = 3 degres de liberte.Exemple 5. Pour le cas dune seule variable explicative, il ny a que trois mode`lescourants possibles: le mode`le K(x) = 0 + 1x, le mode`le sans intercept K(x) = 1x etle mode`le constant K(x) = 0. Si H0 : 1 = 0 on a k = h = 1, k h+ 1 = 1 et on obtient

    D(mode`le courant) = 2ni=1

    [yi ln(p(xi )/y

    i ) + (1 yi ) ln((1 p(xi ))/(1 yi ))] .

    Le signe indique que des cas similaires (avec la meme valeur de la variable explicative)ont ete regroupes (comme dans la Figure 2). En dautres termes, yi est la frequence relativede succe`s pour X = xi; cest aussi lestimation de p(xi ) sous le mode`le sature. Avec lesdonnees de la Table 1 et H0 : 1 = 0 on trouve g0 = 29.31. Comme G a approximativementune distribution 2 a` 1 degre de liberte, P (G > 29.31) est inferieur a` 0.001.

    Note. Un mode`le sature est un mode`le qui a autant de parame`tres que de points quildoit ajuster; par exemple, une droite de regression lorsque les donnees representees dansle diagramme de dispersion sont regroupees dans deux seuls points.

    c A. Marazzi

  • 22.10

    22.4 Interpretation des coecients

    Dans le cas de la regression ordinaire simple, une variation unitaire dans la valeur x de lavariable X produit un changement de 1 unites dans lesperance conditionnelle E(Y |X =x) de Y . Pour la regression logistique a` une seule variable explicative la relation entre p(x)et x est donnee par le logit:

    ln(

    p(x)1 p(x)

    )= 0 + 1x.

    Donc, un increment unitaire en x produit une variation de 1 logits. Nous allons preciserce que cette expression signie pour dierents types de variable explicative X .

    Variable explicative binaire. Nous considerons la regression logistique simple, mais lageneralisation au cas multiple est possible. Une variable explicative binaire est utilseepour indiquer la presence (X = 1) ou labsence (X = 0) dune certaine condition X . Pourmesurer lassociation entre X et Y , ou` Y = 1 indique la presence dune maladie, on utiliseen epidemiologie le odds ratio ou rapport des cotes (Fleiss (1981)). La cote (odds) de Y = 1pour les individus avec X = 0 est denie comme

    (0) =P (Y = 1|X = 0)

    1 P (Y = 1|X = 0) =p(0)

    1 p(0) .

    Par analogie, on denit la cote de Y = 1 en presence de X = 1:

    (1) =P (Y = 1|X = 1)

    1 P (Y = 1|X = 1) =p(1)

    1 p(1) .

    La cote est donc le rapport entre la probabilite detre malade et la probabilite detre sainet son logarithme est le logit. Enn, lodds ratio pour comparer la presence et labsence deX est le rapport

    o(1, 0) = (1)/(0).

    Si lassociation entre X et Y est faible, P (Y = y|X = 0) P (Y = y|X = 1) et o(1, 0) estproche de 1. Inversement, un odds ratio superieur ou inferieur a` 1 indique une associationentre X et Y . Avec p(x) = exp(0 + 1x)/(1 + exp(0 + 1x) on obtient

    o(1, 0) = exp(1)

    et donc1 = ln(o(1, 0)) = logit(p(1)) logit(p(0)).

    Le coecient 1 indique donc de combien le logit de devenir malade est augmente parlexposition a` la condition X .

    Remarques

    1. On peut estimer o(1, 0) par o(1, 0) = exp(1) et obtenir un intervalle de conance pouro(1, 0) en prenant lexponentiel (exp()) des limites dun intervalle de conance pour 1.2. Si les valeurs de P (Y = 1|X = 0) et de P (Y = 1|X = 1) sont tre`s petites, les odds (1)et (0) sont proches de leur numerateur et la valeur numerique dd lodds ratio est prochede celle du risque relatifr(1, 0) = P (Y = 1|X = 1)/P (Y = 1|X = 0). Lapproximationsuivante du risque relatif est toutefois meilleure: r o+ o[1 o]p(0).

  • 22.11

    Variable explicative qualitative a` plusieurs niveaux. Pour linterpretation dune variableexplicative qualitative (facteur) a` plusieurs niveaux, nous nous servons dun exemple.

    Exemple 6. La Table 4 fournit les frequences de Y = 1 (CHD present) et de Y = 0 (CHDabsent) selon les 4 categories de la variable Race a` 4 niveaux: Blanche, Noire, Hispanique,Autre.

    Table 4. Classication de donnees hypothetiques selon CHD et Race, pour 100 sujets.

    CHD Blanche Noire Hispanique Autre Total

    Present 5 20 15 10 50Absent 20 10 10 10 50

    Total 25 30 25 20 100

    Odds ratio (o) 1.0 8.0 6.0 4.0ln(o) 0.0 2.08 1.79 1.39Int. conf. a` 95% (2.3,27.6) (1.7,21.3) (1.1,14.9)

    Sans utiliser de mode`les, les odds ratios pour comparer chaque niveau de Race a` RaceBlanche peuvent etre estimes a` laide des tableaux 22 correspondants.Pour utiliser le mode`le de regression, il faut coder numeriquement la variable Race a` 4niveaux. Le codage usuel utilise 3 variables indicatrices D1, D2 et D3, par exemple cellesdenies dans la Table 5, ou` Blanche est le niveau de reference. (Comme pour la regressionmultiple, pour coder un facteur a` k niveaux, il faut utiliser k 1 variables indicatrices.)

    Table 5. Codage du facteur Race avec niveau de reference Blanche.

    Variables

    Race D1 D2 D3Blanche 0 0 0Noire 1 0 0Hispanique 0 1 0Autre 0 0 1

    Les coecients estimes 1, 2 et 3 de D1, D2 et D3 sont respectivement les logarithmesdes odds ratios qui gurent dans la Table 4. Par exemple:

    ln(o(Noire,Blanche)) = logit(p(Noire)) logit(p(Blanche))= [0 + 1(1) + 2(0) + 3(0)] [0 + 1(0) + 2(0) + 3(0)] = 1

    Donc 1 = 2.079, 2 = 1.792, 3 = 1.386. En outre,

    p(Blanche) = exp(0)/(1 + exp(0)) = 1/5

    dou` 0 = ln(1/4) = 1.386.

    c A. Marazzi

  • 22.12

    Variable explicative continue. Soit X une variable explicative continue et soit p(x) =P (Y = 1|X = x). Considerons lodds ratio correspondant a` deux valeurs x1 et x0 de X :

    o(x1, x0) =p(x1)/(1 p(x1)p(x0)/(1 p(x0) .

    SiK(x) = 0 + 1x,

    alors 1 exprime la variation du log de lodds ratio correspondant a` un increment unitaire:

    1 = ln(o(x+ 1, x)).

    Si on sinteresse a` un increment de c unites, on obtient evidemment,

    K(x+ c)K(x) = c1, cest-a`-dire, o(x+ c, x) = exp(c1).

    Remarque. On peut facilement obtenir un intervalle de conance avec coecient de cou-verture 1 2 pour o(x+ c, x). Lintervalle est:

    [exp(c1 z1c(1), exp(c1 + z1c(1)].

    Exemple 7. Avec les donnees de la Table 1 on avait obtenu K(AGE) = 5.310 + 0.111AGE. Lodds ratio pour un increment de AGE de 10 ans est alors o(AGE+10,AGE) = 3.03et un intervalle de conance de couverture 95% est

    [exp(10 0.111 1.96 10 0.024), exp(10 0.111 + 1.96 10 0.024)] = [1.90, 4.86].

    Variable explicative en categories ordonnees. Une variable en categories ordonnees (ouvariable ordinale) est une variable dont les modalites ne sont pas numeriques mais peuventetre ordonnees. Un exemple est une variable avec modalites Bon, Satisfaisant, Susant,Insusant. Si le nombre de modalites est superieur a` 3, il convient generalement de traiterune variable ordinale comme si elle etait quantitative (et coder les modalites avec leurrang); dans le cas contraire, il faut la traiter comme un facteur.

  • 22.13

    Interactions. Dans la regression logistique multiple, leet dune variable explicative Xjsur la reponse moyenne est ajuste en tenant compte des autres variables Xk, avec k = j,comme dans la regression multiple ordinaire. Supposons, par exemple, que le mode`le

    K(x1, x2) = 0 + 1x1 + 2x2

    soit utilise pour expliquer Y = CHD a` laide de X1 = AGE et de X2 = SEXE.(Evidemment, il faudrait connatre le sexe de chaque sujet, mais la Table 1 ne donnepas cette information.) Si AGE et SEXE etaient associes, leet dAGE constate danslanalyse univariee (Exemples 1, 2, 3) pourrait etre du au sexe. En eet, CHD est plusfrequent chez les hommes que chez les femmes, mais les chances de CHD augmentent aussiavec lage, et les femmes atteignent en moyenne un age plus eleve. La regression multiplepermet devaluer leet propre du sexe ayant pris en compte celui propre a` lage.Ce quon vient darmer est valable sil ny a pas dinteraction entre X1 et X2. Dansnotre exemple, une interaction impliquerait que leet du sexe varie en fonction de lage(il serait donc specique a` lage). La Figure 4 illustre ce point: si les logits de CHD enfonction de AGE pour SEXE=hommes et SEXE=femmes sont paralle`les (lignes l1 et l2),leet du sexe ne depend pas de lage: il ny a pas dinteraction. Si les logits ne sont pasparalle`les (lignes l2 et l3), leet du sexe varie selon lage et il y a interaction. (Dans cecas, lodds ratio pour comparer les sexes est aussi dependant de lage.)Pour inclure cette interaction dans le mode`le, on utilise une variable explicative supplemen-taire denie comme le produit X1 X2, donc:

    K(x1, x2, x3) = 0 + 1x1 + 2x2 + 12x1x2.

    La presence de linteraction peut etre veriee par un test de lhypothe`se H0 : 12 = 0.En denitive, la meilleure facon dinterpreter une regression logistique multiple est cellede calculer et de comparer les valeurs de p(x1, . . . , xp) pour dierents jeux de valeurs(x1, . . . , xp). Par exemple, on pourrait comparer les probabilites de CHD pour les fumeurs-hommes-obe`ses et pour les non-fumeurs-femmes-obe`ses.

    30 40 50 60 70

    01

    23

    45

    6

    l

    l

    l

    1

    2

    3

    AGE

    Lo

    g(Odd

    s+4)

    Figure 4. Logit en fonction de AGE pour 3 mode`les dierents.

    c A. Marazzi