Initiation à la recherche clinique et épidémiologique (Les différents types denquête) Initiation à lanalyse de données (Comment présenter les données ?)

Initiation à la recherche clinique et épidémiologique

(Les différents types d’enquête)

Initiation à l’analyse de données(Comment présenter les données ?)(Pourquoi a-t-on besoin des tests ?)

Dr Benoît Lepage ([email protected]), Dr Vanina Bongard ([email protected])Département d’Epidémiologie, Economie de la Santé et Santé PubliqueUniversité Toulouse III – Paul Sabatier

Master de Santé Publique, Toulouse III

I) Les outils statistiques- Description de données- Sondages, échantillons, inférence- Estimations- Tests

II) Les principaux types d’enquêtes- Essais cliniques- transversales- Cohortes- Cas témoins

• Unités statistiques : éléments faisant l’objet de l’étude : personnes, temps de mesures, département, …

• Variables statistiques :

Paramètre pouvant prendre différentes valeurs d’une unité statistique à l’autre

• variable qualitative = variable catégorielle– variable qualitative nominale (sans relation d’ordre)– variable qualitative ordonnée (relation d’ordre)

• Variable quantitative– variable quantitative discontinue = discrète– variable quantitative continue

I. Outils statistiques

Comment présenter les données ?

• Tableaux de fréquence• Fréquence absolue : nombre de cas• Fréquence relative : pourcentage

Sexe, n (%) hommes femmesTabagisme, n (%) non fumeurs anciens fumeurs fumeurs

80 (53,3 %) 70 (46,7 %)

77 (51,3 %) 28 (18,7 %) 45 (30,0 %)

N = 150

a. Représentation synthétique d’une variable qualitative

Variable booléenne,

dichotomique, binaire, à 2 modalités

• Diagrammes en secteurs

Distribution des sérodiagnostics de la toxoplasmose dans un laboratoire en fonction du type de patient

(CAMEMBERT)

Nouveaux-nés20%

Sida6%

Suspicion clinique4%

Femmes enceintes70%

Graphiques => faire ressortir une vision synthétique (mais souvent moins précise que les tableaux)

• Diagrammes en barres

Distribution de la profession (diagramme en barres)

0%

10%

20%

30%

40%

50%

60%

Nurse Physician Resp therapist

Occup therapist

Physiotherapist

Psychologist Other

profession

frequence

• Histogrammes (variables discrètes)

0

5

10

15

20

25

30

35

Pourcentage

0 1 2 3 4 5

Nombre d'enfants

Distribution du nombre d'enfants par femme dans l'échantillon

b. De la variable qualitative à la variable quantitative

• Histogrammes

0

5

10

15

20

25

30

35

Nombre de cas

Pression artérielle systolique (mm Hg)

Distribution de la pression artérielle systolique dans l'échantillon

80 90 100 110 120 130 140 150 160 170 180 19070

• Courbes de distribution

Nombre de cas

Pression artérielle systolique (mm Hg)

Distribution de la pression artérielle systolique dans l'échantillon

70 90 110 130 140 1600

10

20

30

40

• 1. Paramètres de position ou de tendance centrale– moyenne arithmétique et géométrique – médiane – mode

• 2. Paramètres de dispersion – variance – écart type, erreur standard – quantiles – intervalle interquartile– Extrêmes, étendue

c. Représentation synthétique d’une variable quantitative

POSITION

DISPERSION

0

10

20

30

40

50

60

70

80

0

5

10

15

20

25

30

35

Distribution gaussienne:

Nb de cas

Nb de cas

La moyenne correspond aux valeurs les plus fréquentes

Distribution non gaussienne:

bon indicateur de tendance centrale

La moyenne ne correspond pas aux valeurs les plus fréquentes

mauvais indicateur de tendance centrale

Moyenne arithmétiqueN

xm

N

ii

1

1. Paramètres de position

• Médiane : plus adaptée si distribution asymétrique• Valeur centrale séparant l’échantillon en deux moitiés

• 50 % des valeurs sont au dessus• 50 % des valeurs sont en dessous• rang de la médiane :

• (n + 1) / 2 si n est pair• n/2 si n est impair

• Mode• Valeur la plus représentée (variables quantitatives discrètes +)

1. Paramètres de position

Exemple médiane (1)

Poids en Kg d’une série de 80 sujets (après classement par ordre croissant)45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68

70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73

74 74 74 74 74 74 74 74 74 75 75 75 75 76 76 76 76 77 77 77

77 78 79 79 79 79 80 80 80 80 80 81 81 81 82 82 83 84 84 86

Moyenne de la 40ème et 41ème valeur

Médiane = (73+74)/2 = 73,5 kg

(ne nécessite pas de connaître toutes les valeurs)

Exemple médiane (2)

• Une série de 7 sujets :

45 50 55 58 60 63 64

Ici, n est impair, la médiane est la valeur de rang (n+1)/2

= la valeur de rang 4

La médiane est 58

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

Dispersion

• Variance

i = 1

n

(X i - ) 1n

2 =2

• La variance est la moyenne des carrés des écarts des valeurs par rapport à la moyenne.

• L’unité de la variance est l’unité de la variable étudiée au carré.

• Ecart Type, déviation standard, SD

• L’unité de l’écart type est identique à l’unité de la variable étudiée.

= 2

68%

95%

- 1DS- 2DS + 1DS + 2DS

Moy ± 1ET contient 68% des observations



Si une variable suitune distribution normale :

• Quantiles• (k – 1) valeurs séparant l’échantillon en k zones comportant le

même nombre d’observations• k = 3 : tertiles • k = 4 : quartiles• k = 10 : déciles• k = 100 : centiles ou percentiles

• Un intervalle entre deux quantiles correspond à un intervalle interquantile

Exemple : quartiles

Poids en Kg d’une série de 80 sujets (après classement par ordre croissant)

45 50 55 58 60 63 64 64 65 66 67 67 67 67 68 68 68 68 68 68

70 70 71 71 71 71 72 72 72 72 73 73 73 73 73 73 73 73 73 73

74 74 74 74 74 74 74 74 74 75 75 75 75 76 76 76 76 77 77 77

77 78 79 79 79 79 80 80 80 80 80 81 81 81 82 82 83 84 84 86

1er quartile = (¼,¾) = 69 kg

2ème quartile = Médiane = 73,5 kg

3ème quartile = (¾,¼) = 77 kg

• Population cible : ensemble des individus auxquels on s’intéresse

• Population source : ensemble des individus à partir desquels on effectue le tirage au sort

• Echantillon : ensemble des individus effectivement étudiés

Notion d’inférence = tirer une conclusion au niveau d’une population inaccessibleà partir d’observations faites sur un échantillon

Un sondage est un procédé qui consiste à n’observer qu’une partie de la population étudiée (échantillon) et à tirer de cette observation des informations sur la population entière.

N sujets

n sujets n < N

Population source représentative de la population cible

Echantillon

Fluctuations d’échantillonnageMalade

Non malade

AVANTAGES d’un sondage :

Le sondage est plus rapide, moins cher et plus facilement réalisable qu’une enquête exhaustive sur la population cible.

INCONVENIENT d’un sondage :

Incertitude de l’extrapolation à la population cible des observations faites sur l’échantillon.

CONTRAINTES d’un sondage :

L’échantillon doit être représentatif de la population cible.

L’échantillon doit être composé d’unités statistiques en nombre suffisant.

Il faut bien distinguer un biais des fluctuations normales

d’échantillonnage

erreur systématique erreur aléatoire

Conduit à définir un intervalle de confiance du paramètre à estimer

Estimation biaisée

Déformation des faits due au hasard de l’échantillonnage :

erreur non systématique due au hasard (fluctuations

d’échantillonnage )

Estimation précise et non biaisée

Estimation peu précise mais non

biaisée

Déformation des faits due à un biais :

erreur systématique allant toujours dans le même

sens (biais)

Estimation précise mais biaisée

Estimation peu précise et biaisée

Biais et erreurs aléatoires

Estimation : Définition (1)

• Tenter de définir les paramètres d’une population à partir des paramètres observés sur un échantillon



1. Valeur observée valeur inconnue de la population




2. Valeur observée proche de la valeur inconnue si échantillon représentatif




2. Valeur observée proche de la valeur inconnue si échantillon représentatif

3. En répétant l’échantillonnage, autres valeurs proches les unes des autres

Valeur observée (échantillon) Valeur exacte (population générale)


• Incapable de connaître la vraie valeur !!!

• Objectif de l’estimation en statistique => calculer des bornes où se trouve la valeur inconnue du paramètre (avec une confiance suffisamment grande)

= Intervalle de confiance +++

Estimation d’une moyenne inconnue (1)

• On sait calculer la moyenne observée d’une variable quantitative sur un échantillon

• Problème: Estimer la moyenne inconnue de la population d’où est extrait l’échantillon


• Utiliser un échantillon représentatif de la population (obtenu par tirage aléatoire)

• Estimation de à partir de l ’échantillon 1 : est estimée par m1 = (xi) / n1

– où xi = {x1, x2, … , xn1} les n1 valeurs de X dans l ’échantillon 1

– m1 observée inconnue

– Mais à quelle distance, de quel côté de ?


• Échantillon représentatif de la population (obtenu par tirage aléatoire)– m1 observée inconnue


• 2ème échantillon (par tirage aléatoire)– m2 proche de m1




• Échantillon représentatif de la population (obtenu par tirage aléatoire)– m1 observée inconnue


• 2ème échantillon (par tirage aléatoire)– m2 proche de m1



• 3ème échantillon : idem...


• Si on dispose de la totalité des échantillons possibles tirés de la population générale



• On obtiendrait une moyenne m pour chaque échantillon



• On obtiendrait une moyenne m pour chaque échantillon

Fluctuations d’échantillonnage de la

moyenne


• L’estimation m de la moyenne inconnue est une variable aléatoire puisqu’elle varie d’un échantillon à l’autre

Fluctuations d’échantillonnage de

l’estimation de la moyenne

Distribution de la variable Xdans la population Distribution

des moyennes de X dans chaque échantillon


• L’estimation m de la moyenne inconnue est une variable aléatoire puisqu’elle varie d’un échantillon à l’autre

Distribution de la variable Xdans la population

On peut estimer la moyennede l’estimation de la moyenne

Et la variance de l’estimationde la moyenne


m1

m2

m3

m4

m5

m6

m7

m8

m9

…

mk Moyenne de la population

Si on calcule l’intervalle de confiance auprès

d’un très grand nombre d’échantillons, la vraie moyenne de la population est comprise dans 95 %

des intervalles de confiance

Dans un échantillon,on sait calculer un intervalle de confiance à 95%

Intérêt des tests

• Les tests servent à extrapoler les résultats observés sur des échantillons à l’ensemble des populations dont ils sont issus +++

– Échantillon : image ponctuelle

• Intérêt majeur des tests :– Économie de moyens +++– En permettant de déceler des différences sur un

nombre réduit d’observations

Principe des tests de comparaison

• Principe général : Regarder si la différence qu’on observe dans un échantillon est due au hasard ou si au contraire cette différence est telle qu’il est fort peu probable de l’observer par hasard

• 2 hypothèses sont posées :– Hypothèse nulle = « il n’y a pas de différence »– Hypothèse alternative = « il y a une différence »(dans la population à laquelle on veut généraliser le

résultat)


• Illustration : vous pariez à pile ou face avec un ami, il vous tend une pièce.

– Hypothèse nulle H0 : la pièce n’est pas faussée, et j’ai une chance sur deux de gagner P(joueur 1 gagne) = P(joueur 2 gagne)

– Hypothèse alternative H1 : la pièce est faussée, un des joueurs à une probabilité plus élevée de gagner que l’autre joueur : P(joueur 1 gagne) P(joueur 2 gagne)



– Au premier essai, vous perdez Vous pensez que vous n’avez pas eu de chance cette

fois ci, vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise.



– Au premier essai, vous perdez Vous pensez que vous n’avez pas eu de chance cette fois ci,

vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise.

– Au deuxième essai, vous perdez à nouveau Vous pensez que vous n’avez vraiment pas de chance, vous ne

remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise.



– Au premier essai, vous perdez Vous pensez que vous n’avez pas eu de chance cette fois ci,

vous ne remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise.

– Au deuxième essai, vous perdez à nouveau Vous pensez que vous n’avez vraiment pas de chance, vous ne

remettez pas en cause l’hypothèse nulle selon laquelle la pièce n’est pas faussée, et vous acceptez de refaire une partie en espérant rattraper la mise.

– Vous continuez à jouer, vous perdez 5 fois de suite. Vous commencez à avoir de sérieux doute et à remettre en

cause la validité de l’hypothèse nulle selon laquelle la pièce n’est pas faussée



– Au bout du 10ème essai, vous avez perdu 10 fois de suite, vous décider d’arrêter de jouer,

la probabilité que la pièce ne soit pas faussée (que l’hypothèse nulle soit vraie) est trop faible : vous rejetez cette hypothèse et acceptez l’hypothèse alternative H1 (la pièce est faussée)

vous prenez le risque de vous fâcher avec votre ami (le risque de se fâcher alors que la pièce était en réalité normale est devenu beaucoup trop faible).

Il y a un seuil à partir duquel, on décide de rejeter l’hypothèse nulle

2éme Exemple :

La prévalence du diabète est-elle supérieure chez les sujets en surcharge pondérale par rapport aux sujets de poids normal ?

Sondage dans la population cible pour obtenir un échantillon représentatif.

Exemple d’utilisation d’un test

Principe général des tests de comparaison : Regarder si la différence qu’on observe dans un échantillon est due au hasard ou si au contraire cette différence est telle qu’il est fort peu probable de l’observer par hasard

Hypothèse nulle H0 :

La prévalence du diabète dans la population cible est identique parmi les sujets de poids normal et parmi les sujets en surcharge pondérale.

P1 = P0 ou D = P1 – P0 = 0

Hypothèse alternative H1 :

La prévalence du diabète dans la population cible est différente parmi les sujets de poids normal et parmi les sujets en surcharge pondérale.

P1 P0 ou D = P1 – P0 0

Si l’échantillon est de taille suffisante et représentatif :

- sous H0 : d = p1 – p0 devrait être petite

- sous H1 : d = p1 – p0 devrait être grande

On réalise un test statistique pour savoir si d peut être considérée comme grande (significativement différente de 0).

Autrement dit on réalise un test statistique pour savoir s’il est vraisemblable de rejeter l’hypothèse nulle.

Population cible

échantillon

Conclusion vraie Conclusion fausse

Conclusion vraieConclusion fausse

absence de différence

D = 0

existence d’une différence

D 0

d petite

d grande

Il y a toujours un risque de se tromper dans notre conclusion => risque d’erreur

Risque de première espèce ( seuil de significative p) :Probabilité de rejeter à tort l’hypothèse nulle (probabilité de conclure à tord à l’existence d’une différence entre les groupes).

Risque de seconde espèce :Probabilité de conserver à tort l’hypothèse nulle (probabilité de conclure à tord à l’absence de différence entre les groupes).

Puissance du test :Probabilité de mettre en évidence une différence qui existe vraiment entre les groupes : Puissance = 1 -

Population cible

échantillon

Conclusion vraie

1 -

Conclusion fausse

Conclusion vraie

1 -

Conclusion fausse

absence de différence

D = 0

existence d’une différence

D 0

d petite

test non significatif

d grande

test significatif

Un test significatif permet de conclure à l’existence d’une différence.

Un test non significatif ne permet pas d’exclure l’existence d’une différence.

Le classement en « d petite »ou « d grande » se fait à partir de la p-value (degré de signification) du test :Si p < , on considère que d est petite

II. Principaux types d’enquêtes

Une enquête est une opération qui consiste à recueillir de l’information, puis à l’analyser en vue de résoudre une ou plusieurs questions spécifiée(s) à l’avance.

Enquêtes exhaustives (sur l’ensemble de la population)

Enquête sur échantillon (obtenu par sondage)

Principaux types d’enquêtes

descriptives enquêtes transversales cohortes non comparatives

analytiques enquêtes transversales enquêtes cas - témoins enquêtes de cohorte(« exposés - non exposés » ou « longitudinale »)

L’exposition n’est pas contrôlée par l’investigateur

Enquêtes d’observation

L’exposition est contrôlée par l’investigateur

Enquêtes expérimentales

randomisées essais cliniques phase III

non randomisées

essais cliniques phase I et II enquêtes avant - après

La vie du médicament

découverte d’une molécule

études pré-cliniques (animal)

phase I (volontaires sain)

phase II (volontaires malades)

phase III (volontaires malades : essais comparatifs)

Autorisation de Mise sur le Marché (A.M.M.)

Phase IV

(pharmacovigilance, pharmaco-épidémiologie, pharmaco-économie)

pharmacologie clinique

8 –

12 a

ns

Essais cliniques


Essais cliniques

Essais non randomisés :

- Phase I : étude de la première administration chez l’homme- volontaires sains, - évaluation des effets indésirables => sécurité - et effets pharmacodynamiques

-Phase II : étude de l’efficacité pharmacologique- volontaires malades- pharmacologie (posologie efficace, dose-effet)- pharmacocinétique


Principes méthodologiques des essais de phase III

1. principe de comparaison

par rapport à un placebo

ou par rapport à un médicament de référence

indispensable pour distinguer l’efficacité du médicament de l’évolution naturelle de la maladie


Objectif : évaluer l’efficacité thérapeutique d’une intervention

2. principe du tirage au sort (randomisation)

La répartition des sujets dans chaque groupe se fait par tirage au sort.

indispensable pour assurer la comparabilité des deux groupes

les groupes sont comparables en tout point, sauf pour l’attribution du traitement



3. principe du double aveugle

Le patient ne sait pas s’il prend le placebo ou le traitement testé.

Le médecin ne le sait pas non plus.

indispensable pour maintenir la comparabilité des groupes au cours de l’étude




Enquête d’observation transversale

temps

Exposition ?

Maladie ?

Au moment de l’enquête, on recueille au même moment les informations sur la présence d’une exposition et la présence d’une maladie

Souvent : un échantillon représentatif d’une population et n’est pas sélectionné en fonction de l’exposition

ou de la maladie


Enquête d’observation transversale

Estimation de la prévalence d’une maladie

Proportion de sujets atteints d’une maladie dans une population à un instant donné t.

P = M

M + NP : prévalence de la maladie dans la population à l’instant t

M : nombre de malades dans la population à l’instant t

N : nombre de non malades dans la population à l’instant t

effectif total de la population à

l’instant t


Enquête d’observation longitudinale = Enquête de cohorte

Les sujets sont suivis dans le temps (on connaît les dates des évènements mesurés)

tempsExposition ?

Maladie ?

Début d’étude : Recueil prospectif

Début d’étude : Recueil rétrospectif (cohorte « historique »)



Parfois l’inclusion des sujets au départ se fait en fonction d’une exposition dichotomique : enquête « exposé – non exposé »

tempsExposition ?

Maladie ?

Début d’étude : Recueil prospectif

Début d’étude : Recueil rétrospectif (cohorte « historique »)



On peut estimer l’incidence d’une maladie

Vitesse moyenne de production de nouveaux cas d’une maladie dans une population pendant un intervalle de temps [t; t+t].

TI = nombre de nouveaux cas sur [t; t+ t]

effectif moyen des sujets à risque sur [t; t+ t]

TI : taux d’incidence de la maladie dans la population pendant [t; t+ t]

Effectif moyen des sujets à risque sur [t; t+ t] :2

Nt + Nt+ t



On peut calculer le risque relatif (RR) : comparer les taux d’incidence entre différentes expositions

Le risque relatif d’une exposition (par rapport à l’absence d’exposition) :

exposénon

exposés

incidence

incidenceRR



On peut calculer le risque relatif (RR) : comparer les taux d’incidence entre différentes expositions

- Si RR > 1 : le risque de maladie est augmenté chez les sujets exposés

- Si RR < 1 : le risque de maladie est diminué chez les sujets exposés

- Si RR=1 : le risque de maladie est le même chez les sujets exposés et non-exposés

exposés

non exposés

% de malades ?

% de malades ?

étude exposés - non exposés


Exemple dans une enquête exposés – non exposés, avec la même durée de suivi pour tout le monde :


Estimation d’un risque relatif de maladie

a b

c d

exposés

non exposés

malades non malades

m1 m0

n1

n0

RR = Re / Rne = Ie / Ine = (a/n1) / (c/n0)

Exemple dans une enquête exposés – non exposés, avec la même durée de suivi pour tout le monde :


Enquête cas - témoins

On va comparer la fréquence de l’exposition antérieure chez des malades (cas) et des non-malades (témoins)

tempsExposition ?

Maladie ?

Début d’étude : Sélection des malades et témoins

Recueil rétrospectif de la présenced’une exposition antérieure

cas =

malades

témoins =

sains

% d’exposés ?

étude cas - témoins

% d’exposés ?





Dans une enquête de cohorte ou une enquête transversale, la sélection ne dépend pas de la présence de la maladie :

Les exposés et non-exposés dans l’échantillon sont représentatifs des exposés et non-exposés de la population

on peut estimer le risque d’être malade chez les exposés et non exposés et calculer un risque relatif

Dans une enquête cas témoins le pourcentage de malades est choisi arbitrairement par l’investigateur :

on ne peut pas estimer le risque dans la population ni le risque relatif, il faut calculer un odds ratio (OR) = rapport de cote


Estimation d’un odds ratio de maladie

OR = [e1/(1-e1)] / [e0/(1-e0)] = ad / bc

avec e1 et e0 fréquences de l’exposition chez les malades et les non malades :

a b

c d

exposés

non exposés

malades non malades

m1 m0

n1

n0

OR = [Re/(1-Re)] / [Rne/(1-Rne)]


Indispensable ++++Avant la mise en place d’une étude : quelque soit le schéma

Toujours commencer par l’écriture du protocole d’étude :- Contexte- hypothèses à évaluer- l’objectif précis- les méthodes à mettre en œuvre :

- population (critères d’inclusion, d’exclusion)- critères de jugement- variables d’exposition- autres variables à prendre en compte- méthodes de mesures des différentes variables- calcul de l’effectif nécessaire pour répondre à l’objectif- méthodes statistiques envisagées

• Prendre en compte la variabilité +++– Variabilité biologique (entre-sujet et

intra-sujet)– Variabilité instrumentale (expérimentale,

liée à l’instrument lui-même)

variabilité biologique inter-sujet + variabilité biologique intra-sujet + variabilité instrumentale+ variabilité inter- et intra-examinateur…_____________________________

= Variabilité totale

Dernier point important pour les sciences de la vie :

la notion de variabilité

• Variabilité biologique inter-individuelle– Durée de la gestation, taille à l’âge adulte, poids

de naissance

• Variabilité biologique intra-individuelle– Cortisol, glycémie, urée, tension artérielle

• Variabilité liée à la méthode de mesure– TA chez l’obèse, mesure sur une échographie

(liée à l’appareil et au clinicien)

• Variabilité liée à l’expérimentation– Effet centre, effet placebo, environnement

Variabilité : exemples

• Rechercher une différence :

Variabilité : conséquences

Facile de montrer une différence entre les deuxmoyennes

Difficile de montrer une différence entre les deuxmoyennes

• Rechercher une corrélation :

Facile de montrer une corrélation entre les deuxvariables

Difficile de montrer une corrélation entre les deuxvariables

Documents

Initiation à la recherche clinique et épidémiologique (Les différents types denquête) Initiation à lanalyse de données (Comment présenter les données ?)