Test Statistique

Risques derreur statistique et test statistique

Origine de la problmatique

Fluctuations alatoiresObtenir pile pile ou face(Probabilit = 50%)

Fluctuations alatoiresMme type de patients(Probabilit d'AVC = 12%)

Fluctuations alatoires d'chantillonnage

Fortes pour des effectifs petits et moyens

Faibles pour des grands effectifs

Jamais nulles

Consquences pour la comparaison de 2 chantillons

les proportions observes dans 2 chantillons peuvent tre diffrentesuniquement du fait du hasardmme si dans ces 2 chantillons la vraie probabilit tait la mme

les FAE sont susceptibles de fausser les comparaisons

Consquences des fluctuationsGroupe T+Groupe T-Vrai risque = 10%Vrai risque = 10%Effet du traitement = 0Risque observ = 6%Risque observ = 12%Diffrence observe = -6%

Problmatique des comparaisonsQuand on ignore la ralit,la diffrence observe de -6% est-elle ?

une manifestation des fluctuations alatoires, donc due uniquement au hasard

la traduction dune relle diffrence entre les deux groupes, donc dun effet non nul du traitement

Comment dpartager ces 2 possibilits ?

Solution : test statistique .

But des comparaisonsQuel est le but des comparaisons ?Conclure l'existence d'une diffrenceDcider d'utiliser le nouveau traitementGrp TGrp Cdiff -6%La conclusion doit tre conforme la ralitmais elle se base uniquement sur lobserv

Effets des fluctuations dans une comparaisonLe hasard peut faire apparatre une diffrence qui n'existe pas en ralit

Inversement, le hasard peut rduire une diffrence qui existe rellement

donc 2 faons de fausser la conclusion

Risques derreur statistique

Risques de conclusions erronesDeux risques d'erreur Risque alphaRisque bta

Erreurs statistiquesdues uniquement au hasard

Erreur statistique alphaConclure l'existence d'une diffrence qui n'existe pas en ralit : faux positifVrai valeur12%chantillon 17.5%chantillon 215%Diffrencenon relle

Erreur statistique btaNe pas conclure une diffrence qui existe pourtant en ralit : faux ngatifVrai valeur12%chantillon 115%chantillon 215%Fausse absencede diffrenceVrai valeur19%

Risques d'erreur statistiquesRisque alpha : risque de conclure une diffrence qui nexiste pasRisque bta : risque de ne pas mettre en vidence une diffrence qui existe rellementPuissance : 1 - bta : probabilit de mettre en vidence une diffrence qui existe rellement

Application lessai thrapeutiqueRisque alpha : considrer comme efficace un traitement qui ne lest pasRisque bta : ne pas conclure alors que le traitement est efficace Puissance : montrer lefficacit dun traitement rellement efficace

Erreur alphaErreur btaDiffrencePas de diffrenceDiffrencePas de diffrenceRalitConclusion

Tests statistiquesOutils d'aide la dcision

Principeconclure une diffrenceque si le risque de faire une erreur (de premire espce) est faible

Quantification du risque d'erreur alpha partir des donnes disponibles

(Risque de commettre une erreur alpha = risque alpha)

Principe gnralp1 = 7%p0 = 13%Quelle est la probabilit de commettre une erreursi je conclus partir de ces donnes l'existence d'une relle diffrenceProbabilit faibleConclusionProbabilit fortePas de conclusionConclure l'existence d'une diffrence que si le risque de faire une conclusion errone est faible

Dmarche du test statistiqueCalcul de la probabilit pp : probabilit que "la diffrence observe soit due uniquement au hasard"p reprsente le risque de faire une conclusion errone si l'on dcidait de conclurep est une quantification du risque alphaOn ne conclut que si ce risque d'erreur est suffisamment petit

Seuil de risqueSeuil de risque de conclusion errone acceptableseuil de risque alpha = 5%

p < 5%on prend le risque de conclurep > 5%on ne conclut pas

< ou ?

Signification statistiqueDiffrence observeTestSeuil de signification statistique

Le test statistique est un moyenqui autorise conclure l'existence d'une diffrenceque si le risque de commettre une erreur est faible

Risque d'erreur faible = 5% (en gnral)seuil de dcisionContrle du risque alphamais le risque d'erreurs alpha persiste100 essais avec un traitement sans efficacitconclusion tort l'efficacit dans 5 essais

Ralisation du testCalcul partir des donnes de la probabilit de commettre une erreur alpha = pp1 = 7%p0 = 13%p = 0.04p

P < 0.05En concluant l'efficacit, on prend un risque de 5% de faire une conclusion errone

5% est un risque d'erreur leven pratique 2 essais significatifsrisque = 5% * 5% = 2.5/1000

Disparition du risque d'erreur btaLe risque bta est incalculableImpossible de quantifier le risque d'erreur quand on fait une conclusion d'absence de diffrenceil est donc impossible de faire ce type de conclusionles tests permettent seulement de conclure l'existence d'une diffrence en cas de diffrence non significationimpossible de conclureet ne permet surtout pas de conclure l'absence de diffrence vu que le risque d'erreur est inconnu"l'absence de preuve n'est pas la preuve de l'absence"

Diffrence non significative

Impossible de conclureNe pas conclure labsence de diffrenceLabsence de preuve nest pas la preuve de labsenceRsultatnon significatifAbsence relle d'effetManque de puissance?

Michel Cucherat - Service de Pharmacologie Clinique - Lyon

OBJECTIF : Evaluer lefficacit dune injection unique de tobramycine (T) chez des patientes traites pour une pylonphrite aigu noncomplique par de la ciprofloxacine (CIP) (500 mg 2 fois par jourper os).RSULTATS : Cent dix huit patientes ont t inclues, 60 dans le groupetobramycine et 58 dans le groupe placebo. E. coli a t isol de faonprdominante et tous les germes isols taient sensibles la ciprofloxacineRSULTATS : Cent dix huit patientes ont t inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. E. coli a t isol de faon prdominante et tous les germes isols taient sensibles la ciprofloxacine et la tobramycine. Deux checs sont survenus dans le groupe CIP + T et 4 dans le groupe CIP + P (non significatif).CONCLUSION : Ladministration dune dose de tobramycine namliore aucun paramtre clinique dans le traitement des pylonphrites aigus non compliques traites par de la ciprofloxacine par voie orale.

Dualit entre test et intervalle de confiance

dfinition des ICIntervalle qui a 95% de chance de contenir la vraie valeur

il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%)

il est peu probable (prob 5%)que la vraie valeur soit > bsou que la vraie valeur soit < biil est donc peu raisonnable de parier que la vraie valeur soit l'extrieur de l'IC

Intervalle de confianceDiffrence = -6%IC 95% = [-8%;-4%]Lintervalle [-8%;-4%] 95% de chance de contenir la vraie valeur de la diffrencereflte l'incertitude de l'estimation Il n'est pas possible d'exclure que le vrai effet ne soit que de -4%situation la pireefficacit plus faible que les -6% de l'estimation ponctuelle

Ensemble des valeurs non statistiquement diffrentes du rsultats

Relation entre IC et testIC dune diffrence n'incluant pas 0[-10% ; -4%]

la probabilit davoir ce type dintervalle si la vraie valeur est zero est

Diffrence0P

Pertinence cliniqueSignification statistique pertinence clinique

Rduction de mortalit de 25% 12%, p

Prsentation thorique

Thorie des tests d'hypothses

Hypothse nulleH0 : p1 - p0 = 0(p1 = p0)(le traitement n'a pas d'effet)Hypothse alternativeH1 : p1 - p0 0(p1 p0)(le traitement un effet)

Test statistique =retenir une de ces 2 hypothsesen fonction des donnes recueillies

Risques d'erreur alpha et bta

= Prob[ accepter H1 alors que H0 est vraie ]

= Prob[ accepter H0 alors que H1 est vraie ]RappelH0 : p1 = p0H1 : p1 p0

Calcul de pp = prob [ d'observer une diffrence au moins aussi importante que ce que l'on a observ alors que H0 est vraie ]

soit z = p1 - p0 la diffrence entre les 2 prop. p1 et p0si H0 est vraie, z suit une loi normale (si n grand)moyenne 0 (H0)cart type

Principe du test : calculer la probabilit d'observer dans ce cas une diffrence au moins aussi grande que celle qui a t effectivement observe (par exemple 7% - 13% = -6%)

zf(x)0z observ-6%p = surface sous la courbePr(Z -6%)Distribution de Z sous l'hypothses nulle

Graph3

0.0044318484

0.0090935625

0.0175283005

0.0317396518

0.0539909665

0.0862773188

0.1295175957

0.1826490854

0.2419707245

0.3011374322

0.3520653268

0.3866681168

0.3989422804

0.3866681168

0.3520653268

0.3011374322

0.2419707245

0.1826490854

0.1295175957

0.0862773188

0.0539909665

0.0317396518

0.0175283005

0.0090935625

0.0044318484

Feuil1

-30.0044318484

-2.750.0090935625

-2.50.0175283005

-2.250.0317396518

-20.0539909665

-1.750.0862773188

-1.50.1295175957

-1.250.1826490854

-10.2419707245

-0.750.3011374322

-0.50.3520653268

-0.250.3866681168

00.3989422804

0.250.3866681168

0.50.3520653268

0.750.3011374322

10.2419707245

1.250.1826490854

1.50.1295175957

1.750.0862773188

20.0539909665

2.250.0317396518

2.50.0175283005

2.750.0090935625

30.0044318484

Feuil1

Feuil2

Feuil3

p quantifie le degr de dsaccord entre l'hypothse nulle et ce qui a t observ

Rejet de l'hypothse nulle H0Autre faon de raliser un test

But du test rejeter H0 ( p1 - p0 = 0 )pour accepter H1 ( p1 - p0 0 )

rejeter H0 conclusion = diff. significativene pas rejeter H0 conclusion = diff. non significative

sans valuation prcise du p

Limites de rejetvaleurs de dcision pour le rejet de H0valeurs de diffrences observesnotes L (et -L) Diff observe0-LLPAS de rejet de H0RejetRejet

L est dtermin par le seuil choisi (5%)par dfinition = Prob [conclure si H0]Prob [ diff. observe L si H0] =

L dfini les diffrences qui ont une probabilit faible d'tre observes sous l'hypothse nulle

-LLDiffrence z2.5%2.5%

Graph3

0.0044318484

0.0090935625

0.0175283005

0.0317396518

0.0539909665

0.0862773188

0.1295175957

0.1826490854

0.2419707245

0.3011374322

0.3520653268

0.3866681168

0.3989422804

0.3866681168

0.3520653268

0.3011374322

0.2419707245

0.1826490854

0.1295175957

0.0862773188

0.0539909665

0.0317396518

0.0175283005

0.0090935625

0.0044318484

Feuil1

-30.0044318484

-2.750.0090935625

-2.50.0175283005

-2.250.0317396518

-20.0539909665

-1.750.0862773188

-1.50.1295175957

-1.250.1826490854

-10.2419707245

-0.750.3011374322

-0.50.3520653268

-0.250.3866681168

00.3989422804

0.250.3866681168

0.50.3520653268

0.750.3011374322

10.2419707245

1.250.1826490854

1.50.1295175957

1.750.0862773188

20.0539909665

2.250.0317396518

2.50.0175283005

2.750.0090935625

30.0044318484

Feuil1

Feuil2

Feuil3

L = 1.96 ( = cart type de la diffrence)-1.96 1.96 x95 %Loi normale N(0,)0Rappel

Graph3

0.0044318484

0.0090935625

0.0175283005

0.0317396518

0.0539909665

0.0862773188

0.1295175957

0.1826490854

0.2419707245

0.3011374322

0.3520653268

0.3866681168

0.3989422804

0.3866681168

0.3520653268

0.3011374322

0.2419707245

0.1826490854

0.1295175957

0.0862773188

0.0539909665

0.0317396518

0.0175283005

0.0090935625

0.0044318484

Feuil1

-30.0044318484

-2.750.0090935625

-2.50.0175283005

-2.250.0317396518

-20.0539909665

-1.750.0862773188

-1.50.1295175957

-1.250.1826490854

-10.2419707245

-0.750.3011374322

-0.50.3520653268

-0.250.3866681168

00.3989422804

0.250.3866681168

0.50.3520653268

0.750.3011374322

10.2419707245

1.250.1826490854

1.50.1295175957

1.750.0862773188

20.0539909665

2.250.0317396518

2.50.0175283005

2.750.0090935625

30.0044318484

Feuil1

Feuil2

Feuil3

Exemple 1diff. observe z = -5%L = 7% pour alpha=5% (-L = -7%)pas de rejet de H0 Exemple 2diff. observe z = 12%L = 7% rejet de H0 conclusion : diff. significative au seuil de 5%Exemple 3diff. observe z = -4%L = 2% (-L = -2%) rejet de H0 conclusion : diff. significative au seuil de 5%

Possibilit de diff. significative aussi bien en cas de :diffrence positive (p1 > p0)diffrence ngative (p1 < p0)

Test bilatral

Comparaison des 2 approchesRejet de l'hypothse nullecalcul de Lsi diff. observe L rejet de h0 diff significativesi -L < diff observe < L pas de rejet de H0 diff non significative

Calcul de psi p0.05 diff. non significative

L dpend dealphap1 p0n1 n0

p dpend de diffrence observep1 p0n1 n0cart type de la diffrence (erreur standard)cart type de la diffrence (erreur standard)

Exemple : Diff. Observe = -5%approche par rejet de H0 conclusion : diff. Significativele risque d'erreur encouru en concluant la diffrence est < 5%approche par calcul de p rsultat : p = 0.03prob de cette diff. soit due uniquement au hasard est de 0.03le risque d'erreur encouru en concluant la diffrence est de 3%

RsumErreur alphatype d'erreur statistiqueRisque alpharisque de commettre une erreur alpha Seuil de la signification statistiquevaleur de risque alpha consentien gnral 5%p quantification partir des donnes observes du risque alpha

Erreurs d'interprtationp nest pas la prob. de lhypothse nullep est la prob. dobtenir le rsultat observ si H0 est vraie

p nest pas la prob. que le ttt. nait pas deffetp est la prob. dobtenir le rsultat qui a t observ si le ttt. est en ralit inefficace

"obtenir le rsultat observ" = obtenir une diff. au moins aussi importante que le rsultat observcf. dfinition de prappel : avec une VA continue, la prob d'une valeur est nulle

Bilatral / unilatralValeur de la diffrence0traitement A > traitement Btraitement A < traitement BDiffrence non significativeDiffrence non significativeDiff. significativeDiff. significativeDiff. significativeTest unilatralTest bilatral

ConsquencesUn rsultat NS en bilatral peut tre significatif en unilatralpas de choix a posteriori

Rptitions des tests statistiques

Rptition des testsPlusieurs tests raliss pour rpondre une mme questionpar exemple plusieurs critre de jugementConclusion un effet partir du moment o il existe au moins un test significatifLe risque a de la conclusion est bien suprieure 5%Inflation du risque alpha

Rappel, avec un ttt. sans effet,sur 100 tests, il y en aura 5 significatifs (en moyenne)

Conclusion1 test Contrle parfait du risque alpha (5%)ConclusionLe risque de conclure tort est > 5%(seuil de 5%)A partir du moment o au moins 1 test est significatif

Comparaisons multiplesGlobalement, le risque de conclure tort une diffrence lors de ces 4 comparaisons est bien plus important que 5%. Aux ds, la probabilit dobtenir un six est plus forte avec 3 ds quavec un seul

Comparaisons multiplesAvec un traitement sans efficaciten faisant 10 tests statistiques (p.e. 10 essais)nous avons 40% de risque de faire au moins une conclusion ( tort)

Nb de tests

Risque alpha global

5

0.23

10

0.40

20

0.64

50

0.92

Critres de jugementAspirine pour la prvention des vnements cardiovasculairesCritres de jugementmortalit totalevnements cardiovasculaires mortels ou non mortelsDC cardiovasculairesMort subiteInfarctusAccident vasculaire crbrauxInterventions de revascularisationRisque alpha de conclure tort l'efficacit ?

Critre de jugement principalCritre principalDcs de toute causeCritres secondairesDcs cardiovasculaireMort subiteInfarctusAccident vasculaire crbrauxChirurgieDcs de toute causeDcs cardiovasculaireMort subiteInfarctusAccident vasculaire crbrauxChirurgie

Critre principalConclusion que si le critre principal est significatifCritres secondaires : explicatifs

Multiplicit des critres de jugement - ExempleIn women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Wardstriangle in the 6069 y group, and upper and total radius in the 7079 y group.

Autres situations de rptition des testsmesures rptes au cours du temps

Analyse en sous-groupes - Essai non concluantEssai 0.92NS

1Age750.95NS

3Hommes0.92NS4Femmes0.99NS

5Antcdents d'infarctus0.87NS6Pas d'antcdents d'infarctus1.03NS

7Prise d'aspirine0.78p

Limites- Multiplicit des tests1Age75test 2risque erreur 5%

3Hommestest 3 risque erreur 5%4Femmestest 4 risque erreur 5%

5Antcdents d'infarctustest 5 risque erreur 5%6Pas d'ATCD d'infarctustest 6 risque erreur 5%

7Prise d'aspirinetest 7 risque erreur 5%8Pas d'aspirinetest 8 risque erreur 5%

Analyses en sous groupes - Essai concluantEssai 0.78p

Analyses intermdiairesen cours dessai, avant que tous les patients prvus aient t recruts et/ou avant la fin de la priode de suivi initialement prvue

But arrter prmaturmentpour efficacitpour toxicitpour futilit

Ajustement du seuil de significationMthode de BonferroniPour k comparaisons, le seuil ajust est:Pour k=3, saj = 5% / 3 = 1.67%Quand est petit,

Donc pour conserver un risque alpha global de 5%:

Inconvnient: fait lhypothse dune stricte indpendance des variables testes mthode conservatrice

Ajustement du seuil de signification - 2Mthode de Tukey

Pour k=3, saj = 5% / 1.73 = 2.89%

Cas 13 analyses intermdiaires + 1 analyse finale = 4 comparaisons

Arrt prmatur de lessai

Analyse intermdiaire

Analysefinale

1

2

3

p=0.10

p=0.011

Cas 2Pas darrt prmatur mais conclusion lefficacit


Analysefinale

1

2

3

p=0.25

p=0.08

p=0.04

p=0.01

Cas 3Pas darrt prmatur et rsultat non significatif (p=4%>saj)


Analysefinale

1

2

3

p=0.42

p=0.28

p=0.12

p=0.04

Cas 4Rsultat non significatif


Analysefinale

1

2

3

P=0.89

p=0.48

p=0.25

p=0.10

Conclusion essai 1pas de dmonstration de l'efficacitConclusion essai 2dmonstration de l'efficacit de manire statistiquement significative (p

Catalogue des tests statistiques

Taille de lchantillonAvec les chantillons de grandes taillesles distributions desmoyennesproportionsdiffrence de moyennediffrence de proportionssont des distributions normales--> calcul simple de p et des IC

Avec les chantillons de petites tailles (n

Variable continueDonnes : distribution normalemoyenne : distribution normale qq soit nDonnes : distribution quelconque symtriquemoyenne : distribution normale qq n>30Donnes : distribution quelconquemoyenne : distribution normale qq n>100Variable binaireproportion : distribution normale qd n>30

Sries statistiques apparies2 sries statistiques provenant de l'observation des mmes sujets (units statistiques)2 mthodes de dosage de la glycmie A et B

les 2 mthodes sont appliques aux mmes sujetspour chaque patient : 2 valeurs, une avec chaque mthode= 2 sries apparies

2 groupes de patients diffrentsmthode A utilise avec le 1er grpmthode B utilise avec le 2e grp= 2 sries non apparies

Catalogue des tests statistiquesLe test utilis doit tre prcis avec le rsultat

Un test pour chaque situation dfinie par :

type de la variable (continue, binaire)

petit ou grand effectif

sries apparies ou non

Var. continues (comparaison des moyennes)

Sries non appariesgrand effectiftest t (test de Student), Test z test non paramtriqueTest de Wilcoxon (Mann-Whitney)

Sries appariesgrand effectiftest t pour sries apparies (Student pour sries apparies)test non paramtriqueTest de Wilcoxon pour sries apparies

Var. binaires (comparaison des proportions)

Sries non appariesgrand effectifChi 2 ( )test non paramtriqueTest exact de Fisher

Sries appariestest de McNemar

Var. qualitative plusieurs modalitsidem var. binaires

Documents

Test Statistique