Upload
christian-godart
View
235
Download
3
Embed Size (px)
DESCRIPTION
petite presentation sur les tests
Citation preview
Risques derreur statistique et test statistique
Origine de la problmatique
Fluctuations alatoiresObtenir pile pile ou face(Probabilit = 50%)
Fluctuations alatoiresMme type de patients(Probabilit d'AVC = 12%)
Fluctuations alatoires d'chantillonnage
Fortes pour des effectifs petits et moyens
Faibles pour des grands effectifs
Jamais nulles
Consquences pour la comparaison de 2 chantillons
les proportions observes dans 2 chantillons peuvent tre diffrentesuniquement du fait du hasardmme si dans ces 2 chantillons la vraie probabilit tait la mme
les FAE sont susceptibles de fausser les comparaisons
Consquences des fluctuationsGroupe T+Groupe T-Vrai risque = 10%Vrai risque = 10%Effet du traitement = 0Risque observ = 6%Risque observ = 12%Diffrence observe = -6%
Problmatique des comparaisonsQuand on ignore la ralit,la diffrence observe de -6% est-elle ?
une manifestation des fluctuations alatoires, donc due uniquement au hasard
la traduction dune relle diffrence entre les deux groupes, donc dun effet non nul du traitement
Comment dpartager ces 2 possibilits ?
Solution : test statistique .
But des comparaisonsQuel est le but des comparaisons ?Conclure l'existence d'une diffrenceDcider d'utiliser le nouveau traitementGrp TGrp Cdiff -6%La conclusion doit tre conforme la ralitmais elle se base uniquement sur lobserv
Effets des fluctuations dans une comparaisonLe hasard peut faire apparatre une diffrence qui n'existe pas en ralit
Inversement, le hasard peut rduire une diffrence qui existe rellement
donc 2 faons de fausser la conclusion
Risques derreur statistique
Risques de conclusions erronesDeux risques d'erreur Risque alphaRisque bta
Erreurs statistiquesdues uniquement au hasard
Erreur statistique alphaConclure l'existence d'une diffrence qui n'existe pas en ralit : faux positifVrai valeur12%chantillon 17.5%chantillon 215%Diffrencenon relle
Erreur statistique btaNe pas conclure une diffrence qui existe pourtant en ralit : faux ngatifVrai valeur12%chantillon 115%chantillon 215%Fausse absencede diffrenceVrai valeur19%
Risques d'erreur statistiquesRisque alpha : risque de conclure une diffrence qui nexiste pasRisque bta : risque de ne pas mettre en vidence une diffrence qui existe rellementPuissance : 1 - bta : probabilit de mettre en vidence une diffrence qui existe rellement
Application lessai thrapeutiqueRisque alpha : considrer comme efficace un traitement qui ne lest pasRisque bta : ne pas conclure alors que le traitement est efficace Puissance : montrer lefficacit dun traitement rellement efficace
Erreur alphaErreur btaDiffrencePas de diffrenceDiffrencePas de diffrenceRalitConclusion
Tests statistiquesOutils d'aide la dcision
Principeconclure une diffrenceque si le risque de faire une erreur (de premire espce) est faible
Quantification du risque d'erreur alpha partir des donnes disponibles
(Risque de commettre une erreur alpha = risque alpha)
Principe gnralp1 = 7%p0 = 13%Quelle est la probabilit de commettre une erreursi je conclus partir de ces donnes l'existence d'une relle diffrenceProbabilit faibleConclusionProbabilit fortePas de conclusionConclure l'existence d'une diffrence que si le risque de faire une conclusion errone est faible
Dmarche du test statistiqueCalcul de la probabilit pp : probabilit que "la diffrence observe soit due uniquement au hasard"p reprsente le risque de faire une conclusion errone si l'on dcidait de conclurep est une quantification du risque alphaOn ne conclut que si ce risque d'erreur est suffisamment petit
Seuil de risqueSeuil de risque de conclusion errone acceptableseuil de risque alpha = 5%
p < 5%on prend le risque de conclurep > 5%on ne conclut pas
< ou ?
Signification statistiqueDiffrence observeTestSeuil de signification statistique
Le test statistique est un moyenqui autorise conclure l'existence d'une diffrenceque si le risque de commettre une erreur est faible
Risque d'erreur faible = 5% (en gnral)seuil de dcisionContrle du risque alphamais le risque d'erreurs alpha persiste100 essais avec un traitement sans efficacitconclusion tort l'efficacit dans 5 essais
P < 0.05En concluant l'efficacit, on prend un risque de 5% de faire une conclusion errone
5% est un risque d'erreur leven pratique 2 essais significatifsrisque = 5% * 5% = 2.5/1000
Disparition du risque d'erreur btaLe risque bta est incalculableImpossible de quantifier le risque d'erreur quand on fait une conclusion d'absence de diffrenceil est donc impossible de faire ce type de conclusionles tests permettent seulement de conclure l'existence d'une diffrence en cas de diffrence non significationimpossible de conclureet ne permet surtout pas de conclure l'absence de diffrence vu que le risque d'erreur est inconnu"l'absence de preuve n'est pas la preuve de l'absence"
Diffrence non significative
Impossible de conclureNe pas conclure labsence de diffrenceLabsence de preuve nest pas la preuve de labsenceRsultatnon significatifAbsence relle d'effetManque de puissance?
Michel Cucherat - Service de Pharmacologie Clinique - Lyon
OBJECTIF : Evaluer lefficacit dune injection unique de tobramycine (T) chez des patientes traites pour une pylonphrite aigu noncomplique par de la ciprofloxacine (CIP) (500 mg 2 fois par jourper os).RSULTATS : Cent dix huit patientes ont t inclues, 60 dans le groupetobramycine et 58 dans le groupe placebo. E. coli a t isol de faonprdominante et tous les germes isols taient sensibles la ciprofloxacineRSULTATS : Cent dix huit patientes ont t inclues, 60 dans le groupe tobramycine et 58 dans le groupe placebo. E. coli a t isol de faon prdominante et tous les germes isols taient sensibles la ciprofloxacine et la tobramycine. Deux checs sont survenus dans le groupe CIP + T et 4 dans le groupe CIP + P (non significatif).CONCLUSION : Ladministration dune dose de tobramycine namliore aucun paramtre clinique dans le traitement des pylonphrites aigus non compliques traites par de la ciprofloxacine par voie orale.
Dualit entre test et intervalle de confiance
dfinition des ICIntervalle qui a 95% de chance de contenir la vraie valeur
il est raisonnable de parier que la vraie valeur est dans l'intervalle (prob de 95%)
il est peu probable (prob 5%)que la vraie valeur soit > bsou que la vraie valeur soit < biil est donc peu raisonnable de parier que la vraie valeur soit l'extrieur de l'IC
Intervalle de confianceDiffrence = -6%IC 95% = [-8%;-4%]Lintervalle [-8%;-4%] 95% de chance de contenir la vraie valeur de la diffrencereflte l'incertitude de l'estimation Il n'est pas possible d'exclure que le vrai effet ne soit que de -4%situation la pireefficacit plus faible que les -6% de l'estimation ponctuelle
Ensemble des valeurs non statistiquement diffrentes du rsultats
Relation entre IC et testIC dune diffrence n'incluant pas 0[-10% ; -4%]
la probabilit davoir ce type dintervalle si la vraie valeur est zero est
Pertinence cliniqueSignification statistique pertinence clinique
Rduction de mortalit de 25% 12%, p
Prsentation thorique
Thorie des tests d'hypothses
Hypothse nulleH0 : p1 - p0 = 0(p1 = p0)(le traitement n'a pas d'effet)Hypothse alternativeH1 : p1 - p0 0(p1 p0)(le traitement un effet)
Test statistique =retenir une de ces 2 hypothsesen fonction des donnes recueillies
Risques d'erreur alpha et bta
= Prob[ accepter H1 alors que H0 est vraie ]
= Prob[ accepter H0 alors que H1 est vraie ]RappelH0 : p1 = p0H1 : p1 p0
Calcul de pp = prob [ d'observer une diffrence au moins aussi importante que ce que l'on a observ alors que H0 est vraie ]
soit z = p1 - p0 la diffrence entre les 2 prop. p1 et p0si H0 est vraie, z suit une loi normale (si n grand)moyenne 0 (H0)cart type
Principe du test : calculer la probabilit d'observer dans ce cas une diffrence au moins aussi grande que celle qui a t effectivement observe (par exemple 7% - 13% = -6%)
zf(x)0z observ-6%p = surface sous la courbePr(Z -6%)Distribution de Z sous l'hypothses nulle
Graph3
0.0044318484
0.0090935625
0.0175283005
0.0317396518
0.0539909665
0.0862773188
0.1295175957
0.1826490854
0.2419707245
0.3011374322
0.3520653268
0.3866681168
0.3989422804
0.3866681168
0.3520653268
0.3011374322
0.2419707245
0.1826490854
0.1295175957
0.0862773188
0.0539909665
0.0317396518
0.0175283005
0.0090935625
0.0044318484
Feuil1
-30.0044318484
-2.750.0090935625
-2.50.0175283005
-2.250.0317396518
-20.0539909665
-1.750.0862773188
-1.50.1295175957
-1.250.1826490854
-10.2419707245
-0.750.3011374322
-0.50.3520653268
-0.250.3866681168
00.3989422804
0.250.3866681168
0.50.3520653268
0.750.3011374322
10.2419707245
1.250.1826490854
1.50.1295175957
1.750.0862773188
20.0539909665
2.250.0317396518
2.50.0175283005
2.750.0090935625
30.0044318484
Feuil1
Feuil2
Feuil3
p quantifie le degr de dsaccord entre l'hypothse nulle et ce qui a t observ
Rejet de l'hypothse nulle H0Autre faon de raliser un test
But du test rejeter H0 ( p1 - p0 = 0 )pour accepter H1 ( p1 - p0 0 )
rejeter H0 conclusion = diff. significativene pas rejeter H0 conclusion = diff. non significative
sans valuation prcise du p
Limites de rejetvaleurs de dcision pour le rejet de H0valeurs de diffrences observesnotes L (et -L) Diff observe0-LLPAS de rejet de H0RejetRejet
L est dtermin par le seuil choisi (5%)par dfinition = Prob [conclure si H0]Prob [ diff. observe L si H0] =
L dfini les diffrences qui ont une probabilit faible d'tre observes sous l'hypothse nulle
-LLDiffrence z2.5%2.5%
Graph3
0.0044318484
0.0090935625
0.0175283005
0.0317396518
0.0539909665
0.0862773188
0.1295175957
0.1826490854
0.2419707245
0.3011374322
0.3520653268
0.3866681168
0.3989422804
0.3866681168
0.3520653268
0.3011374322
0.2419707245
0.1826490854
0.1295175957
0.0862773188
0.0539909665
0.0317396518
0.0175283005
0.0090935625
0.0044318484
Feuil1
-30.0044318484
-2.750.0090935625
-2.50.0175283005
-2.250.0317396518
-20.0539909665
-1.750.0862773188
-1.50.1295175957
-1.250.1826490854
-10.2419707245
-0.750.3011374322
-0.50.3520653268
-0.250.3866681168
00.3989422804
0.250.3866681168
0.50.3520653268
0.750.3011374322
10.2419707245
1.250.1826490854
1.50.1295175957
1.750.0862773188
20.0539909665
2.250.0317396518
2.50.0175283005
2.750.0090935625
30.0044318484
Feuil1
Feuil2
Feuil3
L = 1.96 ( = cart type de la diffrence)-1.96 1.96 x95 %Loi normale N(0,)0Rappel
Graph3
0.0044318484
0.0090935625
0.0175283005
0.0317396518
0.0539909665
0.0862773188
0.1295175957
0.1826490854
0.2419707245
0.3011374322
0.3520653268
0.3866681168
0.3989422804
0.3866681168
0.3520653268
0.3011374322
0.2419707245
0.1826490854
0.1295175957
0.0862773188
0.0539909665
0.0317396518
0.0175283005
0.0090935625
0.0044318484
Feuil1
-30.0044318484
-2.750.0090935625
-2.50.0175283005
-2.250.0317396518
-20.0539909665
-1.750.0862773188
-1.50.1295175957
-1.250.1826490854
-10.2419707245
-0.750.3011374322
-0.50.3520653268
-0.250.3866681168
00.3989422804
0.250.3866681168
0.50.3520653268
0.750.3011374322
10.2419707245
1.250.1826490854
1.50.1295175957
1.750.0862773188
20.0539909665
2.250.0317396518
2.50.0175283005
2.750.0090935625
30.0044318484
Feuil1
Feuil2
Feuil3
Exemple 1diff. observe z = -5%L = 7% pour alpha=5% (-L = -7%)pas de rejet de H0 Exemple 2diff. observe z = 12%L = 7% rejet de H0 conclusion : diff. significative au seuil de 5%Exemple 3diff. observe z = -4%L = 2% (-L = -2%) rejet de H0 conclusion : diff. significative au seuil de 5%
Possibilit de diff. significative aussi bien en cas de :diffrence positive (p1 > p0)diffrence ngative (p1 < p0)
Test bilatral
Comparaison des 2 approchesRejet de l'hypothse nullecalcul de Lsi diff. observe L rejet de h0 diff significativesi -L < diff observe < L pas de rejet de H0 diff non significative
Calcul de psi p0.05 diff. non significative
L dpend dealphap1 p0n1 n0
p dpend de diffrence observep1 p0n1 n0cart type de la diffrence (erreur standard)cart type de la diffrence (erreur standard)
Exemple : Diff. Observe = -5%approche par rejet de H0 conclusion : diff. Significativele risque d'erreur encouru en concluant la diffrence est < 5%approche par calcul de p rsultat : p = 0.03prob de cette diff. soit due uniquement au hasard est de 0.03le risque d'erreur encouru en concluant la diffrence est de 3%
RsumErreur alphatype d'erreur statistiqueRisque alpharisque de commettre une erreur alpha Seuil de la signification statistiquevaleur de risque alpha consentien gnral 5%p quantification partir des donnes observes du risque alpha
Erreurs d'interprtationp nest pas la prob. de lhypothse nullep est la prob. dobtenir le rsultat observ si H0 est vraie
p nest pas la prob. que le ttt. nait pas deffetp est la prob. dobtenir le rsultat qui a t observ si le ttt. est en ralit inefficace
"obtenir le rsultat observ" = obtenir une diff. au moins aussi importante que le rsultat observcf. dfinition de prappel : avec une VA continue, la prob d'une valeur est nulle
Bilatral / unilatralValeur de la diffrence0traitement A > traitement Btraitement A < traitement BDiffrence non significativeDiffrence non significativeDiff. significativeDiff. significativeDiff. significativeTest unilatralTest bilatral
ConsquencesUn rsultat NS en bilatral peut tre significatif en unilatralpas de choix a posteriori
Rptitions des tests statistiques
Rptition des testsPlusieurs tests raliss pour rpondre une mme questionpar exemple plusieurs critre de jugementConclusion un effet partir du moment o il existe au moins un test significatifLe risque a de la conclusion est bien suprieure 5%Inflation du risque alpha
Rappel, avec un ttt. sans effet,sur 100 tests, il y en aura 5 significatifs (en moyenne)
Conclusion1 test Contrle parfait du risque alpha (5%)ConclusionLe risque de conclure tort est > 5%(seuil de 5%)A partir du moment o au moins 1 test est significatif
Comparaisons multiplesGlobalement, le risque de conclure tort une diffrence lors de ces 4 comparaisons est bien plus important que 5%. Aux ds, la probabilit dobtenir un six est plus forte avec 3 ds quavec un seul
Comparaisons multiplesAvec un traitement sans efficaciten faisant 10 tests statistiques (p.e. 10 essais)nous avons 40% de risque de faire au moins une conclusion ( tort)
Nb de tests
Risque alpha global
5
0.23
10
0.40
20
0.64
50
0.92
Critres de jugementAspirine pour la prvention des vnements cardiovasculairesCritres de jugementmortalit totalevnements cardiovasculaires mortels ou non mortelsDC cardiovasculairesMort subiteInfarctusAccident vasculaire crbrauxInterventions de revascularisationRisque alpha de conclure tort l'efficacit ?
Critre de jugement principalCritre principalDcs de toute causeCritres secondairesDcs cardiovasculaireMort subiteInfarctusAccident vasculaire crbrauxChirurgieDcs de toute causeDcs cardiovasculaireMort subiteInfarctusAccident vasculaire crbrauxChirurgie
Critre principalConclusion que si le critre principal est significatifCritres secondaires : explicatifs
Multiplicit des critres de jugement - ExempleIn women, however (Table 2), a positive effect on BMD was observed at several sites (mostly trabecular bone zones), namely the femoral neck and the Wardstriangle in the 6069 y group, and upper and total radius in the 7079 y group.
Autres situations de rptition des testsmesures rptes au cours du temps
Analyse en sous-groupes - Essai non concluantEssai 0.92NS
1Age750.95NS
3Hommes0.92NS4Femmes0.99NS
5Antcdents d'infarctus0.87NS6Pas d'antcdents d'infarctus1.03NS
7Prise d'aspirine0.78p
Limites- Multiplicit des tests1Age75test 2risque erreur 5%
3Hommestest 3 risque erreur 5%4Femmestest 4 risque erreur 5%
5Antcdents d'infarctustest 5 risque erreur 5%6Pas d'ATCD d'infarctustest 6 risque erreur 5%
7Prise d'aspirinetest 7 risque erreur 5%8Pas d'aspirinetest 8 risque erreur 5%
Analyses intermdiairesen cours dessai, avant que tous les patients prvus aient t recruts et/ou avant la fin de la priode de suivi initialement prvue
But arrter prmaturmentpour efficacitpour toxicitpour futilit
Ajustement du seuil de significationMthode de BonferroniPour k comparaisons, le seuil ajust est:Pour k=3, saj = 5% / 3 = 1.67%Quand est petit,
Donc pour conserver un risque alpha global de 5%:
Inconvnient: fait lhypothse dune stricte indpendance des variables testes mthode conservatrice
Ajustement du seuil de signification - 2Mthode de Tukey
Pour k=3, saj = 5% / 1.73 = 2.89%
Cas 13 analyses intermdiaires + 1 analyse finale = 4 comparaisons
Arrt prmatur de lessai
Analyse intermdiaire
Analysefinale
1
2
3
p=0.10
p=0.011
Cas 2Pas darrt prmatur mais conclusion lefficacit
Analyse intermdiaire
Analysefinale
1
2
3
p=0.25
p=0.08
p=0.04
p=0.01
Cas 3Pas darrt prmatur et rsultat non significatif (p=4%>saj)
Analyse intermdiaire
Analysefinale
1
2
3
p=0.42
p=0.28
p=0.12
p=0.04
Cas 4Rsultat non significatif
Analyse intermdiaire
Analysefinale
1
2
3
P=0.89
p=0.48
p=0.25
p=0.10
Catalogue des tests statistiques
Taille de lchantillonAvec les chantillons de grandes taillesles distributions desmoyennesproportionsdiffrence de moyennediffrence de proportionssont des distributions normales--> calcul simple de p et des IC
Avec les chantillons de petites tailles (n
Variable continueDonnes : distribution normalemoyenne : distribution normale qq soit nDonnes : distribution quelconque symtriquemoyenne : distribution normale qq n>30Donnes : distribution quelconquemoyenne : distribution normale qq n>100Variable binaireproportion : distribution normale qd n>30
Sries statistiques apparies2 sries statistiques provenant de l'observation des mmes sujets (units statistiques)2 mthodes de dosage de la glycmie A et B
les 2 mthodes sont appliques aux mmes sujetspour chaque patient : 2 valeurs, une avec chaque mthode= 2 sries apparies
2 groupes de patients diffrentsmthode A utilise avec le 1er grpmthode B utilise avec le 2e grp= 2 sries non apparies
Catalogue des tests statistiquesLe test utilis doit tre prcis avec le rsultat
Un test pour chaque situation dfinie par :
type de la variable (continue, binaire)
petit ou grand effectif
sries apparies ou non
Var. continues (comparaison des moyennes)
Sries non appariesgrand effectiftest t (test de Student), Test z test non paramtriqueTest de Wilcoxon (Mann-Whitney)
Sries appariesgrand effectiftest t pour sries apparies (Student pour sries apparies)test non paramtriqueTest de Wilcoxon pour sries apparies
Var. binaires (comparaison des proportions)
Sries non appariesgrand effectifChi 2 ( )test non paramtriqueTest exact de Fisher
Sries appariestest de McNemar
Var. qualitative plusieurs modalitsidem var. binaires