19
04/02/2015 1 Simulation : gadget ou outil pédagogique indispensable Comment évaluer l’impact de la simulation? Pr Denis Oriot Laboratoire de Simulation - SiMI, Poitiers Enjeu? To Err Is Human Building a Safer Health System Linda T. Kohn, Janet M. Corrigan, and Molla S. Donaldson, Editors Committee on Quality of Health Care in America NATIONAL INSTITUTE OF MEDICINE NATIONAL ACADEMY PRESS 2000 Washington, D.C. Prévention des risques Meilleure pédagogie meilleurs soins “Medical errors exceed the deaths from motor vehicle accidents, as well as deaths due to breast cancer or AIDS.” Simulation = 1 des 4 modes d’apprentissage Je fais Je vois Je lis Je simule Kolb 1984 PAS DE SIMULATION SANS EVALUATION L’évaluation permet de valider le processus pédagogique lui-même C’est le seul moyen de démontrer que la simulation s’inscrit bien dans un processus d’apprentissage avec acquisition de savoir, de savoir-faire et de savoir-être Tous les enseignements devraient être évalués Définition « L’évaluation en pédagogie est l’analyse systématique de la qualité de l’enseignement et de l’apprentissage » (MacDougall 2010) La qualité des soins dépend de la qualité de l’enseignement (To err is human, 2000) L’évaluation de la formation par simulation préfigure de la qualité des soins qui seront prodigués

Pr Denis Oriot - MEDESIMmedesim.fr/doc/Cours2015/S4evaloriot2015.pdf · Dreyfus 1986, 2004 < 1 an 1-5 ans ... Echelle d’évaluation de la pose d’une voie intra-osseuse Kappa =

Embed Size (px)

Citation preview

04/02/2015

1

Simulation : gadget ou outil pédagogique indispensable

Comment évaluer l’impact de la simulation?

Pr Denis OriotLaboratoire de Simulation - SiMI, Poitiers

Enjeu?

To Err Is HumanBuilding a Safer Health SystemLinda T. Kohn, Janet M. Corrigan, andMolla S. Donaldson, EditorsCommittee on Quality of Health Care in AmericaNATIONAL INSTITUTE OF MEDICINENATIONAL ACADEMY PRESS 2000Washington, D.C.

Prévention des risquesMeilleure pédagogie � meilleurs soins

“Medical errors exceed the

deaths from motor vehicle

accidents, as well as deaths

due to breast cancer or AIDS.”

Simulation = 1 des 4 modes d’apprentissage

Je fais

Je vois

Je lis

Je simule

Kolb 1984

PAS DE SIMULATION SANS EVALUATION

• L’évaluation permet de valider le processus

pédagogique lui-même

• C’est le seul moyen de démontrer que la

simulation s’inscrit bien dans un processus

d’apprentissage avec acquisition de savoir, de savoir-faire et de savoir-être

• Tous les enseignements devraient être

évalués

Définition

• « L’évaluation en pédagogie est l’analyse systématique de la qualité de l’enseignement et de l’apprentissage » (MacDougall 2010)

• La qualité des soins dépend de la qualité

de l’enseignement (To err is human, 2000)

• L’évaluation de la formation par simulation préfigure de la qualité des soins qui seront prodigués

04/02/2015

2

Gestes techniques

Respect de l’algorithme

Travail enéquipe

Sûreté dupatient

Que faut-il évaluer? Caractéristiques (J.M. Chabot 2000)

• Normée : le but est la hiérarchie de classement dans le groupe d’étudiants

• Critériée : le but est la réalisation d’un certains nombre de critères prédéterminés

Caractéristiques (J.M. Chabot 2000)

• Sanctionnante : le but final est la note pour obtenir le diplôme

• Formative : le but est d’accélérer une dynamique de formation

Caractéristiques

• Avoir une vision unitaire :‘formation – évaluation’

– Il n’y a pas de formation sans évaluation

– Il n’y a pas d’évaluation sans formation

• Avoir une vision dynamique (Skinner) question 1-réponse 1-renforcement 1

question 2-réponse 2-renforcement 2…

• Scenario # 1• Débriefing• Scenario # 2• Débriefing• Scenario # 3• Débriefing

• Différents scénarios• Mêmes objectifs• Améliorations liées à une

learning curve

• Scenario # 1• Débriefing• Scenario # 1• Débriefing• Scenario # 1• Débriefing

• Mêmes scénarios• Différents objectifs• Pas de construction de la

learning curve

Evaluation et dynamique de la simulationEvaluation de la performance

� Learning curve

12

Performance

Temps J’ai vu

Je faisObjectifpédagogique

SIMULATION

04/02/2015

3

Continuum ‘novice’ � ‘expert’

Dreyfus 1986, 2004

< 1 an

1-5 ans

5 ans

5-10 ans

> 10 ans

Continuum ‘novice’ � ‘expert’

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Novice Beginner Competent Proficient

Failure

Success

Performance of infant LPs: 1500 PGYs from the INSPIRE network

Champ de l’évaluation

• L’évaluation est un jugement

• On évalue le savoir, le savoir-faire et le savoir-être (knowledge, skills, attitudes)

• Mais jamais les PERSONNES +++

• L’évaluation est circonstanciée +++

Besoins en outils d’évaluation en simulation

Office of Education Research, Mayo Clinic, Rochester, MN

• 417 études � 217 (52%) utilisent > 1 critère d’avaluation

• Parmi les 217 � 6 (3 %) utilisent les 5 critères de validité, et 51 (24 %) ne font aucune référence à une démarche de validation

� Validation des échelles d’évaluation en simulation est pauvre. La qualité méthodologique des études d’évaluation laisse une grandemarge de progrès.

Validité – Fiabilité Dilemme validité - fiabilité

High validity(fidelity)Low reliability(complicated)

Low validity(fidelity)High reliability(simple)

04/02/2015

4

VALIDITE

• Reflet de la complexité de la réalité

• Items nombreux et détaillés

• Inconvénient : moins reproductible et moins commode (faisable et acceptable)

FIABILITE

• Reflet de l’objectivité de la mesure (temps t ou autre observateur) = reproductibilité

• Items moins nombreux et moins détaillés

• Inconvénient : moins proche de la réalité

Qualités de l’outil d’évaluation : dilemme Comment évaluer?

1. Avec quels moyens?

2. Pour quels niveaux?

Quels moyens d’évaluation

Ce n’est pas un moyen unique qui évalue un processus d’apprentissage

complexe incluant plusieurs personnes

Critères de jugement d’une formation médicale

Centré sur l’apprenant

Centré sur le patient

Timing Proche de la formation

A distance de la formation

ConnaissancesKnowledge

Tests par QCM Audit, meilleure pratique

Aptitudes techniques

Skills

Echelle d’évaluation

(observation)

Taux de succès des interventions

Attitudescomportements

Attitudes

Echelle d’évaluation

(observation)

Interview des patients (sortie)

Kirkpatrick : une vision dynamiqueEvaluation : 4 niveaux

Degré de satisfaction

Acquisition de compétences

Changement despratiques

Impactclinique

1

2

3

4

Evaluation d’un processusd’apprentissage

Kirkpatrick D. 1967

04/02/2015

5

Evaluation : 4 niveaux

Modèle de Kirkpatrick, 1967

1. Degré de satisfaction : toujours auto-évaluée

2. Acquisition de connaissances/compétences

- 2a : auto-évaluée ; 2b : hétéro-évaluée (mesurée)

3. Changement des pratiques professionnelles :

- 3a : auto-évaluée ; 3b : hétéro-évaluée (mesurée)

4. Impact clinique : bénéfice pour les patients

Kirkpatrick Niveaux 1 et 2 Niveau 3 Niveau 4

Science Translational Medicine 2010

Evaluation : 4 niveaux

Degré de satisfaction

Acquisition de compétences

Changement despratiques

Impactclinique

1

2

3

4

Evaluation d’un processusd’apprentissage

Kirkpatrick D. 1967

LAB

Evaluation : 4 niveaux

Degré de satisfaction1

Evaluation d’un processusd’apprentissage

Kirkpatrick D. 1967

Niveau 1Réalisme � adhésion

« Fiction contract in SBME »

• ‘’Agreement between participants and simulationeducators that, in view of the limitations of thesimulator, the educators will do their best tomake the simulation as real as possible and theparticipants will behave as if the simulated casewas real and treat the mannequin patients asreal human patients’’.

Dieckman P, Gaba D, Rall M. Deepening the theoretical foundationsof patient simulation as social practice. Sim Healthcare 2007;2:183-93

04/02/2015

6

Niveau 1

Auto-évaluation

• Questionnaire à la fin de la session

1. Degré de réalisme des différents modèles et scénarios utilisés durant la session

– Likert ou échelle 0-10 : but � > 80% bon réalisme

2. Degré de satisfaction: – Likert ou échelle 0-10 : but � > 80% satisfaits

04/02/2015

7

Niveau 1

• Niveau de satisfaction élevé

– « expérience agréable, enrichissante… » Kurreck 1996

• Haut degré de réalisme des scénarios

– 7.8 / 10 Devitt 2001

– « Face Validity » validité ‘écologique’

• Une réponse positive ne garantit pas un apprentissage, mais une réponse négative réduit toujours la possibilité d’apprentissage

• Donc, très important d’avoir un haut niveau de satisfaction (> 80%)

Evaluation : 4 niveaux

Acquisition de compétences2

Evaluation d’un processusd’apprentissage

Kirkpatrick D. 1967

Niveau 2Auto-évaluation

• Questionnaire à la fin de la session

• « Avez-vous acquis plus de confiance en vous?

– Likert ou échelle 0-10 : but � > 50% d’acquis

• « Avez-vous acquis plus de connaissances? »:

– Likert ou échelle 0-10 : but � > 50% d’acquis

• « Avez-vous acquis plus de compétence? »:

– Likert ou échelle 0-10 : but � > 50% d’acquis

• Différencier les acquis en termes de procédures, algorithmes, communication

Hétéro-évaluation• Connaissance :

• Utilisée par tous les centres

• QCM (5-10, couvrant le sujet) ou un cas clinique avec des questions après ou avant/après la session– Score du posttest

– Δ = score posttest – prétest

(Objectif : Sim � augmente le score au posttest)

Niveau 2

Test théorique

• Test = prétest et posttest pour chaque niveau

• QCM : 5 à 10 questions complexes mais importantes pour les apprenants (QCM et réponses aléatoires)

• Questions directement en lien avec le sujet de l’apprentissage

• Test établi et revu par plusieurs spécialistes

• Aucune équivoque sur questions ou réponses

• Aspect consensuel du test et des réponses

• Comparaison pré/posttest � Delta

Test théorique

04/02/2015

8

Effect of simulation-based teaching on memorization. Evolution of the differences of posttests scores (day 7 - day 1) (M±SEM) in the different groups of learners; black squares=SIM+ subgroups, white squares=SIM- subgroups

Test théorique Niveau 2

Connaissances techniques : ACLS• 41 internes de médecine (2ème année)• Tous certifiés ACLS• Pré-test / post-test design• Intervention:

– 4 x 2h formation ACLS sur mannequin simulateur avec débriefing

• Résultats:– Amélioration des scores de 24 %– Succès : 17 % prétest � 100% posttest

Wayne DB, J Gen Intern Med 2006

Performance, évaluation et débriefing

Inconnu

ConnaissancesRecommandations

Attendu Attendu

Observé Observé

Réel Réel

Intentionschéma mental Performance

Processus Résultats

Discordance

Δ = Déficit de performance

Δ

E V A L U A T I O ND E B R I E F I N G

Niveau 2

Hétéro-évaluation

• Gestes pratiques : performance

• Difficile à évaluer +++ � Evaluateurs

• Un superviseur � évaluation subjective

• Deux superviseurs � meilleure évaluation (objective?) mais ne voient pas la même chose?

• Vidéo : emplacement des caméras; revoir les vidéo? Comparaison de visu vs. vidéo

Niveau 2

Hétéro-évaluation

• Gestes pratiques : performance

• Difficile à évaluer +++ � Outils d’évaluation

• Difficulté complexité procédure; IOT vs. PMO

• Développement d’échelles d’évaluation

• Car les gestes sont le 1er champ de la simulation

• Nécessaire d’avoir une évaluation objective des gestes pratiqués +++

Gestes : outils d’évaluation

04/02/2015

9

Gestes : outils d’évaluation

Evaluation globale

L’échelle pesure le niveau d’autonomie • Proficient =“Compétent” indique une habileté à réaliser indépendamment• “Expert” est un niveau improbable

Comment évaluer une procédure?

• Global Rating Scale

Comment évaluer une procédure?

Validité Avantages Désavantages

ChecklistValiditémodeste

Novice peut voir oùil doit s’améliorer

Demande le temps d’évaluation d’un expertDouble évaluation

Echelled’évaluationForte validité

Applicable dans de nombreuses situations par différents évaluateurs (objective)

Demande du temps pour

sa réalisation

Demande le temps d’évaluation d’un expert

Processus de validation d’une échelle d’évaluation

1. Contenu – Elaboration(content) � STATS = 0

2. Processus de réponse – Modifications (response process) � STATS = 0

3. Structure interne – Fiabilité(internal structure) � STATS +++

4. Comparaison aux autres variables – Validité(comparison to other variables) � STATS +++

5. Conséquences – Utilité(consequences) � STATS +

Downing SM. Validity: on meaningful interpretation of assessment data. Med Educ 2003;37:830-7

1. Contenu � Elaboration

• Quoi? Choix des items : Relation échelle – processus

L’échelle d’évaluation est-elle suffisamment détaillée pour reproduire l’ensemble du processus étudié ?

• Qui? Experts, Delphi

• Pourquoi? Pertinence � validité!

• Comment? EBM

• Relecture : ambiguïtés, spécificités?

� Pré-échelle ou pré-checklist

Contenu : checklist ou échelle?

Augmentation de la description � augmentation de la reproductibilité

04/02/2015

10

• Quoi? Contrôle des sources d’erreur

� Processus-évalué-évaluation-évaluateur

• Qui? Population test

• Pourquoi? Recherche des biais

• Comment? Évalué, évaluateur, échelle, scénario : explore la variation de l’évaluation et des conditions de cette évaluation

� Echelle finalisée

2. Processus de réponse � Modifications 3. Structure interne � Fiabilité

• A. Cohérence interne (Internal consistency)

• Corrélations inter-items et item-total

• Coefficient alpha de Cronbach 0.70-0.90

• B. Reproductibilité (Reproducibility)

• Comparaison intra ou inter-observateur

• Coefficient Kappa ou corrélation intra-classe > 0.80; corrélation linéaire R2 > 0.50

• C. Généralisation (Generalizability)

• Comparaison DS O1,O2 et Om � F-test

Cohérence interne et reproductibilité :Echelle d’évaluation de la pose d’un drain thoracique

Steps Items/Points Relative

weight

Mean ± SD α Cronbach ICC

Aseptic procedure 3 15% 2.51 ± 0.64 - 1Local anesthesia 1 5% 0.87 ± 0.33 - 1Incision and dissection 6 30% 3.56 ± 1.19 - 0.939Confirmation of

location2 10% 0.96 ± 0.93 - 0.968

Introduction of chest

tube with Kelly clamp4 20% 2.49 ± 0.96 - 0.933

Securing water seal

tubing1 5% 0.47 ± 0.49 - 0.954

Securing chest tube 2 10% 1.02 ± 0.76 - 0.860Location of incision site 1 5% 0.87 ± 0.34 - 1

TOTAL 20 100% 12.78 ± 2.70 0.747 0.966

Reproductibilité :Echelle d’évaluation de la pose d’une voie intra-osseuse

Kappa = 0.946ICC = 0.947� Accord quasi parfaitentre des observateursindépendants

N = 30

Reproductibilité Echelle d’évaluation de la prévention des risques

y = 1,1216xR² = 0,7789

0

10

20

30

40

50

60

70

80

90

100

0 20 40 60 80 100

Coefficient de corrélation intra-classesEchelle d’évaluation de la prévention des risques

Source SC dl CM F pÀ

rapporterICC

Inter-sujet 7388,88 15 492,59 24,08 0,0000 p < 0,05 0,8708

Intra-sujet 560,37 16 h2

Mesures 253,58 1 253,58 12,40 0,0031 p < 0,05 0,4525

Erreur 306,79 15 20,45

Total 7949,24 31

t pÀ

rapporter

Référence: Winer (1971), p.268 3,52 0,0031 p < 0,05

04/02/2015

11

Reproductibilité :Echelle d’évaluation de la pose d’un drain thoracique

ICC = 0.966 p < 10- 5

y = 1.0038xR² = 0.9253

0

2

4

6

8

10

12

14

16

18

20

0 2 4 6 8 10 12 14 16 18 20

0

2

4

6

8

10

12

14

16

18

20

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

Obs 1

Obs 2

Reproductibilité :Scores attribués aux participants par O1 et O2

• Au gold-standard : taux de réussite ; cut-off - après

étude Sn, Sp, VPP, VPN, ROC, graph distribution

• Aux autres échelles : préexistante, avec une mesure qualitative/quantitative décrivant tout ou partie de la même action, au résultat d’un examen théorique

• En fonction de l’expérience : Quand le score du participant augmente avec son niveau d’expérience

– Novices vs expérimentés

– Scénario facile vs difficile

– 1 séances Sim vs n séances Sim

4. Comparaison aux autres variables � Validité Comparaison au gold standard

• 10.29 ± 1.53 vs. 14.68 ± 1.70

• P = 4.47.10-10

1

2

3

4

5

6

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Success

Failure

En fonction de l’expérience

CLINICAL EXPERIENCE (n = 32)

Novices

(n = 22)

Experienced

(n = 10)

p

Performance score 12.36 ± 2.77 12.9 ± 2.41 0.30

Success rate 50% 60% 0.71

Total timing 12 min 39 sec ± 3 min 24 sec 14 min 12 sec ± 4 min 30 sec 0.39

Dissection timing 3 min 01 sec ± 1 min 47 sec 2 min 28 sec ± 1 min 22 sec 0.41

SUCCESSIVE TRAININGS (n = 7)

1st training

(n = 7)

2nd training

(n = 7)

p

Performance score 10.71 ± 1.68 13.93 ± 2.91 0.030

Success rate 28.6% 71.4% 0.063

Total timing 14 min 0 sec ± 3 min 12 sec 10 min 26 sec ± 1 min 37 sec 0.027

Dissection timing 3 min 44 sec ± 1 min 52 sec 1 min 36 sec ± 0 min 34 sec 0.022

• Evaluation formative ou sommative (Formative or summative assessment)

• Valeur seuil du score (Cut-off score) � passing rate

• Conséquence d’un score au-dessous de la valeur seuil

(Consequences of a failing score)

• Information concernant la valeur du score (Feedback about the score)

5. Conséquences � Utilité

04/02/2015

12

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1

Score Sensitivity Specificity PPV NPV Youden Q of Yule Chi 2

> 10 100% 29.4% 64.7% 100% 0.29 1 < 0.01

> 11 100% 58.8% 75.8% 100% 0.59 1 < 0.001

> 12 100% 82.3% 88% 100% 0.82 1 < 0.001

> 13 90,9% 94.1% 95.2% 88.9% 0.85 0.99 < 0.001

> 14 68,2% 100% 100% 70.8% 0.68 1 < 0.001

1 - Specificity

Sensitivity

Détermination d’une valeur seuil

10111213

14

Sim Healthcare 2012;7:171-175

Echelle d’évaluation Pose d’une voie intra-osseuse

0

2

4

6

8

10

12

14

16

18

20

IO p

erfo

rman

ce s

core

/20

MS2 MS3 MS5 PGY

Echelle d’évaluation Pose d’un drain thoracique

p = 3.13 10-8

13.95 ± 3.76

16.29 ± 1.82

11.39 ± 3.67

19 19

17

4

10

4

0

2

4

6

8

10

12

14

16

18

20

Population Globale Groupe SIM + Groupe SIM -

Sco

re d

e Pe

rfo

rman

ce

Population Evaluée

Score de performance à la pose de drain thoracique chirurgical. (moyenne, écart type, minimum et maximum)

Niveau 2 : acquisition de compétences techniques � timing

Introduction d’un nouvel équipement :

• Familiarisation avec le ventilateur Dräger Fabius

• 18 anesthésistes en formation randomisés en 2 groupes

• Groupe 1 : cours

• Groupe 2 : cours + pratique en simulateur

• Test : résolution de 2 crises simulées

• Résultats :

– impression subjective de maitrise identique

– groupe simulateur résout les 2 crises plus vite +++

Dalley P, Anesth Analg 2004

Défi = évaluation des scénarios complexes

Algorithme

04/02/2015

13

Défi = évaluation des scénarios complexes

Algorithme Algorithme

Défi = évaluation des scénarios complexes

Algorithme

Défi = évaluation des scénarios complexes Défi = évaluation des scénarios complexes

Algorithme

Hétéro-évaluation

• Evaluation de scénarios complexes : � performance

• Evaluation de la performance d’une équipe

prenant en charge une situation de menace vitale (trauma sévère, hémorragie de la délivrance, nourrisson en choc…)

• Evaluation des algorithmes et du CRM

• � Développement d’échelles d’évaluation +++

Niveau 2Evaluation des scénarios complexes :

Exemples pédiatriques

Nom Année Auteur Items ICC, Crombach Alpha

Standardized Direct Observation Tool (SDOT)

2004 Joshi 26 ICC = 0.81, CA = 0.95

Neonatal Resuscitation Program Megacode Checklist (NRPMC)

2004 Wood 20 CA = 0.70

Tool for ResuscitationAssessment Using ComputerizedSimulation (TRACS)

2009 Calhoun 72 ICC = 0.80

Multirater Instrument for the Assessment of SimulatedPediatric Crises (MIASPC)

2011 Calhoun 44 ICC = 0.72, CA = 0.69

Evaluation Tool for SimulatedPediatric Resuscitation (ETSPR)

2012 Grant 12 ICC = 0.76, CA = 0.82

04/02/2015

14

Evaluation des scénarios complexes :Team Average Performance Assessment Scale

TAPAS

Coefficient de corrélation entre les 2 observateurs 0.838

Coefficient de corrélation intra-classe 0.862

Discordance observée entre les 2 observateurs 7.96%

Evaluation des scénarios complexes :Team Average Performance Assessment Scale

Evaluation du CRM Niveau 2 : acquisition de compétencesnon techniques

• Répartition des tâches

• Fonctionnement en équipe

• Conscience de la situation

• Prise de décision

Yee B, Anesthesiology 2005;103:241-8

Hétéro-évaluation

• Evaluation du CRM (Crisis Resource Mangement)

� performance

• Neuf échelles validée

• Evaluation difficile (plusieurs évaluateurs, vidéo…) pendant une situation de crise!

• Mais rarement utilisées

Niveau 2 : acquisition de compétencesQuels outils d’évaluation?

Kardgong-Edgren, Clin Sim Nurs 2010

04/02/2015

15

Evaluation du CRM : échelles spécifiques

Nom Année Auteur

Anaesthetists’ Non-Technical Skills (ANTS) 2003 Fletcher

Ottawa Global Rating Scale 2006 Kim

Behavioral Assessment Tool (BAT) 2006 Anderson

Mayo High Performance Teamwork Scale 2007 Malec

Clinical Teamwork Scale (CTS) 2008 Guise

Team Performance During Simulated

Crises Instrument (TPDSCI) 2009 Calhoun

Evaluation instrument of CRM 2011 Plant

Simulation Team Assessment Tool (STAT) 2012 Reid

Evaluation tool of CRM 2012 Grant

Clinical Teamwork Scale (CTS)

La simulation en Médecine d’Urgence Annonce d’une mauvaise nouvelle

Echelle d’évaluation Annonce d’une mauvaise nouvelle

ICC = 0.917

� Très bon accord entre deux observateurs indépendants

N = 16

0

10

20

30

40

50

60

70

80

90

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Obs 1

Obs 2

# of students# of students

Echelle d’évaluation Annonce d’une mauvaise nouvelle

04/02/2015

16

Défi : Crowded unit

• 2 équipes de 4 personnes

• 1 équipe de 3 personnes « rescue team »

• 5 évaluateurs

• Quels objectifs pédagogiques?

• Quoi évaluer?

• Quels outils d’évaluation?

Crowded unit

Patient 1 Patient 2

Mannequins HF

Evaluation : 4 niveaux

Changement despratiques3

Evaluation d’un processusd’apprentissage

Kirkpatrick D. 1967Niveau 3

Auto-évaluation

• Questionnaire à la fin de la session

• Changement des pratiques professionnelles

• « Pensez-vous que cette séance de simulation

vous fera changer quelque chose dans votre

pratique professionnelle? » : objectif > 50% de OUI

• « Dans quels domaines? Connaissances,

procédures, attitudes »

Niveau 3

O’Donnell, SIH 2011

Learning Curve

Temps

Performance

Mastery JIT JIT

Niveau 3 : Just-In-Time Treatment

04/02/2015

17

Niveau 3

• Mesure du transfert apparu dans le comportement de l’apprenant suite à la sim

• Connaissances, la compétence technique ou le savoir-être récemment acquis, sont utilisés dansl’environnement quotidien de l’apprenant?

�La plus véridique évaluation de l’efficacité

d’un programme de formation

• Mais difficile, impossible de prédire quand le changement surviendra

• Quand évaluer? À quelle fréquence évaluer? Comment évaluer?

Niveau 3

Weller J, Anaesthesia 2003 :

• Changements de pratique 3-12 mois après un cours sur la CRM (Crisis Resource Management)

– 61% exposés à une ou plus situations critiques

– 70% estiment que leur gestion de la crise a été améliorée

• Perceptions / attitudes

• Formation de collègues à la gestion des crises, stratégies de résolution de problème, planification / anticipation d’effets indésirables, travail en équipe, communication avec collègues, impact sur la pratique clinique

Niveau 3bIntubation fibroscopique :

• 24 internes novices en intubation fibroscopique orale

• 2 groupes randomisés : Gr1 (n=12) : cours Gr 2 (n=12) : cours + mannequin

. Mesure de la performance en salle d’opération

Groupecours

Groupecours + modèle

P

Durée del’intubation (s)

210 81 < 0.01

Intubation réussie

42 % 92 % < 0.005

Naik VN, Anesthesiology 2001

Niveau 3b

Performance du travail en équipe :

• Beaucoup plus difficile à étudier

• Pas d’étude disponible en anesthésie-réanimation

• 1 étude en médecine d’urgence (Shapiro 2004):

– Observation « live » pré et post-training (8h de simulation et débriefing)

– « Tendance à l’amélioration du travail en

équipe » aux urgences (p = 0.07)

– Mais petit collectif (4 équipes de 5 pers.)

Efficacité de la simulation : Quelles sont les preuves ?

• Étalon-or de la médecine factuelle :

– « Étude randomisée contrôlée » = RCT

– Souvent difficile à réaliser en pédagogie

– Raisons éthiques / pratiques

– « Outcomes » difficiles à mesurer

• Méta-analyses impossibles

• Comment faire?

Evaluation : 4 niveaux

Impactclinique4

Evaluation d’un processusd’apprentissage

Kirkpatrick D. 1967

04/02/2015

18

Moyens d’évaluation

Impact clinique :

• Recherche de marqueurs cliniques pertinents en rapport avec la formation, dont la modification de l’incidence et/ou de la gravité serait un reflet de l’acquisition de savoir, de savoir-faire et de savoir-être par les apprenants, uniquement en lien avec la formation par simulation réalisée

Niveau 4 : Impact clinique

• Le niveau 4 essaie d’évaluer la formation comme s’il s’agissait d’un processus économique

• Bénéfice secondaire au processus pédagogique = la santé des patients

Epidémiologie des éléments traceurs

• Recherche translationnelle (= passer du modèle de simulation au patient)

• Relevé rétrospectif de 2-3 éléments cliniques traceurs bien ciblés lors des années n-1 et n-2 dans l’activité de chaque centre

• Relevé prospectif des mêmes éléments cliniques traceurs lors des années n et n+1

• � Pré-intervention vs. post-intervention

• Mesure de l’impact clinique de l’apprentissage

• Mais… effet TEMPS inéluctable

Niveau 4 : Impact clinique• Obstétrique Draycott T. BJOG 2006;113:177-82

Sim HF � -50% d’encéphalopathies +++ (avant/après formation)

1998–1999(n = 8430)

2001–2003(n = 11030)

Relative risk

5’ Apgar ≤ 6,n (rate / 10.000)

73 (86.6) 49 (44.4) 0.51 (0.35–0.74)

HIEn (rate / 10.000)

23 (27.3) 15 (13.6) 0.50 (0.26–0.95)

Mod /sev HIEn (rate/10.000)

16 (19.0) 11 (10.0) 0.53 (0.24–1.13)

NB : Montre une association, pas un lien de causalité ;

possibilité d’un effet-temps! � mais encourageant !

Niveau 4 : Impact clinique

Comparaison intra-régionale

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

2

MNP IM total IM graves

1993-1997

1998-2006

NS

**

*

Pour 1000 naissances vivantesComparaison inter-régionale (1998-2006)

0

0,2

0,4

0,6

0,8

1

1,2

1,4

1,6

1,8

2

MNP IM total IM graves

Limousin

Poitou-Charentes

Pour 1000 naissances vivantes

NS ****

****

Niveau 4 : Impact clinique

Autre région

04/02/2015

19

Niveau 4 : Impact clinique

• Soins intensifs

– CVC en USI adulte � 0.5 (SIM+) vs 3.2 (SIM-) infections sur cathéter sur 32 mois (p<0.001)

Barsuk JH, Arch Intern Med 2009;169:1420-3

Moyens d’évaluation de la performance

• Questionnaire d’auto-évaluation

– Nv 1 (satisfaction = réalisme du modèle)

– Nv 2a (connaissances)

– Nv 3a (changement des pratiques)

• Tests théoriques (quiz avec QCM ou QROC)

– Nv 2b : acquisition de connaissances (pré/post-test)

• Echelle(s) d’évaluation (hétéro-évaluation)

– Nv 2b (au labo) : performance gestes, algorithme, travail d’équipe, performance clinique d’une équipe, CRM

– Nv 3b (in situ) : changement des pratiques

• Epidémiologie d’éléments traceurs

– Nv 4 : mesure de l’impact clinique de la formation � Rare!

Moyens d’évaluation de la performance

Individu Equipe

Non technicalskills

Technicalskills

TAPAS

Simulation = 1 des 4 modes d’apprentissage

Je fais

Je vois

Je lis

Je simule

Kolb 1984

Conclusion

• L’évaluation est indispensable à toute formation

par simulation

• Apporte la différence entre une activité pédagogique et une activité ludique

• Donne une légitimité scientifique en tant que processus pédagogique

• Valide ou invalide les hypothèses formulées

• Précise les déficits de performance possibles � complément de formation

• Lien entre l’enseignement et la recherche