Evaluer - ADMEE

Evaluer Journal international de Recherche

en Education et Formation

www.e-jiref.education, volume 3, numéro 3 ISSN : 1374-1217

Evaluer

Journal international de recherche en éducation et formation

Rédacteur en chef

Marc Demeuse – Université de Mons – Belgique ([email protected])

Rédactrice en chef adjointe

Annick Fagnant – Université de Liège – Belgique

Webmasteur

Pascal Detroz – Université de Liège – Belgique

Comité de rédaction

Réginald Burton – Université du Luxembourg – Luxembourg Pierre-François Coen – HEP Fribourg – Suisse Pascal Detroz – Université de Liège – Belgique Rémy Goasdoué – Université Paris-Descartes – France Marc Vantourout – Université Paris-Descartes – France Nathalie Younes – Université Blaise Pascal – France.

Relecture

Monique Jehin

Secrétariat

Anne Sénécal – Université de Mons – Belgique

Comité scientifique

Véronique Bedin – Université Toulouse Jean Jaurès – France Alexandre Buysse – Université Laval - Canada Alain Content – Université Libre de Bruxelles - Belgique Marcel Crahay – Université de Genève - Suisse Jean-Marie De Ketele – Université Catholique de Louvain – Belgique Vincent Dupriez – Université Catholique de Louvain - Belgique Gérard Figari – Université Pierre Mendès France de Grenoble - France Anne Jorro – Conservatoire national des arts et métiers - France Dominique Lafontaine – Université de Liège – Belgique Romain Martin – Université du Luxembourg - Luxembourg Pierre Merle – Université de Rennes 2 – France Sophie Morlaix – Université de Bourgogne – France Joëlle Morrissette – Université de Montréal – Canada Lucie Mottier Lopez – Université de Genève – Suisse Pascal Nidinga – Université du Québec à Montréal - Canada Xavier Pons – Université Paris Est Créteil Val de Marne - France Bernard Rey – Université Libre de Bruxelles - Belgique Thierry Rocher – Ministère de l’Education nationale – France Marc Romainville – Université de Namur – Belgique Marie-Christine Toczek-Capelle – Université Blaise-Pascal de Clermont-Ferrand - France

http://www.e-jiref.education/

mailto:[email protected]

Sommaire

Marc DEMEUSE &t Annick FAGNANT Editorial. 3(0) ans déjà ! ............................................................................................................ 5

Dossier thématique : hommage à Jean Cardinet

Bernard WENTZEL, Anne BOURGOZ & Jean-Luc GILLES Hommage à Jean Cardinet ....................................................................................................... 9

Martine WIRTHNER Jean Cardinet : un précurseur................................................................................................. 13

Dany LAVEAULT Pour une évaluation scolaire source de progrès et d'innovation : contribution de Jean Cardinet ..................................................................................................................................... 23

Jean-François DE PIETRO & Murielle ROTH A propos de la validité « didactique » d'une évaluation ...................................................... 31

Lucie MOTTIER LOPEZ, Christophe BLANC, Lionel DECHAMBOUX &Catherine TOBOLA COUCHEPIN

Les héritages de Jean Cardinet : regards à partir de trois recherches doctorales sur l’évaluation des apprentissages des élèves en classe ........................................................... 51

Daniel BAIN Fixer un seuil de suffisance pour un test de maîtrise : apports et limites de la méthode d'Angoff ................................................................................................................................... 69

Anne BOURGOZ, Jean-Marie DE KETELE, Linda ALLAL, Georges PASQUIER, Pierre-François COEN & Sandra JOHNSON

Les écrits de Jean Cardinet : citations commentées ............................................................ 97

Varia

Linda ALLAL, Marie-Claire DAUVISIS, & Jean-Marie DE KETELE L’ADMEE-Europe, née à Dijon en 1986 : développements et perspectives ............... 107

Liste des évaluateurs pour l’année 2017 .................................................................................. 139

Evaluer. Journal international de Recherche en Education et Formation, 3(3), 5-6

www.e-jiref.education 5

Editorial 3(0) ans déjà !

Marc DEMEUSE Université de Mons (UMONS) [email protected] Rédacteur en chef

Annick FAGNANT Université de Liège (ULiège) [email protected] Rédactrice en chef adjointe

Pour citer cet article: Demeuse, M., & Fagnant, A. (2017). Editorial. 3(0) ans déjà !. Evaluer. Journal international de Recherche en Education et Formation, 3(3), pp. 5-6.

Voici 2017 qui s’achève et ce dernier numéro de l’année – le numéro 3 du volume 3 - arrive avec la fête de Noël, quelques jours avant le 30e colloque de l’ADMEE-Europe, après avoir soufflé ses 30 bougies en janvier dernier sur le lieu même de sa naissance, à Dijon, lors d’un colloque très réussi.

Cette fin d’année coïncide aussi avec le troisième anniversaire de la revue Evaluer. Journal international de Recherche en Education et Formation (e-JIREF). A l’issue de ces trois années de travail, c’est aussi la fin du mandat de son comité de rédaction actuel et donc de son rédacteur en chef et de sa rédactrice en chef adjointe… Le prochain Conseil d’Administration qui se tiendra à Luxembourg évaluera le chemin accompli et proposera à l’assemblée générale l’équipe qui assurera la relève. Il y aura sans doute un savant dosage d’anciens et de nouveaux visages, mais il est certain que notre revue est à présent bien ancrée dans le paysage de la recherche en éducation francophone, au-delà des pays qui comptent déjà une section nationale.

Il reste à assurer à e-JIREF une visibilité accrue, mais les retours qui nous parviennent et la diversité des contributions nous confortent dans l’idée qu’il y a bien une place pour cette initiative, comme nous l’avions imaginé lors de son lancement. Considérant qu’il est important de permettre au plus grand nombre d’accéder aux connaissances nouvelles, c’est une approche résolument tournée vers l’Open Access qui a guidé le Conseil d’Administration de l’ADMEE-Europe. Il n’y a donc, dans e-JIREF, ni frais pour les auteurs, ni frais pour les lecteurs. Le modèle économique, pour utiliser un terme en vogue, repose à la fois sur un travail bénévole de l’équipe de rédaction (et des experts sollicités) et sur un contrôle drastique des frais de production et de mise en ligne, entièrement supportés par les adhésions des membres de l’association et les activités qu’elle organise. Ce modèle lui assure à la fois l’indépendance indispensable à une revue scientifique et des moyens certes modestes, mais suffisants. Il faut espérer que l’ADMEE-Europe pourra maintenir longtemps ce modèle et un outil de diffusion scientifique de niveau international.

DEMEUSE, M., & FAGNANT, A.

6 Evaluer. Journal international de Recherche en Education et Formation, 3(3), 5-6

La remise à neuf du site facilite à présent le travail des rédacteurs et le suivi des propositions, ce qui diminue d’autant le temps de réaction et de production de chaque numéro. Nous sommes à présent à jour et les trois numéros de 2018 sont bien avancés, ce qui augure bien des possibilités de reconnaissance de la revue. Une base d’articles permet de préparer les tables de matière, sans pour autant allonger les délais de publication pour les auteurs. Ce point est essentiel, notamment pour les plus jeunes chercheurs qui, en début de carrière, doivent pouvoir publier leurs travaux sans devoir attendre plusieurs années. A côté des plus jeunes collègues, il est aussi heureux de constater que les plus aguerris font aussi confiance à notre revue pour publier leurs textes. C’est cette mixité qui permet à e-JIREF de constituer un véritable point de contact entre chercheurs ayant l’usage du français en partage.

Le numéro double 3(1-2) de cette année constitue un bon exemple : il est le fruit du travail de Carmen Cavaco (Universidade de Lisboa), de Christophe Dierendonck (Université du Luxembourg) et de collègues qui ont participé au 28e colloque international que l’ADMEE-Europe organisé à l’Institut de l’Education de l’Université de Lisbonne en janvier 2016. Ces collègues proviennent non seulement du Portugal, mais aussi du Luxembourg, de Suisse, de Belgique et de France, et certains articles impliquent des contributeurs de plusieurs pays. Le numéro 3 dont ce texte constitue l’éditorial comporte un dossier thématique composé d’un ensemble de textes en hommage à Jean Cardinet. Ce dossier est la manifestation tangible de l’hommage qui lui a été rendu en novembre 2016 à Lausanne, lors d’un colloque. Si une majorité de contributeurs sont originaires de Suisse, on y retrouve aussi un collègue canadien, un collègue belge et une collègue anglaise. La partie varia de ce numéro comporte, quant à elle, un texte écrit par trois auteurs bien connus des membres de l’ADMEE-Europe : Linda Allal, Marie-Claire Dauvisis et Jean-Marie De Ketele. Cet article permet de retracer le chemin parcouru par l’association, depuis sa fondation en 1986. Il en présente les conditions d’émergence et trace aussi des pistes pour l’avenir. C’est réellement un texte qu’il faut lire pour comprendre ce qu’est l’ADMEE-Europe aujourd’hui. Gageons que si les pistes imaginées ne seront pas toutes empruntées par ceux qui feront l’ADMEE-Europe de demain, certaines se révèleront prometteuses. Merci donc à nos trois collègues pour ce travail de mémoire, mais aussi de prospective… en attendant le 40e anniversaire !

Hommage

à

Jean Cardinet

Dossier thématique



Hommage à Jean Cardinet1

Bernard Wentzel IRDP [email protected]

Anne Bourgoz IRDP [email protected]

Jean-Luc Gilles HEP Vaud [email protected]

Pour citer cet article : Wentzel, B., Bourgoz, A., & Gilles, J-L. (2017). Editorial. Hommage à Jean Cardinet. Evaluer. Journal international de Recherche en Education et Formation, 3(3), 9-11.

Jean Cardinet a joué un rôle majeur pour les sciences de l'éducation, et plus particulièrement dans le domaine de l'évaluation, en Suisse et dans l'ensemble de l'Europe, mais aussi au Québec et aux Etats-Unis. Il a été par ailleurs membre fondateur de l’Association pour le développement des méthodologies d'évaluation en éducation en Europe (ADMEE-Europe) et a largement contribué, par ses textes et ses interventions, à la revue Mesure et Evaluation en Education et aux colloques de cette association. Dans ses activités et recherches, il a privilégié une évaluation au service de la formation, dans une perspective édumétrique, en donnant jusque dans ses dernières publications la priorité à une visée formative. Il s’est toujours montré attentif aux remarques, critiques ou demandes des praticiens de la formation ou de la docimologie, les prenant en compte dans ses travaux successifs. Mais parallèlement, en transformant, avec Linda Allal et Yvan Tourneur, le modèle de la généralisabilité, il a eu à cœur, dans une perspective docimologique, de mettre à la portée des chercheurs un outil permettant de contrôler la qualité des dispositifs de mesure des apprentissages.

Pour prendre congé de Jean Cardinet, qui nous a quittés le 11 août 2015, ses collègues et amis ont considéré que le meilleur hommage à lui rendre était de demander à quelques chercheurs de présenter un exposé visant à faire le point sur la recherche dans des domaines auxquels il a contribué activement. Le 10 novembre 2016 fut ainsi organisé à Lausanne (HEP Vaud) un colloque d'hommage à Jean Cardinet. Lors de cette journée, différentes interventions ont permis, une nouvelle fois, de mettre en évidence la qualité et la rigueur scientifique de ses nombreux travaux. L'originalité de cet hommage résida aussi dans une projection vers l'avenir. Ces travaux et connaissances que Jean Cardinet a mis à disposition de la communauté des chercheurs, mais aussi de l'ensemble des acteurs de l'éducation et de

1 Cette introduction a été rédigée sur la base d'une présentation de la journée d'hommage à Jean Cardinet écrite par Daniel Bain en collaboration avec la plupart des contributeurs à ce dossier thématique.

WENTZEL, B. ; BOURGOZ, A., & GILLES, J-L.


la formation, continuent bien entendu à circuler, à questionner, à nourrir les réflexions scientifiques et de nombreux chantiers autour de l'évaluation.

Suite à cette journée d'hommage, en accord avec la revue e-JIREF, il a été décidé de mettre en œuvre un projet de publication regroupant les contributions écrites des conférenciers du 10 novembre 2016. D'autres auteurs sont venus enrichir l'hommage scientifique dans la perspective du dossier thématique présenté ici. Anne Bourgoz a notamment recueilli et regroupé dans un article différents textes, rédigés par leurs auteurs à partir de la proposition suivante : choisir et commenter une citation extraite d'une publication de Jean Cardinet.

Martine Wirthner collabora avec Jean Cardinet au sein de l'Institut de recherche et de documentation pédagogique (IRDP) à Neuchâtel. Elle partage ici quelques éléments d'un parcours scientifique accompli et riche, décrivant les qualités humaines tout autant que les compétences de chercheur de Jean Cardinet. Il était un précurseur, notamment dans ses conceptions et ses pratiques visant l'articulation entre différentes méthodologies de recherche. Ce texte nous permet aussi d'en savoir un peu plus sur la personne de Jean Cardinet, clairement en adéquation avec la force et la portée de ses activités de chercheur.

Dans un texte riche, Dany Laveault met en avant des qualités très proches chez Jean Cardinet, en associant à ses travaux des termes comme innovation, conception originale, anticipation, changement. « Rien n'est simple, tout se complique », comme le rappelle Dany Laveault lorsqu'il s'agit de faire de l'évaluation un soutien à l'apprentissage. Et pourtant, les chantiers ouverts avec Jean Cardinet imprègnent, de toute évidence, les recherches actuelles qui associent l'évaluation à l'apprentissage, la formation, le développement professionnel. Il suffit de parcourir une littérature scientifique abondante pour s'en convaincre.

Jean-François De Pietro et Murielle Roth sont également collaborateurs scientifiques à l'IRDP. Ils nous proposent une immersion dans les activités, pour ne pas dire dans les défis que l'institut relève actuellement autour de l'évaluation. Plus qu'une tradition, l'identité épistémologique de l'IRDP et, finalement, son positionnement scientifique et éthique sont imprégnés des travaux de Jean Cardinet.

Daniel Bain nous propose une note de synthèse d'une grande densité dont les apports sont considérables. En s'appuyant sur les travaux de son collègue et ami Jean Cardinet, sur ses propres analyses et réflexions à partir de matériaux empiriques, il met en discussion la méthode d'Angoff et la théorie de la généralisabilité. Alors que les tests de référence critériés continuent à se voir attribuer des fonctions sociales toujours plus importantes, la contribution théorique de Daniel Bain s'avère des plus pertinentes pour le présent et l'avenir.

L'article de Lucie Mottier Lopez, Christophe Blanc, Lionel Dechamboux, Catherine Tobola Couchepin est original et d'une utilité certaine, à bien des égards. Tout d'abord, il met en relation plusieurs contributions ayant en commun de mobiliser certains écrits de Jean Cardinet, notamment ses conceptions de l'évaluation, pour éclairer et discuter les travaux de recherche menés par des doctorants. L'appropriation, par la relève scientifique, de théories fondatrices de Jean Cardinet contribue au développement de la recherche dans le domaine de l'évaluation en éducation. C'est un des objectifs souhaités par Lucie Mottier Lopez dans cet article, en nous rappelant à quel point Jean Cardinet se préoccupait de l'existence de cette relève.

Anne Bourgoz a souhaité proposer un espace de parole à d'autres collègues, amis de Jean Cardinet, à des spécialistes dans le domaine de l'évaluation. Jean-Marie De Ketele, Linda Allal, Georges Pasquier, Pierre-François Coen et Sandra Johnson ont accepté l'exercice subtil de commenter librement une citation issue des travaux publiés de Jean Cardinet. On

Hommage à Jean Cardinet.


(re)découvre notamment des prises de position claires, fondées sur la rigueur d'une activité scientifique soutenue pendant de nombreuses années. Qu'il s'agisse de fonctions de l'évaluation, de la place de la régulation dans l'apprentissage ou encore du rôle de l'erreur, les contributeurs mettent l'accent sur la pertinence des travaux de Jean Cardinet par rapport à des questions qui ne cessent d'alimenter les débats actuels sur l'éducation.

Ce dossier thématique en hommage à Jean Cardinet permet de découvrir ou redécouvrir, et parfois de prolonger l'ampleur de ses contributions dans le domaine de l'évaluation et même au-delà. Il est une invitation, pour ne pas dire une incitation à l'approfondissement.



Jean Cardinet : un précurseur

Martine Wirthner IRDP [email protected] Pour citer cet article : Wirthner, M. (2017). Jean Cardinet : un précurseur. Evaluer. Journal international de Recherche en Education et Formation, 3(3), 13-21

Conseil de direction de l’IRDP, à Bex, 1986

Jean Cardinet (1927-2015)

WIRTHNER, M.


1. Introduction

Bien des hommages ont été rendus à Jean Cardinet1, à des moments-clés de sa carrière et jusqu’à sa mort, en 2015. Lorsque la proposition d’en faire un nouveau m’a été adressée l’an dernier2, elle m’est apparue tout d’abord comme un défi de taille ; puis j’y ai vu aussi l’occasion d’exprimer mon admiration et ma gratitude à celui qui était le chef du service de la recherche à l’IRDP au moment de mon arrivée à l’Institut.

Pour cet hommage à Jean Cardinet, je partirai donc de mon point de vue d’ancienne collaboratrice scientifique à l’IRDP. Mon propos sera de ce fait partiel et volontairement personnel. Je tenterai de rendre compte à la fois de l’homme et du grand scientifique que j’ai connu.

J’ai eu l’immense privilège de travailler sous la houlette de Jean Cardinet, et même, avec Jacques Weiss, de partager son bureau. J’ai ainsi pu être témoin de ses grandes capacités de concentration et de travail, qualités que d’aucuns ont d’ailleurs souvent soulignées. Grâce à lui, j’ai beaucoup appris de mon métier de chercheur. Malgré le travail colossal qu’il accomplissait, il savait prendre du temps pour chacune et chacun de ses collaborateurs. Il avait à cœur de faire progresser son équipe. Il était à la fois patient et exigeant. Je me souviens de sa fine écriture au crayon gris recouvrant les versions successives des rapports que je lui présentais ; c’était tellement gris, parfois, que j’étais certaine d’avoir complètement raté mon texte. Mais la pertinence de ses remarques et corrections contribuait grandement à l’améliorer et il savait aussi encourager. J’ai admiré ses textes à lui, à la fois si clairs et si concis, révélant son souci de se faire comprendre de son lecteur ; ils étaient de véritables modèles pour la néophyte que j’étais. Au formateur patient, attentionné et respectueux qu’il a été pour moi, je tiens donc à dire toute ma reconnaissance, mais aussi toute l’estime que je garde et garderai toujours à son égard.

Il est impossible de rendre compte ici de tous ses travaux : sa carrière est immense, et il a poursuivi son travail bien au-delà de sa retraite à l’IRDP, prise en 1990. Mon objectif sera davantage de mettre en évidence, à travers quelques exemples tirés de mon expérience à l’IRDP, combien il a été un précurseur, combien ses travaux et sa pensée restent actuels.

1 Dès l’annonce de la disparition de Jean Cardinet en 2015, la revue e-JIREF a ainsi publié un texte intitulé Hommage à Jean Cardinet (Demeuse, 2015) et republié un article de Dany Laveault (2015) consacré aux travaux de notre collègue et paru initialement dans la revue Mesure et évaluation en éducation en 2008. 2 Le 10 novembre 2016 fut organisé à Lausanne (HEP Vaud) un colloque d'hommage à Jean Cardinet à l'initiative de collègues et amis ayant travaillé avec lui durant de nombreuses années. La HEP/Vaud et l’IRDP en ont assuré l’organisation.



2. Quelques dates pour commencer

Les jalons présentés dans ce tableau tracent des repères non exhaustifs de la carrière de Jean Cardinet; ils ont pour but d’illustrer les débuts riches et denses de son parcours de chercheur.

1948-1949 : licences en philosophie et en psychologie

1951-1952 : doctorat de l’Université de Chicago sous la direction du professeur L.L. Thurstone

1952-1954 : construction de tests pour l’examen des recrues au Laboratoire Psychotechnique de l’Armée

1954-1956 : construction et validation de tests psychologiques au Centre de Psychologie Appliquée à Paris

1956-1962 : élaboration de méthodes pour la qualification du travail au Service Psychologique d’Ebauches SA à Neuchâtel

Recherches à l’Institut de Psychologie de l’Université de Neuchâtel : création, validation de tests, etc.

Chargé de cours à l’ISE de l’Université de Genève

1962-1963 : Professeur invité à l’Université de l’Illinois et assistant de recherche du professeur Cronbach

1971-1990 : Chef du Service de la recherche à l’IRDP

Lorsque Jean Cardinet arrive à l’IRDP, en 1971, il est fort d’une expérience importante dans l’élaboration et l’utilisation d’outils de mesure quantitatifs dans les domaines de la psychologie et de l’éducation. Parmi les nombreux travaux qu’il a menés jusqu’alors, je relèverai en particulier l’importance de ceux entrepris lors de ses séjours aux Etats-Unis ; il s’y rend une première fois en 1951-1952 pour soutenir sa thèse dirigée par le professeur Thurstone de l’Université de Chicago, université où il a développé des recherches en psychophysique et sur les outils de l’analyse factorielle ; il y retourne en 1962-1963 comme professeur associé pour travailler avec le professeur Cronbach, cette fois, sur ce qui deviendra la théorie de la généralisabilité.

3. Une méthodologie de recherche alliant le quantitatif et le qualitatif

L’IRDP est créé en 1970 et dirigé par Samuel Roller ; les premières investigations commanditées par les autorités scolaires romandes portent l’une sur l’enseignement de la lecture et le choix de la méthode d’apprentissage dans les premiers degrés, recherche réalisée par Jean Cardinet et Jacques Weiss, l’autre sur l’évaluation de l’introduction du nouvel enseignement de la mathématique en Suisse romande.

La force de Jean Cardinet, alors même qu’il est un spécialiste des méthodes quantitatives, est de constater et d’affirmer que le contexte éducatif de l’école exige de la recherche la prise en considération de la dimension subjective au même titre que la dimension objective. Le chercheur ne peut pas être un chercheur de laboratoire mais devient, dans sa perspective, partie prenante de l’observation qu’il engage sur le terrain.

WIRTHNER, M.


Pour la lecture, l’idée des décideurs était de disposer, à la suite de la recherche, de la bonne méthode d’enseignement et d’apprentissage de la lecture, valable pour les premiers degrés de la scolarité obligatoire en Suisse romande. Ce qui frappe, en relisant l’étude de Jean Cardinet et de Jacques Weiss, est que les choix méthodologiques décidés par les chercheurs les ont conduits non pas à proposer la bonne méthode tant attendue, mais à élaborer des principes-clés de l’enseignement et de l’apprentissage de la lecture. Pour ce faire, ils ont construit une recherche en plusieurs volets, comprenant l’analyse des méthodes de lecture retenues (Le Sablier, S’exprimer-lire et Je veux lire), des enquêtes auprès de certains auteurs de méthodes, auprès des enseignants, des observations dans les classes, la mesure des acquis des élèves, etc.

A partir des principes-clés qu’ils ont élaborés, les enseignantes devaient pouvoir choisir la ou les méthodes leur convenant le mieux. Il s’agissait là d’une approche originale qui responsabilisait les personnes concernées au premier chef par l’innovation. Voici ce qu’écrit Jacques Weiss en 1980, dans un ouvrage qui relate cette recherche :

« La recherche romande conduite par l’IRDP et les réflexions méthodologiques qu’elle a suscitées ont montré que l’enseignement de la lecture était le fait des institutrices plutôt que celui d’une méthode ».

« Ce qui importe, c’est de définir une pédagogie de la lecture, intégrée dans la pédagogie du français » ...

« Les enseignantes, pour la suivre, pourraient s’inspirer de toutes les méthodes et y puiser les éléments « en accord » avec elle » (p. 198).

On le voit, la recherche a été ambitieuse puisqu’elle va jusqu’à définir une pédagogie de la lecture et sa place dans l’enseignement du français, laissant aux enseignantes le choix de construire les apprentissages des élèves.

Voici donc ce qui a été proposé d’une part aux enseignants, d’autre part aux administrateurs scolaires :

Principes valables pour les enseignants, édictés à la suite des résultats :

1) La motivation est fondamentale

2) L’enseignement est envisagé selon l’approche large (objectifs cognitifs, en plus des techniques de lecture, de compréhension, de mémorisation, de créativité, etc.)

3) La lecture est construite à partir du langage oral et inclut un travail oral (sons, phonèmes, …)

4) L’enseignement est rarement collectif

5) L’enfant bénéficie de deux ans pour apprendre à lire

Principe valable pour les administrateurs scolaires :

1) Les instituteurs et institutrices les plus expérimentés enseignent en première primaire. Dans la mesure du possible, ils accompagnent les élèves en deuxième.

Ces principes ont guidé ensuite les auteurs de Maîtrise du français, méthodologie de l’enseignement rénové du français (ERF), paru en 1979, pour la partie lecture de l’ouvrage. Ils ont donc marqué l’enseignement du français à l’école primaire pour les décennies suivantes.

En 2009-2010, Jean Cardinet a désiré reprendre une grande partie des données de cette première étude et les revisiter à l’aide d’un nouvel outil statistique, l’analyse multiniveau. Il m’a demandé si je voulais me joindre à lui, ce que j’acceptais avec plaisir. Cela a été l’occasion



d’une collaboration riche, alliant ses connaissances sur la mesure aux miennes en didactique, dans le but de comprendre à la fois les apports du nouvel outil statistique et dans quelle mesure les résultats d’antan pouvaient avoir du sens aujourd’hui à la lumière des recherches actuelles sur la lecture. Grâce à l’analyse multiniveau, il devenait possible de dégager des interactions entre variables personnelles relatives à l’élève et variables situationnelles touchant à la classe, interprétables qualitativement, impossibles dans les années 1970. Les résultats ont montré que la bonne méthode n’est pas la même selon le type d’élève ou selon le contexte de la classe.

La question de l’efficacité de l’enseignement, c’est-à-dire en tant qu’elle est à même de favoriser les apprentissages, a toujours été cruciale pour Jean Cardinet ; cette question a d’autant plus de sens à l’heure actuelle où se multiplient les tests et enquêtes, nationales et internationales, effectuées dans le but de mesurer l’efficacité des systèmes scolaires et de l’enseignement. Voici ce qu’il disait en 2010, dans la publication de l’IRDP qui rend compte de la reprise de l’étude sur la lecture :

« D’aucuns se saisissent des résultats pour critiquer l’enseignement, l’école… Or, le plus souvent, la complexité et la multiplicité des variables susceptibles d’expliquer les résultats ne sont pas prises en considération par ces personnes, ni d’ailleurs les contenus et les conditions d’enseignement. La recherche a ainsi d’autant plus besoin de trouver les outils méthodologiques fins et multiples, lui permettant d’apporter des réponses fondées, concernant la réalité scolaire et les effets de l’enseignement. La réflexion méthodologique doit donc être poursuivie dans toutes les institutions s’occupant de recherche en éducation » (p. 60).

4. L’élargissement de l’évaluation et innovations scolaires romandes

Durant toute sa carrière, Jean Cardinet a milité pour cette approche méthodologique large et complémentaire, alliant outils quantitatifs et qualitatifs. L’IRDP a travaillé dans ce sens lorsqu’il lui a été demandé d’évaluer les grandes innovations qu’a été l’introduction des enseignements rénovés de la mathématique et du français. Pour le français, avec Jacques Weiss, une méthodologie d’observation interactive a été développée, appelant la contribution des différents acteurs de l’école, autorités scolaires, enseignants, parents, chercheurs, réunis en commissions romande et cantonales, et mis ainsi en interaction (1981). Les méthodes de la recherche ont été multiples : analyse du contenu de la presse, questionnaires, entretiens, tests pour vérifier l’atteinte des nouveaux objectifs, etc. Dans cette perspective, observés et observateurs ne sont alors plus radicalement dissociés. Explication et compréhension s’allient dans l’appréhension des phénomènes. Grâce aux différentes investigations qui sont menées, les chercheurs récoltent et analysent les informations, mettent en avant les difficultés rencontrées, évaluent les résultats des élèves. Si cet élargissement de l’évaluation dans la mise en place d’innovations scolaires apporte d’incontestables avantages, il peut aussi engendrer des problèmes dont Jean Cardinet avait conscience :

- la participation de nombreux acteurs pose celui de l’attribution des rôles de chaque instance et de chaque groupe d’acteurs

- la subjectivité du chercheur peut faire douter de la crédibilité de ses investigations.

Il a proposé quelques garde-fous pour pallier ces difficultés :

- la décentration systématique par une confrontation des visions de chacun

- la triangulation par la confrontation des résultats obtenus

- la formulation de prédictions et la vérification par réplication des recherches

WIRTHNER, M.


- la documentation des résultats par une argumentation serrée de leur bien-fondé

En français, je crois pouvoir affirmer que, si nous avons effectivement été confrontés à ces difficultés, une véritable dynamique romande et intercantonale a été réalisée et a permis un accompagnement actif et productif de l’introduction du nouvel enseignement du français sur l’ensemble de la scolarité obligatoire. Cet élan s’est d’ailleurs poursuivi jusque dans les années 2000.

5. Vers une évaluation plus juste des élèves dans le but de favoriser les apprentissages

Je tiens à le redire : Jean Cardinet a été un précurseur, un novateur ; son travail sur l’évaluation de l’apprentissage des élèves, en particulier sur la note scolaire, constitue, à mon sens, son engagement le plus novateur et fort qu’il a tenu durant toute sa vie. Cette question agite d’ailleurs toujours le monde scolaire d’aujourd’hui. Très tôt, dès les années 1970, il s’est montré critique par rapport à la sélection et à la certification à l’école, mais aussi face aux notes dont il a démontré le manque de fiabilité et de validité (1986 ; 1990).

Il a exprimé son souci que l’évaluation puisse aider l’enseignant dans sa classe, mais surtout l’élève dans ses apprentissages. Comment pouvoir affirmer que l’élève a atteint les objectifs fixés ? Comment voir la progression de ses apprentissages ? Ses connaissances de la mesure lui ont permis de fonder une argumentation solide pour démontrer les limites de la note scolaire lorsque, le plus souvent, elle sert à tout, est bonne à tout faire ; l’évaluation est utile lorsqu’elle fournit des informations permettant un réajustement de l’action ou la modification des objectifs visés.

Il a conceptualisé ces questions en distinguant les différentes fonctions de l’évaluation scolaire ; il a défini les fonctions prédictive, formative et sommative de l’évaluation et a montré la nécessité d’adapter les procédures et les instruments de mesure à chacune de ces évaluations. Pour lui, (1989) l’enseignement est une relation d’aide et à ce titre, le jugement devrait en être exclu.

« … l’évaluation formative souhaitable est un retour d’information multidirectionnel, s’adressant à l’élève, au lieu de porter sur l’élève » (p. 49)

Quant à l’évaluation sommative, elle devrait être, selon lui :

- non comparative

- sans gabarit préétabli (évaluer toutes les compétences des élèves, y compris extrascolaires)

- simplement descriptive (cf. les portfolios), sans jugement de valeur.

Il a bien sûr travaillé avec d’autres scientifiques, spécialistes de ces questions, provenant de divers pays. A partir de 1977, ces questions ont été débattues lors des rencontres belgo-franco-suisses en évaluation, qui, vu leur succès, sont devenues en 1985, à l’instigation de Jean Cardinet, l’ADMEE-Europe, une association internationale d’envergure débordant peu à peu les frontières européennes, association sœur de l’ADMEE Canada avec laquelle elle partage la publication Mesure et évaluation en éducation.

Les positions de Jean Cardinet vont loin. Elles touchent à l’éthique, elles témoignent de sa vision de l’éducation et de l’école, qu’il voit, tôt déjà, pluriculturelle, en faveur de la réussite des élèves et non de leur échec. En 2003 encore, il écrivait dans Mesure et Evaluation en Education : « Ce n’est pas parce qu’elles sont numériques que les notes sont à bannir, mais



parce qu’elles sont trompeuses. Utilisons donc les chiffres chaque fois qu’ils peuvent rendre l’école plus juste et plus humaine ! » (p.3).

6. La question des épreuves de référence

Jean Cardinet n’a eu de cesse de traquer les risques et les sources d’erreur des instruments de mesure utilisés en milieu scolaire et de trouver les instruments les plus valides et fiables possibles. Le développement de la théorie de la généralisabilité en témoigne. Elle l’a occupé toute sa vie et elle a été l’occasion d’une collaboration scientifique fructueuse et amicale, en particulier avec Yvan Tourneur et Linda Allal (1985 ; 1990). Les outils ainsi développés peuvent s’avérer utiles dans la confection d’épreuves à fin sommative, aussi bien pour la planification des évaluations du système scolaire que pour la mise au point de dispositifs d’évaluation sommative individualisée. Si la généralisabilité est une démarche qui donne lieu à de multiples applications, elle ne constitue pas la seule possible ; Jean Cardinet n’en excluait aucune. D’autres existent tel par exemple la théorie de réponses aux items (IRT), employée pour PISA.

Jean Cardinet, que plusieurs collaborateurs scientifiques et moi-même avions rencontré à l’IRDP en 2013, dans le cadre d’une recherche sur les Epreuves romandes communes (sous la responsabilité de V. Marc, 2013), nous avait mis en garde sur la difficulté d’évaluer des tâches complexes, telles que prônées dans le Plan d’Etudes Romand (PER), et que nous avions tenté de faire dans une perspective diagnostique ; il n’est pas possible d’affirmer qu’une compétence est atteinte, rappelait-il ! La complexité des tâches est à aborder en didactique, dans une perspective formative, mais en évaluation par épreuves communes, il appelait à la prudence, celle au moins de parvenir à standardiser les conditions dans lesquelles on fait la mesure. Il voyait davantage l’intérêt de préciser les connaissances nécessaires à la résolution d’une tâche complexe et de construire des démarches d’appropriation progressive de ces connaissances.

Jean Cardinet a été un chercheur d’exception, maitrisant parfaitement ses outils de travail, quantitatifs et qualitatifs et construisant un savoir scientifique qui reste une référence largement reconnue. Aujourd’hui, cette maitrise par les chercheurs ne peut plus être si complète, tant les outils se sont complexifiés et multipliés. C’est pourquoi, il estimait que la recherche devait désormais se faire en équipe, dans la complémentarité des compétences de chacune et de chacun (2010).

« Dès le départ, il s’agit de fixer ensemble les hypothèses, les questions, les bases méthodologiques, les étapes de la recherche, puis d’établir quels seront les unités et les outils d’analyse et comment procéder au traitement des résultats […] C’est précisément la rencontre des points de vue différents, issus de disciplines scientifiques différentes, qui est féconde. Dans une équipe, il peut y avoir des didacticiens, des sociologues, des statisticiens, des enseignants » (p. 60).

Il est resté un chercheur toute sa vie, par exemple au sein du groupe Edumétrie de la SSRE (Société Suisse de Recherche en Education), mais aussi sollicité dans les milieux de l’évaluation pour des interventions toujours précieuses et utiles. Par ailleurs, sur un plan privé, il est parti sur les traces des origines et de l’histoire de sa famille. Une longue recherche et une aventure dont il aimait parler. Sa femme, Arlette, née Richard, a fait de même pour sa propre famille. (« Vous remarquerez, Martine », m’avait-il dit lors d’une de nos rencontres « que les noms de Cardinet et de Richard ont la même origine étymologique »). A l’occasion des vœux de fin d’année, qu’il envoyait à ses proches, à ses amis et à ses collègues, Jean ne manquait jamais de donner des nouvelles de sa famille à laquelle il était très attaché.

WIRTHNER, M.


Travailleur infatigable, oui Jean Cardinet l’était. Mais il savait aussi s’arrêter pour participer par exemple aux fêtes de l’IRDP, et il y en avait ; il n’était certes pas un boute en train, mais à sa manière, discrète et respectueuse, avec tact, il aimait les personnes qu’il côtoyait.

Cette photo a été prise en 1977, à l’IRDP, à l’occasion de la fête des chapeaux, malgré les apparences ! Peut-être qu’Arlette et Jean avaient déposé leur chapeau au vestiaire… Aujourd’hui, c’est à nous de lui tirer un grand coup de chapeau pour tout ce qu’il a accompli et qu’il nous laisse, mais aussi pour la belle personne qu’il a été. Chapeau bas, Jean !

7. Références

Besson, M.-J., Genoud, M.-R., Lipp, B., & Nussbaum, R. (1979). Maîtrise du français. Vevey : Delta.

Cardinet, J., & Tourneur, Y. (1985). Assurer la mesure. Berne : Peter Lang.

Cardinet, J. (1986). Pour apprécier le travail des élèves. Bruxelles : De Boeck.

Cardinet, J. (1989). Evaluer sans juger. Revue française de pédagogie, 88, 41-52.

Cardinet, J., Tourneur, Y., & Allal, L. (1990). L’extension de la théorie de la généralisabilité et ses applications à la mesure en éducation. In Hommage à Jean Cardinet. Cousset : DelVal ; Neuchâtel : IRDP.

Cardinet, J. (1990). Les contradictions de l’évaluation scolaire. In Hommage à Jean Cardinet. Cousset : DelVal ; Neuchâtel : IRDP.

Cardinet, J. (2003). Présentation. Mesure et évaluation en éducation, 26, 1-3.

Cardinet, J., & Wirthner, M. (2010). Elèves et classes apprennent à lire. Neuchâtel: IRDP.

Demeuse, M. (2015). Hommage à Jean Cardinet. Evaluer. Journal international de Recherche en Education et Formation, 1(2), pp. 125-127.



Laveault, D. (2015). Mesure sans démesure: la contribution de Jean Cardinet aux méthodologies de la mesure et de l’évaluation en éducation. Evaluer. Journal international de Recherche en Education et Formation, 1(2), pp. 129-138.

Marc, V., Wirthner, M., & Uldry S. (collab.). (2013). Développement d’un modèle d’évaluation adapté au PER. Neuchâtel : IRDP.

Weiss, J. (1980). A la recherche d’une pédagogie de la lecture. Berne: P. Lang

Weiss, J. (1981). Les trois fonctions de l’observation interactive. In J.- C. Calpini et al., Recherche-action. Interrogations et stratégies émergentes. Genève : cahiers de la Section des Sciences de l’Education : Pratiques et Théorie,26.




Pour une évaluation scolaire source de progrès et d’innovation

Contribution de Jean Cardinet

Dany Laveault

Université d’Ottawa, Faculté d'éducation [email protected] Résumé Pour Cardinet, la valeur de l'évaluation scolaire s'exprime à travers le soutien à la prise de décisions et à l'anticipation des conséquences que l’introduction de changements et d’ajustements peuvent entrainer. À cet égard, les travaux récents dans le domaine de l’évaluation soutien d’apprentissage (« assessment for learning ») et des défis reliés à son implantation dans les systèmes d’éducation révèlent toute l’actualité des travaux et de la pensée de Jean Cardinet. Enfin, ils font ressortir toute l’importance de la notion de régulation que Jean Cardinet a contribué à développer et à appliquer à l’étude de l’évaluation sous toutes ses facettes. Mots-clés Jean Cardinet, évaluation formative, évaluation soutien d’apprentissage, régulation, évaluation-dialogue Pour citer cet article : Laveault, D. (2017). Pour une évaluation scolaire source de progrès et d’innovation. Contribution de Jean Cardinet. Evaluer. Journal international de Recherche en Education et Formation, 3(3), 23-29.

1. Introduction

Selon Cardinet (1990), l'utilité de l'évaluation se trouve principalement dans sa capacité à produire du changement et à introduire des innovations qui améliorent le système d’éducation et font progresser ceux, élèves et enseignants, qui en font partie. La valeur de l'évaluation s'exprime à travers le soutien à la prise de décisions et à l'anticipation des conséquences que de tels changements et innovations peuvent entrainer.

C’est donc à une évaluation « majorante » que nous convie Cardinet, c’est-à-dire une évaluation qui veille à introduire une dynamique de changement et de progrès au niveau des individus, des groupes et des institutions (Cardinet et Laveault, 1996). À cet égard, les travaux récents dans le domaine de l’évaluation soutien d’apprentissage (« assessment for learning ») et des défis reliés à son implantation réussie dans nos systèmes d’éducation (Laveault et Allal, 2016), révèlent toute l’actualité des travaux de Jean Cardinet et de la notion de régulation appliquée à l’évaluation dans son rôle de soutien à la progression des apprentissages.

LAVEAULT, D.


À travers les principales publications de Jean Cardinet qui s’étalent sur plus d’une quarantaine d’année, je propose de faire ressortir les principales hypothèses qui l’ont amené à ouvrir un tout nouveau champ d’action pour l’évaluation scolaire : celui d’une évaluation formative qui favoriserait la régulation de l’enseignement et de l’apprentissage, une évaluation scolaire où le dialogue maître-élève et l’autoévaluation joueraient un rôle central pour favoriser la prise de décision et la progression des élèves. Bien que l’idée d’évaluation formative eût déjà fait son chemin à travers les travaux de Bloom et de Scriven (Bloom, Hasting et Madaus, 1971; Scriven, 1967), Jean Cardinet – de concert avec de nombreux collaborateurs européens et plusieurs membres de l’ADMÉÉ – a contribué à développer une conception originale de l’évaluation formative, source de progrès et d’innovation tant dans le domaine de la recherche que de la pratique.

2. La notion de régulation

Le dialogue enseignant-élève est au cœur de la fonction de régulation de l’évaluation formative. Il permet d’apporter de part et d’autre les modifications et d’effectuer les ajustements nécessaires pour assurer la progression de l’élève : « Lorsque l’évaluation a une fonction de régulation, elle doit aider à comprendre la démarche de l’élève, et par là, à déceler l’origine de ses difficultés ». (Cardinet, 1977/1984, p. 92).

Cardinet est crédité comme étant à l’origine du concept de régulation en tant que fonction de l’évaluation (Allal, 2006, pp. 223-225). Dans le texte fondateur sur la régulation, Cardinet (1977/1984) fait le parallèle entre les moments du guidage d’une fusée et les moments de l’évaluation dans l’activité d’apprentissage. Les deux décrivent une action visant un but, le premier appliqué à un modèle astronautique et le second à un modèle didactique.

Figure 1. Trois questions à la base de la régulation (traduction de l’auteur)

Pour une évaluation scolaire source de progrès et d’innovation. Contribution de Jean Cardinet


Le feedback est appelé à jouer un rôle important dans la fonction de régulation de l’évaluation. Pour Cardinet (1977/1984), il ne suffit pas de situer l’élève par rapport à l’objectif final, « c’est l’activité d’apprentissage elle-même qu’il faut piloter » (p. 76). Ce pilotage se fait à partir « des éléments d’information nécessaires pour fonder les décisions pédagogiques en cours d’études » (p. 76). Ces éléments d’information portent notamment sur l’étude des erreurs de l’élève et sur son mode particulier de résolution de problème.

Le concept de régulation a été repris depuis et développé par de nombreux auteurs francophones (Allal, 2006; Perrenoud, 1998; Hadji, 2012) et anglo-saxons (Crooks, 2001; Sadler, 1989; Black et Wiliam, 2009.) dans des contextes théoriques variés. Stiggins, Arter, Chapuis et Chapuis (2004) reformulent le concept sous la forme de trois questions que l’élève doit se poser au regard de ses apprentissages : « Où vais-je? », « Où suis-je rendu? » et « Comment puis-je réduire l’écart qui me sépare du but à atteindre? » (Figure 1). Laveault (2012) décrit l’impact tant cognitif qu’émotionnel des réponses que l’élève apporte à ces questions. Dans l’entrée « Assessment and the regulation of learning » de la International Encyclopedia of Education, Allal (2010, p. 349) résume ainsi l’aboutissement de ce concept appliqué à l’évaluation : « la régulation comporte quatre processus principaux: l’établissement d’un but, le suivi de la progression vers le but, l’interprétation du feedback qui découle du suivi, et l’ajustement des actions en direction du but et/ou de la définition du but lui-même ». Allal (2010; 2016) étendra le concept à celui de « co-régulation », appliqué à un environnement éducatif.

3. Régulation et co-régulation : deux exemples d’apprentissage de l’autoévaluation

Pour décrire cette progression dans l’apprentissage de l’autoévaluation et illustrer les mécanismes de co-régulation en jeu, deux séries d’exemples seront utilisés. D’abord, ceux auxquels Cardinet (1990, pp. 210-212) a eu recours et ceux qui proviennent d’études plus récentes (Laveault, 2012).

Cardinet (1990, p. 211) discerne essentiellement trois étapes dans la progression de l’apprentissage de l’autoévaluation :

- Étape 1. Le maître construit avec ses élèves une représentation correcte de ce qui est attendu d’eux. Les travaux de Nunziati (1984) sur l’utilisation de copies corrigées de compositions écrites des élèves pour illustrer les critères d’une bonne production écrite – ce que nous nommerions aujourd’hui des « copies types » (en anglais « exemplars ») ont servi de modèles à Cardinet : « [d]emander de réaliser des productions autonomes correctes n’aurait pas eu de sens, tant que les élèves ne savaient pas vraiment en quoi consistait un travail correct » (p. 211).

- Étape 2. L’étape suivante consiste à « repérer ensemble comment parvenir à ce résultat final satisfaisant ». Ici, Cardinet fait appel aux travaux de Bonniol (1984) : « Bonniol (1984) a montré, en effet, que c’étaient moins les critères de réussite (concernant le produit final) que les critères de réalisation (concernant l’activité de l’élève) qui devaient être explicités en détail ». Ici, les élèves réfléchissent en termes de « stratégie de construction à utiliser ».

LAVEAULT, D.


- Étape 3. Pour cette troisième et dernière étape, Cardinet se réfère à une autre recherche inspirée des travaux de Nunziati (1984) : « Vial (1987) a fait établir par ses élèves une « carte d’étude » qui spécifie les étapes du travail et les critères de réussite à appliquer à chaque étape. Un plan de formation individualisé peut alors être établi par chaque élève, en fonction de ses difficultés particulières, puis discuté avec le maître ».

Ces trois étapes constituent une bonne illustration de co-régulation et de la série d’ajustements pouvant intervenir tant du côté de l’enseignant que de chaque élève, seul ou en collaboration avec ses paires, pour favoriser le développement de la capacité à s’autoévaluer. Cette capacité intervient à toutes les étapes de l’apprentissage, que ce soit au moment de déterminer les cibles d’apprentissage, d’élaborer une démarche ou finalement d’en surveiller le bon déroulement. Pour Cardinet (1990, p. 211), « [o]n voit que l’accent se déplace progressivement du produit final à la démarche de production, puis à la démarche d’apprentissage elle-même ». Considérée dans cette perspective, la capacité de l’élève à s’autoévaluer va bien au-delà de la compréhension et de l’utilisation de critères élaborés par l’enseignant. Pour Vial (1997 in Scallon 2000, p. 266) « celle-ci [l’autoévaluation] doit s’inscrire dans une démarche de pleine autonomie, loin de toute conformité à des normes préétablies ». Pour Earl (2003), il ne suffit pas de faire de l’élève un collaborateur du processus d’évaluation, mais un acteur critique qui fait le lien entre évaluation et apprentissage.

Dans le cadre de recherches récentes visant à améliorer la qualité du feed-back que les élèves pouvaient se donner entre eux, nous avons suivi une démarche similaire à la précédente afin de développer le créneau « feedback » de la capacité de l’élève à s’autoévaluer. Plus précisément, l’objectif d’apprentissage était d’amener progressivement les élèves à formuler des feedbacks utiles et constructifs à leurs pairs et à utiliser les feedbacks de leurs pairs pour améliorer leurs productions écrites. Un travail de collaboration entre une équipe de recherche, des conseillers pédagogiques et des enseignants volontaires a permis de concevoir et de mettre au point une série d’activités progressives pour permettre à l’élève de développer et d’exercer sa capacité à formuler un feedback. Voici sommairement la liste de ces activités :

- Activité 1. L’élève différencie le « niveau de rendement » d’une série de six copies types de productions écrites de différente qualité.

- Activité 2. L’élève identifie les critères d’évaluation qui permettent de différencier des textes de différente qualité.

- Activité 3. L’élève choisit le feedback approprié pour différentes copies types parmi plusieurs (pratique individuelle). L’enseignant et les élèves identifient conjointement les caractéristiques d’un feedback constructif et modélisent des pratiques de feedback efficace (pratique guidée).

- Activité 4. L’élève produit des feedbacks efficaces sur des copies types de différents niveaux de rendement (pratique autonome)

- Activité 5. L’élève tient compte des critères d’évaluation d’une production écrite et se fixe une cible personnelle d’amélioration par rapport à ces critères.

- Activité 6. L’élève produit des feedbacks constructifs pour trois élèves et utilise les meilleurs feedbacks de trois autres élèves pour s’autoévaluer et améliorer son propre texte.

Cette série de six activités fournit à l’élève l’occasion de développer un certain nombre de prérequis nécessaires à la formulation et à l’utilisation de feedbacks constructifs. Cette



capacité doit d’abord pouvoir s’appuyer sur la reconnaissance de ce qui différencie des productions textuelles de plus ou moins grande qualité (Activités 1 et 2). Mais cela ne suffit pas. Il faut aussi que l’élève soit en mesure de faire la différence entre un feedback constructif et aidant et un autre qui ne ferait qu’exprimer un jugement de valeur ou une critique peu constructive sans plus (Activité 3). Reconnaître un feedback constructif d’un autre qui ne l’est pas n’assure pas que l’élève soit en mesure de formuler lui-même un feedback dans une situation nouvelle (Activités 4 et 5). C’est à ce transfert et à l’intégration de l’ensemble de ces capacités pré-requises que s’attarde la dernière activité (Activité 6) qui vise à consolider l’habileté à formuler et à utiliser un feedback dans une variété de situations et dans un contexte nouveau.

On pourrait croire que cette série d’activités, les unes pré-requises aux autres, constituent une échelle de progression immuable. Ce serait oublier tous les accidents de parcours et les retards qui peuvent se présenter en cours d’apprentissage. Dans la pratique, ces activités alternent entre travail individuel (activités 1, 3 et 6) et pratique guidée avec l’enseignant ou d’autres élèves (activités 2, 4). L’alternance se produit aussi ente activité de réflexion, autonome ou collective avec l’enseignant et/ou les autres élèves, et des activités d’exercice de ces habiletés. Ces différentes modalités d’apprentissage permettent de créer ce que j’appelle des « espaces de co-régulation » où des ajustements – des correctifs et non des corrections – peuvent être apportés. Après avoir fait l’exercice de discriminer un feedback constructif d’un qui ne l’est pas, il est important que les élèves réfléchissent seuls ou en équipes sur les critères qui leur permettent de les différencier dans une situation nouvelle. Il est également important qu’ils puissent rapidement utiliser et mettre en application de tels critères dans des situations nouvelles et authentiques : celle de leur projet de production écrite et celle de leurs paires.

Les espaces de co-régulation sont autant d’opportunités où l’évaluation permet, dans le cadre d’un dialogue entre enseignant et élève, de comprendre ce qui n’a pas été compris de part et d’autre, d’apporter les correctifs nécessaires pour assurer la continuité de la progression vers l’objectif final. Le rôle de l’enseignant dans ce contexte est de concevoir non seulement les activités qui stimuleront l’apprentissage, mais aussi de prévoir des espaces ou des moments de co-régulation qui permettront des rapprochements entre ses représentations et celles des élèves. Concevoir des objectifs ambitieux d’apprentissage et des activités qui leur correspondent ne suffit pas. Il faut aussi offrir des occasions de dialogue, d’échange et de réflexion, collective et individuelle, qui permettent de co-réguler tant l’apprentissage que l’enseignement.

Fournier et Laveault (1994) ainsi que Laveault et Miles (2008) ont démontré que la mise en place de telles pratiques de co-régulation conduit à améliorer la précision de l’autoévalution des productions écrites et à accroître la concordance des jugements d’évaluation entre enseignants et élèves ainsi qu’entre élèves. De tels résultats confirment l’importance de l’évaluation-dialogue pour tous, enseignant et élèves, pour que se développe une compréhension partagée des critères de jugement d’une production écrite.

4. Évaluer pour soutenir les apprentissages : des raisons d’être optimiste

« Rien n’est simple, tout se complique » avions-nous conclu Jean Cardinet et moi en 1996. Ce serait si simple s’il existait des solutions toutes faites, prêtes à être utilisées. Mais ce n’est pas le cas. L’évaluation scolaire demeure source de nombreux défis et la mise en place de pratiques d’évaluation favorisant le soutien de l’apprentissage suppose la coordination d’initiatives de toute sorte, tant au plan des politiques, de la formation et du développement

LAVEAULT, D.


professionnel continu du personnel enseignant que de la culture d’évaluation (Laveault et Allal, 2016).

Pour poursuivre l’analogie utilisée par Cardinet en 1977 avec le lancement d’une sonde vers Mars, il y a sans doute quelque chose d’aussi encourageant à voir un élève progresser et atteindre ses objectifs d’apprentissage que de réussir à poser une sonde spatiale sur une autre planète. L’un de moments critiques du lancement d’une sonde est lors du détachement de celle-ci de la fusée porteuse et de la première impulsion autonome vers la cible à atteindre. En évaluation scolaire, ce défi de détacher l’élève de l’impulsion que lui donne l’enseignant et de le rendre capable de continuer à se guider progressivement par lui-même vers la cible d’apprentissage est un accomplissement remarquable.

Des nombreux travaux et écrits de Jean Cardinet sur l’évaluation scolaire, je retiens non seulement sa grande confiance dans les possibilités de la science et de la recherche en évaluation, mais aussi son optimisme quant à la capacité des enseignants et des élèves à utiliser l’évaluation comme instrument de dialogue pour progresser et innover ensemble vers des apprentissages de plus en plus complexes et ce, en venant à bout de difficultés qui peuvent paraître, au départ, insurmontables.

5. Références

Allal, L. (2006). La fonction de régulation de l’évaluation : constructions théoriques et limites empiriques. In G. Figari & L. Mottier Lopez (éd.), Recherche sur l’évaluation en éducation : problématiques, méthodologies et épistémologie (pp. 223-230). Paris : L’Harmattan.

Allal L. (2010). Assessment and the Regulation of Learning. In P. Peterson, E. Baker, & B. McGaw, (Eds), International Encyclopedia of Education, 3 (pp. 348-352). Oxford: Elsevier.

Allal, L. (2016). The co-regulation of student learning in an assessment for learning culture. In D. Laveault & L. Allal (eds.). Assessment for Learning: Meeting the challenge of implementation. Cham, Switzerland: Springer.

Black, P.; & William, D. (2009). Developing the theory of formative assessment. Educational Assessment, Evaluation and Accountability. 21 (1), 5–31.10.1007/s11092-008-9068-5

Bloom, B. S., Hasting, J. T., & Madaus, G. F. (1971). Handbook on formative and summative evaluation of student learning. New York : McGraw-Hill.

Bonniol, J.-J. (1984). Régulation et bilan : les deux objectifs de l’évaluation en interaction. Collège, 2, 38-40.

Cardinet, J. (1977). Objectifs éducatifs et évaluation individualisée (2e éd.). Neuchâtel : Institut Romand de Recherches et de Documentation pédagogique.

Cardinet, J. (1984). Objectifs éducatifs et évaluation individualisée (2e éd.). Bruxelles : De Boeck.

Cardinet, J. (1986) Évaluation scolaire et mesure. Bruxelles : De Boeck.

Cardinet, J. (1987). Les contradictions de l’évaluation scolaire. Neuchâtel : IRDP, Pratiques 87.204.

Cardinet, J. (1990). Les contradictions de l’évaluation scolaire. In Hommage à Jean Cardinet (pp. 195-214). Neuchâtel : IRDP – Delval.

Cardinet, J., & Laveault, D. (1996). Dix années de travaux européens et nord-américains sur l’évaluation : quelles lignes de force ? Mesure et évaluation en éducation, 18(3), 1-25.

Crooks, T. (2001). The Validity of Formative Assessments. British Educational Research Association Annual Conference, University of Leeds, September 13–15, 2001.

Earl, L. (2003) Assessment as Learning: Using classroom assessment to maximize student learning. Thousand Oaks, CA: Corwin Press.

Fournier, C., & Laveault, D. (1994). Liens entre anticipation, autoévaluation et le résultat à un examen de rendement scolaire. Revue des sciences de l’éducation, 20(3), 427-442.



Hadji, C. (2012). Comment impliquer l’élève dans ses apprentissages. L’autorégulation, une voie pour la réussite scolaire. Issy-les-Moulineaux : Reed Elsevier France.

Laveault, D., & Miles, C. (2008). Utilité des échelles descriptives et différences individuelles dans l’autoévaluation de l’écrit. Mesure et évaluation en éducation, 31(1), 1-29.

Laveault, D. (2012) Autorégulation et évaluation-soutien d’apprentissage. In Mottier Lopez, L.& Figari, G. (Ed.), Modélisations de l'évaluation en éducation (pp. 115-130). Bruxelles : De Boeck.

Laveault, D., & Allal, L. (Eds.) (2016). Assessment for Learning: Meeting the Challenge of Implementation. Cham : Springer.

Nunziati, G. (1984). Évaluation formative et réussite scolaire. Collège, 2, 18-37.

Perrenoud, P. (1998). From formative evaluation to a controlled regulation of learning processes. Towards a wider conceptual field. Assessment in Education. Principles, Policy & Practice, 5(1), 85-102.

Sadler, R. (1989). Formative assessment and the design of instructional systems. Instructional Science, 18, 119-144.

Scallon, G. (2000). L’évaluation formative. Saint-Laurent : Éditions du Renouveau Pédagogique.

Scriven, M. (1967). The methodology of evaluation. In R. E. Stake (Ed.). Curriculum evaluation. Chicago: Rand McNally. American Educational Research Association (monograph series on evaluation, no. 1).

Stiggins, R. J., Arter, J. A., Chappuis, J., & Chappuis, S. (2004). Classroom assessment for student learning. Doing it right – Using it well. Portland, OR : Assessment Training Institute.

Vial, M. (1987). Un dispositif d’évaluation formatrice en expression écrite. Marseille : Centre régional de documentation pédagogique, 79 p.



A propos de la validité « didactique » d’une évaluation

Jean-François de Pietro Institut de recherche et de documentation pédagogique [email protected] Murielle Roth Institut de recherche et de documentation pédagogique [email protected] Résumé En nous inscrivant dans la longue tradition des activités menées par l’Institut de recherche et de documentation pédagogique (IRDP) dans le domaine de l’évaluation, tradition illustrée en particulier par les travaux de Jean Cardinet, nous abordons ici – en vue d’une évaluation liée au Plan d’études romand (PER) introduit maintenant depuis quelques années – diverses questions qui touchent à l’élaboration d’une banque d’items et de matériaux langagiers à mettre à disposition des enseignants et des cantons francophones. Le but de notre contribution est de mettre en évidence les questionnements didactiques que pose une telle construction :

- Quels sont les « objets » du PER à prendre en compte pour l’évaluation ?

Ou, pour le dire autrement,

- Comment transposer des objets d’enseignement et d'apprentissage en objets d’évaluation ?

- Quels sont les (types de) tâches à même de rendre ces objets visibles ?

Nous abordons ces interrogations en nous appuyant sur des observations et analyses concernant en particulier le domaine du français. Plus généralement, l’enjeu de nos travaux est de contribuer à renforcer la validité didactique des évaluations conduites en lien avec le PER – autrement dit de définir certaines conditions afin qu’on évalue bien ce qu’on veut évaluer. Et, dans cette perspective, nous ferons résonner nos questionnements actuels par des citations de Jean Cardinet auxquelles ils nous semblent particulièrement faire écho. Mots-clés Validité didactique - modélisation - IRDP - banque d'items Pour citer cet article : de Pietro, J-F., & Roth, M. (2017). A propos de la validité « didactique » d’une évaluation. Evaluer. Journal international de Recherche en Education et Formation, 3(3), 31-50.

DE PIETRO, J-F., & ROTH, M.


1. Introduction

« L’évaluation est moins un problème de mesure que de dialogue. »

(Cardinet, 1991, p. 19)

Travaillant à l'Institut de recherche et de documentation pédagogique (IRDP), notamment dans le domaine de l'évaluation des apprentissages des élèves, nous nous inscrivons dans une longue tradition de travaux en ce domaine qui a forgé une part importante de la réputation de l'Institut et dont Jean Cardinet représente certainement la figure emblématique. Pourtant, héritiers – indirects (car nous n'avons nous-mêmes jamais eu l'occasion de travailler avec lui) – de ses travaux, et engagés aujourd'hui dans l’élaboration d’un dispositif d'évaluation destiné à la fois à être mis à disposition des enseignants et à servir de base pour d’éventuelles épreuves communes romandes, nous avons pu nous rendre compte à l’occasion de ce colloque d’hommage que nous ne percevions pas toujours l’immense importance de ses travaux1.

Certainement impressionnés par la scientificité, et la complexité, de ses travaux d’orientation édumétrique, nous avons ainsi dû constater que nous avions un peu oublié ses autres écrits portant par exemple sur le sens et les fonctions de l’évaluation, illustrés notamment par son image de la fusée (Cardinet, 1977a) – travaux qui s’avèrent pourtant, ainsi que nous le verrons ci-après, d’une très grande pertinence didactique aujourd'hui encore. Bien sûr, les notions d’évaluation formative (Cardinet, 1979), interactive (Cardinet et Weiss, 1978 ; Cardinet, 1991), voire informative (Weiss, 1995, 2003) ou de régulation (Cardinet, 1977a) ; Mottier Lopez et Tessaro, 2016) font aujourd’hui partie de notre « bagage notionnel ». Mais nous n’avions pas pris toute la mesure des apports de Jean Cardinet au développement de ces nouvelles perspectives pour l’évaluation.

Nous avons par conséquent souhaité, pour cette contribution, mettre en discussion quelques-uns de nos questionnements actuels en les faisant résonner par des citations de Jean Cardinet auxquelles ils nous ont semblé faire écho : dans quelle mesure ses apports, de divers ordres, sont-ils pris en compte – même sans que nous en soyons pleinement conscients – dans nos travaux actuels ? Que nous disent-ils de l’évolution actuelle de la réflexion et des actions mises en œuvre – au niveau romand – dans le domaine de l’évaluation ?... Cette réflexion concernera essentiellement des questions didactiques, à l’exemple de la discipline français et, plus particulièrement, de la compréhension écrite. Nous nous centrerons avant tout sur des questions dont l’enjeu est de renforcer la validité didactique des évaluations qui, dans l’école romande, devront désormais être conduites en lien avec le Plan d’études romand (CIIP, 2010 ; désormais PER) récemment introduit dans les différents cantons. Il s’agit, autrement dit, de définir par ces travaux certaines conditions nécessaires afin qu’on évalue bien ce qu’on veut évaluer car… « chaque épreuve doit correspondre aux objectifs du curriculum enseigné. » (Cardinet, 1990, p. 2)

Nous présenterons tout d’abord le contexte dans lequel nous travaillons (chapitre 1) et les mandats qui nous sont attribués dans ce contexte, du premier projet d’« EpRoCom » au Masterplan 2016 (chapitre 2). Nous en viendrons alors aux questions auxquelles nous essayons, actuellement, de répondre : à propos de la notion d’item et de la validité des items (chapitre 3), à propos des « objets » du Plan d’études romand (PER) à prendre en compte pour l’évaluation (Quoi évaluer ?, chapitre 4) et de leur statut (Compétences, connaissances et références culturelles, chapitre 5) et à propos des types de questionnement à mettre en place en

1 Cette remarque n’engage bien sûr que les auteurs de cette contribution !



relation à ces objets (chapitre 6), pour conclure sur quelques réflexions générales sur l’importance et la place de l’évaluation dans le contexte scolaire (chapitre 7).

2. Le contexte de nos travaux

Ainsi que nous l'avons rappelé, l'IRDP a dès sa création en 1969 été particulièrement actif dans le domaine, au sens large, de l'évaluation. Les travaux réalisés s'inscrivent dans trois directions principales et concernent :

- les fondements de l’évaluation (questions de finalités, de validité, etc.) ;2

- la fiabilité de la mesure, notamment dans une perspective édumétrique ;3

- des évaluations ponctuelles ciblées portant surtout sur les enseignements rénovés du français et des mathématiques, couvrant des domaines aussi divers que les moyens d’enseignement élaborés dans le cadre de ces rénovations et leurs effets sur les performances des élèves, l’avis des parents quant à ces enseignements, etc.4

Dès le tournant du millénaire, une volonté politique nouvelle s’est manifestée – tant au niveau suisse qu’au niveau romand – en vue d’une plus grande harmonisation entre les systèmes scolaires cantonaux.5 Cela a conduit à diverses « Déclarations » et recommandations politiques, à l’élaboration au niveau fédéral d’un « Concordat » (« HarmoS »), plébiscité lors d’une votation populaire en mai 2006, qui définit certaines conditions minimales à respecter dans tous les cantons signataires (âge du début de la scolarité, compétences à atteindre à certaines étapes du cursus pour les disciplines considérées comme prioritaires6, etc.), à l’écriture de nouveaux plans d’études dans les diverses régions linguistiques du pays, etc.

En Suisse romande, un Plan d’études romand, le « PER », réalisé par des équipes disciplinaires d’enseignants, a ainsi été publié en 2010 et progressivement mis en œuvre dans les 7 cantons francophones. Il définit les connaissances et les compétences que l’école obligatoire doit transmettre aux élèves, « permettant à chacun et chacune de développer ses potentialités de manière optimale. » (CIIP, 2003, 2010). En lien avec ces développements et l’introduction du PER, les autorités éducatives ont dès lors engagé des travaux en vue de l’élaboration, d’une part, de moyens d’enseignement qui soient en adéquation avec les contenus et objectifs du PER, d’autre part d’épreuves de référence permettant de vérifier si ces objectifs sont atteints.

2 Voir par exemple, en reprenant quelques jalons historiques de ces travaux : Cardinet, 1977b, 1981 ; Weiss, 1998 ; de Pietro, Roth et Sánchez Abchi, 2016 ; etc. 3 Cardinet, 1986 ; Cardinet et Tourneur, 1978 ; Eboulet et Matei, 2013 ; Sánchez Abchi, de Pietro et Roth, 2016 ; etc. 4 Quelques exemples parmi les très nombreuses publications à ce propos : Cardinet, 1977c ; Pochon, 1979 ; Wirthner et Weiss, 1981 ; Calame et al., 1995 ; Genoud, 1999 ; Antonietti, 2005 ; de Pietro et al., 2009 ; Elmiger et Singh, 2014 ; etc. 5 Rappelons ici que ce sont, en Suisse, les 26 cantons qui sont chacun responsables de la structure et du fonctionnement de leur système scolaire et qu’il en découlait une importante variabilité tant en ce qui concerne la structure même du système (âge d’entrée à l’école, types de filières, procédures de promotion et de sélection, etc.) que les moyens d’enseignement et l’enseignement lui-même. 6 Langue de scolarisation, langues étrangères, mathématiques et sciences naturelles. Voir à ce propos : http://www.edk.ch/dyn/15415.php (consulté le 28 aout 2017).



Afin de bien comprendre où se situe le projet dans lequel s’inscrivent nos réflexions, voici, succinctement rappelées, quelques-unes des étapes par lesquelles il est passé :

- 2004 : l'IRDP, en collaboration avec des groupes de spécialistes issus des cantons, mène une première réflexion sur les conditions de création d’épreuves romandes communes. Ce travail a tout d’abord l’intérêt de rendre visible la variété et le nombre importants d’épreuves évaluatives développées dans presque tous les cantons romands. Dans son rapport final, en 2007, le groupe propose dès lors, dans la perspective d’une harmonisation future, de réaliser une analyse plus fine de ces multiples épreuves afin de mieux en saisir la nature, la visée et les enjeux (apprentissages, sélection, certification…). Pour ce faire, il souligne la nécessité de créer un pôle romand de compétences en matière d’évaluation, afin de définir des buts communs et construire une méthodologie commune.

- 2007 : la Conférence intercantonale de l’Instruction publique (CIIP), organe politique responsable au niveau romand de la coordination de l’éducation entre les différents cantons, adopte une Convention scolaire romande, instituant ainsi un « espace romand de la formation ». Elle y définit des conditions-cadres à appliquer par les différents cantons. L’une d’entre elles concerne particulièrement l’évaluation :7

Convention scolaire romande – ch.2, sect.2, art. 15, al.1 et 2

1. La CIIP organise des épreuves romandes communes à l’Espace romand de la formation, en vue de vérifier l’atteinte des objectifs du plan d’études.

2. En fin de cycle ou à la fin du degré secondaire I, si la discipline choisie pour l’épreuve romande commune correspond à celle d’un test de référence vérifiant un standard national, le test de référence peut servir d’épreuve commune.

- 2008 : la CIIP confie à l’IRDP le mandat d’étudier la possibilité de créer des épreuves romandes communes. Un Consortium romand, formé de délégués cantonaux, ainsi que des groupes de travail dans les disciplines français et mathématiques sont constitués en vue de l’élaboration de premières épreuves. Les travaux réalisés – dans le cadre du Consortium jusqu’en 2012 puis, suite à la dissolution de celui-ci, au sein de l’IRDP – ont en particulier donné lieu à trois publications: une analyse des épreuves cantonales et des scénarios possibles pour une évaluation adaptée au PER (Marc et Wirthner, 2012), un modèle d'évaluation adapté au PER (Marc et Wirthner, 2013) et une analyse des éléments du PER et, subsidiairement, des moyens d’enseignement romands (MER) qu’il s’avérait nécessaire de clarifier afin de mieux définir les « objets » à évaluer (Roth et de Pietro, 2013).8

C’est donc dans la suite de tous ces travaux que s’inscrivent ceux que nous menons actuellement et les quelques réflexions que nous souhaitons mettre en discussion dans cette contribution.

7 Convention scolaire romande – Texte adopté par la CIIP le 21 juin 2007, Art. 15, §1. http://www.ciip.ch/documents/showFile.asp?ID=2518 8 Durant cette période, l'IRDP a également mené d’autres travaux en lien à cette problématique d’une évaluation romande. Ils portent sur le classement des items (Pochon, 2006), la perception des évaluations externes par les enseignant-e-s (Dierendonck, 2008), un inventaire des différentes réformes romandes dans le domaine de l'évaluation (Behrens, 2010), l'analyse des dispositifs de testing adaptatifs (Vermot, Behrens et Marc, 2011) et la question de la protection des données (Armi et Pagnossin, 2012).



3. Le travail actuel de l’IRDP : du projet « EpRoCom » au Masterplan 2016

« (…) aucune technique ne peut estimer le niveau des élèves de façon généralisable. »

(Cardinet, 1988, p. 4)

2.1 Un projet prioritairement politique

Tout ce qui a été réalisé durant cette période, grosso modo entre 2003 et 2016, s’inscrit – parfois avec succès, parfois moins – dans le mouvement de reprise en main politique de la gestion du/des système(s) scolaire(s) : volonté d’aller vers une meilleure harmonisation – qui assure notamment une plus grande équité d’un canton à l’autre et facilite en même temps la mobilité intercantonale des travailleurs – et d’assurer un véritable pilotage du système via l’élaboration de conditions-cadres, d’un plan d’études commun et d’épreuves permettant d’en mesurer l’efficience.9

Ce changement de perspective comporte de nombreux aspects positifs mais il pourrait en même temps conduire à un repositionnement ambigu, à divers égards problématique, de la place et du rôle de la recherche dans l’ensemble du dispositif – dont témoigne, par exemple, le point concernant l’évaluation du Mandat de prestations attribué par la CIIP, pour les années 2016 – 2019, à l'IRDP :

B : Evaluation du système, épreuves de référence

Art. 6 Epreuves romandes communes pour la scolarité obligatoire

1. L’IRDP assure la coordination générale de la préparation des épreuves romandes communes (EpRoCom) sur la base des objectifs du PER et du cadre de travail placé sous la responsabilité du secrétaire général et de la CLEO [Conférence latine de l'enseignement obligatoire]. Il collabore étroitement avec les responsables des épreuves cantonales dans les services d'enseignement ou de recherche des cantons membres et dirige, dans le cadre de groupes de travail intercantonaux, la mutualisation ou l'élaboration, la validation et le calibrage des items à partir desquels il construit les séries d'épreuves correspondant à la planification quadriennale adoptée par l'Assemblée plénière. Il rédige et soumet à l'aval de la CLEO les consignes d'application et de correction qui seront communiquées par la CIIP aux Départements cantonaux, responsables de la conduite et de la correction des épreuves. Il développe au besoin l'infrastructure technique et les réseaux permettant la mise en œuvre du dispositif.

Extrait du mandat de prestations de l’IRDP pour années 2016-2019

Selon ce document, pris à la lettre, la recherche pourrait devenir un simple rouage de ce travail de pilotage, bien loin des recherches-actions ou autres menées dès la création de l’Institut et qui ont notamment soutenu le développement de nouvelles approches de

9 Soulignons tout de même que tout cela s’inscrit également dans un mouvement sociétal plus large encore, d’envergure mondiale, marqué par une influence de plus en plus forte du monde économique, qui conduit à une exigence de rentabilité et d’efficacité du système scolaire concrétisée notamment dans la volonté d’assurer un pilotage basé sur la mesure de performances : « Le développement de certaines formes modernes d'évaluation à l'école est issu de la culture de l'entreprise et de la technocratie, et (…) dans cet esprit, tout investissement doit être évalué. » (Frakowiak, 2005). Et cela conduit dès lors à élaborer de nombreux instruments de mesure : épreuves PISA, tests de référence nationaux portant sur les standards HarmoS, épreuves romandes communes visant à mesurer l’atteinte des objectifs du PER, etc.



l’évaluation, en particulier à travers les travaux de Jean Cardinet : évaluation formative (cf. Laveault, ici-même), puis interactive (Weiss, 1992) voire informative (Weiss, 2003), etc.10

Dans le cours de ces travaux, de plus, les divers acteurs impliqués – enseignant-e-s, didacticien-ne-s, mais aussi responsables politiques – ont également dû se rendre compte des difficultés considérables de cette tâche d’harmonisation en raison des différences d’approches qui subsistent entre les cantons. Il s’avère de fait très difficile de définir un cadre commun pour l’ensemble d’entre eux dans la mesure où, par exemple, ils n’attribuent pas nécessairement un même statut et une même fonction à de telles épreuves romandes communes.

Dans une lettre datée du 30 juin 2011, le Secrétaire général de la CIIP invitait ainsi l'IRDP à développer « sans retenue la production d'items pouvant être utilisés à terme dans de telles épreuves intercantonales » … mais en précisant cependant que l'organisation de celles-ci ne pouvait être déterminée tant que l'organisation des tests nationaux de référence, fondés sur des standards nationaux de formation, n'aura pas été définitivement arrêtée...

Ces diverses péripéties et les difficultés rencontrées ne vont pas sans soulever certaines questions :

- L’école actuelle tend vers une multiplication des dispositifs de mesure : épreuves internationales (PISA), tests de référence nationaux (HarmoS), régionaux (EpRoCom), cantonaux (épreuves communes), travaux en classe pour l’attribution des notes et des moyennes… L’évaluation des apprentissages, certes nécessaire tant dans la perspective de la gestion du système que comme élément constitutif de tout apprentissage, ne finit-elle pas par prendre trop de place, par occuper une part trop importante des programmes ? Certaines réactions et résistances des enseignant.e.s peuvent le laisser penser, d’autant que ce nouveau pilotage est largement guidé selon un mode « top-down » dans lequel ils ne semblent guère avoir leur mot à dire.

- Le dispositif envisagé, les épreuves communes notamment, a encore, pour l’heure en tout cas, des finalités floues et qui ne semblent pas les mêmes pour l’ensemble des cantons : s’agit-il uniquement de fournir des informations utiles pour le pilotage du système, dans le but d’ajuster et faire évoluer le PER sur la base de résultats globaux – appréhendés via des évaluations partielles échantillonnées – concernant l’atteinte des objectifs qui y figurent ? Ou de fournir des informations utiles à chaque canton, dans le but de « situer » (orienter ? sélectionner ?...) chaque élève sur la base du PER ? Doivent-elles remplacer (par souci d’économie ?) les épreuves cantonales actuelles ou viennent-elles simplement s’y ajouter ?...

- Ne passe-t-on pas trop rapidement sur les nécessaires questionnements didactiques que soulève l’évaluation en décidant la production d’épreuves alors que de (trop) nombreuses questions restent ouvertes : qu’est-ce qui, dans le PER – qui est un référentiel conçu pour l’enseignement et l’apprentissage, non pour l’évaluation –, doit faire l’objet d’une évaluation ? Dans ce contexte d’une évaluation fondée sur le PER, qu’est-ce qu’un « item » ? Bref, que mesure-t-on vraiment et qu’est-ce que cela signifie ?

La citation placée en exergue à ce chapitre nous invite pour le moins à la prudence, et à cesser de voir l’évaluateur comme un deus ex machina gérant le système depuis son tableau de bord !

10 A propos de l’évolution de l’orientation des travaux au sein de l’IRDP, cf. Weiss et al., 2001.



2.2 Une évolution significative et positive

« Il faut abandonner ce mythe de l’évaluateur à son tableau de bord. »

(Cardinet, 1991)

Le mandat reçu par l’IRDP s’inscrit dans ce contexte et comporte par conséquent une importante dimension politique. Afin de ne pas devenir qu’un simple rouage dans le système global de pilotage, les collaborateurs impliqués dans le projet se sont toutefois efforcés de poursuivre un véritable travail de recherche :

- en expérimentant des dispositifs d’évaluation (Marc et Wirthner, 2013),

- en menant des analyses approfondies, dans la perspective d’une potentielle évaluation commune, des éléments figurant dans le PER, des moyens d’enseignement et de quelques épreuves cantonales (Marc et Wirthner, 2012 ; Roth, de Pietro et Sánchez Abchi, 2014).

- en tentant d’élaborer une « modélisation » de l’évaluation mettant en relation les objets à évaluer et les types de tâches qui permettent de les rendre visibles (Roth, de Pietro et Sánchez Abchi, 2014); de Pietro, 2015).

Il s’agissait ainsi, dans la mesure du possible, de fournir les fondements scientifiques en vue de ce pilotage du système qui devrait être basé, notamment, sur des épreuves romandes communes. Autrement dit, il s’agissait pour nous d’y inclure une véritable dimension didactique dans la mesure où, comme nous l’avons vu, le PER constitue un référentiel pour l’enseignement / apprentissage et ne permet de définir clairement ni des « objets » à évaluer, ni des modalités d’évaluation. C’est pourquoi il nous a paru indispensable de mener cette réflexion didactique en amont, afin qu’une évaluation en lien au PER – quelle qu’en soit par ailleurs la finalité (évaluation-système ou évaluation des acquis des élèves) – ait une validité de contenu, autrement dit qu’elle évalue ce qu’on veut évaluer.

En 2016, les modalités de réalisation du projet ont été précisées dans le cadre d’un Masterplan – qui tient compte, par divers réajustements, des questions soulevées ci-avant et de ces travaux en cours, comme le montre l’extrait suivant de cette nouvelle planification :

2. Finalités et orientations retenues

FINALITÉS

Le projet EpRoCom vise en priorité à la mise à disposition d'une BANQUE D'ITEMS VALIDÉS, pertinents, fiables et fondés sur les objectifs et progressions du PER, dans laquelle les enseignants et les cantons pourront librement puiser et à partir de laquelle, sur décision de l'Assemblée plénière en fonction des besoins et opportunités, une épreuve commune romande pourra de temps à autre être mise sur pied et pilotée par l'IRDP et ses partenaires scientifiques dans le but de vérifier à plus large échelle certaines atteintes spécifiques du PER.

Extrait du Masterplan EpRoCom – vérification de l’atteinte des objectifs du plan d’études romand (PER)

Cette redéfinition du projet a le mérite de l'ouvrir à divers usages (par les cantons, mais aussi par les enseignant.e.s) et de redonner un véritable rôle à la recherche. Elle nous parait très intéressante dans la mesure où elle suppose des expérimentations et des prises d’informations auprès des enseignant.e.s afin de déterminer ce qu’il est finalement possible / souhaitable de faire et dans la mesure où elle oriente désormais le travail vers l'élaboration d'une base de données fondée didactiquement, sans subordonner ce nécessaire travail scientifique à la



réalisation immédiate d'épreuves. Nécessaire, en effet, en raison des nombreuses questions qui restent pour l'heure non résolues, en lien notamment avec la recherche d’une validité didactique et avec la définition même de ce qu’on entend par item. C'est donc à une réflexion autour de ces questions que nous allons à présent nous intéresser.

3. Des « items » à « valider » …

« La standardisation des épreuves privilégie l’objectivité de la correction, en négligeant le caractère arbitraire du choix des questions »

(Davaud et Cardinet, 1992, p. 7)

3.1 Quelle définition de l’item ?

Nous nous sommes donc d'abord demandé ce qu'il fallait entendre par la notion d'item. Dans une approche peu réfléchie – telle qu'on en observe trop souvent – la réponse pourrait sembler évidente : un item c’est une question de test et la réponse qui lui est associée. C’est par exemple ce qu’on observe dans les épreuves conçues sous la forme de QCM. Dans le meilleur des cas on pourra donner plus d’importance (plus de « points ») à certains items qu’on juge prioritaires – autrement dit pondérer l’épreuve – mais certaines ambigüités demeurent, rendant nécessaires diverses clarifications :

- Peut-on « mélanger » dans une même épreuve et les prendre en compte dans un calcul unique des questions portant sur des objets différents, tant en nature (orthographe, production orale…) qu’en statut (connaissances, compétences…) ?11 Et qu’est-ce qui, au final, est alors évalué ?

- L’IRT (« Item Response Theory »), notamment, est fondée sur le principe que, pour être placés sur une échelle évaluative unique, les items doivent être indépendants les uns des autres, au risque sinon d’évaluer (et comptabiliser) plusieurs fois certains éléments ; cela est-il possible lorsque, par exemple, on veut évaluer, la compréhension d’un texte ? La compréhension, ou la non compréhension, d’un passage, d’un paragraphe, voire d’un mot, n’influence-t-elle pas la compréhension (ou non) du suivant et de l’ensemble du texte ?

- Comment, dans cette optique, appréhender ce qu’on pourrait considérer comme la compréhension globale du texte, nécessairement (mais pas seulement) fondée sur la compréhension de ses différents constituants ? Peut-on simplement inférer de la somme des points obtenus aux différentes questions à la compréhension du texte ?...

Pour réfléchir à ces questions, nous avons notamment examiné ce qui était considéré comme item dans diverses épreuves, cantonales ou autres. Cet examen nous a conduits à quelques constats qui confirment nos interrogations :

- un item peut fournir des informations de nature et de portée très différentes ;

- la création d’items qui soient véritablement indépendants les uns des autres s’avère très difficile et risque de conduire à privilégier des informations « locales » qui n’ont que peu d’impact sur le sens général du texte ;

11 Le bon sens nous rappelle qu’il ne faut pas mélanger les pommes et les poires…



- la somme d’items disparates qui en découle alors ne suffit pas à fournir une information dépassant l’information ponctuelle fournie par chacun des items et ne permet dès lors pas – en tout cas en l’absence de procédures complémentaires – d’évaluer ce qu’on pourrait considérer comme la compréhension globale du texte12, compréhension qui constitue selon le PER une finalité importante du travail à réaliser avec les élèves.

Nous avons par conséquent tenté de distinguer entre une conception « cumulative » et une conception « intégrative » de l’item et de réfléchir aux moyens de proposer une structuration cohérente et opératoire des items entre eux.

La première de ces deux conceptions pourrait être schématisée ainsi :

Figure 1. Conception cumulative de l’item (i = item ; O = objectif du PER)

Chaque item, ici, est considéré indépendamment des autres et relié à un seul et unique objectif du plan d’études. Selon la conception intégrative, en revanche, un item peut certes parfois être relié isolément à un objectif, mais il peut aussi être regroupé avec d’autres afin de fournir une nouvelle information – un nouvel item – également reliée à un objectif du plan d’études. « Pire », si on peut dire, un item peut à la fois renvoyer par lui-même à un objectif et entrer dans un regroupement qui renvoie à un autre objectif. On obtient ainsi un système en réseau, certes plus complexe à appréhender mais bien plus riche en termes d’informations fournies :

Figure 2. Conception intégrative de l’item

12 Notons par ailleurs que cette notion de compréhension globale n’est pas non plus sans soulever diverses questions. Dans le PER, elle n’apparait pas sous cette forme mais dans diverses formulations telles que : « lit un texte de manière autonome, en dégage le sens général » (cycle 2), « lit et comprend un texte complet de façon autonome », « dégage les éléments essentiels du contenu » (cycle 3) [nos italiques]. Selon nous, cette compréhension globale, du « sens général », est fondamentale et fait sens pour autant qu’on la réinterprète en fonction du genre de texte : le sens général d’un texte argumentatif n’est pas équivalent à celui d’un texte poétique, d’un texte narratif ou d’un texte qui transmet des savoirs.



Ceci peut paraitre bien abstrait ! Prenons un exemple, emprunté à une (partie d’)épreuve concernant la compréhension orale d’un (extrait !) de récit13 :

Figure 3. Un exemple d’épreuve de compréhension orale

13 Cet exemple est extrait d’une épreuve cantonale pour le cycle 2. Le propos, ici, ne consiste pas à analyser de manière approfondie ces exemples mais bien à faire ressortir quelques problèmes qu’on rencontre dans de nombreuses épreuves. On soulignera d’ailleurs que nous avons, comme on dit, trouvé de tout dans les épreuves examinées, de très bons « items », d’autres bien moins intéressants. Pour des analyses plus approfondies, voir Roth, de Pietro et Sánchez Abchi, 2014 ; de Pietro et Roth, 2016 ; de Pietro, Roth et Sánchez Abchi, 2016.



Dans cette partie d’épreuve, la question « tous les habitants de la ville ont un enfant » (c) permet certes de dire quelque chose en relation à la compréhension locale de certains éléments du texte, mais l’information apportée est peu pertinente pour la construction du sens global du texte. En revanche, le fait de savoir qu’« un gros tremblement de terre a causé d’énormes dégâts dans la ville » (f) non seulement renvoie à une information locale mais participe aussi de la compréhension globale du texte en fournissant une explication à ce qui se passe ensuite dans la ville. Autrement dit, le premier item peut sans problème être envisagé isolément… mais il ne dit (presque) rien de la compréhension globale du texte ; le second, à l’inverse, contribue à la compréhension globale mais ne peut véritablement être isolé, par exemple, de (j)… En outre, on peut facilement constater, à la simple lecture de ces diverses questions, qu’on ne peut guère dire quoi que ce soit à propos du sens global du texte – ce qui, autrement dit, suggère que ces questions ne nous disent à peu près rien de ce qui fait vraiment l'intérêt du récit qui sert de support à l'évaluation.

Notre conception intégrative de l’item soulève toutefois, comme nous l’avons relevé, la question de l’autonomie des items et pose dès lors un problème de validité édumétrique de la mesure. Conscients de cette difficulté à définir la notion d’item de manière à la fois rigoureuse et opératoire, nous réfléchissons à présent à une solution qui permette de dépasser ce dilemme entre les exigences de la mesure et celles de la pertinence didactique. Cardinet décrit ce dilemme ainsi : « la conception encyclopédique de l’enseignement s’accommodait fort bien d’une évaluation par objectifs atomisés : la conception plus récente d’un apprentissage significatif amène à développer une forme d’évaluation qui lui corresponde. Mais il faut veiller à ne pas croiser les modèles, en prétendant mesurer des compétences globales avec des questions à choix multiples, ou établir des niveaux d’aptitudes généralisables à partir de situations non standardisées. On ne ferait plus rien de valable. » (Davaud et Cardinet, 1992, p. 9)

3.2 Comment s’assurer de la validité d’un item et/ou d’une évaluation?

La validité d’une évaluation est le degré d'adéquation entre ce que l'on déclare faire (évaluer telle ou telle dimension) et ce que l'on fait réellement, entre ce que l'outil mesure et ce qu'il prétend mesurer (Laveault et Grégoire, 2002). Elle comporte deux aspects :

- La validité de la mesure : l’outil de mesure utilisé nous permet-il de dire ce qu’on dit ?

- La validité de contenu : évalue-t-on ce qu’on doit / ce que l’on cherche à évaluer ?

Dans nos travaux en cours, nous comptons sur les spécialistes de la mesure pour nous aider à résoudre, par exemple, le problème de l’indépendance des items. Dans notre perspective didactique, c’est avant tout la question de la validité de contenu qui nous intéresse.

A ce propos, comme déjà dit, Cardinet écrivait : « chaque épreuve14 doit correspondre aux objectifs du curriculum enseigné. » (1990, p. 2) Par conséquent, en nous référant au PER, nous nous sommes demandé quels en sont les éléments qui sont pris – ou qui devraient être pris – en considération dans les épreuves que nous avons examinées. La réponse, comme nous le verrons, n’est pas simple et devrait dépendre notamment, selon nous, de ce qui est visé à travers l’évaluation.

14 Dans notre contexte, « épreuve » peut être remplacé par « item ».



4. Quoi évaluer ?...

« Pourtant, un système scolaire qui se donne pour tâche de former le plus grand nombre d’élèves à maitriser des compétences complexes ne peut pas se doter du même cadre d’évaluation qu’un système scolaire qui cherche à répartir les élèves en filières différenciées et à sélectionner les meilleurs pour les écoles qui suivent »

(Davaud et Cardinet, 1992, p. 5)

Là encore, le projet d’élaboration d’épreuves semble clair : ce qui doit être évalué ce sont « les objectifs et progressions » du PER. Mais… Le PER, nous l’avons dit, est un curriculum qui définit ce que les élèves doivent apprendre, un référentiel pour l’enseignement et l’apprentissage – et non pour l’évaluation. Ainsi, par exemple, il ne dit pas si tous les objectifs mentionnés sous la rubrique « Progression des apprentissages » doivent être « atteints », ni à quel degré, ni quand… Pour cela il faut se tourner vers les attentes dites fondamentales qui, dans le PER, « désignent les apprentissages que chaque élève devrait atteindre au cours, mais au plus tard à la fin d'un cycle. » (PER, Lexique, 2010) Toutefois, celles-ci ne sont pas très nombreuses et ne couvrent à l’évidence par l’ensemble des apprentissages « implicitement » attendus…

En outre, selon la Déclaration de 2003, texte fondateur de l’espace romand, le PER constitue l’un des éléments devant permettre à l’école publique d’assurer « la construction de connaissances et l'acquisition de compétences permettant à chacun et chacune de développer ses potentialités de manière optimale. » (CIIP, 2003, 2010) Il est donc question de compétences – comme dans nombre de référentiels aujourd’hui – mais aussi de connaissances. Dans les différents « Lexique » du PER, ces deux termes sont traités de la manière suivante :

« Compétence : Possibilité, pour un individu, de mobiliser un ensemble intégré de ressources en vue d'exercer efficacement une activité considérée généralement comme complexe. » (PER, Lexique de la présentation générale, 2010)

Connaissance : pas de définition dans le Lexique de la Présentation générale !

« Connaissances linguistiques - ensemble des savoirs et savoir-faire concernant le vocabulaire (…), qui permettent de mettre en œuvre les compétences langagières et communicatives. » (PER, Lexique du domaine Langues, 2010)15

La disparité est frappante. En fait, les connaissances semblent comme secondaires, là uniquement au service de la mise en œuvre des compétences… Ce seraient donc les compétences qu’il s’agit d’évaluer ? Mais où les trouve-t-on, concrètement, dans le PER ? En fait, excepté dans le Lexique, le terme n’est pas utilisé... On ne trouve ni « compétences » ni « connaissances », mais des visées prioritaires, des objectifs d’apprentissage (déclinés en composantes et organisés selon une progression) et des attentes fondamentales.

Il importe par conséquent de se demander ce qui doit, finalement, faire l’objet de l’évaluation ? Uniquement les attentes fondamentales (peu nombreuses) ? Ou également d’autres objectifs ponctuels, extraits des progressions d’apprentissage, mais dont on ne sait quand et à quel degré ils doivent être atteints ? Des compétences plus globales, proches des « visées prioritaires » qui semblent constituer le but ultime de l’enseignement, mais qui ne

15 On ne trouve pas de définition dans les Lexiques des autres domaines du PER (mathématiques et sciences, arts et mouvement, etc.).



sont jamais définies de manière précise ni déclinées en niveaux ? Et on se demandera aussi si les attentes fondamentales correspondent éventuellement à des compétences ?...

Mais on doit surtout se demander pourquoi évaluer telle ou telle chose : s’agit-il, ainsi que certains le souhaitent, d’évaluer l’efficience du système ? Ou « de former le plus grand nombre d’élèves à maitriser des compétences complexes » ? Ou encore « de répartir les élèves en filières différenciées et […] sélectionner les meilleurs pour les écoles qui suivent » ? Comme le soulignent avec force Davaud et Cardinet, la forme et l’objet même de l’évaluation, son « cadre », ne peuvent être dissociés de sa visée.

5. Compétences, connaissances et références culturelles

« L’évaluation scolaire est ainsi prise en tenaille entre le désir de précision, qui lui ôte toute signification sociale, et un souci d’ouverture sur la vie, qui lui ôte toute valeur métrique. »

(Cardinet, 1990)

5.1 La compétence, une notion problématique…

Le développement des compétences des élèves semble tout de même constituer la visée principale de l’enseignement et des apprentissages. Toutefois, là encore, on le sait bien aujourd’hui16, cette notion soulève de nombreuses questions – en particulier dans la perspective d’une évaluation. Ainsi, outre les éléments figurant dans la définition du PER, les très nombreux travaux portant sur cette notion mettent notamment l’accent sur certaines caractéristiques des compétences qu’il apparait bien difficile de prendre en compte :

- Une compétence est une disposition qui est activée en situation, contextualisée, face à une tâche finalisée. (Allal, 1999 ; Candelier, 2012 ; Pekarek Doehler, 2006 ; etc.)

- Une compétence consiste en la mobilisation d’un ensemble intégré de ressources et non en l’addition de ressources. Ces ressources peuvent être : d’autres compétences, des connaissances (savoirs, savoir-faire…), des attitudes (savoir-être) … (Le Boterf, 1994 ; Perrenoud, 1999 ; Shavelson, 2012 ; etc.)

- La compétence n'est pas observable en tant que telle ; elle peut être approchée à partir de la performance d’accomplissement de la tâche (Candelier, 2012 ; Shavelson, 2012).

- La « complexité » d’une activité dépend de nombreux facteurs qu'il est difficile de cerner : familiarité avec la tâche, temps à disposition, etc. (Candelier, 2012 ; Rey et al., 2006 ; Marc et Wirthner, 2013).

De fait, la définition du PER néglige plusieurs éléments qui apparaissent généralement comme centraux dans les travaux sur la notion de compétence et qui viennent encore compliquer la situation. En analysant les éléments qu’on trouve dans le Plan d’études, il apparait en fait que, s’il semble relativement aisé d’en identifier certains éléments comme des connaissances et, peut-être, de les évaluer, il s’avère en revanche bien plus délicat d’y localiser des compétences, en particulier si – un peu au-delà de la définition du PER – on veut prendre appui sur ce que nous disent les théories actuelles.

16 Voir par exemple Crahay, 2005 ; Bronckart et Dolz, 1999 ; Pekarek Doehler, 2006, etc.



5.2. … et difficile à repérer

Les attentes fondamentales, par exemple, qui semblent constituer des éléments particulièrement importants du PER, ne peuvent être assimilées à des compétences. On y trouve en effet des contenus très disparates, auxquels il serait incohérent d’attribuer un même statut. Voici par exemple trois de ces attentes pour le domaine français :

1) « accorde le participe passé employé avec l’auxiliaire être avec le sujet du verbe » (PER, attentes fondamentales, L126, p. 65)

2) « repère les différentes parties d’un texte réglant des comportements » (PER, attentes fondamentales, L121, p. 33)

3) « écrit un texte à visée argumentative incluant l’exposition du sujet ou de la controverse, une opinion et au moins trois arguments » (PER, attentes fondamentales, L122, p. 37).

(1) se rapproche d’un simple « savoir-faire ». Rien n’exclut de l’évaluer, mais… on n’est en tout cas pas alors en train d’évaluer des compétences : on recueille des informations sur la maitrise d’un savoir-faire précis mais peu de choses sur ce qu’on pourrait considérer comme la compétence de production textuelle (« Écrire des textes de genres différents adaptés aux situations d'énonciation… », PER : visée prioritaire L132), voire sur « la compétence en français » des élèves.

On peut très bien décider d’évaluer des objets de statut différent mais il faut réfléchir à ce que signifie chaque prise d’information ainsi réalisée et, le cas échéant, à la manière d’articuler ces différentes prises d’informations si l’on souhaite aboutir à une information plus large sur les élèves. Autrement dit, il importe de ne pas tout mélanger en aplatissant les différences : il importe de savoir ce qu’on évalue, comment et dans quel but.

Pour l’attente (3), qui semble se rapprocher davantage de ce qu’on pourrait considérer comme une compétence, la situation est à l’évidence bien plus compliquée que pour les connaissances ou les savoir-faire. On constate en fait que :

- pour une telle activité « complexe », on peut généralement mobiliser des ressources très diverses et celles-ci ne sont donc guère prédictibles ;17

- les stratégies (diverses) et/ou motivations qui guident les choix dans le processus de mobilisation ne sont guère accessibles à l’observation ;

- une activité complexe est toujours, en partie au moins, nouvelle et elle ne correspond dès lors qu’en partie à des choses qui ont été « enseignées » – ce qui pourrait aller à l’encontre du « contrat didactique » qui, pour assurer l’équité de l’évaluation, veut qu’on n’évalue que des choses qui ont été enseignées…

Comme le relève Jean Cardinet, l’évaluation dans un cadre scolaire est confrontée à des injonctions contradictoires. En milieu professionnel, lorsqu’il est question de qualifications, ou encore lorsqu’il est question de donner un permis de conduire qui « certifie » la compétence à conduire, il semble – au moins partiellement – possible d’atténuer ces contradictions, sous deux conditions :

17 On peut en outre se demander, dans la formulation, pourquoi on parle de trois arguments… Et, pour illustrer la diversité potentielle des ressources mobilisables, on pourrait prendre ici quelques exemples « absurdes », du genre « demander à quelqu’un de plus compétent de faire l’activité » – ce qui s’appelle « déléguer » et est considéré comme une qualité dans l’entreprise: on dit bien de quelqu’un qu’il sait déléguer… D’une certaine manière, comme le dit la définition du PER, c’est l’efficacité qui compte !



- proposer au candidat une « famille de tâches », en contexte, qui toutes ont été exercées mais dans des contextes parfois différents ;

- accepter une certaine subjectivité du jugement évaluatif.

Cela est-il possible dans le cadre scolaire ? Ce n’est pas impossible pour autant qu’on ne se contente pas d’une seule tâche, qu’on diversifie et contextualise ces tâches et… qu’on accepte cette part de subjectivité qui va à l’encontre des exigences d’objectivité que, souvent, les autorités attendent de l’évaluation.

Cependant, dans le cadre d’une formation générale, il s’avère bien plus difficile de circonscrire de manière raisonnable la famille des tâches constitutives de la compétence visée – et à évaluer – chez les élèves ainsi que, a fortiori, l’ensemble des ressources qui devraient être mobilisables… Par exemple, si l’on considère l’objectif suivant qui, lui aussi, semble se rapprocher d’une compétence : « …lit un texte de manière autonome, en dégage le sens général et le reformule oralement » (L1 21, p. 23 ; Objectif d’apprentissage pour la compréhension écrite), il parait bien difficile de définir précisément ce qu’on attend : de quels textes parle-t-on ?18 Dans quel but le lit-on ? Dans quel contexte ? Avec quelles aides possibles (dictionnaires, experts…) ?...

5.3 Une conception « scolaire » de la compétence

Conscients que l’école ne peut pas se désintéresser des compétences, nous préconisons néanmoins une certaine prudence :

- en acceptant que, pour être évaluables, les « compétences » sont réinterprétées, adaptées, pour la forme scolaire et qu’elles se rapprochent autant de ressources – des praxéologies liant savoirs et savoir-faire (Chevallard, 1997) – de haut niveau que de véritables compétences dans le sens où le monde professionnel – responsable de la vogue de cette notion – les conçoit ;

- en acceptant la part de subjectivité qu’une telle évaluation implique nécessairement : l’évaluation, ici, ressemble plus à une inférence fondée sur un faisceau d’indices qu’à une mesure garantissant sa « valeur métrique ». Comme le soulignent Davaud et Cardinet : « On est bien loin d’une évaluation pointilliste, mesurant la maitrise de connaissances ponctuelles. Cela conduit à renoncer à la mesure quantitative, qui véhicule une illusion de justesse, pour explorer des situations d’évaluation plus globales. » (1992, p. 7)

L’évaluation de compétences supposerait dès lors :

1. de s’appuyer sur une relative diversité de tâches « comparables » ;

2. d’identifier les ressources mobilisées par les élèves qui sont rendues visibles par l’accomplissement de la tâche – mais cela sans jamais pouvoir prédire totalement les ressources qui sont censées être mobilisées !

3. de fonder en premier lieu l’évaluation sur un jugement globalisant, autrement dit en répondant d’abord à la question « est-ce que la tâche a été effectuée avec succès ? », puis seulement sur une évaluation de la manière dont la tâche a été accomplie.19

18 Cette question recouvre déjà en elle-même de nombreuses autres questions : des textes relevant de quels genres ? De quels domaines thématiques ? De quel degré de complexité ?... 19 On rejoint en fait ici la distinction opérée par Searle (2009) dans sa théorie des actes de langage entre des règles constitutives – sans la satisfaction desquelles l’acte n’est tout simplement pas accompli – et des règles normatives qui portent sur la manière de les accomplir, mais ne sont pas déterminantes au même titre.



Par exemple, pour ce qui concerne la compétence de compréhension d’un texte, on devrait ainsi considérer que c’est la compréhension du « sens général » de textes diversifiés, relevant de genres différents, qui exprimerait en premier lieu la compétence – en se rappelant, de plus, que ce sens général n’existe qu’en lien au genre dont relève le texte et à une tâche qui oriente la lecture.20 Une telle conception implique donc que l’évaluation inclue des questions qui permettent de dire quelque chose de la compréhension du sens général et qu’une compétence ne peut être considérée comme une simple addition de ressources.

5.4 Et qu’en est-il des connaissances ?

Suivant en cela la Déclaration de la CIIP (2003), nous considérons que l’évaluation ne porte pas uniquement sur des compétences mais également sur des connaissances. Il importe par conséquent de définir – dans la perspective de l’évaluation – les autres « objets » également présents dans le PER et qui doivent, d’une manière ou d’une autre, être pris en compte.

Les connaissances – qu’il s’agisse de savoirs, de savoir-faire, de praxéologies – peuvent dans une certaine mesure être évaluées de manière (partiellement) décontextualisée. On attend d’elles – celles qui ont été retenues comme nécessaires par le PER – qu’elles soient disponibles, mobilisables, en tout temps, dans n’importe quel contexte (ou presque…).

Plus précisément, les connaissances nous paraissent en fait de deux types :

- Certaines ont un statut en elles-mêmes dans la mesure où elles correspondent à des savoirs ou savoir-faire considérés – par la société, par l’école… – comme faisant partie d’une culture commune attendue. On parlera alors d’un statut de référence culturelle.21

- D’autres ne sont en quelque sorte que des ressources au service de compétences, qu’on peut exercer afin de les rendre mobilisables et dont on peut (parfois) observer la mobilisation dans l’accomplissement d’une tâche.

Dès lors, la fonction assignée à l’évaluation devrait influer sur le choix des objets du PER évaluables / à évaluer. « Idéalement », une évaluation sommative (voire certificative) devrait porter sur des choses enseignées : ressources (dont les références culturelles) et compétences envisagées – avec prudence – dans une perspective scolaire ; enfin, pour ce qui est de l’évaluation formative – qui doit servir à soutenir les apprentissages –, elle peut porter sur n’importe quel objet, mais ne devrait pas donner lieu à une note. En tous les cas, il importe donc de bien définir pourquoi on évalue et distinguer clairement entre évaluation formative et évaluation sommative (ou certificative).

20 On relèvera cependant que, dans certains cas particuliers (récit, poème…), la compréhension du texte peut constituer en elle-même la finalité de la tâche. Mais il importe de veiller au risque de réductionnisme scolaire dans ces cas où la tâche n’est envisagée que pour elle-même… 21 Dans la perspective d’une évaluation sommative, en particulier, cela constitue une tâche socialement délicate de définir quelles sont les connaissances qui constituent des références culturelles – par exemple pour le domaine du vocabulaire – et qui, dès lors, peuvent être évaluées pour elles-mêmes.



6. Des objets aux types de questionnement

« On voit bien là que le savoir ne dépend pas seulement de l’élève. (…) Le savoir est lié à la fois à l’élève et au mode de questionnement. Il n’y a pas de niveau de connaissance absolu. »

(Cardinet, 1991, p. 16)

Il importe donc, nous l’avons vu, de distinguer les objets du PER selon leur statut. Tous peuvent faire l’objet d’une évaluation mais… pas de la même manière, pas avec les mêmes types de tâches et formats de questionnement, pas avec les mêmes finalités. Les objets à évaluer et les tâches qui permettent de les rendre visibles sont liés. L’enjeu consiste dès lors à proposer des modalités d’évaluation qui permettent de prendre des informations pertinentes et valides en fonction des types d’objets du PER et de la fonction assignée à l’évaluation.

Nous considérons (au moins) quatre « types de tâches » qui permettent selon nous des prises d’informations portant sur des objets (partiellement) différents :

- des tâches complexes (finalisées, contextualisées…) à privilégier pour recueillir des informations concernant des compétences (et, pour autant qu’on puisse en observer la mobilisation, les ressources effectivement mobilisées) ;

- des problèmes qui correspondent à des tâches d’une certaine complexité, (a) peu (voire pas du tout) contextualisées et finalisées, (b) leur résolution dépend de la mise en œuvre de ressources prédictibles (savoir-faire) qui ont fait l’objet d’un apprentissage ;22

- des exercices qui sont des tâches « simples », décontextualisées et non finalisées, portant sur la maitrise de ressources (des savoir-faire) délimitées, ayant fait l’objet d’un apprentissage ;

- des quiz qui sont également des tâches « simples », décontextualisées et non finalisées, portant sur la maitrise de ressources délimitées (des savoirs cette fois), ayant fait l’objet d’un apprentissage.

Pour les raisons que nous avons développées précédemment, les frontières, en contexte scolaire, ne sont pas toutes absolument claires, en particulier entre ce qu’on considèrera comme une tâche complexe et comme un problème : où commencera-t-on à parler d’évaluation de compétences ? Où parlera-t-on plutôt d’évaluation de ressources ?...

7. Vers une validité didactique…

« Se poser des questions sur la forme à donner aux épreuves communes, c’est donc beaucoup plus qu’un problème technique. »

(Davaud et Cardinet, 1992, p.9)

Malgré les nombreux problèmes qu’elle soulève – tant d’un point de vue didactique et édumétrique qu’en lien à ses finalités sociales –, l’évaluation, sous ses différentes formes, représente un aspect constitutif de tout apprentissage et il est donc indispensable de l’aborder

22 Le problème, dans cette conception, représente en quelque sorte le pendant pour l’évaluation de la situation-problème lorsqu’il est question d’apprentissage.



avec tout le sérieux nécessaire. C’est pourquoi il ne nous parait guère possible d’élaborer des épreuves communes romandes sans avoir, au préalable, sinon résolu les difficultés rencontrées du moins arrêté une position claire et scientifiquement étayée par rapport à ses finalités, par rapport aux objets sur lesquels elle doit porter et – ainsi que nous y invite la citation ci-dessus – à la forme à leur donner. La recherche, ainsi que l’a toujours soutenu J. Cardinet, a donc un rôle important à jouer dans l’élaboration de procédures évaluatives valides, et qui soient avant tout au service des élèves et de leurs apprentissages.

C’est dans cette perspective que – en adoptant une approche positive mais critique – nous travaillons actuellement à l’élaboration d’une modélisation de l’évaluation qui devra, au final, mettre en relation des fonctions évaluatives, des objets du PER évaluables / à évaluer, des types d’activités qui les rendent visibles et des formats de questionnement qui en assurent la fiabilité édumétrique.

Ce travail nous conduit à certains « compromis » raisonnables et conscients, par exemple en adoptant une conception réduite, « scolaire », de la notion de compétence. Il nous permet aussi d’affirmer avec force certaines conceptions concernant notamment la nécessité de clarifier le statut des « objets » figurant dans le PER et d’être au clair sur ce qu’on veut évaluer, les liens entre fonctions évaluatives et modalités d’évaluation ou la distinction entre connaissances, ressources et références culturelles. Nous sommes optimistes, au final, que ce travail nous permette de proposer, au niveau romand, une approche de l’évaluation qui lui garantisse une certaine validité didactique et d’apporter ainsi une contribution de la recherche à la création d’une banque d’items opératoire qui soit – en premier lieu – au service des enseignants et... des élèves.

En approfondissant cette réflexion dans le cadre de ce numéro d’hommage, et au vu de nos lectures reflétées dans les citations choisies, nous avons bien le sentiment d’avoir finalement suivi ainsi la voie magnifiquement tracée depuis – au moins – la naissance de l’IRDP par Jean Cardinet.

8. Références

Allal, L. (1999). Acquisition et évaluation de compétences en situation. In J. Dolz, & E. Ollagnier (éds), L'énigme de la compétence en éducation (pp. 77-95). Bruxelles : De Boeck Université.

Antonietti, J.-P. (éd.). (2005). Évaluation des compétences en mathématiques en fin de 4e année primaire : résultats de la seconde phase de l'enquête MATHÉVAL. Neuchâtel : IRDP.

Armi, F., & Pagnossin, E. (éds). (2012). École et protection des données personnelles. Actes de la journée d'étude du 16 novembre 2011. Neuchâtel : IRDP.

Behrens, M. (2010). Standards ou les escaliers mouvants de Poudlard. In P. Gilliéron Giroud, & L. Ntamakiliro (éds), Réformer l'évaluation scolaire : mission impossible ? (pp. 113-138). Berne : P. Lang.

Bronckart, J.-P., & Dolz, J. (1999). La notion de compétence : quelle pertinence pour l’étude de l’apprentissage des actions langagières ? In J. Dolz, & E. Ollagnier (éds), L'énigme de la compétence en éducation (pp. 27-44). Bruxelles : De Boeck Université.

Calame, J.-A., et al. (1995). Math 5-6... pas si mal ! : évaluation des moyens romands d'enseignement de mathématique en 5ème et 6ème années. Neuchâtel : IRDP.

Candelier, M. (éd.). (2012). Le CARAP : un cadre de référence pour les approches plurielles des langues et des cultures : compétences et ressources = FREP: a framework of reference for pluralistic approaches to languages and cultures: competences and resources. Graz : Centre européen pour les langues vivantes (CELV).

Cardinet, J. (1977a). Objectifs éducatifs et évaluation individualisée. Neuchâtel : IRDP. Repris dans Cardinet, 1986, 63-117.

Cardinet, J. (1977b). Objectifs pédagogiques et fonctions de l'évaluation. Neuchâtel : IRDP.



Cardinet, J. (1977c) L'évaluation du nouvel enseignement de la mathématique en première année primaire : présentation de l'expérience romande. Neuchâtel : IRDP.

Cardinet, J. (1979). Les deux visées de l’évaluation formative. Neuchâtel : IRDP. Repris dans Cardinet, 1986, 197-223.

Cardinet, J. (1981). La cohérence nécessaire dans le choix des procédures d'évaluation scolaire. Neuchâtel : IRDP.

Cardinet, J. (1986). Évaluation scolaire et mesure. Bruxelles : De Boeck.

Cardinet, J. (1988). L'appréciation du travail des élèves face à la critique scientifique. Neuchâtel : IRDP.

Cardinet, J. (1990). Remettre le quantitatif à sa place en évaluation scolaire. Neuchâtel : IRDP.

Cardinet, J. (1991). L'histoire de l'évaluation scolaire des origines à demain. Neuchâtel : IRDP.

Cardinet, J., & Tourneur, Y. (1978). Le calcul de marges d'erreurs dans la théorie de la généralisabilité. Neuchâtel : IRDP.

Cardinet, J., & Weiss, J. (1978). L'observation interactive, au confluent de la formation et de la recherche. Neuchâtel : IRDP.

Cardinet, J., & Tourneur, Y. (1985). Assurer la mesure : guide pour les études de généralisabilité. Berne : P. Lang.

Chevallard, Y. (1997). Les savoirs enseignés et leurs formes scolaires de transmission : un point de vue didactique. Skholê, 7, 45-64.

Conférence intercantonale de l'Instruction publique de la Suisse romande et du Tessin (CIIP). (2003). Déclaration de la CIIP relative à la politique de l'enseignement des langues en Suisse romande du 30 janvier 2003. Neuchâtel : CIIP. Accès : http://www.ciip.ch/FileDownload/Get/150 (consulté le 24.11.2017).

Conférence intercantonale de l’instruction publique de la Suisse romande et du Tessin (CIIP). (2010). Plan d’études romand (PER). Neuchâtel : CIIP [Site Web]. Accès : http://www.plandetudes.ch/ (consulté le 05.12.2017).

Crahay, M. (2005). Dangers, incertitudes et incomplétude de la logique de la compétence en éducation. Les cahiers du Service de pédagogie expérimentale, 21/22, 5-40.

Davaud, C., & Cardinet, J. (1992). Quelles épreuves communes voulons-nous ? Genève : CRPP.

De Pietro, J.-F. (2015). Formats d'activités et statut des objets à enseigner/évaluer. Formation et pratiques d'enseignement en questions, 19, 43-53.

De Pietro, J.-F., Pfeiffer Ryter, V., Wirthner, M., Béguin, M., Broi, A.-M., Clément, S., Matei, A., & Roos, E. (2009). Évaluation du moyen d'enseignement "S'exprimer en français" : rapport final. Neuchâtel : IRDP.

De Pietro, J.-F., & Roth, M. (2016). Pour une évaluation sous contrôle didactique : qu'est-ce qui permet de dire qu'un élève a « compris » un texte oral ? Babylonia, 2, 19-23.

De Pietro, J.-F., Roth, M., & Sánchez Abchi, V. (2016). Vers un référentiel pour l’évaluation : choix politiques et enjeux didactiques. In É. Falardeau, P. Lefrançois, J.-L. Dumortier, & J. Dolz (dirs), L’évaluation en classe de français, outil didactique et politique (pp. 111-132). Namur : Presses universitaires de Namur.

Dierendonck, C. (2008). Comment les évaluations externes des acquis des élèves sont-elles perçues par les enseignants du primaire dans les cantons de Neuchâtel, Vaud et Fribourg ? : enquête exploratoire. Neuchâtel : IRDP.

Eboulet, É., & Matei, A. (2013). Application de la régression quantile et ses tests statistiques sur les données PISA en Suisse romande. Neuchâtel : IRDP.

Elmiger, D., & Singh, L. (2014). Anglais dès la 7e : phase pilote More! 8e : évaluation des expériences de la deuxième année (2012-2013). Neuchâtel : IRDP.

Frakowiak, P. (2005). L’évaluationnite, le malheur de l’école. Accès : https://www.charmeux.fr/evaluer.html (consulté le 25.09.2017).

Genoud, P. (1999). Observation de la mise à l'épreuve des nouveaux moyens d'enseignement romands de mathématiques : évaluation collective de quelques connaissances et aptitudes des élèves en 4P. Neuchâtel : IRDP.

Laveault, D. (2017). Pour une évaluation scolaire source de progrès et d'innovation : contribution de Jean Cardinet. Évaluer : journal international de recherche en éducation et formation, 3(3).

Laveault, D., & Grégoire, J. (2002, 2e éd.). Introduction aux théories des tests en psychologie et en sciences de l’éducation. Bruxelles : De Boeck.



Le Boterf, G. (1994). De la compétence : essai sur un attracteur étrange. Paris : Les Éds d'Organisation.

Marc, V., & Wirthner, M. (2012). Épreuves romandes communes : de l'analyse des épreuves cantonales à un modèle d'évaluation adapté au PER : rapport final du projet EpRoCom. Neuchâtel : IRDP.

Marc, V., & Wirthner, M. (2013). Développement d'un modèle d'évaluation adapté au PER : rapport scientifique du projet d'épreuves romandes communes. Neuchâtel : IRDP.

Mottier Lopez, L., & Tessaro, W. (éds). (2016). Le jugement professionnel, au cœur de l'évaluation et de la régulation des apprentissages. Berne : P. Lang.

Pekarek Doehler, S. (2006). Compétence et langage en action. Bulletin suisse de linguistique appliquée VALS/ASLA, 84, 9-45.

Perrenoud, P. (1999). D’une métaphore à l’autre : transférer ou mobiliser ses connaissances ? In J. Dolz & E. Ollagnier (éds), L'énigme de la compétence en éducation (pp. 45-60). Bruxelles : De Boeck Université.

Pochon, L.-O. (1979). Enquête romande auprès du corps enseignant de quatrième année primaire sur l'enseignement de la mathématique : présentation des résultats. Neuchâtel : IRDP.

Pochon, L.-O. (2006). De la possibilité d'usage d'ontologies pour la gestion des contenus mathématiques. Neuchâtel : IRDP.

Rey, B., Carette, V., Defrance, A., & Kahn, S. (2006). Les compétences à l'école : apprentissage et évaluation. Bruxelles : De Boeck.

Roth, M., & De Pietro, J.-F. (éds). (2013). Quoi et comment évaluer en référence au Plan d'études romand (PER) : premières pistes : rapport scientifique intermédiaire. Neuchâtel : IRDP (document interne, non publié).

Roth, M., De Pietro, J.-F., & Sánchez Abchi, V. (2014). Comment évaluer la lecture en référence au Plan d’études romand ? Forum lecture, 3, 1-25.

Sánchez Abchi, V., De Pietro, J.-F., & Roth, M. (2016). Évaluer en français : comment prendre en compte la difficulté des items et des textes. Neuchâtel : IRDP.

Searle, J.R. (2009). Les actes de langage : essai de philosophie du langage. Paris : Hermann.

Shavelson, R.J. (2012). An approach to testing & modeling competence. In S. Blömeke, O. Zlatkin-Troitschanskaia, C. Kuhn, & J. Fege (eds), Modeling and measuring competencies in higher education: tasks and challenges (pp. 19-33). Rotterdam : Sense Publishers.

Vermot, B., Behrens, M., & Marc, V. (2011). Étude comparative de deux tests assistés par ordinateur en vue de l'élaboration d'épreuves communes en Suisse romande. In J.-G. Blais, & J.-L. Gilles (dirs), Évaluation des apprentissages et technologies de l'information et de la communication : le futur à notre porte (pp. 225-244). Québec : Presses de l'Université Laval.

Weiss, J. (1992). Vers une évaluation interactive à l'école. Neuchâtel : IRDP.

Weiss, J. (1995). Une évaluation scolaire pour demain : une évaluation pour apprendre et se former. Neuchâtel : IRDP.

Weiss, J. (1998). Une évaluation informative pour la régulation des apprentissages et des formations. Neuchâtel : IRDP.

Weiss, J. (2003). Une évaluation informative pour la régulation des apprentissages et des formations. In M. Laurier (dir.), Évaluation et communication : de l'évaluation formative à l'évaluation informative (pp. 239-266). Outremont : Quebecor.

Weiss, J. (dir.). (1991). L'évaluation : problème de communication : congrès de l'Association pour le développement des méthodologies d'évaluation en éducation (ADMEE), Neuchâtel, 24-26 septembre 1990. Cousset : DelVal ; Neuchâtel : IRDP.

Weiss, J., De Pietro, J.-F., Jaquet, F., Pochon, L.-O., & Wirthner, M. (2001). L'Institut romand de recherche et de documentation pédagogique : trente ans de recherche en éducation. In J. Weiss (dir.) et al., L'épopée des centres de recherche en éducation en Suisse 1960-2000 (pp. 31-52). Neuchâtel : IRDP.

Wirthner, M. & Weiss, J. (1981). Appréciation des moyens d'enseignement de français de 2e année primaire. Neuchâtel : IRDP.



Les héritages de Jean Cardinet : regards à partir de trois recherches doctorales sur l’évaluation des

apprentissages des élèves en classe

Lucie Mottier Lopez Université de Genève [email protected] Christophe Blanc Université Paris Descartes [email protected] Lionel Dechamboux Université de Genève et Haute école pédagogique du canton de Vaud [email protected] Catherine Tobola Couchepin Haute école pédagogique du Valais [email protected] Résumé Les ouvrages synthèse de 1986 de Jean Cardinet, Evaluation scolaire et mesure, et Evaluation scolaire et pratique, donnent à voir la façon dont l’auteur a pensé la spécificité de chacune de ces entrées (évaluation-mesure, évaluation-pratique) pour problématiser l’évaluation des apprentissages en classe. Plutôt que de les opposer, il expose les conceptions qui les sous-tendent et qui justifient les questionnements qui s’y rapportent. Dans un article majeur, Evaluation interne, externe ou négociée (1990), Jean Cardinet offre un cadre montrant combien l’évaluation demande à être interrogée au regard des paradigmes qui l’orientent plus ou moins explicitement/ consciemment. A partir de cette réflexion épistémologique majeure, le but du présent article est de donner la parole à trois doctorants dont la thèse porte sur l’évaluation des apprentissages en classe, afin qu’ils expriment leur compréhension des propositions de Jean Cardinet en les mettant en perspective avec leur propre recherche et interrogations à propos de leur modélisation de l’évaluation et des pratiques évaluatives qu’ils étudient dans les classes. Une conclusion sous forme de dialogue entre auteurs de l’article met en perspective les apports de la pensée de Jean Cardinet et ses héritages aux yeux de jeunes chercheurs qui représentent la relève du domaine de recherche sur l’évaluation des apprentissages des élèves. Mots clés Conceptions de l’évaluation, évaluation des apprentissages, évaluation formative, régulation interactive, validité Pour citer cet article : Mottier Lopez, L., Blanc, Ch., Dechamboux, L., & Tobola Couchepin, C. (2017). Les héritages de Jean Cardinet : regards à partir de trois recherches doctorales sur l’évaluation des apprentissages des élèves en classe. Evaluer. Journal international de Recherche en Education et Formation, 3(3), 51-67.

MOTTIER LOPEZ, L., BLANC, Ch., DECHAMBOUX, L., & TOBOLA COUCHEPIN, C.


1. Introduction

Comme souligné par les textes déjà écrits en son hommage (e.g., Hommage à Jean Cardinet, 1990), les travaux de Cardinet se caractérisent par une double approche constitutive du domaine de recherche sur l’évaluation des apprentissages des élèves, dont les deux ouvrages-bilans publiés en 1986 rendent particulièrement compte : Evaluation scolaire et mesure, Evaluation scolaire et pratique. Il serait cependant réducteur de limiter les apports de Cardinet à ces deux orientations, car, comme l’analyse Allal (1990), son œuvre est possible à situer dans quatre domaines principaux : la psychologie du travail et les techniques d’orientation ; la théorie de la mesure, plus spécialement la théorie de la généralisabilité ; l’évaluation des systèmes éducatifs ; l’évaluation des apprentissages des élèves (p. 85). Pour Allal, « les quatre domaines peuvent être envisagés comme quatre ‘facettes croisées’ définissant le design d’une œuvre dans laquelle de nombreux apports se situent précisément dans les croisements entre domaines » (p. 86).

C’est avec ce liminaire en arrière-fond que nous choisissons dans cet article de cibler une orientation particulière, celle de l’évaluation des apprentissages des élèves en classe, en tant que pratique. Cette orientation, à elle seule, couvre de larges perspectives et problématiques, dont il faut, insiste Cardinet (1987/1990a) :

expliciter les résonnances théoriques (épistémologiques), en même temps que les implications pratiques (institutionnelles). En effet, si le cadre de pensée dans lequel on se situe détermine de façon assez contraignante les démarches particulières d’évaluation et de gestion que l’on est amené à appliquer, le choix de ce cadre reste lui-même relativement arbitraire. Il importe donc d’en prendre conscience, pour ne pas se laisser enfermer de façon irréfléchie dans un modèle particulier. (p. 139)

A partir de cette mise en garde, trois grandes « conceptions de l’évaluation » sont dégagées par Cardinet (1987/1990a) qu’il met en regard avec des « modèles de sciences » différents. Comme résumées dans Mottier Lopez (2015, pp. 38-39), ces conceptions « épistémologiques » de l’évaluation sont :

- L’évaluation externe et objectiviste. L’évaluation se pense par rapport à des objectifs extérieurs. L’évaluateur organise le dispositif, traite les données recueillies, les traduit en résultats permettant des comparaisons, des classements, l’observation d’évolutions. Le souci d’objectivité, la comparaison entre le résultat observé et la mesure attendue caractérisent cette conception. Cardinet associe cette logique au « modèle des sciences de la nature ». L’évaluation par les objectifs, mais également les évaluations externes des acquis des élèves, se rattachent à cette conception.1

- L’évaluation interne et subjectiviste. L’évaluation est conceptualisée eu égard aux objectifs et attentes propres aux acteurs individuels et collectifs (Figari & Remaud, 2014). L’évaluateur se préoccupe de la pertinence des informations à recueillir en fonction des réalités diverses et des intérêts différents entre les acteurs (élèves, enseignants, parents, etc.). L’évaluation se fait descriptive, s’intéressant aux processus et non pas seulement aux produits. Cardinet (1987/1990a) associe cette logique au « modèle des sciences humaines ». L’autoévaluation faite par les élèves en classe caractérise par exemple cette conception.

1 On retiendra ici que cette conception d’évaluation externe-objectiviste ne se limite pas aux « épreuves externes » mais peut aussi concerner des évaluations faites par les enseignants. En d’autres mots, la distinction ici établie par Cardinet entre évaluations externe et évaluation interne est d’un autre ordre que celle qui est communément utilisée dans la littérature de recherche.

Les héritages de Jean Cardinet : regards à partir de trois recherches doctorales sur l’évaluation des apprentissages des élèves en classe


- L’évaluation négociée et interactionniste. L’évaluation se conçoit par rapport à des objectifs vus comme consensuels. L’évaluateur s’intéresse non seulement aux points de vue respectifs et subjectifs des acteurs, mais également aux négociations qui aboutissent à un comportement social commun. Dans ce cas, l’évaluation convoque nécessairement des référentiels multiples et la prise de décision est toujours de type politique. Cardinet associe cette conception au « modèle des sciences compréhensives ». Il cite les travaux sur le contrat didactique ou les conditions d’un conflit sociocognitif entre élèves dans une évaluation formative par les pairs par exemple.

Dans l’esprit de Cardinet, ces grandes conceptions de l’évaluation, bien qu’ancrées dans des fondements épistémologiques différents, sont susceptibles de coexister dans un même système éducatif. Comme analysé également dans Allal et Mottier Lopez (2005) pour ce qui concerne plus spécialement l’évaluation formative, les re-conceptualisations n’ont pas fait disparaitre les modèles théoriques antérieurs, intégrant parfois également des éléments de ceux-ci dans les nouveaux développements.

Comment ces différentes conceptions de l’évaluation résonnent-elles auprès de jeunes chercheurs qui ont choisi d’étudier l’évaluation des apprentissages en classe dans leur thèse de doctorat ? Dans le cadre de cet article, trois chercheurs ont accepté de répondre à cette question. Ils ont pour particularité de convoquer des cadres théoriques différents pour interroger l’évaluation des apprentissages des élèves. Il s’agit de :

- Lionel Dechamboux, dont la thèse (en cours) est dirigée par Lucie Mottier Lopez et Germain Poizat (Université de Genève) dans une approche de l’évaluation située. Il interroge plus particulièrement l’activité évaluative de l’enseignant en situation informelle d’évaluation formative et de régulation interactive enseignant/élève.

- Catherine Tobola Couchepin, dont la thèse (2017) était dirigée par Joaquim Dolz (Université de Genève) dans une approche de didactique du français. Elle examine, entre autres, l’impact des démarches d’évaluation formative formelle (instrumentées par des grilles) et informelle (régulations interactives) sur les progressions d’apprentissage des élèves.

- Christophe Blanc, dont la thèse (2017) était dirigée par Sylvette Maury et Marc Vantourout (Université Paris Descartes) dans une approche psycho-didactique. Il étudie différentes formes de validité des épreuves conçues par les enseignants quand ils évaluent les apprentissages de leurs élèves pour transmettre une appréciation dans les livrets scolaires.

Comment ces chercheurs ont-ils choisi de problématiser leur objet et quels sont les héritages de la pensée de Cardinet ? Pour répondre à cette question générale, les sous-questions suivantes leur ont été adressées : A partir de votre recherche doctorale, quelles réflexions vous inspirent les grandes conceptions de Jean Cardinet (1987/1990a) ? Quels cadres théoriques avez-vous retenus pour étudier l’évaluation des apprentissages des élèves en classe ? Quels sont les enjeux qui vous paraissent déterminants aujourd’hui et pour l’avenir, tant au plan conceptuel qu’au niveau des pratiques en classe ? La suite de l’article expose successivement la « voix » de chacun, puis une discussion conclusive met en perspective les trois regards.



2. Evaluer, quels référés ?

2.1. Lionel Dechamboux

2.1.1 Une situation problématique

Projetons-nous dans une séance de production écrite, en classe de Cours Préparatoire (CP, élèves de 5-6 ans), en France. L’enseignant, après avoir délivré la consigne de la tâche, passe dans les rangs, observe ses élèves, leurs travaux et interagit avec eux. Bon nombre de ces interactions sont centrées autour de la production en cours. Si nous considérons le fait, qu’en ces instants, l’enseignant est attentif à certains signes dans la situation, qu’il les interprète et qu’il prend des décisions que nous supposons destinées à soutenir l’apprentissage de ses élèves, nous avons devant nous un ordre de phénomènes que nous pouvons décrire à l’aide des concepts d’évaluation formative informelle, de régulation interactive immédiate (Allal, 2007 ; Mottier Lopez, 2012).

Mais quels sont les signes que l’enseignant considère, au regard de quoi les interprète-t-il et, finalement, afin d’engager quel type d’interaction à visée régulatrice ? Ce sont ces questions que nous nous posons dans notre recherche doctorale. Pour tenter de les élucider, nous avons focalisé, dans trois classes de CP différentes, notre attention sur les interactions entre l’enseignante titulaire et trois de ses élèves, pendant six séances de production écrite au cours d’une année scolaire. Le choix de ces trois élèves, pour la recherche, dans chacune de ces trois classes, avait été effectué par les enseignantes titulaires qui les considéraient comme étant en difficulté, en début d’année scolaire dans cet exercice de production écrite. Rappelons l’importance de cette activité à ce degré de la scolarité en raison notamment de son impact sur l’apprentissage de la lecture (Brigaudiot, 2004).

Pour nous, il s’agissait au fond de comprendre l’activité évaluative de ces trois enseignantes et ce questionnement nous paraît proche des préoccupations de Cardinet (1987/1990a) cherchant à caractériser le cadre de pensée des évaluateurs lorsqu’il se demande s’ils pratiquent une évaluation externe, interne ou négociée. A la lumière de cet article fondateur, nous nous proposons de reprendre notre questionnement doctoral relativement au point suivant : quelle est la nature de l’objet évalué au-delà de l’évidence qui consisterait à dire qu’il s’agit de production écrite ou d’un apprentissage scolaire ?

Afin de discuter de cette question, nous donnerons à voir les choix conceptuels et méthodologiques que nous avons privilégiés ainsi qu’une illustration des données élaborées nous permettant ainsi de nous exprimer au regard des catégories proposées dans l’article de Cardinet (1987/1990a).

2.1.2 La valuation, une modélisation située

Comment rendre compte de la manière la plus pertinente possible de cette activité évaluative au regard de notre questionnement, cette activité étant marquée - nous le postulons – par le point de vue singulier de chaque enseignante ? Nous affirmons une posture épistémologique ancrée dans le paradigme de l’évaluation située (Mottier Lopez, 2008). La lecture que nous en faisons nous enjoint à considérer que ce point de vue est co-construit par la situation. Ni la situation ni l’acteur ne sont neutres ou omnipotents : la situation présente un certain nombre de caractéristiques dont peut se saisir (ou non) l’évaluateur en fonction de son vécu, de son engagement dans la situation actuelle. Bien plus, cette situation n’est pas figée dans le temps, loin s’en faut, et nous pouvons imaginer que les fluctuations, d’instant en instant, de cette situation, occasionnent, de fait, des fluctuations du point de vue de l’enseignant qu’il nous paraît important de restituer afin d’accéder à la compréhension du jugement évaluatif.



Dit autrement, nous supposons qu’un jugement A exprimé à un temps t aura un fondement différent que le jugement B, posé à un temps (t+n), cette différence pouvant être tout simplement due au fait que le jugement B prend en compte l’expérience du jugement A. Il nous fallait donc nous munir d’un appareillage conceptuel et méthodologique, cohérent avec notre cadre théorique, à même de rendre compte de cette logique temporelle, de cette chronologie.

Conceptuellement, nous avons bâti une unité d’analyse inspirée du signe hexadique utilisé dans le programme de recherche du Cours d’action (Theureau, 2006) et destiné à décrire l’activité d’un acteur d’instant en instant. Pour notre part, nous avons nommé cette unité une valuation, en référence aux travaux de Dewey (2011) sur la formation des valeurs, que nous avons adaptés. Cette unité permet de dévoiler deux mouvements constitutifs de toute évaluation : ce processus s’ancre dans une appréhension, une appréciation immédiate, que Dewey (2011) nomme de facto valuing. Ce premier mouvement permet la genèse d’un second mouvement, le jugement évaluatif (l’évaluation à proprement parler) sur la base et dans la continuité de ce de facto valuing. Finalement, la valuation représente ces deux mouvements, plus mêlés, intriqués que strictement séparés.

Méthodologiquement, il était évidemment hors de question de suspendre les séances de production écrite pour questionner le point de vue des enseignantes et l’entretien post-leçon classique a pour nous une faiblesse : nous pouvons certes obtenir le point de vue de l’enseignante mais ce dernier n’est déjà plus celui ayant eu cours pendant la séance, il est travaillé par les enjeux de l’entretien. Souhaitant atténuer ce biais de reconstruction (sans prétendre l’éliminer totalement), nous avons donc filmé les séances de production écrite et procédé à des entretiens d’autoconfrontation avec chaque enseignante afin d’accéder au mieux à ce point de vue en acte, par le truchement de cette remise en situation dynamique, à nouveau en nous inspirant de l’observatoire du Cours d’action (Theureau, 2006). Les observations du chercheur, la retranscription intégrale des interactions pendant la séance ainsi que les verbalisations, monstrations de l’enseignante pendant l’entretien d’autoconfrontation ont constitué le matériau de base à la construction des valuations, organisées comme un flux dont nous avons donc cherché à comprendre la logique.

2.1.3 Une centration sur les référés de l’évaluation

Pour illustrer cela2, nous choisissons la quatrième séance à laquelle nous avons assisté au mois de janvier dans la classe de S3. Les élèves devaient écrire les étapes d’une recette de cuisine (la galette des rois) qu’ils avaient réalisée quelques jours auparavant. Ils avaient à leur disposition, en plus des aides habituelles, une fiche sur laquelle étaient listés les ustensiles et les ingrédients utilisés ainsi que les différentes étapes de la recette dessinées. Vers la fin de cette séance, une élève, C, devait écrire la conjonction de coordination ‘et’ mais avait fait une erreur. Elle propose à son enseignante, qu’elle a appelée, de l’écrire ‘er’. Invalidant sa proposition, l’enseignante l’incite à se référer aux « phrases-cadeaux »4 pour trouver la bonne graphie. Quelques instants (et interactions avec d’autres élèves) plus tard, l’enseignante observe à nouveau C. Voici ce qu’elle verbalise lors de l’autoconfrontation :

2 Bien que partiellement, l’espace de notre contribution ne nous permettant pas de développer tous les éléments constitutifs des valuations construites. 3 Tous les noms ont été anonymisés. 4 Les phrases-cadeaux (Brigaudiot, 2004) sont des phrases affichées en classe par l’enseignante au fur et à mesure de l’année. Elles contiennent des mots de référence pour la classe. Le mot « et » est en l’occurrence écrit dans une de ces phrases : « Dans la classe, il y a des garçons et des filles. »



ah là elle cherche tu vois elle / il me semble […] son regard qu’est orienté sur les étiquettes / elle // ouais / elle est là où il faut être quoi / au niveau de son regard / puis elle va pas se laisser distraire par son crayon d’un coup / elle est / le regard fixe à chercher là où il faut quoi (S_S4_112)

Regardant effectivement la « bonne » phrase-cadeau, C dit à son enseignante que « ça s’écrit avec un D ». L’enseignante invalide à nouveau et relit une partie de cette même phrase-cadeau en accentuant le ‘et’. A l’interaction suivante, nous assistons à ce dialogue :

C : « E / T » en gommant

S : « Voilà / très bien […] » (S_S4_114)

Discutons à présent cet exemple (certes illustratif mais représentatif des données élaborées). Notre modélisation et notre questionnement nous conduisent à une attention accrue quant aux référés sélectionnés par l’enseignante. Nous entendons le référé comme un signe, comme la « partie de la réalité choisie » par l’évaluateur (Figari, 1994, p. 44), qui fera l’objet d’une interprétation au regard d’un système de référents et qui donnera lieu à une prise de décision. Ce référé est pour nous révélateur d’une valuation, à la croisée entre le de facto valuing et le jugement évaluatif. En effet, il marque ce qui a été retenu comme significatif lors de l’appréciation globale initiale et sera au fondement de la prise de décision, le jugement évaluatif qui lui succède. Dans l’exemple présenté, nous pouvons lister un nombre déjà conséquent de référés : l’interpellation de C, sa proposition erronée ‘er’, le regard de C sur les étiquettes (sur lesquelles sont inscrites les phrases cadeaux), sa nouvelle proposition erronées ‘D’ et enfin la verbalisation « E / T ». Parmi ces référés, un certain nombre est directement en lien avec la production écrite mais d’autres (en italique dans notre liste) ont un rapport que nous pourrions qualifier de plus lointain avec cet objet de savoir privilégié par la didactique du français. Pour autant, il serait difficile d’argumenter qu’ils n’ont strictement aucun rapport avec lui. L’interpellation de C montre un arrêt de la production écrite chez cette élève, son regard permet à l’enseignante de vérifier si l’aide proposée au service de cette production (chercher le mot inconnu dans les phrases cadeaux) fonctionne. Ces éléments se révèlent tout aussi importants que les précédents dans ce que nous argumentons comme relevant d’une régulation interactive immédiate. Leur mise au ban compromettrait la compréhension des phénomènes observés. Ils entrent véritablement en jeu dans l’activité évaluative de l’enseignante sans en exclure les autres, bien au contraire.

2.1.4 Retour à Cardinet

Cet exemple, bien que rapidement exposé, nous révèle par conséquent un élément crucial pour la compréhension de l’activité évaluative de cette enseignante au regard des catégories proposées par Cardinet (1987/1990a) : son activité évaluative n’est pas strictement centrée sur un produit ni même sur un processus, ce qui serait caractéristique d’une évaluation respectivement externe ou interne. Nous trouvons des traces de négociation, si nous l’entendons comme une co-construction de sens en situation, avec l’élève, que ce soit sur la base d’interactions langagières ou non. Cela nous oriente donc vers la troisième catégorie, celle de l’évaluation négociée. Pour autant, si nous penchons plutôt vers cette catégorisation nous la qualifierons de située ce qui permet d’étendre le champ de la négociation à d’autres éléments moins directement langagiers. Finalement, nos données nous conduisent à une précision sur cet aspect qui n’a rien d’anecdotique : elles nous amènent à concevoir l’évaluation non plus comme la construction d’une valeur à propos d’un produit (ou d’un processus) dans une situation mais bien plutôt comme la construction d’une valeur à propos d’une situation dans laquelle émergent de manière concomitante un sujet (l’enseignante) et un objet (la production écrite de l’élève en question, un apprentissage scolaire). Nous pourrions poser la question de ce que devient l’élève dans cette interaction. Quel est son rôle



ou, en tout cas, quel est le rôle que lui attribue l’enseignant si nous demeurons attaché à ce point de vue ? Nos analyses nous montrent, sans que nous ne puissions le développer ici, que les prises de décision des enseignantes de notre recherche viseraient avant tout à modifier la situation pour que l’élève devienne conscient des référés pertinents, pour que ces derniers apparaissent comme significatifs à ses yeux. Ces ajustements de la situation se font de manière éminemment subtile, l’enseignant jouant sur le délicat équilibre reposant, entre autres, sur la production écrite en cours, sur ce qu’il attribue comme savoirs et compétences à l’élève, ainsi que sur la progression du savoir dans la classe ou encore sur les aides disponibles.

Ce constat est pour nous central dans notre réflexion relative au champ de recherche sur l’évaluation des apprentissages scolaires et révélateur des apports potentiels du paradigme situé dans la compréhension de l’évaluation des apprentissages scolaires.

3. Evaluer et réguler de façon interactive

3.1 Catherine Tobola Couchepin

Notre recherche (Tobola Couchepin, 2017) s’inscrit aux confluents de deux cadres conceptuels trop souvent disjoints : la didactique du français et l’évaluation des apprentissages. Elle s’intéresse à l’enseignement et à l’apprentissage précoce de la production écrite d’un genre de texte argumentatif pour de jeunes élèves de 9-10 ans en Suisse romande. Elle a été réalisée dans cinq classes du début du deuxième cycle de l’école primaire (6ème HarmoS), plus particulièrement dans le canton du Valais. L’apprentissage précoce de l’argumentation constitue un défi pour l’enseignant et pour les élèves. Les enseignants déploient des gestes variés. Les postures sont parfois conscientes ou inconscientes, parfois empiriques ou charpentées sous l’angle théorique. En résumé, elles sont fort diverses. Pourtant, si ces postures visent toutes à donner les moyens aux élèves de dépasser les obstacles auxquels ils sont confrontés, toutes n’ont évidemment pas le même résultat. Elles méritaient donc une étude approfondie.

Après avoir analysé les capacités et les difficultés associées à la rédaction d’un genre argumentatif (Dolz, 1995), nous avons questionné le rôle de l’évaluation faite par les enseignants dans le repérage et le traitement des erreurs des élèves : comment les enseignants évaluent-ils les productions de leurs élèves ? Quels obstacles identifient-ils et comment les traitent-ils ? Une attention particulière a été portée sur les gestes déployés et les régulations interactives (Allal, 2007) mobilisées face aux obstacles, identifiés par le chercheur pendant l’enseignement en classe. Des corrélations ont été établies entre les modalités de régulation proposées par l’enseignant et le développement des capacités langagières textuellement observables dans les productions finales des élèves.

3.1.1 Trois axes inter-reliés

Notre recherche s’inscrit dans la théorie de l’interactionnisme socio-discursif dont Vygotski est l’un des principaux représentants. Un des enjeux a été de tisser des liens étroits entre la didactique de la production écrite (Dolz & Abouzaïd, 2015), plus particulièrement les séquences didactiques proposées aux enseignants de Suisse romande (Dolz, Noverraz & Schneuwly, 2001), et les pratiques d’évaluation et de régulation (Mottier Lopez, 2015). Pour analyser la diversité des actions des enseignants déployées en cours d’enseignement, les gestes d’évaluation et surtout les régulations interactives ont été catégorisés suite au repérage des obstacles rencontrés par les élèves (Bachelard, 1938/1993 ; Brousseau, 1998). Ces obstacles ont été catégorisés soit comme obstacles épistémologiques, c’est-à-dire liés aux processus d’apprentissage mobilisés vis-à-vis d’un objet d’enseignement (Bachelard, 1938/1993 ;



Brousseau, 1998), soit comme obstacles didactiques, c’est-à-dire introduits par le processus d’enseignement lui-même (consigne, activité, forme d’enseignement). Nous considérons ici plus particulièrement les obstacles épistémologiques. Quant aux régulations interactives, elles ont été conceptualisées à l’intersection de trois composantes inter-reliées : les savoirs en jeu, la dynamique sociale et les fonctions métacognitives (Mottier Lopez, 2012).

A l’aide d’une méthodologie ascendante qui part des résultats des élèves (analyse des productions initiales et finales) pour remonter aux pratiques professionnelles déployées pendant la séquence didactique observée, notre étude s’appuie sur une analyse multifocale des données récoltées auprès du panel significatif de nos classes d’élèves de 9-10 ans : productions écrites d’élèves, séquences intégralement filmées et analysées (synopsis et macrostructures), entretiens pré et post séquence avec chaque enseignant, journaux de bord tenus par l’enseignant. Notre analyse met en lumière, entre autres, l’importance des régulations interactives et de la verbalisation pour permettre aux élèves de franchir les obstacles rencontrés dans leur apprentissage.

3.1.2 Des résultats discutés à la lumière des conceptions de l’évaluation de Cardinet

Il apparait que les trois grandes conceptions de l’évaluation telles que décrites par Cardinet (1987/1990a) se concrétisent toujours dans les classes de Suisse romande. Les résultats de notre recherche touchent à chacune d’entre elles.

3.1.2.1 Une évaluation externe-objectiviste présente mais peu informative

Comme argumenté par Cardinet, cette conception de l’évaluation est étroitement liée à la nature de l’objet de savoir travaillé, qui se décline en objectifs ou critères d’évaluation définis « de l’extérieur » (par rapport à l’apprenant). Notre recherche montre que les grilles d’évaluation construites et utilisées par les enseignants élémentarisent les dimensions de l’objet enseigné, ici le genre de texte argumentatif « la réponse au courrier des lecteurs », avec des critères qui portent sur les éléments de la situation de communication, la nature des arguments, l’usage des organisateurs logico-argumentatifs, la textualisation, etc. Ces critères sont conformes au modèle didactique prédéfini. Cette évaluation critériée prend place à deux moments : lors de la production initiale et lors de la production finale.

Alors que les auteurs des séquences didactiques préconisent l’usage de l’évaluation des productions initiales pour déterminer le choix des dimensions à travailler lors de la séquence (Dolz et al., 2001), notre recherche montre que les enseignants ne l’exploitent pas forcément pour mettre en évidence la comparaison entre les performances réalisées par les élèves et les performances attendues à des fins de différenciation. Le rapport entre l’évaluation initiale des productions des élèves et les décisions de curriculum n’est pas explicite. Il apparait ainsi que cette évaluation externe-objectiviste n’est pas des plus significatives pour les enseignants qui semblent privilégier d’autres formes d’évaluation. Notre hypothèse est que les enseignants font confiance aux rédacteurs des moyens d’enseignement et considèrent que toutes les activités proposées sont adéquates pour les élèves. Cette évaluation réalisée en début de séquence est finalement peu informative. Elle ne contribue pas vraiment à la transposition interne souhaitée. Mais qu’en est-il des évaluations qui ont eu lieu, quant à elles, tout au long de la séquence d’enseignement et qui visent à impliquer les élèves ?

3.1.2.3 La nécessité de l’évaluation intersubjective pour dépasser les obstacles

L’évaluation négociée et la régulation interactive ont constitué également un des enjeux de notre recherche. Nos résultats montrent que l’ouverture de débats réflexifs autour des obstacles rencontrés dans la classe influence positivement les résultats de tous. La verbalisation contribue à l’explicitation des opérations langagières et au développement



conscient du comportement langagier (Dolz & Abouzaïd, 2015). Face aux obstacles épistémologiques rencontrés, les régulations de haut niveau d’interaction (débats réflexifs) ont pour visée première une intégration de la part de l’élève afin de renforcer son dialogue interne et ainsi contribuer à ses régulations personnelles futures. Ces régulations interactives constituent un outillage cognitif mais non instrumenté. Comme le soulevait déjà Cardinet (1987/1990a), « la meilleure façon d’explorer [la] réalité, c’est de confronter tous les points de vue possibles et pour cela de susciter des interactions entre partenaires » (p. 150). Les discussions qui ont lieu dans les classes lors de la confrontation à un obstacle épistémologique permettent de comparer les différentes logiques des apprenants à la logique de l’objet travaillé (genre de texte argumentatif, la réponse au courrier des lecteurs). Les ajustements qui s’en suivent, apparaissent comme autant d’occasion de reconfigurer les connaissances existantes pour dépasser les obstacles rencontrés par l’élève.

Les débats qui s’ouvrent dans la classe lors d’une occurrence d’obstacle (par exemple, un argument mal formulé, des organisateurs logico-argumentatifs mal enchainés, etc.) favorisent ainsi la confrontation d’idées et permettent d’envisager les obstacles comme de réels lieux d’apprentissage. Pour l’enseignant, les échanges verbaux autour de l’objet sont de possibles lieux d’évaluation et de compréhension des obstacles rencontrés à des fins de réorganisation des activités tout en restant dans la zone proximale de développement de l’élève. Notre recherche montre la plus-value des régulations de haut niveau d’interaction pour les élèves ne présentant pas de difficultés. Il apparait en revanche que les élèves rencontrant des difficultés peuvent être quelque peu perdus face aux régulations interactives. L’accompagnement de l’enseignant gagnerait alors à être plus soutenu pour ces élèves en institutionnalisant plus explicitement les notions travaillées et les conduites à retenir.

3.1.2.2 La plus-value de l’évaluation interne sur les apprentissages des élèves

L’évaluation interne-subjectiviste5, décrite par Cardinet (1987) comme étant peu utilisée à l’école, apparait dans nos observations comme fréquente dans les classes primaires de Suisse romande (grilles d’auto-évaluation, portfolio, etc.). En revanche, pour qu’elle porte ses fruits, il ne suffit pas d’inviter les élèves à s’auto-évaluer, encore faut-il leur donner les moyens de le faire en les outillant. C’est là que l’accompagnement de l’enseignant revêt toute son importance. La construction avec les élèves de grilles d’auto-évaluation ou de listes de vérification (Scallon, 2000) favorise leur usage. Mais surtout, la confrontation des avis des évaluateurs (élèves et enseignant) permet une comparaison à la norme attendue et un accompagnement dans l’usage des outils de production et d’évaluation (Mottier Lopez, 2015).

Notre recherche démontre que les modes d’intervention qui engagent directement les élèves dans les processus évaluatifs sont des prédicteurs de gains significatifs d’apprentissage. L’engagement de l’élève réside dans la construction avec lui d’outils didactiques (aide-mémoire par exemple) et dans l’évaluation de ses productions personnelles ou de tiers. Les supports construits sont considérés comme des outils servant au renforcement du langage intérieur de l’élève. Ils sont porteurs de sens et permettent de matérialiser les dimensions de l’objet à acquérir. Leur usage gagne à être accompagné (ou étayé) par l’enseignant. L’importance de l’implication des élèves dans les processus d’apprentissage et d’évaluation avait déjà été soulignée (Cardinet & Laveault, 2001). Notre recherche démontre son bien-

5 Nous considérons ici principalement l’implication de l’élève dans l’évaluation même si la présence et l’intervention de l’enseignant sont souvent nécessaires pour que cette évaluation puisse se réaliser. L’évaluation intersubjective est détaillée ci-après.



fondé avec des analyses de corrélations. En effet, plus les élèves sont impliqués dans l’élaboration des critères d’évaluation (identification des dimensions de l’objet travaillées à la fin de chaque activité, formulation des critères, évaluation de textes de tiers et auto-évaluation de textes produits à l’aide des critères) plus leur progression est significative et cela indépendamment de leurs capacités initiales.

3.1.3 L’engagement des élèves dans l’évaluation, une réelle plus-value

Pour finir, les corrélations mises à jour entre les progressions des élèves et, d’une part, leur implication dans l’évaluation formelle et informelle (construction et usage des outils pour co et auto-évaluer ses productions) et les régulations de haut niveau d’interaction (débat réflexif dans la classe suite aux occurrences d’obstacles) d’autre part, confirment que Cardinet (1987/1990a) avait raison de penser qu’ « entrer plus directement en relation avec les personnes (…) peut mobiliser davantage leur participation et améliorer ainsi à la fois le niveau de leur intérêt et l’efficacité de leurs interventions » (p. 154). Plusieurs auteurs ont souligné l’importance de l’implication des élèves dans les processus d’apprentissage (Cardinet & Laveault, 2001 ; Mottier Lopez, 2015 ; Wegmuller, 2007). Nous soutenons cette thèse d’autant plus intensément que nous avons pu démontrer son bien-fondé lors des analyses de corrélations qui ont mis en relation positive les progressions des élèves et leur engagement dans des démarches d’évaluation formative formelle et informelle.

4. Evaluer, un problème de choix

4.1 Christophe Blanc

Dans Evaluer sans juger, Cardinet (1989) soulignait la responsabilité de l’examinateur dans la réussite ou l’échec des élèves « selon la question qu’il choisit » (p. 47). Outre quelque obstacle lié à la mesure, un obstacle à la qualité de l’évaluation en pédagogie tient donc au choix des épreuves. En introduction de ce même texte, Cardinet relève aussi le désarroi des enseignants au moment d’effectuer ces choix : « rien ne précise aux enseignants ce qu’ils doivent réellement exiger » (p. 41).

Dix ans plus tard, dans une même logique, Crahay (1996) souligne à son tour l’effet de ces choix sur les parcours scolaires des élèves. Il invite à penser l’échec scolaire « comme une réalité dépendante des pratiques d’évaluation des enseignants » (p. 294). Le poids socio-scolaire de l’évaluation est tel qu’il nécessite que l’on s’intéresse de près aux choix des enseignants pour évaluer les apprentissages de leurs élèves. Dans le cadre de l’évaluation destinée à un usage interne à la classe ou à l’école, ces choix relèvent de la responsabilité de chaque enseignant. Cette évaluation, qualifiée d’interne, demeure peu étudiée (CNESCO, 2014 ; Rey & Feyfant, 2014). Sa mise en œuvre constitue pour les enseignants une difficulté de taille, voire un « défi » (Rey, 2012). A cette difficulté, il faut ajouter une formation à l’évaluation encore embryonnaire.

Cela nous a conduit à nous interroger dans notre travail de thèse (Blanc, 2017) sur la validité des choix des enseignants quand ils élaborent les épreuves qu’ils utilisent avec leurs élèves. La validité et la fidélité d’un test sont les qualités classiquement recherchées pour tout recueil de données donnant lieu à une exploitation quantitative des résultats. Elles entraînent un ensemble de questions méthodologiques majoritairement posées dans le cadre des évaluations à larges échelles. Dans notre recherche, nous nous sommes intéressé à la validité d’épreuves utilisées à l’échelle de la classe, indépendamment des scores qui pourraient leur être associés. Nous avons cherché à répondre à la question : « une épreuve permet-elle d’évaluer effectivement la compétence visée par l’enseignant ? ». Pour cela, nous avons étudié



les épreuves que 16 enseignants de Cours Préparatoire en France (élèves de 6 ans) nous ont transmises pour évaluer les compétences de leurs élèves en français et en mathématiques, au premier et au troisième trimestre de la même année scolaire.

4.1.1 Validité et validités de l’évaluation

« L’évaluation a nécessairement des référentiels multiples parce qu’elle prend comme cadre la réunion des référentiels individuels des acteurs » indique Cardinet (1987/1990a, p. 150). La place des référentiels est centrale et conduit à explorer la réalité de l’évaluation à travers le prisme de différents points de vue, dans le but de construire une évaluation « efficace », « condition de fonctionnement essentielle de tout ensemble régulé » selon l’auteur (p. 51). Notre étude de la validité de l’évaluation comporte ainsi trois dimensions :

- une dimension de conformité, permettant d’apprécier comment l’évaluation remplit le cahier des charges institutionnel (validité curriculaire, e.g., De Landsheere, 1988) ;

- une dimension didactique permettant de juger comment l’ensemble des épreuves assure la couverture conceptuelle des champs disciplinaires concernés (validité de couverture didactique d’un domaine disciplinaire, à rapprocher de la validité de contenu, e.g., De Landsheere, 1988) ;

- une dimension psycho-didactique, permettant d’apprécier en quoi chacune des épreuves est susceptible – ou non – de remplir les objectifs qui lui sont assignés (validité psycho-didactique, VPD, Vantourout & Goasdoué, 2014).

Pour étudier la première dimension, nous avons explicité les référentiels utilisés par les enseignants pour construire l’évaluation. Ils résultent d’un processus de référentialisation (Figari, 1994 ; Figari & Remaud, 2014 ; Figari, 2006) conduit à partir des référentiels institutionnels. Les programmes (établis par cycles) et les modèles de livrets scolaires (notamment celui du SCEREN6) figurent au premier rang de ceux-ci. Ils sont multiples et ne s’accordent pas parfaitement. Nous avons entrepris une analyse du lien entre les référentiels construits par les enseignants et les livrets scolaires qu’ils utilisent ; cette analyse renseigne sur la conformité de l’évaluation à la demande de l’institution scolaire.

La détermination de référentiels de nature didactique (ou épistémo-didactique), qui permettent d’analyser le contenu des tests utilisés par chaque enseignant, constitue la base de l’analyse de la validité au sens de la deuxième dimension (validité de couverture du test) et de la troisième dimension (VPD). En nous référant à un ensemble de résultats de recherches (en didactique et en psychologie cognitive), nous avons élaboré des référentiels de nature didactique qui permettent d’expliciter les principaux composants de la lecture, des nombres et du calcul. Pour la lecture en CP, à titre d’exemple, ce référentiel s’approche de la typologie de tâches élaborées pour l’enquête « Lire-écrire au CP » menée sous la responsabilité scientifique de Goigoux (2013). Trois composants sont déterminés : relations phono-graphologiques, lecture (identification des mots) et compréhension écrite (d’une phrase ou d’un texte lu seul).

Concernant la dimension psycho-didactique, centrale dans notre travail, l’enjeu est de prendre en compte, pour chaque épreuve, les éléments qui auraient pu échapper à l’analyse proprement didactique de la tâche et qui pourraient cependant s’avérer des déterminants majeurs de l’activité de réponse des élèves. Cela suppose l’explicitation d’un cadre de référence – celui des approches psycho-didactiques de l’évaluation (APDE, Vantourout &

6 Service Culture Edition Ressources pour l’Education Nationale.



Goasdoué, 2014) – qui permet d’analyser chaque épreuve et le fonctionnement cognitif potentiel des élèves confrontés à l’épreuve. Concrètement, pour étudier la VPD d’une épreuve, nous articulons une analyse didactique du contenu et une analyse ergonomique des tâches prescrites aux élèves, en référence aux travaux de Leplat (1997) et Rogalski (2003). Nous analysons la tâche et ses spécificités en nous interrogeant sur ce qu’elles sont susceptibles d’engendrer quant à l’activité de réponse de l’élève. Des travaux (Grapin, 2015 ; Vantourout & Maury, 2017) attestent en effet que cette approche conduit à une meilleure appréciation de la qualité de l’évaluation que ne le fait la simple analyse didactique, dans le sens où elle permet une meilleure prédiction de l’activité réelle de l’élève. Cette dernière ne correspond pas nécessairement à celle imaginée par l’enseignant parce que les élèves s’engageant à partir de leur représentation ou de leur propre redéfinition de la tâche prescrite.

L’extrait ci-dessous permet d’illustrer l’effet de la redéfinition de la tâche par l’élève sur la réalisation de la tâche prescrite. Un enseignant utilise la tâche ci-dessous pour évaluer la capacité à exécuter des consignes en fin de CP.

Figure 1 : Tâche d’évaluation en lecture en fin de CP (extrait)

Il attend de l’élève l’exécution correcte d’une série de consignes. Cela renverrait à l’évaluation de compétences de compréhension autonome de l’écrit, fondées sur des capacités d’identification des mots. La consigne peut se comprendre de différentes façons : il faut écrire sur les pointillés le mot « flûte » (i.e., le nom du dessin situé à droite du dessin de la poule) à droite du mot « poule » de la consigne ; ou bien il faut écrire le mot « poule » (i.e. le nom du dessin) à droite du dessin de la poule. L’élève a probablement compris la consigne de la deuxième manière. N’ayant pas la place à droite du dessin, il aurait ainsi recopié le mot « poule » (en omettant le e final) en-dessous.

Dans cet exemple, on peut également estimer que l’élève s’est donné une tâche supplémentaire relevant d’un effet de contrat : « réécrire le mot sur les pointillés ». Habituellement en effet, les pointillés sont destinés à l’emplacement réservé à l’écriture d’une réponse. On voit ici l’effet de la redéfinition de la tâche prescrite probablement opérée par l’élève. « Probablement » parce que nous n’avons pas accès à l’activité de l’élève, mais seulement à une trace qu’il faut interpréter avec prudence en l’absence du discours de l’élève sur son activité. S’intéresser aux facteurs susceptibles d’intervenir dans le processus de redéfinition ou de réalisation des tâches prescrites aux élèves constitue donc un sujet d’importance, encore plus dans le cas où les tâches prescrites ne sont plus des tâches pour apprendre, mais des tâches pour évaluer.



La conjugaison des dimensions psycho-didactique et didactique de la validité de l’évaluation permet également une double analyse, globale et locale, des tests (que nous assimilons à l’ensemble des épreuves utilisées par un enseignant pour évaluer les connaissances et/ou compétences de ses élèves sur un trimestre donné) et des épreuves, conduite dans la thèse mais que nous ne développons pas ici.

4.1.2 Pour un regard communautaire négocié sur l’évaluation

La conclusion la plus saillante de notre travail est que la validité des épreuves et la validité des tests, dans bien des cas, ne sont pas assurées. La validité des épreuves est remise en cause dans un nombre élevé de cas. Les principales sources d’invalidation sont de nature ergonomique et résident dans des composants de l’épreuve elle-même. Leur influence sur l’activité de réponse ne semble pas suffisamment prise en compte par les évaluateurs. Un décalage est ainsi susceptible de se créer entre la tâche prescrite et la tâche effective de l’élève. Dans les épreuves analysées, il peut résulter du mode de présentation des données (notamment les illustrations), de la formulation du questionnement et/ou du système de réponse imposé ou suggéré par la tâche comme nous en avons montré un exemple plus haut.

La couverture didactique des tests n’est pas assurée dans de nombreux cas. Cela provient soit du fait que les enseignants n’évaluent pas certains composants du référentiel qu’ils ont élaborés à partir des référentiels institutionnels (et cela corrobore le manque de validité curriculaire), soit du fait que les épreuves ne sont pas valides sur le plan psycho-didactique (ce qui renvoie aux référentiels construits par le chercheur).

Un autre apport de notre recherche réside dans la construction d’un cadre méthodologique pour l’analyse a priori d’épreuves d’évaluation qui permet de prendre en compte les connaissances et les contenus impliqués dans les épreuves mais aussi l’influence potentielle d’autres composants de la tâche échappant à l’analyse précédente. Le terme psycho-didactique utilisé pour qualifier cette démarche permet de spécifier l’attention particulière portée à ces composants (par exemple, le rôle des illustrations, Blanc, Vantourout & Maury, soumis).

C’est à la lumière de ces résultats que nous relisons les propos de Cardinet (1989) qui suggère d’« admettre que la réussite ou l’échec observés en classe ne permettent pas de porter un jugement sur la réussite ou l’échec du même élève devant d’autres questions formulées différemment dans un autre contexte, ou dans des conditions de motivation différente » (p. 48). L’élaboration d’épreuves valides du point de vue psycho-didactique, et l’élaboration de tests valides du point de vue de la couverture conceptuelle des principaux composants des domaines posent aux chercheurs la question de la définition de référentiels didactiques à ce jour trop isolés. Notre recherche souligne un manque de validité de l’évaluation selon les trois dimensions précédemment définies. Mais comment les enseignants pourraient-ils construire ou utiliser seuls des épreuves et des tests valides si la littérature ne propose pas de référents didactiques qui leur soient de surcroît accessibles ? Cardinet (1987/1990a) soulignait l’intérêt de « confronter les subjectivités au sein de communautés de référence où s’élabore un certain consensus » (p. 153). Plus qu’un intérêt à le faire nous y voyons une nécessité. La validité de l’évaluation engage une responsabilité collective que l’on peut distribuer entre les chercheurs qui sont les mieux à même de déterminer des référentiels didactiques et des tâches canoniques ; l’institution scolaire qui détermine les programmes, les livrets, et fixe la demande adressée aux enseignants en matière d’évaluation interne ; les formateurs qui ont la charge de former et d’accompagner les enseignants y compris sur la problématique de l’évaluation ; et les enseignants qui gagneraient à construire l’évaluation de façon collégiale avant de l’opérationnaliser.



4.1.3 Mise en perspective conclusive

Dans une correspondance personnelle (2009)7, Cardinet écrivait à quel point il se préoccupait de l’existence d’une « relève » dans le domaine de l’évaluation en éducation, et combien il était heureux de constater la participation engagée de jeunes chercheurs au développement scientifique de l’ADMEE-Europe dont il avait été co-fondateur. Les trois regards proposés dans cet article donnent à voir (en partie, bien sûr) la vivacité des questionnements scientifiques actuels à propos des pratiques d’évaluation des apprentissages des élèves en classe. L’explicitation de leurs « résonnances théoriques » (sur laquelle Cardinet, 1987/1990a, insistait tant) montre que les travaux présentés convoquent, d’une part, un champ conceptuel qui est propre à l’activité évaluative. Par exemple, la référentialisation (définition et appropriation d’objectifs et critères d’évaluation, relation référents-référés, couverture curriculaire et rapport aux moyens d’enseignement, référentiels multiples de l’évaluation) et les processus de régulation associés à l’évaluation formative (régulation interactive, ajustement et différenciation de l’enseignement, autorégulation à des fins de progression d’apprentissage). Les travaux montrent, d’autre part, un croisement avec d’autres champs conceptuels, amenant à des problématiques de recherche originales : la saisie de l’activité évaluative informelle de l’enseignant d’instant en instant (Dechamboux – exploitation du cours d’action et de la théorie de la valuation), la corrélation entre les stratégies d’évaluation formative et les progressions d’apprentissage des élèves face aux obstacles épistémologiques rencontrés dans l’écriture d’une réponse au courrier du lecteur (Tobola Couchepin – didactique du français, genre de texte argumentatif), la validité des épreuves et des tests choisis par les enseignants pour leurs évaluations internes en vue d’établir le livret scolaire (Blanc – approches didactiques et psycho-didactiques). Cette façon d’exploiter les apports de différentes orientations théoriques était plébiscitée par Cardinet (1987/1990a) quand il insistait sur les apports, par exemple, des travaux en « psychosociologie des représentations » et en « psychologie sociale en éducation » (p. 151) afin de toujours mieux comprendre ce qui se joue dans les pratiques d’évaluation en classe. Mais Cardinet (1987/1990b) était également préoccupé par un risque d’éparpillement des recherches susceptible de « faire obstacle à leur compréhension » (p. 195). Pour lui, il n’y avait pas une théorie meilleure qu’une autre, car quelle que soit la théorie, elle ne peut qu’« occulte(r) certains faits pour pouvoir en expliquer d’autres, … elle est partielle et partiale, nécessairement » (p. 212). Un enjeu pour Cardinet était alors de faire dialoguer les différents points de vue scientifiques, pour construire une « vue d’ensemble » des travaux sur l’évaluation scolaire, tout en ayant une réflexion épistémologique constante. Cette façon d’appréhender le travail scientifique demande une grande humilité, et donc aussi une grande rigueur et éthique scientifiques. Ces qualités, qui caractérisent l’œuvre de Cardinet, représentent des enjeux cruciaux pour la formation doctorale alors qu’il est aujourd’hui demandé aux jeunes chercheurs de toujours plus se spécialiser, dans un milieu dans lequel la concurrence est rude quand il s’agit de faire reconnaitre « ses » choix par rapport à la richesse des alternatives qui existent dans la pluralité des Sciences de l’éducation.

On retiendra des travaux de thèse présentés dans cet article qu’ils visent tous à conceptualiser une évaluation dont la finalité est de se mettre au service des progressions d’apprentissage des élèves et de la qualité des pratiques pédagogiques en classe, dans un rapport constitutif avec les processus d’enseignement et d’apprentissage et les objets (au sens large du terme) sur lesquels ils portent. Dans son texte Les contradictions de l’évaluation scolaire,

7 Entre lui et Lucie Mottier Lopez dans le cadre de la Présidence de l’ADMEE-Europe que cette dernière assumait à cette période.



Cardinet (1987/1990b) expose les limites de l’évaluation, tant pronostique, certificative, que formative. Tout en plaidant constamment pour une évaluation formative et bienveillante, et en dénonçant avec vigueur les effets nocifs d’une évaluation normative, les travaux de Cardinet incitent à garder un œil constamment critique. Parlant de l’évaluation formative, il rappelle que personne ne peut « gérer de l’extérieur la progression de chaque élève » (p. 208), et qu’il ne suffit pas de « manipuler l’environnement de chaque élève de façon à susciter son apprentissage de façon quasi-automatique » (p. 208). Cardinet ouvre à l’époque (fin des années 80) quelques pistes vers ce qu’il appelle une « conception psychosociale de l’évaluation », notamment en soulignant que le résultat d’une évaluation ne concerne jamais exclusivement l’élève mais concerne tout autant la situation sociale de l’évaluation. Il insiste sur l’importance des processus de communication intersubjective entre enseignants et élèves pour construire une compréhension mutuelle et des représentations partagées pour engager un travail sur les erreurs constatées. L’apprentissage de l’autoévaluation par l’élève, dans des modalités dialogiques, lui semble indispensable. Entre autres.

A la question des enjeux qui leur paraissent déterminants à la lumière de leur recherche doctorale, les chercheurs, co-auteurs de cet article, poursuivent à leur manière quelques-unes de ces pistes. Sans y revenir longuement, rappelons qu’il s’agit pour Dechamboux de développer une conception de l’évaluation négociée comme étant foncièrement située, argumentant un changement de focale – en faveur de la situation – pour mieux comprendre ce qui se joue dans l’activité évaluative de l’enseignant en interaction avec l’élève en classe. Pour Tobola Couchepin, un des enjeux porte sur l’engagement des élèves dans des démarches d’autoévaluation formelles et informelles, combinée à des débats réflexifs portant sur les obstacles mis à jour dans une approche didactique. Pour Blanc, il s’agit des différentes formes de validité curriculaire, didactique et psycho-didactique des évaluations choisies par les enseignants (sous forme d’épreuves et de tests) engageant une responsabilité collective entre les professionnels de l’enseignement, la noosphère éducative et les chercheurs. Alors que trop souvent l’évaluation scolaire est stigmatisée par les effets négatifs qu’elle produit, un des héritages de la pensée de Cardinet est de poursuivre sans relâche des investigations scientifiques et pratiques pour que cette évaluation, aussi imparfaite soit-elle, puisse assumer une fonction réellement formative, c’est-à-dire qui se donne l’ambition et les moyens de soutenir l’apprentissage des élèves. Vu l’importance du défi, cette préoccupation demande à être continuellement (ré)interrogée par les Sciences de l’éducation, comme le proposent les trois recherches doctorales présentées ici, et plus largement les projets européens récents sur l’évaluation formative8 et le réseau international Assessment for Learning qui réunit régulièrement des chercheurs de tous les continents du monde.

5. Références

Allal, L. (1990). Les multiples facettes de l’œuvre de Jean Cardinet. In Hommage à Jean Cardinet (pp. 85-91). IRDP : Editions Delval.

Allal, L. (2007). Régulation des apprentissages : orientations conceptuelles pour la recherche et la pratique en éducation. In L. Allal, & L. Mottier Lopez (Ed.), Régulation des apprentissages en situation scolaire et en formation (pp. 7-23). Bruxelles : De Boeck.

Allal, L., & Mottier Lopez, L. (2005). Formative Assessment of Learning: A Review of Publications in French. In OECD (ed.), Formative Assessment - Improving Learning in Secondary Classrooms (pp. 241-264). Paris: OECD-CERI Publication (existe une traduction en français).

8 Par exemple, le projet FASMED, voir https://microsites.ncl.ac.uk/fasmedtoolkit/



Bachelard, G. (1938/1993). La formation de l’esprit scientifique. Paris : Librairie philosophique J. Vrin.

Blanc, C. (2017). Etude de la validité de l’évaluation interne conduite en Cours Préparatoire, en Français et en Mathématiques. Thèse de doctorat en Sciences de l’éducation, Université Paris Descartes, France.

Brigaudiot, M. (2004). Première maîtrise de l’écrit. CP, CE1 et secteur spécialisé. Paris : Hachette Education.

Brousseau, G. (1998). Théorie des situations didactiques. Grenoble : La Pensée Sauvage.

Cardinet, J. (1986a). Evaluation scolaire et mesure. Bruxelles : De Boeck.

Cardinet, J. (1986b). Evaluation scolaire et pratique. Bruxelles : De Boeck.

Cardinet, J. (1987/1990a). Evaluation externe, interne ou négociée ? In Hommage à Jean Cardinet (pp. 139-156). Neuchâtel : IRDP Cousset Deval.

Cardinet, J. (1987/1990b). Les contradictions de l’évaluation scolaire. In Hommage à Jean Cardinet (pp. 195-214). Neuchâtel : IRDP Cousset Deval.

Cardinet, J. (1989). Evaluer sans juger. Revue française de pédagogie, 88, 41-52.

Cardinet, J., & Laveault, D. (2001). L’activité évaluative en éducation : évolutions des préoccupations des deux côtés de l’Atlantique. In G. Figari, & M. Achouche (Ed.), L’activité évaluative réinterrogée : regards scolaires et socioprofessionnels (pp. 15-29). Bruxelles : De Boeck.

CNESCO (2014). L’évaluation des élèves par les enseignants dans la classe et les établissements : réglementation et pratiques. 44 pages. http://www.cnesco.fr

Crahay, M. (1996). Peut-on lutter contre l’échec scolaire ? Bruxelles : De Boeck.

De Landsheere V. (1988). Faire réussir, faire échouer. Paris : Presses Universitaires de France.

Dewey, J. (2011 / textes traduits par A. Bidet, L. Quéré & G. Truc). La formation des valeurs. Paris : La Découverte.

Dolz, J. (1995). L’apprentissage des capacités argumentatives. Etude des effets d’un enseignement systématique et intensif du discours argumentatif chez les enfants de 11 à 12 ans. Bulletin suisse de linguistique appliquée, 61, 137-169.

Dolz, J., & Abouzaïd, M. (2015). Développer des compétences pour enseigner la production écrite en Suisse Romande. Le Français Aujourd’hui, 191, 85-96.

Dolz, J., Noverraz, M., & Schneuwly, B. (2001). S’exprimer en français. Séquences didactiques pour l’oral et l’écrit. Bruxelles : De Boeck.

Figari, G. (1994). Evaluer, quel référentiel ? Bruxelles : De Boeck.

Figari, G. (2006). Les référentiels. In G. Figari, & L. Mottier Lopez (Ed.), Recherches sur l’évaluation en Education (pp. 101-108). Paris : L’Harmattan.

Figari, G., & Remaud, D. (2014). Méthodologie d’évaluation en éducation et formation. Bruxelles : De Boeck.

Goigoux, R. (2013). Cahier des charges de l’enquêteur pour l’enquête « Lire-écrire au CP ». Document non publié.

Grapin, N. (2015). Etude de la validité de dispositifs d’évaluation et conception d’un modèle d’analyse multidimensionnelle des connaissances numériques des élèves de fin d’école. Thèse de doctorat en Sciences de l’éducation, Université Paris Diderot, France.

Leplat, J. (1997). Regards sur l’activité en situation de travail. Paris : Presses Universitaires de France.

Mottier Lopez, L. (2008). Apprentissage situé : la microculture de classe en mathématiques. Bern : Peter Lang.

Mottier Lopez, L. (2012). La régulation des apprentissages en classe. Bruxelles : De Boeck.

Mottier Lopez, L. (2015). Evaluations formative et certificative des apprentissages : enjeux pour l’enseignement. Bruxelles : De Boeck.

Rey, O., & Feyfant, A. (2014). Evaluer pour (mieux) faire apprendre. Dossier de veille de l’IFÉ, 94.

Rey, O. (2012). Le défi de l’évaluation des compétences. Dossier d’actualité Veille et Analyse, 76.



Rogalski, J. (2003). Y-a-t-il un pilote dans la classe ? Une analyse de l’activité de l’enseignant comme gestion d’un environnement dynamique ouvert. Recherches en didactique des mathématiques. 23(3), 343-388.

Scallon, G. (2000). L’évaluation formative. Bruxelles : De Boeck.

SCEREN. (2012). Le livret scolaire de l’école primaire. SCEREN -CRDP Académie Orléans-Tours.

Theureau, J. (2006). Le cours d’action. Méthode développée. Toulouse : Octarès.

Tobola Couchepin, C. (2017). Pratiques d’enseignement et d’évaluation du texte argumentatif et capacités scripturales des élèves. Thèse de doctorat en Sciences de l’éducation, Université de Genève, Suisse.

Vantourout, M., & Maury, S. (2017). Evaluation de la lecture au CP : mise en œuvre d’une approche multidimensionnelle. Education et didactique, 11(1), 45-62.

Vantourout, M., & Goasdoué, R. (2014). Approches et validité psycho-didactiques des évaluations. Education et Formation, e-302, 139-156.

Wegmuller, E. (2007). Le guide de production comme outil de régulation. In L. Allal, & L. Mottier Lopez (Ed.), Régulation des apprentissages en situation scolaire et en formation (pp. 91-112). Bruxelles : De Boeck.



Fixer un seuil de suffisance pour une épreuve de maîtrise : apports et limites de la méthode

d’Angoff Setting a passing score for a mastery test: benefits and limits of the Angoff method

Daniel Bain Groupe Edumétrie, Société suisse pour la recherche en éducation (SSRE)1 [email protected] Résumé La recherche dont nous rendons compte se situe dans le cadre de l’édumétrie, de la mesure des apprentissages scolaires. Lorsqu’on recourt à des tests critériés (criterion referenced tests), un des problèmes qui se posent de façon cruciale est l’élaboration d’un barème, et plus particulièrement la fixation d’un seuil de suffisance (de réussite ou de passage) sur l’échelle de l’épreuve. Les pratiques observées laissent soupçonner une bonne part d’arbitraire dans la détermination de seuils ou de standards, y compris pour des contrôles à enjeux élevés. Pour diminuer cet arbitraire, la méthode d’Angoff modifiée demande à un panel d’experts d’estimer item par item la probabilité de réussite d’apprenants « minimalement compétents » (juste suffisants). La procédure se déroule en deux ou trois étapes (rounds) entre lesquelles les experts reçoivent différentes informations et s’efforcent, lors de la discussion, de diminuer leurs divergences d’estimation. Pour tester l’intérêt, les problèmes et les limites de cette méthode, nous l’avons appliquée à un examen de grammaire passé par une centaine de futurs instituteurs à la fin de leur formation universitaire. Le panel des experts était constitué de dix formateurs universitaires en didactique de la grammaire. Conformément à la méthode, le seuil final a été calculé à partir de la moyenne des estimations des dix experts en fin de procédure. Dans une discussion conclusive, à la lumière de notre expérience, nous faisons une analyse critique de la méthode à l’intention des chercheurs qui souhaiteraient l’appliquer. Mots-clés Tests à référence critériée – tests à enjeux élevés – fixation de standards – détermination du seuil de réussite – méthode d’Angoff modifiée – marge d’erreur. Summary The research reported here belongs to the domain of edumetrics, the measurement of learning outcomes. Whenever we use criterion-referenced tests, one of the crucial problems is to set various standards of achievement and, more particularly, to determine a passing score or cut score on the test scale. The observed practices suggest a significant part of arbitrary decisions when it comes to set thresholds or standards, including for high-stakes assessments. To reduce arbitrary decisions, the modified Angoff method asks a panel of experts to estimate, item by item, the probability of success of a

1 Nous exprimons toute notre reconnaissance aux membres de ce groupe, qui ont suivi cette recherche dès sa conception. Ils nous ont fait bénéficier de leurs précieux conseils tout au long de son déroulement et de la rédaction du présent texte. Nos remerciements vont donc à Weimar Agudelo, Marion Dutrevis, Dagmar Hexel, Gianreto Pini, Emiel Reith, Anne Soussi et Laura Weiss.

BAIN, D.


“minimally competent examinee” (just sufficient). The procedure is conducted in two or three rounds. The experts receive different types of information between each round and then, through discussion, endeavour to reduce rating discrepancies. In order to test the interest, the problems and limits of this method, we have applied it to a grammar exam given to roughly a hundred future primary school teachers at the end of their academic studies. The expert panel was composed of ten university teachers in the field of grammar didactics. According to the method, the final passing score was set using the mean of the estimates by all ten experts at the end of the procedure. In a conclusive discussion – in light of our experience – we develop a critical analysis of the method, aimed at researchers intending to use it. Keywords Criterion-referenced tests – high-stakes testing – standard setting – passing score – modified Angoff method – generalizability theory – margin of error. Pour citer cet article : Bain, D. (2017). Fixer un seuil de suffisance pour une épreuve de maîtrise : apports et limites de la méthode d’Angoff. Evaluer. Journal international de Recherche en Education et Formation, 3(3), 69-95.

1. Introduction

1.1 Tests de maîtrise vs tests de niveau

L’examen que nous utiliserons comme fil rouge pour l’illustration de la méthode d’Angoff se présentait comme un test de maîtrise de type sommatif. Précisons donc ce que nous entendons par test de maîtrise en reprenant la définition de Cardinet et Tourneur (1985, p. 252) avant de décrire les modalités et le contenu de l’examen lui-même.

« Un test de maîtrise possède les propriétés suivantes :

1. Au contraire des tests classiques, la performance d’un étudiant n’est pas située par rapport à une performance moyenne d’un groupe qui sert de référence ; elle est comparée à un seuil absolu de réussite dans un univers de tâches.

2. L’univers doit être suffisamment bien défini pour qu’on puisse en extraire un échantillon aléatoire de tâches ou d’items, et surtout donner une définition précise à la performance qui est observée. Le modèle statistique que nous utilisons [dans les analyses de généralisabilité] (l’analyse de variance) ne suppose pas l’homogénéité à l’intérieur de l’univers, mais seulement l’échantillonnage aléatoire des items.

3. L’intérêt de l’examinateur étant de savoir si le score univers de l’étudiant (le score que ce dernier obtiendrait si, au lieu d’aborder un échantillon d’items, il abordait tous les items de l’univers d’items) est situé au-dessus ou en dessous du critère de maîtrise, la performance de l’étudiant n’a d’intérêt que dans la mesure où elle permet d’estimer le score univers (ou score vrai). »

Dans le présent texte, nous considérerons plus particulièrement les épreuves estimant l’état des connaissances ou des compétences des apprenants à la fin d’une des étapes de la formation et se présentant comme des tests de maîtrise. Nous aurons en tête plus spécifiquement les contrôles sommatifs à enjeux élevés passés à une étape cruciale de cette formation où une décision importante doit être prise qui engage la suite de la carrière scolaire ou professionnelle de l’apprenant ou une modification majeure du curriculum.

Fixer un seuil de suffisance pour une épreuve de maîtrise : apports et limites de la méthode d’Angoff


Dans la conception que nous nous donnons du test de maîtrise, celui-ci devrait alors avoir en principe les caractéristiques suivantes :

- en tant qu’épreuve sommative et certificative, porter strictement sur les acquis d’apprentissage (learning outcomes)2 qui ont fait l’objet, sous une forme ou sous une autre, d’un contrat pédagogique entre l’enseignant et ses élèves ; concerner exclusivement les connaissances ou compétences qui ont été enseignées ou entraînées, à l’exclusion par exemple de questions dites d’aptitudes ou destinées à distinguer - voire sélectionner- les meilleurs candidats ;

- comporter une échelle d’évaluation critèriée3, souvent en pourcents de réussite.

Nous distinguerons deux types de contrôles de maîtrise selon qu’ils se situent

- sur le plan individuel, à la fin d’une étape de la formation des apprenants, caractérisant les résultats de chacun d’entre eux, généralement en prévision de l’accès à l’étape suivante, parfois comme condition à cet accès ; on peut citer à titre d’exemples les examens de fin d’études, secondaires ou universitaires, ou, pour la Suisse romande, les épreuves cantonales dites de référence recensant périodiquement les connaissances et compétences des élèves à des étapes clés de la scolarité obligatoire ;

- sur le plan collectif ou institutionnel, les enquêtes visant à établir un bilan des acquis d’un ensemble d’apprenants à l’intention des autorités scolaires ou politiques à des fins de « rendre compte » (accountability) et pour contribuer au monitorage du système scolaire. On peut citer à ce sujet les épreuves romandes communes à l'Espace romand de la formation (EpRoCom ; Marc & Wirthner, 2012 et 2013)4 ainsi que les contrôles prévus par le concordat HarmoS pour vérifier les objectifs ou standards nationaux de formation pour la scolarité obligatoire (CDIP, 2007). On retrouve des épreuves de mêmes types, à certaines variantes près, en Belgique, France ou au Canada (cf. Yerly, 2014, chap. 4).

Si l’enseignement a été donné et reçu dans de bonnes conditions, le degré de réussite attendu de chaque question d’un test de maîtrise devrait être relativement homogène, dans l’idéal pas trop éloigné de 100%, et la distribution des scores de type courbe en J. Le standard de performance défini prioritairement est un seuil de suffisance (dit de maîtrise, de réussite ou de passage, selon le cas ou le contexte) pour distinguer dichotomiquement échecs et réussites. Les différents échelons de l’échelle considérée sont généralement définis subsidiairement (souvent en notes) à partir de ce point de repère.

Il est important pour la suite de notre propos de distinguer tests de maîtrise et tests de niveau (Cardinet, 1972). Souvent de type critérié eux aussi, ces derniers visent à distinguer différents degrés de performances, généralement en vue d’une orientation dans une filière de formation (cours à niveau, section), ou dans le cas où tel standard (autre que la simple suffisance) est exigé pour l’accès à une formation. On peut citer, parmi d’autres à titre d’exemples, les tests situant le niveau de compétence linguistique (de A1 à C2) des apprenants par rapport au Cadre européen de référence pour l’enseignement des langues (COE, 2017) ou, sur le plan collectif, les enquêtes PISA (Programme international pour le suivi des acquis des élèves)5, avec ses 6

2 Sur ce concept, cf. notamment D’Hoop E., Lemenu D., Malhomme, Chr. Coupremanne, M. (2012). 3 vs normatives comme dans les tests psychologiques (échelles en centiles, rangs sur cent, stanines). 4 Cf. l’article 15, al.1 de la Convention scolaire romande (CIIP, 2007) : CIIP : Conférence intercantonale de l'instruction publique de la Suisse romande et du Tessin. 5 Cf. http://www.oecd.org/pisa/ Noter que ces tests ne se réfèrent pas spécifiquement aux plans d’études nationaux.

BAIN, D.


niveaux de compétences. Sur le plan docimologique, ces tests de niveau (de compétence, de performance) se caractérisent, par construction, par toute une gamme de questions de difficultés différentes, ajustées aux différentes orientations visées et aux exigences correspondantes en termes de connaissances et de compétences. La distribution des résultats attendue devrait en principe prendre la forme d’une courbe de Gauss faiblement acuminée et ces contrôles impliquent la fixation de différents seuils ou standards correspondant aux catégories de performance ou aux orientations envisagées. Comme Kane (1994), nous distinguerons donc score de passage (passing score), pour nous seuil de suffisance, et standard de performance (performance standard). Au niveau de leur conception même, on ne peut donc considérer le test de maîtrise comme un cas particulier du test de niveau ne comportant que deux niveaux (suffisant – insuffisant) ; le degré de dispersion des scores distingue clairement les deux types de contrôle.

Dans ce qui suit, nous ne traiterons pas spécifiquement des tests de niveau ; nous y ferons cependant allusion, à l’occasion, à titre de contraste avec les tests de maîtrise.

1.2 De l’arbitraire des barèmes d’épreuves critériées : un problème d’arbitrage

« An absolute [criterion based] standard determines the pass/fail outcome by how well a candidate performs and he/she is usually judged against an arbitrarily set external standard. Hence it is independent of the performance of the group. »

George, S., Haque, M. S. & Oyebode, F. (2006).

Les barèmes des épreuves qui nous intéressent – et les standards qui y sont fixés – sont en principe le résultat d’un arbitrage, d’une décision prise par un ou plusieurs arbitres sur la base d’informations et de critères divers. Ce sont alors les modalités de cet arbitrage qui importent pour porter un jugement éventuel sur l’adéquation du barème à la décision à prendre et sur son degré d’arbitraire, au sens courant et connoté négativement de ce terme. Cet arbitraire s’exerce à différentes étapes du processus complexe d’évaluation des apprentissages, mais nous nous limiterons à deux phases, cruciales pour l’établissement des barèmes en nous centrant ultérieurement sur la seconde.

La première phase correspond au choix des questions. Dans le cas des tests de maîtrise tels que nous les entendons, le corpus des items – le 100% de réussite de l’échelle critériée – devrait correspondre à l’ensemble des connaissances et compétences dont on peut légitimement attendre l’acquisition si l’enseignement a été donné et reçu dans de bonnes conditions. L’arbitraire de ce choix est modéré si certaines conditions sont remplies :

- s’il prend comme référentiel un plan d’études, mais celui-ci est rarement conçu à cet effet : généralement, il est insuffisamment précis pour permettre une opérationnalisation sous forme d’items (Marc &Wirtner, 2012) ;

- s’il est fondé sur les propositions de plus d’un évaluateur, encore faut-il une procédure d’arbitrage pour gérer les divergences entre experts ;

- si les épreuves ont fait l’objet d’essais préalables, mais les échantillons d’élèves utilisés sont souvent restreints et pas nécessairement représentatifs de la population visée.

De ce point de vue, un des problèmes qui se posent couramment pour les tests de maîtrise, comme le relevait déjà Cardinet en 1972, tient au fait que les concepteurs de ce type de contrôle se limitent rarement aux objectifs fondamentaux du plan d’études, légitimement exigibles des apprenants. Ils ajoutent souvent des questions plus difficiles, parfois de transfert



ou d’aptitude, à l’intention des « bons élèves » ; en outre, ils craignent parfois qu’un test réduit aux fondamentaux ne donne une image insatisfaisante de leur enseignement.

Cette tendance à confondre tests de maîtrise et tests de niveau fait problème lors de l’autre phase qui nous intéresse plus particulièrement ici : celle lors de laquelle sont fixés des standards sur l’échelle du test, et notamment le seuil de suffisance ou de passage. Une enquête sur la construction des barèmes critériés et des normes adoptées se heurte d’emblée au fait que les instances qui en sont chargées ne livrent pas volontiers (litote !) des détails sur les procédures et critères adoptés de facto habituellement ; ceux-ci relèvent parfois de véritables recettes de cuisine, qu’on ne souhaite pas dévoiler dans leurs détails. Signalons des pratiques fréquentes, observées par nous pendant plus de trois décennies en Suisse romande : elle consiste à considérer la distribution finale des résultats et à ajuster un barème jugé acceptable par les intéressés : élèves, parents, collègues, voire autorités scolaires. Par ailleurs, la fixation du seuil de suffisance aux trois quarts ou aux deux tiers des points passe parfois pour une « bonne pratique », défendable face à des tiers.

Une détermination a priori des notes n’est éventuellement possible que si l’on dispose pour l’épreuve des résultats d’un essai préalable, valide et fiable, ce qui est surtout le cas pour les épreuves à enjeux élevés. Mais dans ce cas, qui nous intéresse particulièrement, se pose alors le problème des modalités de l’arbitrage. Nous allons donc présenter dans ce qui suit, au fil d’un exemple, une méthode, celle d’Angoff dite modifiée, qui propose une procédure convoquant un panel d’experts évaluateurs et organisant leurs échanges en vue de la fixation d’un seuil de suffisance ou de passage. Auparavant, nous décrivons le test de maîtrise sur lequel nous avons expérimenté la méthode d’Angoff.

1.3 Présentation de l’examen de grammaire, exemple de test de maîtrise6

Pour illustrer notre propos, nous avons choisi un examen de grammaire que nous avions eu l’occasion antérieurement d’analyser du point de vue de ses caractéristiques docimologiques, notamment au moyen du modèle de la généralisabilité (Bain, 2010). Cette épreuve a été passée en fin de formation par les étudiants se préparant au brevet d’enseignement primaire ; elle intervenait de façon importante dans leur certification finale. On doit donc la considérer comme un contrôle à enjeu élevé, ce qui justifie qu’on s’intéresse de plus près à la fixation d’un seuil de suffisance, en l’occurrence un seuil de passage, valide et fiable.

Les six parties de l’examen couvraient chaque fois l’ensemble des domaines grammaticaux enseignés ou révisés : 1 : Les sortes de phrases (phrases de base, transformées simples et complexes, non standards) ; 2. Les trois fonctions majeures de la phrase (sujet, prédicat ou groupe verbal, complément de phrase) ; 3. Les fonctions dans le groupe verbal (cpl. de verbe ; cpl. du verbe de type être, attribut). 4. Les fonctions des groupes prépositionnels (cpl. de phrase, cpl. du nom, cpl. de l’adjectif, cpl. du verbe/de type être, attribut, modificateur du verbe) ; 5. Les fonctions des groupes nominaux (sujet, cpl. de phrase, cpl. du nom, cpl. du verbe/de type être, attribut) ; 6. Les fonctions des groupes adverbiaux (modificateurs du verbe, de l’adjectif et de l’adverbe ; cpl. du verbe, de phrase, du verbe de type être).

Les étudiants devaient généralement repérer dans une phrase une catégorie ou une fonction grammaticales, par exemple en soulignant le groupe de mots correspondant, et l’identifier en

6 Nous sommes particulièrement reconnaissant au professeur Jean-Paul Bronckart d’avoir mis cet examen à notre disposition ainsi que toutes informations à son sujet, nécessaires pour faciliter le déroulement de la procédure d’Angoff.

BAIN, D.


donnant son nom. Dans le mode de cotation que nous avons adoptée pour cette recherche, le test comportait 56 questions corrigées justes ou fausses (1 ou 0).

Notre étude antérieure de l’examen (Bain, 2010) attestait à la fois sa validité et sa fiabilité au sens actuel que la docimologie donne à ces termes : « Validity is a unitary concept. It is the degree to which all of the accumulated evidence supports the intended interpretation of test scores for the intended purposes. » (AERA, APA, & NCME, 1999, p. 11)7. Cette définition recouvre de fait, comme autant de conditions corrélées, les principales validités traditionnelles : de contenu, de construit, écologique, prédictive ou de conséquences, auxquelles s’ajoute une condition de fiabilité du dispositif d’évaluation.

En ce qui concerne la validité de cet examen, on notera d’abord que les analyses grammaticales à réaliser dans l’épreuve sont très proches de celles que l’étudiant – futur enseignant – aura à faire en situation de classe dans ses cours de français. De plus, le choix des domaines à traiter ainsi que le type de questions grammaticales se réfèrent étroitement aux objectifs du Plan d’études romand (PER, CIIP, 2010-2016) que suivront les élèves du futur enseignant et qu’il devra lui-même respecter. Enfin, les candidats ont eu l’occasion de se familiariser avec ce genre de questionnement pendant le cours et de consulter des exercices analogues dans le document soutenant la formation (Bronckart, 2004).

Pour contrôler la fiabilité de cet examen, partie intégrante de sa validité, nous avions eu recours au modèle de la généralisabilité et au logiciel EduG (Cardinet, Johnson & Pini, 2010). L’enseignant ayant choisi le seuil de suffisance de 75%, nous avions calculé un coefficient critérié Phi(lambda), qui s’est révélé très élevé : 0.97, avec une erreur type absolue de 3% (intervalle de confiance : 6%). Contrôle préalable nécessaire si l’on suit la recommandation évidente de Çetin & Gelbal (2013, p. 2170): « Tests which are low reliable should not be used in standard setting process. »

Enfin, la distribution des scores obtenus par les étudiants à cet examen correspondait à ce que l’on attend d’un test de maîtrise, soit une courbe en J attestant que la quasi-totalité d’entre eux a réussi les trois-quarts des points.

2. La méthode d’Angoff et son application à un examen de grammaire

Dans ce chapitre, nous exposerons en détail la méthodologie appliquée à notre recherche lors des diverses étapes de notre travail, c’est-à-dire tout au long des différentes phases (rounds) de la procédure d’Angoff : de sa préparation à la fixation du seuil de suffisance. Nous commencerons par justifier notre choix de cette méthode.

2.1 Fixation d’un seuil de suffisance : choix de la méthode d’Angoff

« There can be no single method for determining cut scores for all tests or for all purposes, nor can there be any single set of procedures for establishing their defensibility » (AERA/APA/NCME, 1999, p. 53).

L’ouvrage de Cizek & Bunch (2007) Standard setting présente et commente une douzaine de méthodes envisageables pour fixer des standards ; le lecteur s’y reportera pour avoir une vision détaillée des possibilités dans ce domaine de la docimologie. Nous avons choisi la

7 Comme le rappellent Cizek & Bunch (2007, p. 17), en citant Messick (1989) puis Cronbach & Mehl (1955), « strictement parlant, on ne peut pas dire que des tests ou des scores de tests sont valides ou non valides. […] On ne valide pas un test mais seulement un principe guidant des inférences » (notre traduction).



méthode d’Angoff – en l’occurrence la méthode d’Angoff modifiée (Modified Angoff Method) illustrée plus loin – pour des raisons souvent évoquées dans la littérature (o.c., chapitre 2). Sous différentes variantes, elle est utilisée depuis plus de quarante ans dans des contextes divers, en particulier dans ceux qui sont les plus exigeants en ce qui concerne la pertinence et la fiabilité des seuils de passage comme les formations en médecine. Elle passe pour relativement facile à appliquer, même par des novices disposant d’un minimum d’entraînement (Wheaton & Parry, 2012) et offrirait le meilleur équilibre entre adéquation technique et praticabilité (Berk, 1986, p. 147, cité par Cizek & Bunch, 2007, p. 82). Elle satisfait aux exigences légales fixées par certains pays (notamment les USA) pour les épreuves à enjeux élevés, en particulier lorsqu’il s’agit d’obtenir un permis d’exercice dans une profession sensible sur le plan social (métiers de la santé, de l’éducation ou de la police, par exemple). Notons de plus que, appliquée généralement à des questions à choix multiples, la méthode peut être également utilisée dans une autre variante, dite Méthode d’Angoff étendue, où les experts estiment le nombre de points obtenus par des élèves borderlines à des questions à réponse construite (o. c, p. 87).

2.2 Le choix des experts évaluateurs

Le choix des évaluateurs a évidemment un impact potentiellement important sur le résultat de la procédure : « In standard setting techniques involving panels of judges, the attributes of judges may affect the cut-scores » (Shulruf, Wilkinson, Weller, Jones & Poole, 2016, p. 1; cf. aussi Busch & Jaeger, 1990). Il est donc nécessaire de préciser les conditions de leur recrutement. Compte tenu du type de contrôle (examen universitaire de grammaire), nous avons sollicité des collègues enseignants universitaires, experts à la fois en grammaire et en didactique de cette branche au niveau de formation considéré. Nous nous sommes adressé pour cela à la commission GRAFE’MAIRE, membre du Groupe d’analyse du français enseigné (GRAFE) de la Faculté de psychologie et des sciences de l’éducation (FAPSE) de l’Université de Genève. Nous avons pu ainsi recruter dix experts8, nombre souvent préconisé pour une application fiable de la procédure (Wheaton & Parry, 2012, p. 3).

Le hasard de ce recrutement nous a permis de scinder ce groupe en deux sous-groupes en fonction de leur origine institutionnelle pour vérifier si la familiarité des évaluateurs avec le type d’étudiants évalués jouait un rôle dans leurs estimations. Le premier groupe a été constitué de collègues enseignant à l’Université de Genève (où l’examen a été passé), le second d’experts provenant d’autres institutions universitaires : de Fribourg, de Vaud ou de Grenoble.

Nous avons écarté de cette sélection l’auteur de l’examen : il connaissait les résultats effectivement obtenus par ses étudiants à cette épreuve en ce qui concerne tant le seuil fixé à la note suffisante que le taux de réussite aux diverses questions ; il aurait donc pu influencer les estimations de ses collègues.

8 Nous leur exprimons toute notre reconnaissance ; sans leur amicale disponibilité, cette recherche n’aurait pas pu avoir lieu. Il s’agit de Ecaterina Bulea, Sandra Canelas Trevisi, Christopher Länzlinger, Anouk Darme, Jean-François de Pietro, Serge Erard, Roxane Gagnon, Martine Panchout-Dubois, Véronique Marmy Cusin, Vincent Capt.

BAIN, D.


2.3 La phase préparatoire

Cette étape est cruciale pour que les participants saisissent l’objet ainsi que les modalités de la méthode et de la procédure ; elle l’est d’autant plus si, comme dans le cas de cette recherche, les experts sont novices dans l’application de ce type d’évaluation. Comme recommandé (Cizek & Bunch, 2007, chap. 2), nous avons d’abord fourni aux participants le syllabus du cours (Bronckart, 2004) et un exemplaire d’un examen antérieur équivalent9, comportant les six mêmes types d’exercices, avec prière de le passer eux-mêmes à la maison. Ils ont reçu par ailleurs par écrit le plan de l’ensemble de l’opération pour qu’ils puissent en situer chaque étape.

2.4 Première phase de la procédure d’Angoff

2.4.1 Présentation et discussion de la consigne

Les tableaux 1 et 2 reproduisent deux formulations de la consigne analogues à celles que proposées habituellement (Angoff, 1971, p. 515 ; Cizek & Bunch, 2007, pp. 82-83).

Tableau 1. Formulation de la consigne

C1. Pour chaque question de l’examen, estimer la probabilité, en %, par pas de 5%, qu’un étudiant minimalement compétent (borderline) devrait donner une réponse juste et complète. Référez-vous pour cela à votre expérience ces dernières années.

Tableau 2. Seconde formulation de la consigne

C2. Imaginez, en fonction de vos expériences antérieures, un groupe de 100 étudiants borderlines (minimalement compétents) et estimez pour chaque item de l’épreuve la proportion d’entre eux (en %) qui devraient donner une réponse juste et complète.

A l’expérience, la présentation de ces deux consignes a posé les problèmes suivants.

- La difficulté de se représenter un étudiant minimalement compétent (borderline). La solution finalement adoptée a été de renvoyer les évaluateurs au contexte institutionnel et notamment à la fonction sélective de l’examen : écarter les candidats à l’enseignement ne disposant pas des qualifications nécessaires en grammaire. Sous cette forme générale et globale, la figure du borderline est encore difficile à saisir. En revanche, la consigne est plus facile à comprendre quand on l’applique à une question en particulier. Par exemple, un formateur peut difficilement accepter qu’un futur instituteur ne soit pas capable d’identifier un complément de verbe ou le confonde avec un complément de phrase, fonctions qui figurent déjà dans le plan d’études aux degrés 5 et 6 de la scolarité obligatoire ; 100% des enseignants devraient donc réussir la question.

- La difficulté d’exprimer les estimations sous forme de probabilité, même si les experts étaient familiarisés avec cette notion du fait de leurs activités de recherche. La consigne alternative C2 (tableau 2) n’aide guère : il est tout aussi difficile de se représenter de façon réaliste un groupe de 100 étudiants minimalement compétents, d’autant plus si la cohorte à laquelle on a généralement affaire ne comporte qu’une centaine d’étudiants.

9 Équivalence attestée par notre étude de 2010.



La discussion sur ce mode d’évaluation peut d’ailleurs déboucher dans un premier temps sur la question, docimologiquement intéressante et que nous n’avons pu esquiver : « Pourquoi, s’agissant d’un test de maîtrise (cf. la définition supra), ne pas exiger des étudiants jugés compétents 100% de réussite à chaque question et, a fortiori, exiger le score maximum ? » Dans un premier temps, on peut alléguer un aléa dans le choix des questions et dans leur rédaction ainsi que les erreurs aléatoires inhérentes à toute passation de test ; on admettra aussi que certains items dépassent dans leurs exigences le niveau attendu par le plan d’étude ou représentent des cas particuliers du fait du choix de leur formulation. On doit généralement aller plus loin dans l’argumentation : concéder que l’échec à quelques items ne devrait pas porter à conséquence ; qu’il pourrait être compensé par la réussite à d’autres items, conformément au modèle compensatoire adopté habituellement pour la notation de ce genre de test (scoring model : Cizek & Bunch, 2007, p. 20) ; que le futur instituteur, au cours de sa carrière, aura très probablement l’occasion d’approfondir ses connaissances sur certains points contrôlés par l’examen et qu’il ne maîtriserait pas encore.

Constatant après la première phase que cette estimation de probabilité posait toujours problème, nous avons proposé pour la seconde phase quelques points de repères sur l’échelle en % ; nous y reviendrons donc plus loin.

Le plus souvent, dans les consignes données pour la méthode d’Angoff modifiée, cette probabilité de réussite à un item s’exprime par pas de 10% (100%, 90%, 80%…). Compte tenu du type d’épreuve, assimilable à un test de maîtrise, nous avons proposé des pas de 5% ; ce degré de précision permettait de nuancer les estimations, supposées se situant majoritairement entre 80% et 100%.

Noter encore que, pour cette application de la méthode d’Angoff, nous avons modifié la consigne de correction par rapport à celle appliquée primitivement à l’examen en exigeant pour chaque question une réponse juste et complète ; nous avons renoncé à considérer comme items des éléments de réponses de facto non indépendants10, et à prendre en compte des pénalisations ou des bons points liés à des groupes de réponses. Pour cette raison, nous désignerons par la suite nos unités d’observation/d’estimation par le terme de questions plutôt que d’items.

Enfin, nous avons renoncé à renvoyer les experts à leurs expériences antérieures, potentiellement différentes en fonction des publics d’apprenants enseignés (cf. partie de la consigne doublement barrée), mais surtout pour centrer les estimations sur les exigences à la fois du plan d’études et de l’exercice futur de la profession.

2.4.2 Récolte des données, traitement et présentation des résultats

Les participants reçoivent un fichier Word avec un tableau de 56 cases correspondant aux estimations demandées pour l’ensemble des items (cf. extrait au tableau 3). Ils remplissent individuellement, à la maison, toutes les cases du tableau. Ces données sont ensuite retranscrites par copier-coller sur un tableau Excel.

Après traitement des données (calcul des moyennes et des écarts types par question et par évaluateur), les experts reçoivent un tableau de l’ensemble des résultats, anonymisé (cf. extrait au tableau 4). Seules les lignes du tableau correspondant au destinataire du document

10 Par exemple, si un complément n’était pas repéré/souligné dans la phrase, il ne pouvait a fortiori pas être correctement identifié : les deux points attribués à cette question n’étaient pas indépendants. Or, cette indépendance est supposée par le calcul d’un total et le traitement statistique de ces données.

BAIN, D.


(ici l’expert no 3) sont identifiées, par surlignement ; la dernière est prévue pour recevoir les estimations de la seconde phase du même évaluateur.

Tableau 3. Examen de grammaire 2008. Relevé des évaluations (en %) par exercice et par question (extrait)

1.01 1.02 1.03 1.04 1.05 1.06 1.07 1.08 1.09 1.10

1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20

[…]

Tableau 4. Résultats de la première phase (extrait)

Exp. Q1.10 Q1.11 Q1.12 Q1.13 Q1.14 ... Moy. exp. σ

E1 70 60 40 60 70 ... 66.4 12.8

E2 100 50 85 100 100 … 82.8 19.3

E3 90 60 90 70 100 ... 86.6 12.8

E4 60 60 50 60 80 ... 64.3 12.3

E5 80 70 70 90 90 ... 80.0 9.3

E6 80 60 50 70 80 ... 69.8 11.7

E7 80 60 70 75 100 ... 64.3 14.7

E8 100 90 40 60 100 ... 80.7 20.3

E9 100 90 100 90 80 ... 82.7 16.0

E10 90 80 100 70 90 ... 82.1 18.9

m qu. 85.0 68.0 69.5 74.5 89.0 ... m gén.76.0 8.7

σ qu. 13.5 14.0 23.6 14.2 11.0 ...

E3 P2 ...

Lecture et commentaire du tableau 4

- Les lignes E1 à E10 fournissent le détail des estimations de chaque expert pour les 56 questions.

- La première ligne qui suit (en grisé : « m qu. ») donne la moyenne des dix experts pour chaque question. Elle traduit le taux de réussite moyen attendu pour les étudiants juste suffisants selon la notion évaluée. Cette exigence est nettement plus élevée (89%) pour la question 1.14, par exemple (« Les étudiants ont festoyé pendant plusieurs semaines. »¸ à identifier comme une phrase de base) que pour la phrase transformée complexe par subordination 1.11 (« La marchande, qui rêvait, n’avait pas entendu le client. » ; 68%).



- La ligne suivante (« σ qu. »), reproduisant le vecteur des écarts types pour les différentes questions, permet de repérer celles pour lesquelles les estimations divergent le plus entre experts, soit celles où l’écart type est le plus élevé. C’est le cas de la question 1.12 (« Il l’a regardée puis il lui a souri. » ; phrase transformée complexe par coordination), pour laquelle le degré d’exigence est estimé très différemment selon les experts (de 40% à 100%). Lors d’une discussion ultérieure sur cette question, certains évaluateurs craignaient qu’une partie des borderlines n’identifient pas le puis comme un coordonnant analogue à et.

- L’avant-dernière colonne reproduit la moyenne de chaque expert pour les 56 questions. Chaque évaluateur peut ainsi situer lui-même son degré de sévérité par rapport à ses collègues, mais cette donnée ne fait pas l’objet de discussion ou de commentaire dans le groupe : il n’est évidemment pas question de stigmatiser qui que ce soit comme plus sévère ou plus indulgent que les autres.

- La moyenne générale (des questions, identique à celle des évaluateurs ; m gén. : 76%) constitue le seuil de suffisance recherché. Elle correspond à environ les trois quarts des points. Elle est pratiquement identique au seuil choisi par l’auteur de l’examen (75%), mais cette information, à ce stade, n’est pas fournie aux participants pour ne pas influencer la suite des opérations.

- L’écart type des 56 estimations de chaque expert, qui figure dans la dernière colonne, n’a pas été commenté. Il est surtout intéressant pour le chercheur dans la mesure où il permet de repérer des experts dont les estimations – donc la sévérité – varient plus ou moins fortement selon les questions.11 Le cas le plus problématique serait celui d’un écart type particulièrement bas ; il signalerait le cas d’un évaluateur tendant à attribuer systématiquement la même estimation à des questions dont on saurait par ailleurs qu’elles sont de difficultés différentes.

- A ce moment de la procédure, des statistiques purement descriptives peuvent être suffisantes. L’écart type de 8.7% correspondant à ce seuil suffisait à justifier une seconde étape visant à réduire si possible les divergences entre évaluateurs.

2.4.3 Feed-back normatif et discussion des résultats par les experts

La transmission de l’ensemble des estimations aux experts sous la forme du tableau 4 a pour but de permettre la comparaison entre les différentes réponses ; cette étape de la procédure constitue une forme de feed-back normatif (Cizek & Bunch, 2007, p. 53). Le terme de normatif est bien choisi : il signale selon nous un risque de glissement de références critériées (le taux de réussite des étudiants tout juste suffisants) à une perspective normative des évaluations. Celle-ci viserait avant tout à situer les exigences des évaluateurs par rapport à celles de leurs collègues. L’objectif – ou le résultat – majeur de l’opération serait alors de susciter une espèce de régression artificielle des estimations à la moyenne générale pour diminuer (à tout prix ?) les divergences. Cizek & Bunch, 2007, précisent (p. 53) : « The purpose of providing this feedback is not to suggest that they align their individual judgments with a group mean or alter their judgments based solely on relative stringency or leniency compared to other participants ». Pour éviter ce qui pour nous aurait été un biais de la recherche, mélangeant les approches critériée et normative, nous nous sommes donc efforcé de centrer la discussion qui suivait sur la consigne précisant l’objectif et les modalités de la méthode. Nous avons notamment rappelé que le critère majeur auquel se référer était les exigences qu’on peut avoir

11 Compte tenu d’un certain effet plafond, limitant la variance des estimations dans le cas de certains experts dont la sévérité (cf. moyenne) est élevée.

BAIN, D.


quant aux connaissances des futurs instituteurs en début de carrière. Enfin, pour diminuer les divergences d’estimation, nous avons posé quelques balises le long de l’échelle d’estimation (tableau 5, nouvelle consigne), qui apportent des précisions – très relatives, à vrai dire – pour le travail d’évaluation des questions.

Tableau 5. Reprise de la consigne en vue de la 2e phase (extrait)

[…] [Dans la consigne12] « devrait » correspond à une double modalité (verbe modal et conditionnel) impliquant à la fois un devoir face aux futures responsabilités de l’enseignant à l’égard de ses élèves et l’expression d’une probabilité. Certaines connaissances grammaticales peuvent être considérées comme élémentaires, incontournables, leur non-maîtrise comme inadmissible par rapport à l’objectif du test. Il s’agit de s’assurer que les futurs enseignants certifiés maîtrisent les notions qu’ils auront à faire apprendre le plus souvent à leurs élèves ; les items correspondant à cette définition devraient être cotés 100% (ces questions devraient être résolues correctement même par des borderlines). Pour d’autres connaissances, donc d’autres questions ne correspondant pas à cette exigence forte (par exemple portant sur des cas moins fréquents ou particuliers, qu’il s’agisse de classes grammaticales ou de fonctions), on considérera que le groupe des étudiants borderlines est très probablement relativement hétérogène et qu’une partie seulement d’entre eux pourraient réussir l’item en question : pour la plupart (1 sur 20 ou 1 sur 10 → 95% ou 90%), en nette majorité (probabilité entre 65% et 85%), ou dans un cas sur deux environ (entre 40% et 60%), ou enfin nettement plus rarement (moins de 40%), voire jamais (0%).

Les échanges sur les items sélectionnés (cf. supra) ont été aussi l’occasion pour les experts de confronter les conceptions qu’ils avaient de la formation en grammaire des candidats à l’enseignement. Toutefois, le temps disponible pour cette phase a été trop court pour un approfondissement des convergences ou divergences sur plus de quelques items.

2.5 Seconde phase de la procédure

2.5.1 Seconde estimation des questions

Le tableau 4 (supra) des premiers résultats comportait une dernière ligne sur laquelle les 10 experts ont inscrit leurs nouvelles estimations. Ils avaient ainsi sous les yeux, à titre de comparaison ou de référence, leurs premières estimations et celles de leurs collègues. Ils étaient parfaitement libres de conserver ou modifier leurs estimations. Dans la perspective de la présente recherche, il ne s’agissait pas pour nous de les « forcer » à la convergence, mais d’observer si la phase précédente d’information et de discussion avait un effet – et de quelle ampleur – sur leurs estimations et si on observait des différences individuelles plus ou moins importantes.

12 Cf. supra la consigne C1 (tableau 1) : « Pour chaque question de l’examen, estimer la probabilité, en %, par pas de 5%, qu’un étudiant minimalement compétent (borderline) devrait donner une réponse juste et complète. »



Tableau 6. Extrait des résultats de la seconde étape

Expert P Q1 Q2 Q3 Q4 Q5 Q6 … m E éc.t. E

E1 1 70 70 40 60 80 50 … 66.4 12.8

E1 2 80 75 100 90 85 90 … 83.5 11.1

E2 1 80 95 100 100 95 65 … 82.8 19.3

E2 2 80 95 100 100 95 65 … 82.8 19.3

E3 1 70 60 80 50 60 40 … 64.3 12.3

E3 2 80 70 80 60 80 60 … 75.7 10.6

... ... ... ... ... ... ... ... ... ... ...

Moy. 1 74.0 79.5 87.0 81.0 84.0 67.5 … 76.2 m. gén. P1

Moy. 2 83.5 87.0 97.0 90.0 91.5 82.5 … 84.3 m. gén. P2

éc.-t. 1 12.6 16.4 18.9 19.7 14.1 19.9 … 9.0 éc. type P1

éc.-t. 2 12.9 13.2 6.7 16.3 8.5 15.5 … 7.7 éc. type P2

2.5.2 Analyse descriptive et commentaire des résultats

Le traitement des données de cette phase aboutit à un nouveau tableau (tableau 6), analogue à celui établi pour la première phase, mais comportant deux lignes par expert qui permettent de confronter les données pour les deux phases (P1 et P2). Ce tableau (transmis et commenté aux experts : second feedback) peut donner lieu à de multiples analyses et commentaires ; nous nous limiterons ici aux principaux constats intéressants pour le fonctionnement de la méthode modifiée d’Angoff.

Dans un premier temps de la discussion, il peut être instructif de revenir sur les questions ayant suscité le plus de divergences pour vérifier l’impact potentiel de la discussion. A titre d’exemple, on constate que l’écart type de la question 1.12 (tableau 6) a diminué, passant de 24% à 15%. Mais, simultanément, le degré d’exigence pour cette même question a monté de près de 15% (70% → 84%) : si l’on accepte de considérer « puis » comme une coordonnant équivalent à « et », on a affaire à une phrase transformée complexe par coordination (« Il l’a regardée puis il lui a souri. »), que devrait en principe maîtriser une grande majorité des futurs instituteurs.

On observe ensuite et surtout une augmentation moyenne appréciable des exigences lors de la seconde phase : le seuil de suffisance passe ainsi de 76.2% à 84.3% (tableau 6). Relevons que ce second seuil de 84% est nettement plus élevé que ceux fixés traditionnellement et notamment que celui qui avait été décidé effectivement pour l’examen en question (75%). On constate en outre que pour chaque phase les moyennes des deux catégories d’experts, appartenant ou non à l’université de Genève, sont pratiquement équivalents (P1 : 76% vs 77% ; P2 : 84% vs 85%), compte tenu de la variabilité des estimations à l’intérieur des deux groupes (σ >13% ; cf. aussi graphique 7). La familiarité avec le type d’étudiants ayant passé l’examen ne paraît donc pas influencer les évaluations.

Par ailleurs, on constate des différences de stratégie individuelle en ce qui concerne le réajustement des estimations entre les deux phases. L’analyse de l’évolution des seuils des dix experts (graphique 7) fait ressortir deux groupes d’effectifs équivalents : les experts qui ne modifient pratiquement pas leur niveau moyen d’estimations entre les deux étapes (la différence entre P1 et P2 est inférieure ou égale 2%) et ceux qui augmentent leurs exigences.

BAIN, D.


Le respect déontologique de l’anonymat des réponses, mais surtout le manque de temps, ont empêché une discussion qui aurait clarifié les raisons de cette différence de comportements.

Figure 7. Moyennes générales (seuils de suffisance) selon les experts (En) et écarts types de leurs estimations pour les premières et secondes phases (P1 et P2) de la procédure d’Angoff

Les exigences ont augmenté peu ou prou en phase 2 pour la quasi-totalité des questions (55 sur 56), du fait des estimations d’une moitié des experts, rappelons-le. On peut expliquer cette évolution par le fait que certains évaluateurs ont été sensibles à notre insistance, lors de la seconde version de la consigne (tableau 5 supra), sur la responsabilité de l’institution de formation à l’égard des futurs élèves des candidats à l’enseignement. Nous ne pouvons pas présenter ici le détail de la réussite pour les 56 questions. Il serait cependant intéressant d’un point de vue didactique et docimologique ; en effet, dans les estimations des experts, le degré de difficulté des questions varie assez fortement : de 52% à 89% pour la phase 1 et de 50% à 98% pour la phase 2. Dans la perspective d’un test de maîtrise, on s’attend en principe à ce que la marge de variation inter-questions soit plus étroite, centrée sur un seuil de suffisance anticipé relativement élevé. Les questions jugées difficiles pour les élèves borderlines auraient mérité un examen plus approfondi des raisons des échecs anticipés par les experts. Toutefois, pratiquement, le temps a manqué pour ce type d’analyse.

Enfin, entre les deux étapes, les divergences entre évaluateurs ont apparemment un peu diminué : l’écart type des estimations passe de 9% à 8% (tableau 6). Cette différence est faible, voire pratiquement nulle : il est possible que cette diminution soit due en partie à un effet plafond : pour plusieurs questions, la moyenne des estimations avoisine 100%. Les divergences restent donc relativement importantes du fait des deux types d’évolutions signalés à l’instant : maintien ou augmentation du niveau d’exigences.

2.5.3 Renoncement à une troisième étape, aux informations dites de réalité et d’impact

Compte tenu de ces divergences encore relativement importantes, n’aurait-il pas fallu passer à une troisième phase, souvent recommandée dans la littérature (Cizek & Bunch, 2007, pp. 54-56) ? Lors de cette étape, on injecte dans la procédure des informations sur les

NON-UNIGE



résultats effectifs à l’examen ou à des contrôles équivalents antérieurs. L’objectif majeur est généralement d’améliorer la convergence des estimations en fournissant aux experts des références communes.

L’information dite de réalité consiste à donner aux participants des renseignements notamment sur le taux de réussite moyen (p value) de l’ensemble des étudiants sur un sous-ensemble d’items en se référant aux résultats d’un test précédent comparable ou aux résultats effectifs du test en cours d’évaluation. L’information d’impact consiste à indiquer quel serait le taux d’échecs dans le groupe testé ou dans certains sous-groupes (par exemple dans certaines filières de formation), si l’on appliquait le seuil estimé par les experts. Nous avons finalement renoncé à une telle étape faute de temps, mais surtout parce que, dans les deux types de feed-back, on tend à mélanger les références normatives et critériées, changeant ainsi le point de vue adopté au départ de notre recherche. Notre référence était, rappelons-le, la réussite attendue ou exigible des candidats instituteurs compte tenu de leur activité professionnelle ultérieure. Dans cette perspective, le décalage entre la réussite effective des apprenants et celle estimée par les experts ne constitue pas pour nous une remise en cause du processus de standard setting en soi ou de la qualification des évaluateurs mais une information intéressante à discuter sur le plan pédagogique.

2.5.4 Prise en compte de l’erreur de mesure sur le seuil : apport de l’analyse de généralisabilité13

Comme nous renonçons à cette troisième étape, selon la procédure habituelle d’Angoff, c’est le résultat de la seconde phase que nous prendrons en considération pour fixer le seuil final. Mais celui-ci devrait toujours prendre en compte l’erreur de mesure due à l’échantillonnage des questions et des experts, selon la recommandation des Standards for Educational and Psychological Testing : « Where cut scores are specified for selection or classification, the standard errors of measurement should be reported in the vicinity of each cut score. » (AERA/APA/NCME, 1999, Standard Number 2.14). Nous avons donc calculé l’erreur type affectant le seuil de suffisance P2 en recourant à une analyse de généralisabilité (plan de mesure sans facette de différenciation, proposé par Cardinet, 2014, p. 5). Cette erreur type absolue (il s’agit de situer le seuil sur l’échelle des scores de l’épreuve) est de 2.66%. Pour calculer l’intervalle de confiance – la marge d’erreur ou la zone d’incertitude – autour du seuil de suffisance, on multiplie cette valeur par 1.96, soit 2.66 x 1.96 = 5.21 (pour p = .05). Le « score vrai » correspondant au seuil de suffisance se situe donc entre 79% et 89% (84% ± 5%). Par ailleurs, on observe sans surprise que la principale source d’erreur absolue est due aux divergences d’évaluation entre Experts (E : 81% de la variance d’erreur absolue totale).

Comment prendre en compte la marge d’erreur pour déterminer le seuil de suffisance final ? On observe différentes solutions correspondant aux stratégies institutionnelles ; nous y revenons dans le chapitre de discussion qui suit.

13 Faute de place, nous ne pouvons présenter ici dans le détail le recours à la théorie de la généralisabilité pour calculer l’erreur de mesure affectant le seuil de suffisance et pour estimer les différentes sources de cette erreur. Pour des informations détaillées à ce sujet, on se référera à la version longue du présent texte (Bain, 2018, à paraître sur le site du groupe Edumétrie : https://www.irdp.ch/institut/edumetrie-1635.html) ou à Cardinet, Johnson & Pini, 2010.

BAIN, D.


3. discussion : limites et problèmes du modèle

Nous reprenons dans ce chapitre certains objets traités ci-dessus à propos de la méthode d’Angoff pour évoquer – ou revenir sur – les limites et les problèmes rencontrés ou potentiels du recours à cette procédure de standard setting.

3.1 De la généralisabilité de nos conclusions

Les conclusions de notre travail sont limitées dans leur généralisabilité par le fait que nous nous situons dans le cadre d’une étude de cas, appartenant au paradigme de recherche de faisabilité (Astolfi, 1993). Nous aurions voulu nous appuyer sur d’autres études du même type pour étayer ou relativiser nos observations. Malheureusement, dans le domaine de la didactique, et plus particulièrement de la didactique du français, on ne trouve guère de travaux s’appuyant sur la méthode d’Angoff, et encore moins portant sur des épreuves de maîtrise au sens où nous les avons définies en introduction.

En consultant la littérature disponible (surtout anglophone ; cf. références bibliographiques), nous constatons en effet que, dans la plupart des cas, la méthode est appliquée à des évaluations de performances qui sont de facto des épreuves de niveau, sur lesquelles on définit plusieurs niveaux de maîtrise. On se contente plus rarement14 de tester des connaissances ou des compétences fondamentales, exigibles à un certain stade de la formation. Même quand le contrôle porte sur un socle de compétences (par exemple, ceux de la DEPP15 en France) ou des attentes fondamentales (épreuves cantonales ou romandes en Suisse), on cherche souvent à tester « jusqu’où vont les compétences des élèves », voire à les évaluer en fonction de normes d’excellence (Perrenoud, 1989), à des fins (pas toujours affichées) de classement des élèves ou de leurs performances. Ce qui a un impact notamment sur les conditions de passation et de fiabilité des épreuves : la forte variance due aux questions a un impact négatif sur l’erreur type absolue si l’épreuve est critériée (cf. Cardinet, 2014, à propos de l’article de Verhoeven et al., 1999, et Bain, 2018).

Par ailleurs, comme le remarquent Cisek & Bunch (2007, p. 81), il y de facto autant de variantes que d’utilisations de la méthode d’Angoff modifiée : « The method as described by Angoff is rarely used exactly as it was proposed. Rather, slight reconfigurations of the basic approach – each variation referred to as “modified Angoff method” – are now considerably more common, although precisely what constitutes a “modified” Angoff method is somewhat unclear ». Nous doutons donc qu’on puisse tenir un discours généralisateur sur la méthode d’Angoff. Trop de facteurs sont susceptibles de modifier son application et ses résultats : le type de connaissances, de performances ou de compétences évaluées ; le contexte et les enjeux des contrôles ; la compétence et l’expérience des experts ; l’organisation des échanges interphases ; la prise en compte ou non des résultats effectifs de l’épreuve… Pour que l’on puisse juger de l’impact de ces facteurs sur les résultats, il est malheureusement exceptionnel que des chercheurs proposent une description détaillée du contexte institutionnel et de ses contraintes ; de la façon dont ils ont appliqué la procédure d’Angoff ; des incidents ou des difficultés de parcours ; des raisons pour lesquelles certains experts ou items ont été écartés… Méta-analyse (Hurtz & Auerbach, 2003) ou simulation (Shulruf & al., 2016) s’achoppent aux mêmes types de problèmes.

14 A l’exception notamment des examens finaux de médecine. 15 Cf. DEPP 2014 et 2015.



La solution que nous avons alors choisie dans cette discussion est de reprendre avantages, problèmes et limites de la méthode d’Angoff telles que nous les avons expérimentés, dans le contexte décrit en introduction, tout en les confrontant à des constats semblables ou différents repérés dans les travaux consultés. Nous considérons ainsi que nos observations peuvent être pertinentes pour d’autres applications dans la mesure où les contextes institutionnels ou pratiques ne seraient pas trop différents et où nos constats recoupent des analyses faites dans d’autres recherches pas trop éloignées des nôtres.

3.2 Intérêt et avantages docimologiques de la méthode d’Angoff

3.2.1 Facilité d’application (relative)

Un premier avantage de la méthode, souvent avancé, est sa facilité d’application : « The Angoff method is easy to implement and can be perfected by novice users with only minimal training. » (Cisek & Bunch, 2007). Nous avons pu le vérifier lors de la présente recherche, mais aussi lors de deux autres opérations menées dans le cadre du groupe Edumétrie, portant sur un examen de physique pour l’admission à l’université (Bain & Weiss, 2016), ou sur des épreuves cantonales de mathématique passées en fin de scolarité obligatoire (Frey, 2016 et 2017 ; Bain, 2016). A cette dernière occasion, nous avons pu expérimenter différents formats de question (juste/faux, QCM, % de réussite de la question) et tester une autre modalité de la procédure proposée par Angoff : la méthode Oui/Non (Yes/No). Nous avons donc pu vérifier la faisabilité de la procédure, tout en étant amené à relativiser sa « facilité d’application » (cf. infra).

3.2.2 Mise en évidence et contrôle de l’arbitraire des évaluations

Mais pour nous, l’avantage majeur de la méthode est de mettre en évidence la part d’arbitraire des barèmes appliqués à bien des épreuves à enjeux élevés se présentant comme des tests de maîtrise. La méthode est particulièrement conséquente avec des contrôles critériés, pour lesquels la simple distribution des scores ne constitue pas une référence suffisante quant à l’atteinte des objectifs fixés par le plan d’études. Contraignant chaque évaluateur-arbitre à fournir séparément ses estimations pour chaque question, la procédure d’Angoff évite de pseudo-consensus à la suite de brefs échanges, influencés parfois par l’opinion prépondérante de certains participants, notamment celle des concepteurs de l’épreuve. Notre expérience montre que, dans ces conditions, peuvent se manifester des divergences non négligeables, même après la discussion sur les résultats d’une première étape évaluation question par question : les seuils de suffisance finaux en phase 2 diffèrent de 20% (76% vs 96%) d’un expert à l’autre.

Les procédures habituelles de fixation des barèmes scotomisent de telles disparités d’estimations. Nos résultats laissent supposer que ces différences sont dues principalement à un niveau global d’exigence propre à chaque évaluateur. Ce niveau de sévérité ou d’indulgence est vraisemblablement influencé par l’expérience de chaque expert, mais dans des conditions et des contextes divers, difficiles à saisir. Nous avons constaté, par exemple, que la connaissance du public estudiantin ne semble pas jouer de rôle déterminant. Tout se passe comme si l’expérience de chacun donnait lieu à l’équivalent d’une équation personnelle (de Landsheere, 1979, p. 112).

Comme dans d’autres recherches (Hurtz & Auerbach, 2003), nous avons constaté que cette discussion interphase avait pour effet d’augmenter le niveau du seuil (en l’occurrence de près de 10%). C’est probablement le cas quand les évaluateurs prennent conscience de l’enjeu institutionnel de l’examen. Dans notre recherche, une révision de la consigne allait dans ce sens en insistant sur le fait qu’il s’agissait d’écarter des candidats dont les compétences

BAIN, D.


seraient insuffisantes pour l’enseignement l’année suivante. Toutefois, cette tendance à la hausse des exigences ne s’observe que pour la moitié de nos experts, ce qui laisse soupçonner dans ce cas également des différences individuelles quant à la remise en cause d’estimations antérieures. Pour des raisons déontologiques, nous n’avons pas cherché à savoir s’il s’agissait d’une certaine inertie évaluative ou le maintien délibéré d’un niveau d’exigence (en l’occurrence, d’indulgence relative).

3.2.3 Intérêt didactique d’une analyse question par question

Sur le plan didactique, l’intérêt de la procédure est aussi d’obliger les participants à se pencher sur le détail de l’évaluation, question par question : sur son contenu et sa formulation. On évite ainsi qu’une évaluation fondée uniquement sur une statistique globale se réfère implicitement à des normes traditionnelles et arbitraires du suffisant telles que l’obtention des deux tiers ou des trois quarts des points. La sélection des items où les divergences sont les plus importantes incite les experts à chercher les raisons des différences d’estimations, notamment dans l’importance diverse donnée à certaines notions, tant dans l’enseignement que dans les contrôles. Ainsi, l’évaluation ne sert pas seulement au contrôle des apprentissages (assessment of learning) mais aussi à favoriser ces apprentissages (assessement for learning)16. Un rapport des experts aux instances qui les ont mandatés pourrait contenir des recommandations en ce qui concerne les prochains contrôles et éventuellement un aménagement de l’enseignement (plan d’études ou méthodes).

La méthode est également utilisable pour des questions à réponses construites, fréquentes dans certaines épreuves scolaires actuelles, et une méthode d’Angoff dite étendue a été développée à cet effet (Hambleton & Plake, 1995). Elle peut s’appliquer également à des formats mixtes (Cisek & Bunch, 2007, p. 82). Nous avons eu l’occasion de tester cette dernière approche, sans problème particulier, à une épreuve de mathématiques passée en fin de scolarité obligatoire (Bain, 2016 ; Frey, 2016).

3.3 Problèmes et limites de la méthode d’Angoff

3.3.1 Adaptation de l’épreuve à une analyse par la méthode d’Angoff

Comme le relèvent Cisek & Bunch (2007, p. 6), il est hautement recommandable d’envisager l’application de la méthode dès la conception et l’élaboration de l’épreuve : « Standard setting is best considered early enough to align with the identified purpose of the test; to align with the selected test item or task formats ». Dans notre recherche sur l’examen de grammaire, nous avons appliqué la méthode après passation de l’épreuve, ce qui nous a obligé à modifier les critères de correction pour éviter certains cas de dépendance statistique entre items tels qu’ils avaient été conçus au départ.

Nous avons rencontré des problèmes analogues dans la recherche portant sur les épreuves de mathématiques passées en fin de scolarité obligatoire (Bain, 2016 ; Frey, 2016), notamment du fait que des points supplémentaires étaient accordés ou des pénalisations infligées à des groupes d’items. Dans le cas de questions complexes ou construites, l’« itemisation » des réponses a posteriori conduit à bricoler des solutions pouvant introduire certains biais. Ceux-ci sont surtout gênants lors du traitement statistique des résultats, les modèles utilisés supposant la non-dépendance entre items.

16 Cf. Sur le thème « Assessment for learning », cf. Allal & Laveault, 2016.



3.3.2 Recrutement et sélection des évaluateurs

Dans la littérature consultée et dans les expériences auxquelles nous avons participé, on relève trois possibilités dans des épreuves analogues à notre examen : faire appel à

a). des experts de la discipline, généralement des spécialistes de niveau universitaire, externes à l’institution, donc non impliqués dans la formation dispensée, souvent désignés par les autorités scolaires ou politiques à des fins précisément d’expertise ;

b). des enseignants ou praticiens de la discipline formant le collège des formateurs à l’intérieur de l’institution et souvent associés aux travaux de didactique dans la branche considérée ;

c). des étudiants ayant récemment terminé avec succès la formation évaluée.

Cette dernière solution, étonnante au premier abord, a été testée par Verhoeven & al. (1999), dont la recherche portait précisément sur « la fiabilité et la crédibilité d’une procédure d’Angoff de fixation de standard pour un test de progrès recourant à des étudiants récemment diplômés » (notre traduction du titre de l’article). Ce test était appliqué quatre fois par an tout au long des études de médecine pour aider les étudiants à situer leur progression dans les objectifs de formation. Les huit juges étaient docteurs en médecine diplômés de l’université de Maastricht depuis environ cinq mois. Sans commenter ici plus avant cette recherche, notons simplement que cette solution était envisageable dans la mesure où l’objectif de l’évaluation était formatif et centré sur la réussite académique des études de médecine et non, plus directement, sur la capacité à exercer la profession. Les autres contrôles sanctionnant la fin de la formation médicale et utilisant la méthode d’Angoff réunissent généralement des experts de la discipline.

Autre expérience avec des étudiants réalisée dans le cadre de notre groupe Edumétrie : dans son cours de didactique, Laura Weiss a demandé à 11 futurs enseignants de physique dans l’enseignement secondaire d’estimer le seuil de suffisance pour un examen d’entrée à l’université (Bain & Weiss, 2016). La compétence des évaluateurs, dans ce cas, tenait à leur expérience relativement récente des études universitaires scientifiques et de leurs exigences. L’expérience montre une assez bonne homogénéité des estimations du seuil de suffisance (moyenne de 62% des points) ; la principale source d’erreur type absolue (près de 60% de la variance totale d’erreur absolue) était due à des estimations portant sur des questions de difficultés très différentes.

Choisir des experts universitaires, externes à la formation évaluée, ou des enseignants de la discipline ? L’expérience de Cisek & Bunch (2007, p. 22) « montre, d’une part, que des conseillers indépendants, externes apportent des avis très valables : ils offrent habituellement une vision des choses, une expérience, des idées, etc., des contributions qui ne seraient pas disponibles sans eux et qui en général améliorent la qualité des procédures de fixation de standards et la légitimité des résultats. Mais d’autre part, de tels experts-conseillers ont souvent des points de vue et des objectifs qui peuvent ne pas être partagés par les instances responsables finalement des standards » (notre traduction). Dit autrement, et selon notre propre expérience, il est facile pour les responsables finaux de l’évaluation d’écarter tout ou partie des conclusions des experts externes en leur déniant, explicitement ou implicitement, une (bonne) connaissance du terrain.

La participation de praticiens dans la procédure d’Angoff apporte l’avantage d’une expérience de l’enseignement évalué, voire du suivi de certains élèves, mais parfois sans une connaissance suffisante du plan d’études ou sans une distance adéquate par rapport à leur

BAIN, D.


expérience actuelle de l’enseignement (cf. notre expérience en mathématiques, Bain 2016 et Frey, 2016).

Le choix du panel d’évaluateurs dépendra donc du cadre institutionnel et du genre de contrôle visés par l’évaluation, selon qu’il s’agit d’une évaluation formative d’une école (en général par les enseignants eux-mêmes) ou d’une expertise du fonctionnement du système de formation (la plupart du temps par des experts externes). C’est pourquoi une autre solution, préconisée par Capey et Hay (2013), nous laisse sceptique : elle consisterait à sélectionner différents types d’évaluateurs, experts et praticiens / généralistes, sous prétexte d’élargir les points de vue. Au contraire, dans bien des cas, il s’agit, comme nous venons de le dire, de préciser le point de vue adopté pour la fixation de standards et de recruter les évaluateurs en conséquence. L’hétérogénéité du groupe risque de déboucher sur des estimations très divergentes en phase 1, que la discussion ne pourra guère réduire si les références des uns et des autres sont très différentes par rapport à l’objectif de l’expertise.

3.3.3 Détermination du nombre d’experts à recruter

Dans la quasi-totalité des travaux sur la méthode d’Angoff, les auteurs indiquent ou suggèrent un nombre minimum de juges (5, 8, 10, >10…) ou une fourchette…, sorte de règle empirique (rule of thumb), souvent sans indiquer la source ou la justification de cette information, voire de cette prescription. Les Standards for Educational and Psychological Testing (AERA / APA / NCME, 1999, p. 54) recommandent d’engager dans la procédure « un groupe de juges suffisamment nombreux et représentatifs pour fournir une garantie raisonnable que les résultats ne varient pas considérablement si la procédure était répétée » (notre traduction). Ce qui renvoie implicitement à une analyse de statistique inférentielle et, pour nous, à une analyse au moyen du modèle de la généralisabilité (cf. Bain, 2018).

Sur ce point également, il est donc bien difficile de généraliser à partir de recherches très diverses quant à leur objet ou leurs modalités. Disons simplement qu’il serait imprudent de se lancer pour la première fois dans une procédure d’Angoff avec moins de 10 experts si l’on vise à minimiser l’erreur type absolue sur le seuil recherché. Il faut être conscient en effet que trois autres facteurs augmentent statistiquement l’erreur type absolue sur le standard recherché : un petit nombre de questions, une forte dispersion de leurs niveaux de difficulté (donc de leurs estimations) ou la tendance des évaluateurs à modifier leur niveau d’exigence selon la question (d’où parfois une importante interaction Évaluateurs x Questions).

En avançant ci-dessus ce nombre d’une dizaine d’experts, nous soulignons un autre problème potentiel de la méthode : trouver suffisamment d’évaluateurs ayant l’expertise visée et disponibles tout au long de la procédure, ce que constate aussi Klein (2008, p. 107) « The number of available judges is limited ».

3.3.4 Difficulté de compréhension et d’application de la consigne

Nous l’avons expérimentée en début de procédure. Il n’est pas évident de se représenter la limite séparant les « étudiants juste suffisants » et les autres, et à chiffrer en % la probabilité de leur réussite. Pour cette estimation, se représenter un groupe de 100 borderlines ne se révèle pas vraiment facilitateur. C’est certainement le cas dans d’autres recherches ; nous en donnons le témoignage, peut-être ironique, de cette consigne de Dever (2015, p. 1) :

« Pour mieux comprendre le concept du candidat minimalement compétent, il s’avère souvent utile d’observer ses collègues de travail17; quelques-uns sont des « vedettes », dont le

17 En l’occurrence, il s’agit de médecins.



rendement est à un niveau bien au-dessus de la majorité, tandis que celui de certains collègues est plutôt mauvais, sans compter que certains ne devraient peut-être même pas avoir le droit d’exercice de la profession. Quelque part entre ces deux extrêmes se trouve le groupe dont le rendement constitue le niveau de compétence minimal. Le candidat limite appartient au groupe qui se qualifie tout juste pour l’agrément ou l’obtention d’un permis ».

Une origine probable de la difficulté d’estimation demandée découle du fait que l’évaluateur peut avoir de la peine à concilier plusieurs références ou critères : le degré d’attentes ou d’exigences à l’égard du futur instituteur, le degré de certitude de l’évaluation proposée, avec en arrière-fond une référence aux compétences grammaticales d’une population d’apprenants familière18. On peut donc se demander, avec plusieurs chercheurs cités par Wyse & Reckase (2012, p. 6), si « la tâche d’émettre des jugements de probabilités selon la méthode d’Angoff n’est pas excessivement complexe » (notre traduction). Nos observations lors de la procédure montrent que la tâche est effectivement complexe, mais que les problèmes ne sont pas insurmontables.

Il est certainement difficile d’éviter que les experts se réfèrent à la population d’étudiants à laquelle ils ont affaire régulièrement. Nous avons essayé de prévenir ce biais en écartant explicitement cette référence de la consigne pour la seconde phase. Il est toutefois assez artificiel de situer ses estimations dans l’absolu des exigences du plan d’études, par ailleurs peu explicites sur les performances attendues (Marc & Wirthner, 2013, p. 5), et la référence au niveau de compétence exigé par l’exercice de la profession est sujette à des interprétations diverses. Pour bien des évaluateurs il est probablement nécessaire de fixer, comme nous l’avons fait, quelques balises le long de l’échelle en %, se référant implicitement à un degré de difficulté de la question, toujours pour les borderlines.

Relevons encore un problème observé assez couramment dans nos travaux sur l’évaluation, et récemment dans l’application de la méthode d’Angoff à des épreuves de mathématiques au Cycle d’orientation genevois en fin de scolarité obligatoire (Bain, 2016 ; Frey, 2016 ; Frey, 2017) : la tendance des enseignants à être relativement optimistes – ou très exigeants, c’est selon – quant à la réussite de leurs élèves… ou de leur enseignement. Cela les incite à fixer a priori, avant tout feed-back sur les résultats de l’épreuve, un seuil relativement élevé.

Par ailleurs, nous n’avons pas relevé de difficulté majeure dans le maniement d’une échelle critériée en %. En observant l’ensemble des estimations aux deux phases, on peut se demander s’il est utile de proposer une précision par pas de 5%. Elle est utilisée pour une minorité des estimations (16%) en phase 1 comme en phase 2. Mais dans ces évaluations, comme dans d’autres, interviennent des différences personnelles marquées, opposant les experts qui n’utilisent pratiquement pas – ou très peu – les intervalles de 5% et ceux, minoritaires, qui y recourent pour plus de 10 questions sur 56, avec une forte corrélation entre les deux phases. Il nous semble finalement préférable d’autoriser cette latitude d’estimation pour éviter des blocages chez certains évaluateurs pour lesquels une échelle en déciles apparaîtrait trop sommaire.

Au départ, nous avons hésité à utiliser la méthode d’Angoff Oui/Non, apparemment plus simple d’emploi : il s’agit d’estimer si un candidat juste suffisant va réussir ou non la question (codage 1/0). Nous y avons renoncé pour deux raisons : cette estimation dichotomique nous paraissait d’abord trop grossière par rapport à la probabilité de réussir ou échouer telle

18 « A criticism of Angoff has been that the validity of resulting cut scores may be threatened due to panelists’ difficulty in performing the cognitively complex task of estimating probabilities and to inconsistency between panelists’ item ratings and actual student performance data. » (Peterson, Schulz, Engelhard, 2011, p. 4).

BAIN, D.


question formulée de telle façon. Cette variante se révèle par ailleurs particulièrement inadéquate pour un test de maîtrise comme l’examen de grammaire, pour laquelle on postule des estimations situées entre 50% et 100% (et de facto plutôt entre 75% et 100%). Cisek & Bunch (2007, p. 94) en font rapidement la démonstration et l’illustration :

« Un biais potentiel se produit parce que la méthode [Oui/Non] est fondée sur un jugement implicite exigeant de décider si la probabilité d’une réponse correcte en référence au score de passage est plus grande que .5 [50%]. Pour illustrer ceci, supposons qu’un test soit composé d’items identiques qui aient tous une probabilité de réponse en référence au score de passage de .7 [70%]. Un évaluateur rigoureux dans ses estimations assignerait la valeur de 1 à chaque item, et le standard de performance résultant serait un score parfait [100% de réussite], ce qui n’est clairement pas l’intention de l’évaluateur ni une attente réaliste fondée sur la difficulté du test » (notre traduction).

On conçoit l’inadéquation de cette variante dans le cas d’un test de maîtrise comme l’examen de grammaire pour lequel on pouvait attendre a priori (cf. le seuil fixé par le professeur) à une moyenne de 75% de réussite.

3.3.5 Temps nécessaire pour parcourir les étapes de la procédure

C’est un des problèmes le plus souvent signalés dans la littérature consultée : « A drawback of the Angoff method is the time involved of the use of experts in panels, and therefore the costs. This was confirmed by the comments the judges made about the time consuming procedure. The judges needed about 2 hours for this procedure. » (Klein, 2008, p. 10). Il faut en effet du temps pour exposer et entraîner la méthode ; pour analyser et coter chaque question ; pour prendre connaissance du détail des résultats ; pour discuter les points de divergence entre les deux phases et décider du seuil final ; pour rédiger et discuter le rapport aux commanditaires de l’évaluation, éventuellement le commenter aux instances concernées. La durée (totale) de deux heures avancée par Klein nous semble sous-évaluée, en particulier si l’on a affaire à des experts novices ou s’ils ils fonctionnent ensemble pour la première fois. Ce travail ne figurant généralement pas dans le cahier des charges des experts, l’opération correspond également à un coût non négligeable, que les instances administratives s’efforcent actuellement de réduire.

3.3.6 Efficacité relative et problèmes de la discussion interphase

Cette étape d’échanges entre évaluateurs, avant la première étape et entre la première et la seconde (éventuellement avant la troisième), est jugée cruciale pour la qualité et la convergence des estimations. Clauser & al. (2009) en font l’objet d’une étude spécifique, qui conclut (p. 2) que la discussion des divergences entre évaluateurs a diminué la variance associée aux effets Juges et Juges x Items, indice d’un accord accru entre les juges.

Dans notre expérience, cette diminution est de faible ampleur, de même que dans la recherche sur les épreuves de mathématiques (Bain, 2016 ; Frey, 2016 et 2017), et cela risque d’être assez souvent le cas quand on ne fait pas intervenir dans les évaluations des feed-back d’impact ou de réalité. En effet, faute de temps et compte tenu du nombre de questions, il est probablement rare qu’on puisse approfondir les cas de divergences, et plusieurs d’entre elles risquent de subsister. C’est l’expérience que nous avons faite ; elle laisse par ailleurs supposer des différences individuelles quant à la capacité ou à la volonté de modifier ses estimations : la moitié de nos 10 experts n’ont guère changé globalement leurs exigences d’une phase à l’autre. D’autant que, plus généralement, ces divergences peuvent tenir à des positions personnelles tant épistémologiques (statut de la branche), que pédagogiques



(investissement dans la formation), ou docimologiques (pertinence du mode ou de la forme de l’évaluation).

Mentionnons par ailleurs un biais possible lors de cette discussion, susceptible d’influer sur les estimations de la seconde phase : le leadership exercé de facto par tel ou tel participant. Pour paraphraser un des commandements de la Ferme des animaux (Orwell, 1945, p. 89), théoriquement « tous les [experts] sont égaux, mais certains sont plus égaux que d'autres » : « Caution must be exercised in interpreting the reliability coefficient since it might be influenced by one judge who dominates others » (Mortaz & Jalili, 2014, p. 5).

3.3.7 Renonciation à une phase 3 de feed-back de réalité et d’impact ?

Compte tenu de ces divergences encore relativement importantes en fin de phase 2, n’aurait-il pas fallu passer à une troisième phase ? Rappelons que lors de cette étape (Cisek & Bunch, pp. 55-56 et 84), on injecte dans la procédure des informations sur les résultats effectifs à l’examen ou à des contrôles équivalents antérieurs (cf. supra § 2.5.3). L’objectif est d’améliorer la convergence des estimations en fournissant aux experts des références communes.

Nous avons finalement renoncé à une telle étape faute de temps, mais surtout parce que, dans les deux types de feed-back, on tend à mélanger les références normatives et critériées, changeant ainsi le point de vue adopté au départ de notre recherche. Dans la pratique en revanche, en dehors des cas d’expertise particuliers, nous constatons que le recours à un feed-back de réalité ou d’impact s’impose souvent. Il est notamment la conséquence de la tendance des enseignants (ainsi que des experts-enseignants) à être relativement optimistes ou exigeants dans leurs estimations. Nous l’avons remarqué notamment dans l’application de la méthode d’Angoff à des épreuves de mathématiques au Cycle d’orientation genevois en fin de scolarité obligatoire (Bain, 2016 ; Frey 2016 et 2017) : pour certaines filières, le seuil fixé a priori était proche de la moyenne des scores, d’où théoriquement un taux d’échecs de près de 50%, que l’institution n’aurait pu se permettre pour des raisons évidentes. La solution adoptée finalement est généralement un compromis : « Pour fixer le seuil [final], le niveau de compétence attendu des élèves (seuil Angoff) et les rendements effectifs des élèves ont été pris en considération » (Frey, 2017, p. 5). Et encore faut-il que le taux final d’échecs soit défendable face aux instances extérieures (notamment politiques) susceptibles de critiquer l’institution de formation (Cizek & Bunch, 2007, p. 2).

3.3.8 Prise en compte de l’erreur de mesure sur le seuil

Tout se passe comme si cette notion d’erreur de mesure sur un score ou un seuil n’existait pas dans la culture évaluative sous nos latitudes. Elle est rarement mentionnée dans les comptes rendus relatifs aux épreuves de référence et aux examens, et probablement pas prise en considération pour le calcul des barèmes. On peut notamment l’expliquer par le fait qu’il n’est socialement pas de bonne stratégie de parler d’erreur dans le cas d’épreuves qu’on doit, de plus en plus souvent, défendre contre des critiques extérieures ou des recours de plus en plus fréquents des évalués. Dans la pratique, cela a pour conséquence d’ignorer de facto l’existence d’une telle erreur ou de faire comme si cette erreur n’existait pas ; il n’y a donc pas lieu d’en évaluer l’importance ni de décider qui faire profiter de l’intervalle d’incertitude calculé : l’apprenant ou l’institution. Généralement, les responsables de l’évaluation adoptent en effet ce que Cisek & Bunch (2007, p. 29) appellent la solution « par défaut » : « In fact, the equal weighting of false positive and false negative classification errors is effectively the “default” weighting that is adopted when the issue of relative costs is not deliberated. »

BAIN, D.


En dehors de cette « solution par défaut », deux cas de figure se présentent : selon le contexte institutionnel et social, ainsi que selon les conséquences de la décision finale, on peut décider de faire bénéficier l’évalué – ou au contraire l’institution – de la marge d’erreur en la soustrayant ou en l’additionnant au seuil de réussite. Il s’agit d’écarter ce que Cizek & Bunch (2007, p. 25) appellent des décisions de classement respectivement fausses positives et fausses négatives.

Dans le cadre de la formation, de l’orientation ou de la sélection scolaires, pour éviter l’erreur consistant à considérer comme incompétent un candidat effectivement compétent, on décide généralement d’abaisser le seuil de passage en soustrayant la marge d’erreur afin de « donner leur chance » aux intéressés. Pour l’examen de grammaire pris comme exemple, dans cette perspective, on fixerait donc le seuil à 79% (84% - 5%). Un feedback d’impact, se référant aux résultats effectifs à l’examen, nous indiquerait que le taux d’échecs serait ainsi d’environ 5% de l’effectif des candidats enseignants (avec le seuil de 75% adopté par le professeur responsable du cours, on comptait 1% d’échecs)

Dans le cas d’un examen final de médecine, en revanche, on peut être amené à additionner au contraire la marge d’erreur (84% + 5% = 89%) pour éliminer des candidats médecins susceptibles de mettre en danger leurs premiers patients : « In cases where the consequences or costs of false positive decisions are […] serious […], those participating in a standard-setting procedure might recommend a very high standard to preclude a large proportion of false positive decisions. » (Cizek & Bunch, 2007, p. 27).

Une autre façon d’utiliser l’intervalle de confiance est de le considérer comme une zone d’incertitude et, pour lever cette incertitude, de recourir à une des stratégies de décision séquentielle préconisées par Cronbach & Gleser (1969) en faisant intervenir une autre information pour les étudiants concernés. Il s’agit souvent d’une nouvelle passation de l’examen19. Dans notre exemple de l’examen de grammaire, ce pourrait être uniquement pour ceux se situant entre 79% et 83% de réussite.

3.4 En guise de conclusion

Ce texte a été rédigé en hommage à Jean Cardinet, chercheur, collègue et ami avec lequel j’ai échangé pendant plusieurs décennies sur les problèmes posés par l’évaluation dans le domaine des sciences de l’éducation. C’est donc à lui que je donne d’abord la parole dans ces quelques mots conclusifs en reproduisant le dernier paragraphe de son texte de 2014 qui faisait la critique de l’article de Verhoeven & al. (1999).

« A plus long terme, il faut remettre en cause toute la procédure d’examen, car l’étude statistique que nous venons de faire montre bien que, pour des raisons pratiques de temps et de coût, l’incertitude ne pourra jamais être suffisamment réduite, même pour l’estimation apparemment simple du niveau minimum requis en utilisant la méthode d’Angoff. Le modèle statistique n’est pas pour autant à rejeter, car il a au moins l’intérêt de révéler quelles sont ses limites. C’est plutôt l’ambition d’une évaluation bilan qu’il faudra sans doute abandonner au profit de procédures plus élaborées d’évaluation formative. »

J’ai pris connaissance de ce texte quelques semaines seulement avant le décès de Jean Cardinet. Je n’ai donc pas pu réagir à cette conclusion et avoir avec lui un de ces échanges fructueux et passionnants, notamment quand nos avis divergeaient quelque peu. Je lui aurais

19 Citant Millman (1989), Cizek & Bunch (2007, p. 26) soulignent le danger d’une telle stratégie si l’institution autorise de multiples passations de l’examen : « The examinee has a better than 50/100 chance of capitalizing on random error and passing the test in only five attempts! ».



dit mon accord de principe avec l’idée d’affecter l’essentiel de nos efforts à développer l’évaluation formative, à laquelle j’ai consacré quelques-uns de mes travaux. En revanche, je ne suis pas sûr qu’on puisse jamais abandonner évaluations bilans et examens. Un contrôle sommatif des résultats de la formation s’impose, en particulier pour la scolarité obligatoire ; il est en cours de façon systématique dans de nombreux pays. Il est méthodologiquement et didactiquement hautement recommandable que des experts examinent les résultats de ces enquêtes avec une méthode du type d’Angoff pour estimer s’ils correspondent au niveau de performances attendu par les formateurs, mais aussi par les instances politiques auxquelles ils doivent des comptes. En ce qui concerne les examens et les divers tests à enjeux élevés, dont dépend souvent la carrière scolaire ou professionnelle des apprenants, il s’agit de réduire un arbitraire dont on n’a pas toujours conscience. Les méthodes de standard setting du type de celle d’Angoff pourraient apporter une contribution importante à un tel objectif.

4. Références

AERA/APA/NCME (1999). Standards for Educational and Psychological Testing. Washington, DC: American Educational Research Association, American Psychological Association National Council on Measurement in Education.

Allal, L., & Laveault, D. (2016). Assessment for Learning: Meeting the Challenge of Implementation. Cham: Springer.

Angoff, W. H. (1971). Scales, norms, and equivalent scores. In R. L. Thorndike (Ed.), Educational measurement (pp. 508–600). Washington, DC: American Council on Education.

Astolfi, J.-P. (1993). Trois paradigmes pour les recherches en didactique. Revue française de pédagogie, volume 103, 5-18.

Bain, D. (2010). Pour évaluer les qualités docimologiques des tests de maîtrise : l’intérêt de recourir à la généralisabilité. Mesure et Évaluation en Éducation, 33(2), 35-63.

Bain, D. (2016). Math. 11e Tronc commun. Résumé des analyses de généralisabilité. Genève : Groupe Edumétrie, Société suisse de recherche en éducation (SSRE) ; rapport de recherche.

Bain, D. (2018). Fixer un seuil de réussite pour un test de maîtrise : intérêt et limites de la méthode d’Angoff et de de la généralisabilité. Genève : Groupe Edumétrie, téléchargeable sur https://www.irdp.ch/institut/edumetrie-1635.html

Bain, D., & Weiss, L. (2016). Épreuve passerelle de physique : commentaires des résultats. Genève : Groupe Edumétrie, Société suisse de recherche en éducation (SSRE) ; rapport de recherche.

Berk, R. A. (1986). A consumer’s guide to setting performance standards on criterion- referenced tests. Review of Educational Research, 56, 137–172.

Busch, J., & Jaeger, R. (1990). Influence of type of judge, normative information, and discussion on standards recommended for the National Teacher Examinations. J. Educ. Meas., 27(2), 145–163.

Bronckart, J.-P. (2004). Syllabus de grammaire 1. Genève: Faculté de psychologie et des sciences de l’éducation, Université de Genève.

Capey, St., & Hay, Fr. C. (2013). Setting the standard in assessments. In O. M. R Westwood., A. Griffin, & Fr. C. Hay (Eds). How to Assess Students and Trainees in Medicine and Health. New Jersey: Wiley-Blackwell, 94-113.

Cardinet, J. (1972). Adaptation des tests aux finalités de l’évaluation. Neuchâtel : Institut romand de recherches et de documentation pédagogiques (R72-9).

Cardinet, J., & Tourneur, Y, (1985). Assurer la mesure. Berne : Peter Lang.

BAIN, D.


Cardinet, J. (2014). Discussion de l’article de Verhoeven, Van der Steeg, Scherpbier, Muijtjiens, Verwijnen & van der Vleuten, Medical Education, 33, 832-837. Communication personnelle, s.l.n.d.20

Cardinet, J., Johnson, S., & Pini, G. (2010). Applying Generalizability Theory using EduG. New York: Routledge/Taylor & Francis (Quantitative Methodology Series).

CDIP (2007). HarmoS : Objectifs nationaux de formation. Conférence intercantonale de l'instruction publique de la Suisse romande et du Tessin. Accès : http://www.ciip.ch/documents/showFile.asp?ID=2910.

Çetin, S., & Gelbal, S. (2013). A Comparison of Bookmark and Angoff Standard Setting Methods, Educational Sciences: Theory & Practice, 13(4). Educational Consultancy and Research Center (2169-2175).

CIIP (2007), Convention scolaire romande, Espace romand de la formation Conférence intercantonale de l'instruction publique de la Suisse romande et du Tessin. Accès : http://www.ciip.ch/FileDownload/Get/80

CIIP (2010-2016). Plan d’études romand. Conférence intercantonale de l’instruction publique de la Suisse romande et du Tessin. Accès : https://www.plandetudes.ch/ consulté le 12.08.2016.

Cizek, G. J., & Bunch, M. B.(2007). Standard setting: a guide to establishing and evaluating performance standards on tests. London: Sage Publications.

Clauser, B., Harik, P., Margolis, M., McManus, I., Mollon, J., Chis, L., & Williams, S. (2009). An empirical examination of the impact of group discussion and examinee performance information on judgments made in the Angoff standard-setting procedure. Appl. Meas. Educ., 22(1):1–21.

Cronbach, L. J., & Gleser, G. C. (1965). Psychological Tests and Personnel decisions. Urbana: University of Illinois Press.

Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281-302.

COE (2017). Cadre européen de référence pour l’enseignement des langues. Strasbourg : Conseil de l’Europe, Unité des Politiques linguistiques, Strasbourg, Accès : https://rm.coe.int/16802fc3a8.

De Landsheere, G. (1979). Dictionnaire de l’évaluation et de la recherché en éducation. Paris: Presses universitaires de France.

D’Hoop, E., Lemenu, D., Malhomme, Chr., & Coupremanne, M. (2012). Articulation entre référentiels, pratiques d’enseignement, dispositifs de formation et pratiques d’évaluation. Texte final destiné aux Actes du 24e colloque de L’ADMÉÉ-Europe : L’évaluation des compétences en milieu scolaire et en milieu professionnel.

DEPP (2014). Rapport technique - CEDRE Mathématiques École 2014. Paris : Direction de l’évaluation, de la prospective et de la performance, Ministère de l’éducation nationale, de l’enseignement supérieur et de la recherche.

DEPP (2015) : Note d’information no 19, mai 2015. Paris : Direction de l’évaluation, de la prospective et de la performance, Ministère de l’éducation nationale, de l’enseignement supérieur et de la recherche.

Dever, E. (2015). La fixation des normes selon la méthode Angoff. Téléchargé sur le site de l’ACTRM : http://www.camrt.ca/fr/wp-content/uploads/sites/3/2015/05/La-m%C3%A9thode-Angoff.pdf, le 20.12.17.

Frey, J. (2016). Étude exploratoire sur l’utilisation de la méthode d’Angoff pour déterminer a priori les seuils de suffisance des EVACOM de mathématiques. Genève : Direction générale de l’enseignement obligatoire.

Frey, J. (2017). Utilisation de la méthode d’Angoff pour déterminer a priori les seuils de suffisance des EVACOM de mathématiques 2017. Genève : Direction générale de l’enseignement obligatoire.

George, S, Haque, S, & Oyebode, F. (2006). Standard setting: comparison of two methods. BMC Med Educ. 6(1):46.

20 Ce texte nous a été envoyé en mai 2015 par Jean Cardinet, à la suite d’un échange sur le texte de Verhoven & al., 1999. Il ne contenait aucune information sur sa date ni sur un éventuel lieu d’édition (s.l.n.d). Nous l’avons daté de 2014 en fonction de la date du fichier reçu.



Hambleton, R. K., & Plake, B. S. (1995). Using an extended Angoff procedure to set standards on complex performance assessments. Applied Measurement in Education, 8, 41–56.

Hurtz, G, & Auerbach M. A. (2003). A meta-analysis of the effects of modifications to the Angoff method on cutoff scores and judgment consensus. Educ. Psychol. Meas., 63(4): 584–601

Kane, M. (1994). Validating the performance standards associated with passing scores. Review of Educational Research, 64(3), 425.

Klein, M. E. (2008). The use of the objective structured clinical examination (OSCE) in dental education. Thesis. Department of Periodontology of the Academic Centre for Dentistry Amsterdam (ACTA), 152 p., Downloaded from UvA-DARE, the institutional repository of the University of Amsterdam (UvA). http://hdl.handle.net/11245/2.55005.

Marc, V., & Wirthner, M. (2012). Épreuves romandes communes : de l’analyse des épreuves cantonales à un modèle d’évaluation adapté au PER – Rapport final du projet EpRoCom. Neuchâtel : Institut de recherche et de documentation pédagogique.

Marc, V., & Wirthner, M. (2013). Développement d’un modèle d’évaluation adapté au PER. Rapport scientifique du projet d’épreuves romandes communes. Neuchâtel : Institut de recherche et de documentation pédagogique.

Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13–104). New York: Macmillan.

Mortaz, H. S., & Jalili, M. (2014). Standard setting in medical education: fundamental concepts and emerging challenges. Medical Journal of the Islamic Republic of Iran, 28(34), published online 2014 May 19.

Orwell, G. (1989). Animal Farm : A Fairy Story. London, Penguin, coll. « Fiction », 1989 (1re éd. 1945).

Perrenoud, Ph. (1984). La fabrication de l’excellence scolaire: du curriculum aux pratiques d’évaluation. Genève : Droz.

Peterson, C., Schulz, E.,M., & Engelhard, G. (2011). Reliability and validity of bookmark-based methods for standard setting: comparisons to Angoff-based methods in the National Assessment of Educational Progress. Educ. Meas., 30(2):3–14.

Shulruf, B., Wilkinson, T., Weller, J., Jones, Ph. & Poole, Ph. (2016). Insights into the Angoff method: results from a simulation study. BMC Med Educ., 16: 134. Published online 2016 May 4.

Site Edumétrie (2017). Hébergé par l’Institut de recherche et de documentation pédagogique Neuchâtel, à l’adresse : https://www.irdp.ch/institut/edumetrie-1635.html.

Verhoeven, B, Van der Steeg, A, Scherpbier, A, Muijtjens, A, Verwijnen, G, & Van Der Vleuten, C. (1999). Reliability and credibility of an Angoff standard setting procedure in progress testing using recent graduates as judges. Med. Educ., 33(11), 832–837.

Wheaton, A., & Parry, J. (2012). Using the Angoff Method to Set Cut Scores. New Orleans Questionmark, 2012, March 20-23. Users conference

Wyse, A., & Reckase, M. (2012). Examining rounding rules in Angoff-type standard-setting methods. Educ. Psychol. Meas. 72(2), 224–244.

Yerly, G. (2014). Les effets de l'évaluation externe des acquis des élèves sur les pratiques des enseignants. Analyse du regard des enseignants du primaire. Université de Fribourg. Thèse de doctorat sous la direction de Gurtner, Jean-Luc.



Les écrits de Jean Cardinet Citations commentées

Anne Bourgoz Froidevaux Institut de recherche et de documentation pédagogique (IRDP) [email protected] Avec les contributions de :

Jean-Marie De Ketele Université Catholique de Louvain Linda Allal Université de Genève Georges Pasquier Syndicat des enseignants romands (SER) Pierre-François Coen Haute école pédagogique de Fribourg Sandra Johnson Université de Bristol Pour citer cet article : Bourgoz Froidevaux, A. (2017). Les écrits de Jean Cardinet. Citations commentées. Evaluer. Journal international de Recherche en Education et Formation, 3(3), 97-104.

1. Introduction

Le récent colloque en hommage à Jean Cardinet l'a montré une nouvelle fois, celui-ci a laissé des souvenirs marquants à ceux qui l'ont côtoyé, qui ont collaboré avec lui, qui l'ont lu et étudié. C'est non seulement l'homme et le chercheur qui ont été évoqués lors de cette journée, mais aussi ses nombreuses publications, sans manquer d'en relever la qualité. Afin de poursuivre la réflexion sur ses écrits, nous avons proposé à cinq personnes – chercheur.e, formateur/trice ou enseignant.e –, ayant connu Jean Cardinet et son travail, d'en citer un extrait et de le commenter librement. Jean-Marie de Ketele (professeur émérite, Université Catholique de Louvain, Belgique), Linda Allal (professeure honoraire, Université de Genève, Suisse), Georges Pasquier (enseignant à la retraite et ancien président du Syndicat des enseignants romands, Suisse), Pierre-François Coen (professeur à la Haute École pédagogique de Fribourg, Suisse) et Sandra Johnson (chercheure honoraire, Université de Bristol, Angleterre – sur un texte de Jean Cardinet publié en anglais), ont accepté de se prêter à l'exercice et de mettre ainsi en lumière différents aspects de l'héritage de Jean Cardinet.

BOURGOZ FROIDEVAUX, A.


1.1 Cardinet et ses deux ouvrages précurseurs

Jean-Marie De Ketele

Il faut d’abord se demander si la façon de poser le problème, c’est-à-dire déterminer les élèves capables de réussir à l’avenir, est bien correcte. On peut en douter quand on voit la façon dont sont organisés les examens dans la majorité des systèmes scolaires. Tout se passe en effet comme si la performance future était assimilée à la performance passée. (Cardinet, 1986a, p.156)

Si l’on veut guider l’apprentissage, c’est surtout la direction du progrès qu’il faut indiquer. (Cardinet, 198 b, p.57)

Au départ spécialiste des tests et de la mesure, et après avoir séjourné dans l’entreprise et dans des universités, Jean Cardinet est engagé à l’IRDP de Neuchâtel où il fonde le Service de Recherche pédagogique. Tout naturellement, l’évaluation scolaire devient un thème majeur et il y consacre deux ouvrages publiés chez un éditeur international (Editions De Boeck). Publiés tous deux en 1986, ils résument symboliquement la tension entre les deux fils conducteurs de la pensée et de l’œuvre de Jean Cardinet : l’intérêt pour la mesure, ce qu’elle permet et ne permet pas de dire ; le souci de mettre l’évaluation scolaire au cœur de l’apprentissage et au service de l’élève.

Chargé de mener des enquêtes dans les cantons romands, Jean Cardinet était préoccupé de la fidélité de la mesure et de la généralisabilité de son usage. Cette préoccupation allait devenir de plus en plus grande avec la montée en puissance et la multiplication des évaluations internationales. Mais en même temps, Jean Cardinet sait que l’essentiel se passe au cœur de l’apprentissage et que la mesure ne dit pas ce qu’il faut faire pour l’améliorer. Il va donc formaliser les fonctions et les démarches de l’évaluation, à travers de nombreux documents publiés par l’IRDP à destination des enseignants … et que s’arracheront les collègues de l’Association belgo-suisse dans un premier temps et ensuite les membres de l’Association pour le Développement des Méthodologies d’Évaluation en Éducation (ADMEE).

Le choix de ces deux ouvrages et de ces deux citations est symbolique, mais aussi précurseur. En référence à la première citation, j’aime citer la réflexion de Marcel Lebrun, selon lequel l’essentiel de l’évaluation n’est pas dans les performances, mais dans un ailleurs. Quant à la seconde citation, elle dit avant l’heure ce que défend haut et fort le mouvement actuel de l’assessment for learning.

1.2 De la régulation des apprentissages

Linda Allal

Une approche systémique, dans son désir de rationaliser l’apprentissage, conduit à définir des étapes successives dans l’acquisition de la maîtrise, qui deviennent autant d’objectifs intermédiaires. L’approche interactionniste de la psychologie sociale de l’éducation amène à concevoir autrement la progression par le biais d’approximations successives : il s’agit en effet essentiellement d’établir une communication intersubjective entre maître et élève, qui soit suffisante pour que chacun comprenne la position intérieure de l’autre. Le premier doit, autant que possible, percevoir la représentation de l’élève pour la faire évoluer ; le second doit s’assimiler la représentation du maître pour satisfaire aux exigences du contrat didactique. (Cardinet, 1986, p. 257)

Grand spécialiste des théories de la mesure et de leurs applications en éducation, Jean Cardinet a néanmoins souligné, dans plusieurs écrits, les limites de ces théories pour la conceptualisation de l’évaluation des apprentissages dans le contexte de la classe. Tout au long de sa carrière, il a cherché des apports conceptuels qui pourraient éclairer les pratiques

Les écrits de Jean Cardinet – citations commentées


d’évaluation en classe et notamment leur fonction formative de soutien à l’apprentissage. En 1977, il a proposé une approche systémique, inspirée de la cybernétique, qui plaçait les concepts de régulation et de boucles d’adaptation au cœur de l’évaluation formative. Par la suite, comme cette citation de 1986 le montre, il est venu à une autre perspective, basée sur les apports de la psychologie sociale et de la didactique : à savoir que les interactions entre l’enseignant et l’élève constituent le fondement d’une démarche évaluative qui contribue à la progression des apprentissages. Dans la dernière phrase de la citation, il évoque le double mouvement du processus d’étayage qui exige l’engagement actif de chaque partenaire, enseignant et élève.

Cette perspective résonne avec une des préoccupations de mes propres travaux sur l’évaluation formative. Dans le prolongement du texte de Cardinet de 1977, j’ai proposé de distinguer deux formes de régulation (Allal, 1979) : les régulations « rétroactives » (remédiations) intervenant vers la fin d’une étape d’enseignement/apprentissage dans le modèle de la pédagogie de maîtrise de Bloom, et les régulations « interactives » qui sont intégrées de manière continue dans toutes les situations d’enseignement/apprentissage en classe. J’ai défini la régulation interactive comme comprenant les interactions de l’élève avec l’enseignant, avec les autres élèves et avec les moyens matériels (supports, outils) présents dans le contexte de la classe. La communication intersubjective entre maître et élève, dont parle Cardinet, est certes au centre de la régulation interactive des apprentissages, tant dans les situations d’étayage individuel que dans les leçons collectives où l’enseignant et les élèves construisent une compréhension partagée d’un concept ou d’un objectif à atteindre (Mottier Lopez, 2015). Mais d’autres sources de régulation des apprentissages fonctionnent en classe sans l’intervention directe du maître: les échanges collaboratifs entre élèves ou l’utilisation par les élèves d’outils d’autoévaluation, pour réviser des textes, pour résoudre des problèmes, pour mener à bien des projets, par exemple. L’enseignant reste un médiateur de ces situations car il exerce un rôle central dans la définition des modalités de collaboration entre élèves et dans le choix des outils fournis aux élèves ou construits avec eux. Il ne contrôle cependant pas la dynamique de ces sources de régulation qui dépendent des conduites que les élèves parviennent à déployer. Un défi pour la recherche sur l’évaluation en classe est de préciser comment les différentes sources de régulation interactive fonctionnent ensemble et s’influencent mutuellement pour soutenir la progression des apprentissages. Pour avancer dans cette direction, les éclairages conceptuels proposés par Jean Cardinet – en référence à la cybernétique, à la psychologie sociale, à la didactique – seront des outils d’analyse précieux.

1.3. 45 ans après, c'est encore une vision d'avenir

Georges Pasquier

Du 12 au 19 novembre 1971, a eu lieu à Berlin, à l’initiative du Conseil de l’Europe, un symposium sur « les objectifs et les méthodes de l'évaluation pédagogique ». Jean Cardinet y a participé avec d’autres chercheurs et responsables de notre pays. Il en a fait un retour pour les enseignants romands dans l’Educateur du 10 mars 1972 au travers d’un article intitulé « Réforme scolaire - Faut-il encore mettre des notes? ». (Cardinet, 1972).

Jean Cardinet se disait heureux qu'en abordant ce thème des objectifs et des méthodes de l'évaluation pédagogique, le Conseil de la coopération culturelle du Conseil de l'Europe cherche à répondre à un problème presque universel : faut-il mettre des notes aux élèves, pourquoi et comment? Tout en regrettant qu'à l'époque le problème ne se posait pas « dans la perspective traditionnelle ». Il soulignait que cette tâche indiscutée était assumée par des enseignants qui n'avaient reçu aucune formation pour ce faire. Sa description du symposium faisait état de la nécessité partagée dans toute l'Europe d'améliorer les processus en vigueur,



et du fait que la discussion s'est vite déplacée du « Comment » au « Pourquoi ». Les participants retenant pour l'évaluation trois fonctions fondamentales: régulation, orientation et certification et accordant à ces fonctions dans l'ordre une importance très fortement décroissante. La régulation était donc la fonction majeure et incontournable, qui supposait un enseignement beaucoup plus ambitieux et plus complexe que l'existant, puisque devant viser à « faciliter les apprentissages des élèves ».

Plaidant pour une « évaluation renouvelée », Jean Cardinet croyait celle-ci impossible sans un certain nombre de conditions préalables qui touchaient à la formation des enseignants, à l'établissement de programmes scolaires avec des objectifs éducatifs clairs et surtout à l'organisation du travail scolaire:

Il faudrait mettre fin à la pratique du redoublement de classe et à celle des examens mélangeant toutes les branches : pourquoi recommencer une épreuve dont les résultats ont été jugés satisfaisants. Il faudrait que l'école donne l'occasion du travail individuel, non plus par des devoirs à la maison qui posent les problèmes sociaux que l'on sait, mais par des heures réservées à des activités à option et par une participation réelle des élèves au choix de leurs objectifs éducatifs. Le groupe classe doit être assoupli par l'enseignement en équipe de manière à permettre le travail de certains enseignants avec des petits groupes pendant que d'autres font travailler plusieurs classes à la fois. En un mot, une évaluation ne peut jouer son rôle régulatoire que si l'organisation scolaire est assez souple pour permettre aux élèves de poursuivre leurs études indépendamment les uns des autres. (Cardinet, 1972)

Il ajoutait aussi que l'école devait abandonner sa fonction sélective et que, au moins à l'intérieur de la scolarité obligatoire, elle devait favoriser le développement de tous les élèves et pas seulement de ceux qui se destinent aux études longues. Il soulignait que cet objectif nécessitait une action correctrice compensatoire qui induisait une dépense sociale supplémentaire. Aujourd'hui le Plan d'études romand (PER) est réalisé, les intentions politiques exprimées prônent une école intégrative, la formation des enseignants est en évolution lente, mais les initiatives populaires et les travaux des députés ont durci le béton des notes, la sélection, l'obsession de la mesure et l'organisation déresponsabilisante du travail scolaire.

Les propos de Jean Cardinet apparaissent comme une vision d'avenir qui est encore loin de la concrétisation. Mais le travail de Sisyphe des enseignants impliqués et des chercheurs en éducation doit se nourrir de l'espoir porté dans sa conclusion:

Lorsque l'école se sera donné les moyens de sa politique et qu'une évaluation au service des élèves aura commencé à fonctionner, le système actuel des notes paraîtra définitivement périmé et disparaîtra de lui-même. (Cardinet, 1972)

1.4 Rendre compte pour se rendre compte1

Pierre-François Coen

Je vois maintenant qu’en classe aussi l’apprentissage se situe dans une histoire. Vouloir interrompre le flux pour effectuer des bilans conduit à des résultats sans signification. L’erreur est souvent la cause d’une prise de conscience et l’épreuve est elle-même occasion d’apprentissage. Que va-t-on juger ? L’élève est en pleine évolution et l’examen vient trop tôt.

(…) On voit qu’on est loin de l’évaluation « mise de notes ». Ce dont on parle alors, c’est d’une autoévaluation servant de base à une autocorrection. C’est bien à quoi je pensais quand je disais que

1 Je remercie Daniel Bain à qui je dois cette formule et qui m’assura qu’elle était bien de Jean Cardinet.



la pierre de touche de l’évaluation formative consistait à vérifier que l’on disait quelque chose à l’élève, et non sur l’élève. Il faut traiter l’élève (…) en personne autonome. Lui attribuer une note, une appréciation ou un qualificatif quelconque c’est au contraire le traiter en objet. (Cardinet et Tschoumy, 1991, p. 60)

Cet extrait est issu d’un entretien entre J.-A. Tschoumy et J. Cardinet (1991). Ce dernier venait de prendre sa retraite et répondait aux questions de son interlocuteur qui lui demandait de faire un bilan de ses activités passées. Après avoir retracé sa formation, ses séjours aux Etats-Unis, Cardinet évoque quelques-unes des recherches marquantes de sa carrière. Dans ce contexte, il est amené à parler du travail d’un responsable scolaire qui souhaite ajuster un projet (une innovation) et le faire évoluer. Il démontre alors que ce travail est très comparable à celui d’un apprenant qui doit analyser ses erreurs, se corriger, s’autoévaluer et remettre son ouvrage sur le métier.

L’actualité de ses propos est surprenante. Ainsi, il commence par souligner que l’apprentissage s’inscrit dans l’histoire de l’élève. L’organisation du temps scolaire n’est pas nouvelle, mais elle est aujourd’hui sérieusement questionnée. Le récent colloque de la Société suisse de recherche en éducation (SSRE)2 a montré toute l’étendue des problématiques liées à ce thème : rythmes scolaires, périodes propices aux apprentissages, durées ... Un élève a besoin de temps pour apprendre. Aux yeux de Cardinet, il semble inopportun de l’interrompre sans cesse pour savoir où il en est en l’évaluant. Cette injonction demeure et devrait être prise en considération tant il semble que l’école a relativement peu bougé sur ce plan. Combien de fois les élèves sont-ils sanctionnés par des évaluations en une année ? Pourquoi sont-ils tous contraints à passer le même test au même moment et avec le même temps ? Dans quelle mesure les temps d’apprentissage sont-ils pris en compte pour différencier l’enseignement ?

Cardinet évoque ensuite la place et le rôle de l’erreur dans l’apprentissage. Si la chose semble acquise – théoriquement – par les pédagogues et les enseignants, qu’en est-il sur le terrain ? Pour les enfants, ce qui compte c’est de faire juste, c’est de montrer ce que l’on sait. Le nombre de fautes (ils utilisent encore ce mot) apparaît comme une jauge définissant le salut ou la damnation scolaire. Dès lors, comment profiter des erreurs si elles sont craintes, sanctionnées, volontairement ignorées ou dissimulées ? Comment prendre du temps à les analyser si elles apparaissent comme des objets indésirables ?

L’erreur est pourtant une formidable occasion d’apprendre. Et c’est là que résonnent au plus fort les propos de Cardinet. D’abord par l’importance qu’il donne à la prise de conscience de cette « réalité extérieure », cette nécessité de « rendre compte » de ce qui a été fait sans porter de jugement a priori, mais simplement pour documenter l’expérience. L’enseignant dit quelque chose à l’élève de ce qu’il a fait. Si cela pouvait être relativement difficile il y a quelques années, l’usage des technologies numériques facilite considérable cet exercice aujourd’hui. Quoi de plus facile que d’enregistrer une tâche, de filmer une activité et de la redonner à l’élève pour qu’il puisse la revivre à distance. Ensuite, par la place qu’il donne tout naturellement à la prise de conscience comme moyen de revenir sur l’apprentissage et ce qui n’a pas fonctionné. Après le « rendre compte », il y a le « se rendre compte », deux mouvements qui se complètent et qui permettent d’aboutir enfin à l’émancipation du sujet. Pour Cardinet, le rôle de l’enseignant est ainsi de traiter l’élève en « personne autonome » et de se donner comme mission d’échanger et de multiplier les occasions de dialoguer avec lui sur son travail. A l’heure où l’école est considérablement bousculée par tant de choses, il

2 Congrès SSRE 2017, «Les temps de l'éducation et de la formation» http://events.unifr.ch/ssre2017/fr/



serait bon de garder en mémoire le précieux héritage de Cardinet qui rejoint celui de nombreuses grandes figurent de l’éducation et qui, comme A. Jaccard, soutiennent que l’école doit avant tout être un lieu de rencontre.

1.5 Jean Cardinet and Generalizability Theory

Sandra Johnson

Whether we are attempting to evaluate attitudes to mathematics, managerial aptitude, perception of pain or blood pressure, our scores and ratings will be subject to measurement error. This is because the traits or conditions that we are trying to estimate are often difficult to define in any absolute sense, and usually cannot be directly observed. So we create instruments that we assume will elicit evidence of the traits or conditions in question. But numerous influences impact on this process of measurement and produce variability that ultimately introduces errors in the results. We need to study this phenomenon if we are to be in a position to quantify and control it, and in this way to assure maximum measurement precision. (Cardinet, Johnson & Pini 2009, p. 1)

Jean Cardinet was intensely interested in educational measurement and wrote prolifically and influentially in the field over very many years, in both English and French. The quotation above is the introductory paragraph to a major work, written at the invitation of George Marcoulides, that, for Jean, represented the culmination of a professional lifetime dedicated in great part to the further development, exemplification and promotion of Generalizability Theory (G-theory). I was privileged, along with Gianreto Pini, to be invited by Jean to co-author the book.

G-theory was initially developed by Lee Cronbach and colleagues in the US during the 1960s, and launched in a seminal text published in the early 1970s (Cronbach, Gleser, Nanda & Rajaratnam 1972). Jean was a research associate attached to Cronbach’s team in 1962-3, and thence stemmed his deep interest in measurement theory, and in particular in G-theory. Later, back in Europe, Jean began to make important contributions to the further development of the theory. A particularly notable example is his explication, with Yvan Tourner and Linda Allal, of G-theory’s property of model symmetry (see, for example, Cardinet & Tourneur 1985, Cardinet, Tourneur & Allal 1981, 1982). The property of symmetry offered a natural extension of G-theory to the study of assessment reliability for objects of measurement other than students, the original unique focus of interest: for instance markers, questions and interviewers, among others. The concept of symmetry has had an important impact internationally, in many different fields of educational assessment.

In the drive to promote the study of measurement within Switzerland, a special interest group – Groupe Edumétrie – was set up in Geneva, that regularly brought together fellow education professionals with an interest in assessment, to discuss approaches, experiences and possibilities. G-theory featured prominently. It was this group, and in particular Jean Cardinet and Daniel Bain, that took steps to address a major obstacle to the promotion and ultimate application of G-theory, namely the continuing lack of dedicated user-friendly data analysis software. And thus EduG was born. Originally intended for student use in small-scale applications, EduG is now widely used also by professional practitioners.

My own long association with Jean began way back in the 1980s, while I was working on the technical design of a pioneering national assessment programme (APU Science) in England. The complex probability sampling of students was accompanied by stratified domain sampling of banked assessment questions. National student attainment estimates and



margins of error were produced conventionally, but we applied G-theory to indicate whether adjustments to sample sizes, of students and/or test questions, might further increase reliability. I invited Jean to give me reactions to my technical report on the programme (Johnson 1989). His feedback was astonishingly detailed, thoughtful and constructive, of the type that he willingly and consistently gave, I later learned, to any colleague or struggling student wanting to learn how to apply G-theory appropriately in their work. It is surely through this quality of selfless and ready availability to others, driven in part certainly by his strong belief in the importance of quality assessment and the role G-theory can play in achieving this, that we remember Jean, not only with respect and admiration, but also with lasting affection.

2. Auteur.e.s

Jean-Marie de Ketele est docteur en psychopédagogie et spécialisé en évaluation. Il a enseigné principalement à l’Université Catholique de Louvain, où il est aujourd’hui professeur émérite, et à la Chaire UNESCO en Sciences de l’Education de Dakar, dont il a été le fondateur en 1994 et le titulaire. Il a été Président de l’ADMEE (Association pour le Développement des Méthodologies de l’Evaluation en Education) et de l’AIPU (Association Internationale de Pédagogie Universitaire). Il est directeur scientifique de plusieurs collections aux Editions De Boeck—Université et Docteur Honoris Causa de deux universités (UCAD, Dakar, et ICP, Paris). Tout au long de sa carrière, il a publié de nombreux ouvrages et articles.

Linda Allal est professeur honoraire de la Faculté de psychologie et des sciences de l’éducation de l’Université de Genève. Au cours de sa carrière dans cette Faculté (1973-2006), elle a publié de très nombreux articles et ouvrages sur le rôle de l’évaluation dans la régulation des apprentissages et dans le pilotage du système scolaire. Elle a contribué activement à la formation initiale et continue des enseignant.e.s en Suisse romande. Un doctorat honoris causa lui a été décerné par l’Université de Liège en 2013 en reconnaissance du rayonnement international de ses travaux. Elle a coédité, avec Dany Laveault, un ouvrage paru en 2016, chez Springer, sur « Assessment for Learning : Meeting the Challenge of Implementation. »

Georges Pasquier a enseigné à l’école primaire à Genève, de 1977 à 2013. Il a été président de la Société pédagogique genevoise de 1992 à 1998, pour devenir ensuite vice-président du Syndicat des enseignant.e.s romand.e.s (SER), qu'il a présidé entre 2006 et 2016. Il a également été rédacteur en chef de « L’Educateur » de 2000 à 2006.

Après des études en sciences de l’éducation et en musique, Pierre-François Coen est aujourd’hui formateur chercheur à la Haute école pédagogique de Fribourg. Il est à la tête de l’Unité de recherche EVIDENS (évaluation, identité, enseignement) et assume également des charges de cours à l’Université de Fribourg et à la Haute école de musique Vaud-Valais-Fribourg. Ses domaines de recherche touchent les domaines de l’évaluation, des technologies numériques et de l’éducation musicale.

Sandra Johnson is an educational researcher, former educator, and expert survey statistician, with extensive experience in system monitoring, after almost 10 years as Deputy Technical Director of the Assessment of Performance Unit (APU) science monitoring programme in England, followed by almost 20 years as independent Technical Adviser to Scotland's successive system monitoring programmes. She has served on national and local government advisory committees, in the UK and in Switzerland, and has been involved in a number of international capacity building projects in the field of national assessment. Currently an



independent assessment consultant, offering technical support for educational assessment generally, she is a Fellow of the Association for Educational Assessment – Europe, an Honorary Research Fellow in the University of Bristol (Graduate School of Education), and a Lifetime Honorary Member of the European Educational Research Association’s Network 9 (Assessment, Evaluation, Testing and Measurement).

3. Références

Allal, L. (1979). Stratégies d’évaluation formative : conceptions psycho-pédagogiques et modalités d’application. In L. Allal, J. Cardinet, & P. Perrenoud (Eds.), L’évaluation formative dans un enseignement différenciée (pp. 130-156). Berne : Lang.

Cardinet, Jean. (1972). Réforme scolaire. Faut-il encore mettre des notes? Educateur, (9), 205-208.

Cardinet, J. (1977). Objectifs éducatifs et évaluation individualisée. Rapport IRDP/R 77.05. Neuchâtel : Institut Romand de Recherches et de Documentation Pédagogiques.

Cardinet, J. (1986 a). Évaluation scolaire et mesure. Bruxelles: De Boeck.

Cardinet, J. (1986 b). Pour apprécier le travail des élèves. Bruxelles: De Boeck.

Cardinet, J., Johnson, S., & Pini, G. (2009). Applying Generalizability Theory using EduG. New York: Routledge.

Cardinet, J., & Tourneur, Y. (1985). Assurer la mesure. Berne: Peter Lang.

Cardinet, J., Tourneur, Y., & Allal, L. (1981). Extension of Generalizability Theory and its applications in educational measurement. Journal of Educational Measurement, 18, l83-204.

Cardinet, J., Tourneur, Y., & Allal, L. (1982). Extension of Generalizability Theory and its applications in educational measurement. Journal of Educational Measurement, 19, 331-332.

Cardinet J., & Tschoumy J-A. (1991). Entretien avec Jean Cardinet : Peut-on s'évaluer sans se juger ? Recherche & Formation, 9, 57-66.

Cronbach, L.J., Gleser, G.C., Nanda, H., & Rajaratnam, N. (1972). The Dependability of Behavioral Measurements. New York: Wiley.

Johnson, S. (1989). National Assessment: The APU Science Approach. London: Her Majesty’s Stationery Office.

Mottier Lopez, L. (2015). Evaluation-régulation interactive : étude des structures de participation guidée entre enseignant et élèves dans le problème mathématique "Enclos de la chèvre". Mesure et évaluation en éducation, 38(1), 89-120.

VARIA



L’ADMEE-Europe, née à Dijon en 1986 : développements et perspectives

Linda Allal Université de Genève, Suisse [email protected]

Marie-Claire Dauvisis Professeur retraité de l’enseignement supérieur agronomique, France [email protected]

Jean-Marie De Ketele Université catholique de Louvain, Belgique [email protected]

Résumé Cet article marque le 30ème anniversaire de la fondation de l’Association pour le développement des méthodologies d’évaluation en éducation – Europe (ADMEE-Europe) à Dijon, en 1986. Il porte sur les origines de l’association, sur les forces en présence lors de sa fondation et sur son développement. Il analyse l’évolution de l’association sur la base d’indicateurs concernant les adhérents, les revues et le bulletin, les sections nationales, les réseaux thématiques internationaux et les thèmes des colloques annuels. En conclusion, l’article présente des perspectives pour l’avenir de l’ADMEE-Europe. Dans les deux annexes figurent : un ensemble de photos datant du colloque de 1986 à Dijon ; une liste des présidents, vice-présidents, secrétaires-trésoriers, rédacteurs des revues et du bulletin de 1986 à 2017.

Abstract This article commemorates the 30th anniversary of the founding of the Association for the development of methodologies of evaluation in education – Europe (ADMEE-Europe) in 1986 in Dijon. It examines the origins of the association, the events leading to its creation and its subsequent development. The analysis of the evolution of the association is based on indicators concerning the membership, the journals and the newsletter, the national sections, the international thematic networks and the orientations of the annual meetings. In conclusion, the article presents some perspectives for the future of ADMEE-Europe. Two Appendices present a series of photos dating from the 1986 meeting in Dijon and a list of the presidents, vice-presidents, secretary-treasurers, editors of the journals and newsletter between 1986 and 2017.

Pour citer cet article : Allal, L., Dauvisis, M-C., & De Ketele, J-M. (2017). L’ADMEE-Europe, née à Dijon en 1986 : développements et perspectives. Evaluer. Journal international de Recherche en Education et Formation, 3(3), 107-137.





ALLAL, L., DAUVISIS, M-C., & DE KETELE, J-M.


1. Introduction

En janvier 2017, l’Association pour le développement des méthodologies de l’évaluation en éducation – Europe (ADMEE-Europe) a célébré ses 30 ans lors d’un colloque tenu à Dijon. Cet article est basé sur l’allocution que nous avons eu le plaisir de prononcer à cette occasion.

Les institutions des sciences de l’éducation à Dijon ont accueilli trois colloques qui ont marqué la vie de notre association :

- en 1986, le colloque fondateur de l’ADMEE-Europe, organisé par Marie-Claire Dauvisis de l’INRAP (Institut national de recherches et d’applications pédagogiques), sur le thème « Evaluer l’évaluation » ;

- en 1999, le colloque organisé par Georges Solaux, de l’IREDU (Institut de recherche en économie de l’éducation, Université de Bourgogne), sur le thème « L’évaluation des politiques de l’éducation » ;

- en 2017, le colloque organisé par Nathalie Droyer, de l’AGRO-Sup Dijon, sur le thème « L’évaluation : levier pour l’enseignement et la formation », au cours duquel le 30ème anniversaire de l’ADMEE-Europe a été commémoré.

Cet article abordera successivement : les événements conduisant à la fondation de l’ADMEE-Europe en 1986, les forces en présence lors de la fondation, le développement de l’ADMEE-Europe depuis 1986, et quelques perspectives d’avenir.

Notre écrit a été élaboré à partir de plusieurs sources d’information :

- les statistiques et autres informations que Nathalie Nazzari, responsable du secrétariat de l’ADMEE-Europe, a réunies et nous a transmises, ainsi que les renseignements fournis par plusieurs membres de l’association1 ;

- les informations sur le site web de l’association (http://admee.ulg.ac.be) ;

- les publications et présentations à l’occasion des anniversaires précédents :

celui des 10 ans, au colloque organisé à Grenoble par Gérard Figari en 1996 (Cardinet & Laveault, 1996 ; Figari & Achouche, 1997) ;

celui des 20 ans, au colloque organisé par Réginald Burton à Luxembourg en 2006 (Figari & Mottier Lopez, 2006 ; Paquay & Dayez, 2006).

et – bien sûr – nos souvenirs personnels en tant qu’acteurs engagés dans l’aventure de l’ADMEE-Europe.

2. Vers la création de l’ADMEE-Europe

En 1976, Jean Cardinet, directeur de recherche à l’Institut romand de recherche et de documentation pédagogique (IRDP, situé à Neuchâtel), a invité Linda Allal (Université de Genève) et Yvan Tourneur (Université de Mons), à une rencontre, à Mons, pour travailler sur un article concernant la théorie de la généralisabilité (Cardinet, Tourneur & Allal, 1976). En marge de leurs travaux, ils ont parlé de l’intérêt des chercheurs2 et formateurs dans les deux pays pour diverses questions liées à l’évaluation des apprentissages scolaires. Ils ont décidé de convoquer une rencontre belgo-suisse sur l’évaluation à Mons en 1977. Un texte de Cardinet intitulé « Objectifs éducatifs et évaluation individualisée », publié par la suite en 1986, a servi de base au lancement de cette rencontre. Des rencontres annuelles, en alternance entre les deux pays, ont suivi : Genève (1978), Liège (1979), Jongy (1980), Arlon (1981).



Suite à des contacts avec Charles Delorme, directeur du CEPEC (Centre d’études pédagogiques pour expérimentation et le conseil) à Lyon, rattaché au réseau de l’enseignement catholique en France, un membre de ce centre, Jean-Claude Parisot, a assisté à la rencontre belgo-suisse de Jongy en 1980. L’approche du CEPEC qui reliait recherche, innovation et formation dans le champ de l’évaluation étant proche de celle du réseau belgo-suisse, ce centre a été invité à organiser une première rencontre belgo-franco-suisse en 1982 sur le thème « Objectifs, compétences, capacités, indicateurs : quelles implications pour l'évaluation formative ? ». L’alternance belgo-suisse a ensuite repris – Namur (1983), Genève (1984), Bruxelles (1985) – mais avec la participation croissante d’intervenants français.

En parallèle, des contacts ont été établis, par l’intermédiaire de Jean Cardinet, Jacques-André Tschoumy et Jacques Weiss de l’IRDP, avec l’Association des spécialistes de la mesure en éducation (ASME), fondée à Montréal en 1977, et avec la rédaction de la revue Mesure et évaluation en éducation (MEE) que cette association a créée en 1978. Les premiers articles d’auteurs européens sont parus dans la revue (Allal, 1983 ; Cardinet, 1983) et les échanges avec la nouvelle présidente de l’association canadienne, Louise Bélair, ont alimenté l’idée de créer une association « sœur » en Europe. Les débats à ce propos ont pris une place importante à la rencontre organisée à Bruxelles, en 1985, par Jean-Marie De Ketele (Université catholique de Louvain). En même temps au Canada, l’ASME a adopté une nouvelle appellation : Association pour le développement de la mesure et de l’évaluation en éducation (ADMEE).

L’année 1986 a constitué un tournant décisif. Au printemps de cette année, la direction de la revue MEE a décidé de mettre en place un comité de rédaction avec deux sous-comités (canadien, européen). Cette décision concrétisait la volonté de promouvoir la collaboration scientifique entre chercheurs des deux côtés de l’Atlantique. Le premier sous-comité de rédaction européen était présidé par Jean Cardinet et comptait trois membres : Linda Allal (Université de Genève), Jean-Jacques Bonniol (Université d’Aix-en-Provence) et de Léopold Paquay (Université catholique de Louvain).

Plus important encore, au colloque organisé par Marie-Claire Dauvisis (INRAP) à Dijon du 17 au 19 septembre 1986, la décision a été prise de fonder l’ADMEE-Europe ! Le nom de l’association était l’objet de discussions intenses. L’expression « développement de la mesure » dans l’appellation canadienne semblait très restrictive et a finalement été remplacée par « développement des méthodologies » (au pluriel). Ce changement a permis le maintien de l’acronyme ADMEE tout en marquant l’ouverture de la nouvelle association à une pluralité d’approches en évaluation, aussi bien qualitatives que quantitatives. Notons que par la suite, en 2005, l’ADMEE-Canada a adopté la même appellation que l’ADMEE-Europe.

Au colloque de fondation à Dijon, la structure du Conseil d’administration (CA) de l’ADMEE–Europe a été définie comme suit : un bureau (président, vice-président, secrétaire-trésorier) composé de personnalités des trois pays fondateurs, un délégué et un suppléant de chaque section nationale, le rédacteur européen de la revue MEE, l’organisateur du colloque annuel en cours et l’organisateur du prochain colloque. L’élection du premier bureau a désigné Yvan Tourneur président, Linda Allal vice-présidente, Charles Delorme secrétaire-trésorier. Il était prévu que les responsabilités au sein du bureau s’effectuent en tournus entre les pays et que la composition du CA reflète, dans la mesure du possible, la diversité des appartenances institutionnelles des membres (universités, centres de recherche, instituts de formation, administrations, secteurs publics et privés).

Comment caractériser la vocation de l’ADMEE-Europe au moment de sa fondation en 1986 ? On peut la décrire en termes de double finalité, toujours actuelle. Premièrement,




soutenir et stimuler des recherches scientifiques sur l’évaluation en éducation, notamment par des colloques annuels, par la publication d’ouvrages issus des colloques, par les contributions à la revue MEE, par les activités organisées par chaque section nationale. Deuxièmement, rassembler et promouvoir un dialogue productif entre différents acteurs intéressés par l’évaluation dans le domaine de l’enseignement et de la formation : chercheurs, formateurs, conseillers pédagogiques, responsables scolaires, étudiants en sciences de l’éducation, enseignants en fonction. Cela voulait dire : tirer parti des recherches sur l’évaluation pour orienter des actions de formation et d’innovation et, en même temps, tirer parti des expériences sur le terrain pour promouvoir de nouvelles directions de recherche en prise avec les réalités de l’école.

3. Les forces en présence lors de la fondation de l’ADMEE-Europe

Dans cette partie, nous tentons de caractériser les forces en présence – les acteurs et les institutions – en Belgique francophone, en France et en Suisse romande pendant la période (1976-1986) conduisant à la fondation de l’ADMEE-Europe.

3.1 En Belgique

Comme nous l’avons vu, le trio composé de Jean Cardinet, Linda Allal et Yvan Tourneur réunis en 1976 à Mons allait être à la base d’une belle symphonie en trois mouvements successifs : belgo-suisse, belgo-franco-suisse, ADMEE-Europe. Ils ont convoqué la première rencontre belgo-suisse sur l’évaluation qui s’est tenue du 28 au 30 mars 1977 sous l’égide du Service de pédagogie expérimentale (SPE) du Professeur Louis d’Hainaut à l’Université de Mons. Le 28 mars 1977, Jean-Marie De Ketele soutenait, à Leuven, sa thèse sur le thème de l’observation et de l’évaluation (publiée en 1980 chez Peter Lang sous le titre Observer pour éduquer) et rejoignait le lendemain la réunion de Mons animée par Yvan Tourneur avec les jeunes chercheurs du SPE (Christian Depover et Bernadette Noël) à laquelle s’étaient joints d’autres chercheurs belges concernés par l’évaluation. Le mouvement belgo-suisse était né et allait grandir. L’organisation d’une rencontre annuelle (tour à tour en Belgique et en Suisse) permettait d’en assurer la visibilité.

Pour faire grandir le mouvement en Belgique, le colloque de Liège en 1979 fut important. Avec l’aval du Professeur Gilbert de Landsheere, responsable du Service de pédagogie expérimentale (SPE), Aletta Grisay et Anne-Marie Thirion organisèrent la troisième rencontre autour du thème « Contextes et démarches de l’évaluation formative ». Elles allaient impliquer les jeunes chercheurs du SPE (Jacqueline Beckers, Marcel Crahay, Viviane de Landsheere, Dieudonné Leclercq) et attirer de nombreux autres jeunes chercheurs des autres universités francophones et même quelques praticiens avec lesquels ils collaboraient.

Organisée à Arlon en 1981 par la FUL (Fondation universitaire luxembourgeoise, une fondation interuniversitaire belge à l’époque), la cinquième rencontre belgo-suisse prenait comme thème « Les stratégies de mise en place et de généralisation de l’évaluation formative ». Dans cette ville frontière, la rencontre vit se joindre un certain nombre de collègues français, dont Charles Delorme (CEPEC de Lyon), qui allaient devenir des artisans importants de l’élargissement du mouvement devenant implicitement déjà belgo-franco-suisse.

La septième rencontre du mouvement allait être organisée en 1983 aux Facultés Notre Dame de la Paix à Namur par une équipe de jeunes chercheurs du Département éducation et technologie, à savoir Evelyne Charlier et Jean Donnay. Travaillant en relation étroite avec de



nombreux acteurs de terrain, ils centraient le colloque sur le thème « L’évaluation en pratique ».

La neuvième rencontre fut organisée en 1985 par Jean-Marie De Ketele (avec ses collègues Michel Bonami, Léopold Paquay et de jeunes chercheurs) dans les locaux de la Faculté de Médecine de l’Université catholique de Louvain (UCL) à Bruxelles. Cet événement est important pour deux raisons fondamentales. Ce fut la première fois que le colloque a été préparé par un comité scientifique international composé de Jean Cardinet pour la Suisse, Marie-Claire Dauvisis pour la France et Jean-Marie De Ketele pour la Belgique. Ce comité a non seulement défini le thème du colloque « L’évaluation : approche descriptive ou prescriptive ? », mais a préparé le raisonnement du colloque et constitué le plan de l’ouvrage qui en résulterait, publié en 1986. Ce même comité a identifié les personnes chargées des interventions et des chapitres de l’ouvrage : des chercheurs belges (Michel Bonami, Evelyne Charlier, Marcel Crahay, Jean-Marie De Ketele, Aletta Grisay, Yvan Tourneur) ; des chercheurs français (Jean-Jacques Bonniol, Yves Chevallard, Marie-Claire Dauvisis, Charles Delorme, Michel Gilly) ; des chercheurs suisses (Philippe Perrenoud, Jacques Weiss). Cette liste permet de voir que le mouvement était devenu réellement belgo-franco-suisse et, deuxième raison fondamentale, permet de comprendre que les participants décidèrent de créer l’année suivante à Dijon l’ADMEE-Europe.

Au terme de ce bref historique, il est intéressant de noter que le mouvement en Belgique, entre 1976 et 1986, a été caractérisé par l’engagement d’académiques jeunes (cf. les noms des organisateurs de colloques) et non par les professeurs les plus en vue de l’époque (Anna Bonboir, Louis D’Hainaut, Gilbert de Landsheere, Louis Vandevelde). Leur aval a évidemment été important, mais ils ne se sont jamais vraiment impliqués dans le mouvement qui allait devenir l’ADMEE-Europe. Une deuxième caractéristique du mouvement est d’être resté cantonné pendant cette période aux différents centres de recherche universitaires en sciences de l’éducation sans implication directe des institutions hors université (comme les écoles normales ou des centres liés aux différents réseaux d’enseignement). Seules des personnes ayant à l’époque une double charge, universitaire et hors université (comme Léopold Paquay à l’UCL et Georges Marchandise à Mons), ont tenté d’élargir le champ. Un des premiers à manifester son intérêt fut René Cousin, alors conseiller pédagogique à la Commission française de la Culture de l’Agglomération bruxelloise, présent au colloque de Bruxelles en 1985 et au colloque fondateur de l’ADMEE-Europe à Dijon. Ce n’est que bien plus tard, contrairement à la Suisse et à la France, que les autres institutions hors université se sont progressivement impliquées dans l’ADMEE et ont pris des responsabilités dans la section belge et dans le Conseil d’administration de l’association.

3.2 En France

Il y a trente ans, en France, peu de liens s’établissaient entre l’université et le système de formation. Les futurs enseignants du secondaire s’y formaient exclusivement dans leur discipline de rattachement, cette seule compétence disciplinaire étant évaluée dans les concours de recrutement spécialisés. Les enseignants du primaire, quant à eux, étaient formés dans les Ecoles normales, sans aucun lien avec l’université.

En 1968, ont été créés dans trois universités les premiers départements des Sciences de l’éducation. Un développement de ces départements s’est fait progressivement, avec des approches théoriques et une centration marquée sur les disciplines de référence, tout en marquant leur spécificité dans le secteur de l’éducation (philosophie, sociologie, psychologie, histoire, économie, … de l’éducation). Très rares ont été les départements qui menaient des travaux de recherche en évaluation traduits par des publications. On peut néanmoins en citer




deux : l’Université Paris VIII, avec Jacques Ardoino et Guy Berger, traitant essentiellement le problème sous ses aspects épistémologique et conceptuel, et l’équipe d’Aix-en-Provence, avec ses jeunes chercheurs René Amigues, Jean-Jacques Bonniol, Jean-Paul Caverni, Michel Gilly, fortement impliqués dans des recherches de terrain, dont les travaux ont été présentés dans l’ouvrage publié en 1978 par Georges Noizet et Jean-Paul Caverni sous le titre Psychologie de l’évaluation scolaire. Enfin, un autre type de travaux universitaires concernant évaluation, en termes économiques pour aider la décision politique, commençait à se développer à l’IREDU, créé en 1971 à Dijon à l’initiative et sous la direction du Professeur Jean-Claude Eicher.

Le lien « recherche et formation » se développait ailleurs dans les instituts de recherche pédagogique et dans des institutions récentes progressivement rattachées à l’université. L’INRP (Institut national de recherche pédagogique), créé en 1976 au service de l’Education Nationale – par transformation de l’IPN (Institut pédagogique national) datant de 1956 – s’était doté en 1980 d’un conseil scientifique. Le CEPEC, créé en 1976, jouait alors à Lyon un rôle national voisin au service de l’enseignement privé, menant des recherches fortement ancrées sur les pratiques et accompagnant les pratiques innovantes dans les établissements. Quelques membres du CEPEC avaient rejoint le groupe des chercheurs belgo-suisses dès 1980.

L’INRAP, créé à Dijon en 1967 comme structure semblable au service de l’enseignement agricole, développait des innovations sur la base de travaux de recherches théoriques et participatives et avait recruté en 1982 un professeur de Sciences de l’éducation, Marie-Claire Dauvisis, qui avait soutenu sa thèse d’état en 1982 avec Jean Cardinet dans le jury. Dès 1983, les relations établies antérieurement et le voisinage de Dijon avec la Suisse avaient permis de nouer au niveau institutionnel des contacts réguliers avec l’IRDP à Neuchâtel et des chercheurs de la SSRE (Société suisse de recherche en éducation). En 1984, à l’occasion de deux séminaires nationaux, regroupant les cadres et principaux acteurs du système d’enseignement agricole, des chercheurs du réseau belgo-suisse avaient été conviés pour intervenir sur les problématiques d’évaluation et de systèmes de formation. Leurs apports ont été la base et un précieux soutien pour la réflexion et les choix politiques de la rénovation de l’ensemble de l’enseignement agricole : objectifs d’intégration, contrôle en cours de formation, unités capitalisables seront au cœur de cette rénovation. C’est ainsi que l’INRAP à Dijon a pu être repéré comme lieu favorable en France pour la création de l’ADMEE-Europe.

A côté de ces institutions nationales, à partir de 1972, dans les départements de mathématiques des universités, les IREM (Institut de recherches sur l’enseignement des mathématiques) se déployaient progressivement, mettant en œuvre une politique de formation appuyée sur la recherche participative dans les établissements scolaires. Un réseau s’était organisé avec de fréquentes rencontres Inter-IREM où étaient invités des chercheurs français et étrangers, notamment du réseau belgo-suisse des chercheurs en évaluation. Suite au rapport d’André de Peretti sur la formation, avaient été créées en 1982, dans les rectorats, pour la formation continue des personnels de l’Education Nationale, les MAFPEN (Missions académiques pour la formation des personnels de l’éducation nationale) dont le responsable était obligatoirement un universitaire. Là encore se développait le lien « recherche–formation » et l’évaluation se trouvait souvent interrogée.

Au sein de ces diverses institutions universitaires et hors université, l’ADMEE-Europe recrutera les premiers adhérents et représentants français au Conseil d’administration : notamment Antoine Bodin (IREM, Besançon), Jacques Colomb (INRP, Paris),



Michèle Genthon (Université Aix-en-Provence), Charles Hadji (MAFPEN, Grenoble), Bernard Maccario (MAFPEN, Toulouse). Les IUFM (Instituts universitaires de formation des maitres,) chargés de la formation initiale des enseignants, ne verront le jour qu’en 1990, se dotant largement de personnels issus des MAFPEN ou des IREM. Là encore s’est trouvée ultérieurement une réserve d’adhérents et organisateurs de rencontres pour l’ADMEE-Europe.

On ne peut terminer ce tour d’horizon du substrat favorable pour la création de l’ADMEE-Europe, sans évoquer les réseaux existants au plan international où se retrouvaient régulièrement certains des membres fondateurs présents à la rencontre de Dijon, notamment : l’AUPELF (Association des universités partiellement ou entièrement de langue française) qui, grâce à Michel Bernard (Université de Nantes), hébergea dans ses locaux parisiens les rencontres préparatoires et certaines réunions du Conseil d’administration de l’ADMEE-Europe ; l’AIPELF (Association internationale de pédagogie expérimentale de langue française), dont les colloques annuels autour du week-end de l’Ascension, étaient régulièrement fréquentés par plusieurs acteurs de la création de l’ADMEE-Europe.

Les réseaux étaient constitués, le lieu identifié, tout était propice à l’organisation de la rencontre où pourrait être créée l’ADMEE-Europe. Néanmoins pour que l’arrivée de la France ne dénature pas ce qui avait fait le style des rencontres du réseau belgo-suisse, il importait qu’une première rencontre élargie ait précédemment lieu en Belgique. Pour commencer à prendre une culture ADMEE, une invitation particulière fut faite aux collègues de l’association canadienne et notamment à sa présidente, Louise Bélair. C’est ainsi que fut organisée, à Bruxelles, en 1985, la rencontre internationale qui allait construire les fondements nécessaires pour la création à Dijon l’année suivante de l’ADMEE-Europe. Cette rencontre de Bruxelles a connu un très vif succès à la fois par la présence québécoise et par une importante participation d’intervenants et de participants des trois pays européens. Une nouvelle dynamique était ainsi enclenchée qui pourrait s’institutionnaliser l’année suivante.

Il restait à organiser la rencontre dijonnaise de 1986 : l’ARBRE (Association régionale de Bourgogne de recherche en éducation et en formation), association récemment créée à l’initiative de Marie-Claire Dauvisis et présidée par Jean-Claude Eicher, directeur de l’IREDU, allait y trouver sa consécration en servant de support officiel de la manifestation. Cette association se donnait en effet pour mission d’animer la vie des Sciences de l’éducation en Bourgogne en fédérant en son sein les ressources de ce champ implantées à Dijon : la section de Sciences de l’éducation et l’IREDU, à l’Université de Bourgogne ; l’INRAP, le département de formation continue de l’INPSA (Institut national de promotion supérieure agricole) et la chaire de Sciences sociales du l’ENSSAA (Ecole nationale supérieure des sciences agronomiques appliquées), dans les établissements dijonnais d’enseignement supérieur du Ministère de l’agriculture ; et l’lReFFE (Institut régional de formation aux fonctions éducatives). L’ARBRE organisait et diffusait des résultats de recherche par des rencontres régulières entre chercheurs de ces institutions, des conférences grand public avec un conférencier invité et des séminaires de recherche autour du conférencier.

La scène et la logistique étaient prêtes, les acteurs en place, il fallait encore définir un titre stimulant la réflexion, qui reste cohérent avec la culture des rencontres belgo-suisses. Le but était de donner le maximum d’éclat et d’ouverture à la création de la nouvelle association : quoi de mieux que « Evaluer l’évaluation » ! Ce fut un vrai succès puisque la rencontre réunit plus de 150 participants et que l’ADMEE-Europe y a effectivement été créée. L’Annexe I de




cet article présente un ensemble de photos des travaux et des moments de convivialité lors de cette rencontre à Dijon en 1986.

3.3 En Suisse romande

Pendant la période (1976-86) qui précédait la création de l’ADMEE-Europe, la situation était assez différente entre les trois pays qui allaient fonder l’association. Comme les récits précédents le montrent, les initiateurs et participants belges aux rencontres belgo-suisses venaient essentiellement d’unités universitaires tandis que les participants français venaient d’instances aussi bien universitaires que non universitaires. En Suisse la situation était encore différente : les membres du réseau belgo-suisse appartenaient principalement à des centres de recherche hors université mais travaillaient régulièrement avec une équipe universitaire à Genève sur les questions d’évaluation.

L’IRDP, fondé en 1970 à Neuchâtel, assurait la coordination des échanges entre les centres et unités de recherche rattachés aux Départements de l’instruction publique cantonaux. De leur position à l’IRDP, Jean Cardinet, Jacques-André Tschoumy et Jacques Weiss exerçaient un rôle de leadership important dans le développement de recherches sur l’évaluation et dans la création de liens entre chercheurs, formateurs et responsables scolaires en Suisse romande. Les membres des quatre centres de recherche qui existaient à cette époque étaient également très actifs dans les rencontres belgo-suisses conduisant à la création de l’ADMEE-Europe : en particulier, Daniel Bain et Clairette Davaud du Centre de recherches psychopédagogiques du Cycle d’orientation (Genève), Michel Dokic du Service de la recherche pédagogique (Genève), Philippe Perrenoud du Service de la recherche sociologique (Genève), Jean Paschoud du Centre vaudois de recherches pédagogiques (Lausanne). Faisaient partie aussi de ce mouvement des personnes impliquées dans la coordination de projets inter-cantonaux (e.g., Monica Gather Thurler), dans la formation continue des enseignants (e.g., Franz Baeriswyl, Danielle Bonneton), et dans la gestion du système scolaire (e.g., Marie-Claire Andrès, directrice de la division élémentaire de l’enseignement primaire à Genève).

Du coté des universités romandes, la Section des sciences de l’éducation de la Faculté de psychologie et des sciences de l’éducation, à l’Université de Genève, avait introduit en 1973, sous la présidence de Michael Huberman, un système d’unités capitalisables (crédits) permettant à de nombreux enseignants et cadres scolaires en Suisse romande de suivre des études de licence en parallèle à leur activité professionnelle. Linda Allal, nommée professeur assistant en 1974, a créé une équipe d’enseignement et de recherche travaillant sur l’apprentissage et l’évaluation en situation scolaire et dans la formation des enseignants. Cette équipe entretenait des échanges fréquents avec les membres des centres de recherche genevois et avec l’IRDP (journées d’études sur la recherche en évaluation, co-animation de formations continues dans les écoles, publications conjointes, etc.). Plusieurs membres de cette équipe – notamment Edith Baeriswyl et Edith Wegmuller, tirant parti à la fois de leur expérience professionnelle d’enseignante et de formatrice et de leur participation à des recherches universitaires – ont contribué activement aux rencontres belgo-suisses conduisant à la fondation de l’ADMEE-Europe. L’implication des autres universités romandes (Fribourg, Lausanne, Neuchâtel) dans les activités de l’ADMEE-Europe est venue plus tard lorsque leurs unités d’enseignement et de recherche en sciences de l’éducation se sont renforcées.

Il faut mentionner deux autres développements en Suisse romande qui ont marqué les années précédant la fondation de l’ADMEE-Europe. Le premier était la création des premières associations scientifiques de chercheurs en éducation. Le GRETI (Groupe de recherches sur l’éducation et les techniques d’instruction), créé au début des années 1970, a publié des



traductions de plusieurs chapitres du célèbre Handbook on formative and summative évaluation of student learning (Bloom, Hastings & Madaus, 1971) et a organisé des journées d’études sur l’évaluation. La fondation de la SSRE (Société suisse pour la recherche en éducation) en 1975 a donné un cadre pour la création d’un groupe de travail de chercheurs romands et alémaniques intéressés par le champ de l’évaluation. Le deuxième développement était la mise en œuvre de projets visant à transformer les pratiques d’évaluation à l’école. Parmi les projets élaborés en collaboration entre des chercheurs et des responsables des systèmes scolaires, on peut citer le projet RAPSODIE (Groupe Rapsodie, 1979) dans le canton de Genève ; le projet SIPRI-ATE (Situation de l’école primaire – Appréciation du travail de l’élève), initié par la Conférence suisse des directeurs cantonaux de l’instruction publique, et piloté par l’IRDP en Suisse romande entre 1980 et 1986 (Thurler, 1986). Les chercheurs impliqués dans ces projets intervenaient souvent dans des actions de formation des enseignants mais c’est plus tard, avec la transformation des Ecoles normales en Hautes écoles pédagogiques à la fin des années 1990, que de nombreux formateurs sont venus renforcer la section suisse et le CA de l’ADMEE-Europe.

Dans la période allant de 1976 à la création de l’ADMEE-Europe en1986, les chercheurs suisses ont organisé trois rencontres sur l’évaluation. Suite à la première rencontre à Mons en 1977, Linda Allal, Jean Cardinet et Philippe Perrenoud ont organisé la deuxième rencontre en 1978 à Genève sur le thème « L’évaluation formative dans un enseignement différencié ». Cette rencontre avait un format planifié en vue de la publication d’un livre chez Peter Lang. Les présentations principales avaient été diffusées à l’avance afin de maximiser le temps d’échange et de débat pendant la rencontre. L’ouvrage issu de la rencontre comprenait une introduction et une conclusion de Jean Cardinet ainsi que cinq chapitres d’auteurs suisses suivis de deux commentaires, l’un d’un chercheur belge, l’autre d’un chercheur suisse. Cet ouvrage, paru en 1979, a connu un succès important : sept rééditions jusqu’en 1995 !

Les rencontres suivantes en Suisse ont adopté un format d’appel à contributions plus classique. Celle de Jongy (dans le canton de Vaud) en 1980 a été préparée sous l’égide de l’IRDP en collaboration avec les centres de recherches romands sur le thème « Les modèles de l’évaluation ». Une nouvelle rencontre à Genève, en 1984, a été organisée par le Service de la recherche pédagogique, dirigé par Raymond Hutin, sur le thème « Objectifs éducatifs et approche cognitiviste de l’éducation ».

Lors des débats à Bruxelles (1985) et à Dijon (1986) sur la création de l’ADMEE-Europe, plusieurs acteurs suisses ont exprimé des réticences à voir les rencontres non institutionnalisées jusqu’alors se transformer en association, avec des statuts, des cotisations, un conseil d’administration. Mais au terme des débats la grande majorité des participants suisses se sont ralliés au mouvement vers la fondation d’une association internationale qui pourrait mieux mettre en valeur et mieux soutenir les recherches et les interventions dans le champ de l’évaluation.

4. Le développement de l’ADMEE-Europe entre 1986 et 2016

Notre analyse du développement de l’ADMEE-Europe, depuis 1986, sera basée sur des indicateurs concernant cinq thèmes : les adhérents, les revues et le bulletin, les sections nationales, les réseaux thématiques internationaux, les thèmes de colloques annuels. L’Annexe II présente la liste des membres du bureau du Conseil d’administration de l’ADMEE-Europe, ainsi que les rédacteurs des revues et du bulletin, qui ont assuré – avec les délégués nationaux et les organisateurs des colloques – les développements analysés dans la partie suivante de cet article.




4.1 Les adhérents à l’ADMEE-Europe

Les premières statistiques sur les adhérents à l’ADMEE-Europe3, établies dans l’année qui a suivi sa fondation, font état de 75 membres individuels, dont 50 français, 15 suisses et 10 belges et un membre institutionnel.

La Figure 1 montre l’évolution des adhésions des membres individuels et des membres institutionnels. Dans la partie inférieure de la figure se trouvent les données pour les trois premières années après la création de l’association (1987, 1988, 1989) et dans la partie supérieure les données pour les trois années les plus récentes (2014, 2015, 2016). En comparant ces deux ensembles de données, on voit que :

- le nombre de membres individuels a triplé (passant de 75-90 membres entre 1987-88 à environ 300-350 membres ces dernières années) ;

- les adhésions institutionnelles ont aussi fortement augmenté (d’une seule en 1987 à plus de 60 actuellement).

.

Figure 1. Evolution des adhésions entre 1987-89 et 2014-16 (effectifs des membres individuels et institutionnels)

La Figure 2 présente l’évolution des adhésions totales par pays, entre 1987 et 2016. Pour les trois pays fondateurs, on constate un très net accroissement des adhésions, plus marqué en Belgique et en Suisse (passage de 10-15 membres à environ 70-75) qu’en France (passage de 50 à environ 75). Pour les sections nationales créées à partir de 2002, le nombre d’adhésions en 2016 s’élève à 32 membres au Liban et au Luxembourg (superposés dans le graphique) et à 37 membres au Maroc, soit près de la moitié du nombre d’adhésions dans les pays fondateurs. La section portugaise a connu une baisse des adhésions depuis sa création en 2002 et ne compte plus que 14 membres en 2016. Enfin, notons l’accroissement des adhésions « autres » qui passent d’un membre en 1987 à 20 membres en 2016. Les pays concernés en 2016 sont : l’Algérie, le Brésil, le Burkina Faso, l’Italie et … le Canada (une adhésion inattendue compte tenu de l’existence de l’ADMEE-Canada).

0 100 200 300 400

1987

1988

1989

2014

2015

2016

Institutionnels

Individuels



Figure 2. Adhésions totales par pays, en 1987 et en 2016

Examinons de plus près la composition des adhésions en 2016 au moment du 30ème anniversaire de l’ADMEE-Europe. La Figure 3 présente les adhésions par pays en distinguant trois catégories : les membres individuels qui paient une cotisation pleine, les membres étudiants qui paient une cotisation réduite et les membres institutionnels. Les données dans cette figure reflètent plusieurs transformations importantes intervenues depuis la création de l’ADMEE-Europe.

1. Par rapport aux adhésions totales, les membres des pays fondateurs ne représentent plus que 61% des adhérents en 2016. Les membres appartenant aux sections nationales plus récentes (Liban, Luxembourg, Maroc, Portugal) constituent 34% des membres, et ce pourcentage s’élève à 39% si on ajoute les membres de divers pays « autres ». La politique d’« internationalisation » menée par le Conseil d’administration, sous l’impulsion de Gérard Figari notamment, a donc porté ses fruits sur le plan du recrutement.

0

10

20

30

40

50

60

70

80

90

1987 2016

Belgique

France

Liban

Luxembourg

Maroc

Portugal

Suisse

Autres




Figure 3. Adhésions en 2016, par pays et par catégorie

2. Les membres institutionnels (17% des adhésions en 2016) viennent presque exclusivement des trois pays fondateurs. Ils sont proportionnellement plus nombreux en Belgique et en Suisse, notamment en raison des adhésions des Hautes écoles pédagogiques ;

3. L’adhésion d’étudiants (12% des membres en 2016) est un signe réjouissant de l’engagement la génération future des chercheurs et formateurs dans le champ de l’évaluation.

En résumé : L’ADMEE-Europe a connu un net accroissement et une importante diversification de son recrutement et de son rayonnement depuis sa fondation il y a 30 ans.

4.2 Les revues et le bulletin

Nous examinerons successivement la place de trois publications dans la vie scientifique et associative de l’ADMEE-Europe : la revue Mesure et évaluation en éducation, la nouvelle revue électronique, créée en 2015, Evaluer - Journal international de recherche en éducation et formation (e-JIREF) et le Bulletin de l’ADMEE-Europe.

4.2.1 Mesure et évaluation en éducation

Les deux ADMEE partagent depuis 1986 la responsabilité de la rédaction de la revue Mesure et évaluation en éducation. La rédaction est assurée aujourd’hui par un seul comité co-présidé par la rédactrice canadienne, Nathalie Loye (Université de Montréal) et le rédacteur européen, Christophe Dierendonck (Université du Luxembourg), et composé de membres du Canada et d’Europe.

0

10

20

30

40

50

60

70

80

90

INSTITUTIONNELS

INDIVIDUELS

ÉTUDIANTS



Afin de caractériser la provenance des contributions à la revue, nous avons examiné 80 articles publiés au cours des six dernières années (2011 à 2016). La répartition de ces articles se présente comme suit:

- 48% des articles ont un ou plusieurs auteurs européens ;

- 37% des articles ont un ou plusieurs auteurs canadiens ;

- 15 % des articles ont au moins un auteur canadien et au moins un auteur européen.

La revue MEE est donc une voie de dissémination scientifique dans laquelle les auteurs européens sont fortement représentés. Il faut saluer aussi le nombre d’articles qui résultent de collaborations entre chercheurs canadiens et européens.

Examinons de plus près la provenance des articles d’auteurs appartenant à des institutions (universités, centres de recherche et de formation, administrations) en Europe pendant la période 2011-16. Les auteurs concernés travaillent dans les quatre pays mentionnés dans la Figure 4 : Belgique, France, Suisse, Luxembourg. Pour chaque pays, la partie pleine de la barre indique le nombre d’articles avec un ou plusieurs auteurs provenant seulement du pays en question. La partie hachurée de la barre indique le nombre d’articles dont les auteurs proviennent du pays en question et aussi d’autres pays. En regardant la partie pleine des barres, on voit que les trois pays fondateurs ont les contributions suivantes à la revue : France 13 articles, Belgique 11 articles, Suisse 9 articles. Si on considère, cependant, la longueur totale des barres, la Belgique ressort comme « leader » des contributions à la revue avec 22 articles : 11 articles d’auteurs belges comme seuls auteurs et 11 articles d’auteurs belges en collaboration avec des auteurs d’autres pays (Canada, France, Luxembourg). Viennent ensuite la France (18 articles au total dont 5 avec des auteurs d’autres pays), la Suisse (10 articles dont un avec des auteurs d’autres pays) et le Luxembourg (4 articles, tous en collaboration avec des auteurs d’autres pays). Les articles signés par des auteurs de plusieurs pays sont un indicateur intéressant des collaborations internationales qui se développement dans le champ de l’évaluation.

Figure 4. Pour chaque pays, nombre d’articles d’auteurs seulement du pays et avec auteurs d’autres pays, publiés en MEE entre 2011 et 2016

0

5

10

15

20

25

Avec auteursd'autres pays

Seulement dupays




Afin d’analyser l’évolution des contenus abordés dans la revue MEE, nous avons examiné les numéros thématiques coordonnés par un ou plusieurs « rédacteurs invités ». Ces numéros sont significatifs pour deux raisons : (1) ils résultent d’une décision des responsables de la revue de mettre en valeur un domaine donné ; (2) ils s’appuient sur un corpus suffisamment important de travaux pour alimenter un numéro entier.

Les données du Tableau 1 montrent l’évolution des numéros thématiques de la revue MEE. Le premier numéro thématique est paru en 1994, sur le thème « Théories modernes de la mesure ». Des numéros thématiques sur la mesure et la méthodologie de l’évaluation ont été publiés régulièrement par la suite (2003, 2008, 2015). On voit donc que « la mesure », première préoccupation de la revue au moment de sa création en 1978, est resté un centre d’intérêt.

Tableau 1. Années de parution des numéros thématiques MEE, classées par domaine et par période

Domaine thématique 1994-99 2000-05 2006-10 2011-16

Mesure, méthodologie 1994 2003 2008 2015

Evaluation des apprentissages en classe 1996

1997 1998 1998

2009 2011

Evaluation – en enseignement supérieur et en formation

2004 2007 2012

Evaluation de programmes et de dispositifs

2003 2006 2013

Evaluations internationales 2011

Quatre numéros thématiques ont été publiés ensuite en 1996, en 1997 et à deux reprises en 1998. La plupart des articles abordaient l’évaluation des apprentissages des élèves en classe mais, dans chaque numéro, il y avait un ou deux articles portant sur un autre domaine. Une spécificité de ces numéros était la mise en valeur d’une préoccupation transversale : « Pour une culture de l’évaluation » (1996); « Ethique et évaluation des apprentissages » (1997); « Le portfolio en évaluation » (1998); « Evaluer pour améliorer l’enseignement » (1998).

A partir de 2000, chaque numéro thématique était centré sur un seul domaine : deux numéros portaient sur le domaine de l’évaluation des apprentissages en classe (2009, 2011) et trois numéros sur le domaine de l’évaluation dans l’enseignement supérieur et en formation (2004, 2007, 2012) et sur le domaine de l’évaluation de programmes et de dispositifs en éducation (2003, 2006, 2013). Enfin, en 2011, est paru un premier numéro thématique consacré à un nouveau domaine : les évaluations internationales de type PISA et les implications pour les systèmes éducatifs.

En 2008, la rédaction de la revue a préparé un numéro spécial pour commémorer le 30ème anniversaire de Mesure et évaluation en éducation. Pour chaque domaine thématique retenu (voir Tableau 2), la rédaction a invité deux auteurs – un du Canada et un d’Europe – à rédiger ensemble un article de synthèse. Dans un cas (évaluation de programmes et de dispositifs), une synthèse n’a pas été possible et deux articles sont parus.



Tableau 2. Articles du numéro commémorant les 30 ans de la revue Mesure et évaluation en éducation

Domaine thématique Articles du numéro anniversaire

Mesure Les modèles de mesure en éducation : enjeux, développements et orientations P. Valois (U. Laval) & R. Martin (U. du Luxembourg)

Evaluation des apprentissages en classe

L’évaluation des apprentissages en contexte scolaire : développements, enjeux et controverses L. Mottier Lopez (U. de Genève) & D. Laveault (U. d’Ottawa)

Evaluation – en enseignement supérieur et en formation

L’évaluation dans la formation supérieure et professionnelle F. Campanale (U. PMF Grenoble) & G. Raîche (UQAM)

Evaluation de programmes et de dispositifs

L’implication des détenteurs d’enjeux (stakeholders) au sein de la démarche d’évaluation de programme : problème et/ou solution ? M Hurteau (UQAM) L’évaluation des dispositifs éducatifs G. Figari (U. PMF Grenoble)

Evaluation des systèmes éducatifs et enquêtes internationales

Evaluation des systèmes éducatifs D. Lafontaine (U. de Liège) & M. Simon (U. d’Ottawa)

Les indicateurs dans les Tableaux 1 et 2 donnent une vision de la conceptualisation du champ de l’évaluation telle qu’elle a été élaborée en concertation entre les deux l’ADMEE. La revue a aussi produit, pour son 30ème anniversaire, un CD-Rom comprenant tous les articles publiés de 1978 à 2008.

4.2.2 Evaluer - Journal international de recherche en éducation et formation

L’ADMEE-Europe a créé en 2015 une nouvelle revue scientifique intitulé : Evaluer - Journal international de recherche en éducation et formation (e-JIREF). Marc Demeuse (Université de Mons) a été désigné rédacteur en chef et Annick Fagnant (Université de Liège) rédactrice en chef adjointe. Cette revue numérique vise la mise à disposition, dans des délais de production relativement courts, d’articles scientifiques librement accessibles depuis le site internet de l’ADMEE-Europe (http://admee.ulg.ac.be/publications/e-jiref/).

Le premier volume de e-JIRF, paru en 2015, était composé de trois numéros thématiques :

- No. 1 : Cultures et politiques de l’évaluation en éducation et en formation, élaboré en prolongement du colloque de l’ADMEE-Europe tenu à Marrakech en janvier 2014 ;

- No. 2 : Recherches collaboratives et évaluation, coordonné par le réseau thématique RESA (Recherches collaboratives sur les pratiques évaluatives) de l’ADMEE-Europe ;

- No. 3 : Habiter le rôle d’évaluateur des pratiques enseignantes.

Les trois numéros du volume 2 (2016) étaient constitués en revanche d’articles indépendants.

La provenance géographique des 30 articles parus dans les six premiers numéros de la revue se présente comme suit :

- 9 articles d’auteurs belges ;

- 8 articles s’auteurs suisses ;


http://admee.ulg.ac.be/publications/e-jiref/



- 5 articles d’auteurs français ;

- 4 articles d’auteurs canadiens ;

- 2 articles d’auteurs luxembourgeois ;

- 1 article d’un auteur de Burkina Faso ;

- 1 article en collaboration entre un auteur canadien et un auteur suisse.

Il est intéressant de noter que le fait que cette revue dépende entièrement de l’ADMEE-Europe n’exclut pas une participation active d’auteurs canadiens.

4.2.3 Le Bulletin de l’ADMEE-Europe

L’ADMEE-Europe a créé en 1988 un Bulletin envoyé aux membres sous forme papier et qui est maintenant diffusé par voie électronique. La fréquence de parution et la forme du Bulletin ont varié au fil des années. Sa vocation principale étant d’assurer la liaison entre le Conseil d’administration de l’ADMEE-Europe et les membres de l’association, le Bulletin comprend, en règle général, des éditoriaux du président ou d’autres membres du CA, des annonces de colloques et d’autres manifestations, des nouvelles des sections nationales, des annonces de publications. Certains numéros du Bulletin présentent aussi des articles de recherche, de réflexion ou des comptes rendu d’interventions ou d’expériences innovantes. Sous l’égide des la rédactrice actuelle, Natacha Duroisin (Université de Mons), le Bulletin a publié plusieurs numéros thématiques dont le numéro le plus récent (2016.2) comprenant quatre articles consacrés à l’Evaluation des apprentissages en mathématiques. Depuis 2005, tous les numéros du Bulletin sont archivés sur le site web de l’ADMEE-Europe. Le Bulletin constitue un moyen de communication essentiel pour la vie de l’association, en complémentarité aux revues scientifiques MEE et e-JIREF.

4.3 Les sections nationales de l’ADMEE-Europe

Dans son article 3.23, les statuts de l’ADMEE-Europe prévoient les modalités de création, de maintien, de forme juridique et d’élection des sections nationales comme suit :

- Toute délégation (ou section) nationale existe après un vote à l’Assemblée générale ;

- Elle est maintenue pour autant qu’elle compte un nombre égal ou supérieur à 15 membres ;

- Elle peut revêtir une forme juridique pour autant que ses statuts marquent son affiliation à l’ADMEE-Europe et soient approuvés par le Conseil d’Administration ;

- Avant chaque Assemblée générale élective, chaque délégation élit un délégué et un suppléant ; ils sont présentés par chaque délégation nationale au cours de la séance du Conseil d’administration précédant l’Assemblée générale.

Rappelons qu’avant le colloque fondateur de l’ADMEE-Europe à Dijon en 1986, il n’existait pas officiellement de sections nationales, mais officieusement se constituaient des communautés nationales de chercheurs intéressés par l’évaluation et qui se retrouvaient lors des rencontres belgo-suisses d’abord, puis belgo-franco-suisses par la suite. Les trois sections nationales fondatrices de l’ADMEE-Europe ont vu officiellement le jour lors du colloque fondateur en 1986. A celles-ci sont venues progressivement s’ajouter la section portugaise lors du colloque de Lausanne en 2002, la section luxembourgeoise en 2004 au colloque de Lisbonne, la section marocaine au colloque de Louvain-la-Neuve en 2009, enfin la section libanaise au colloque de Marrakech en 2014 … en attendant d’autres peut-être.



Les sections nationales jouent des fonctions importantes dans la vie de l’ADMEE-Europe qui se matérialisent à travers des manifestations nationales (journées, universités d’été, ouvertes aux publics des autres pays) et de trois types de manifestations internationales, à savoir les colloques organisés par la section nationale, la participation aux colloques organisés par une autre section et le soutien aux réseaux thématiques. La fonction première des sections nationales est donc avant tout d’alimenter ces activités au sein de chaque pays afin de produire des connaissances nouvelles (scientifiques et expérientielles) sur l’évaluation, et ensuite de contribuer à leur diffusion. Membres du Conseil d’administration de l’ADMEE-Europe, les responsables des sections ont pour fonction de contribuer à les organiser et à les animer. La Figure 5 montre les relations qui unissent ces fonctions aux activités.

Figure 5. Relations entre fonctions des sections nationales et activités de l’ADMEE-Europe

4.4 Les réseaux thématiques internationaux

En se retrouvant lors des colloques internationaux, les chercheurs travaillant sur une même thématique de l’évaluation ont trouvé l’intérêt d’unir leurs forces. L’insertion progressive, de plus en plus importante, des symposiums dans les colloques internationaux a renforcé l’idée de poursuivre leurs travaux hors des colloques, à la fois par des échanges virtuels. mais aussi par des regroupements. C’est ainsi que cinq réseaux thématiques ont été créés et agréés par le Conseil d’administration :

- En 2002, le réseau RVVAE : Reconnaissance, valorisation et validation des acquis de l’expérience ;

- En 2008, le réseau RCPE : Recherches collaboratives sur les pratiques évaluatives ;

Colloqueorganiséparlasec on

Colloqueorganiséparunautrepays

ORGANISER(avecleConseil

d’administra on)

ALIMENTER

ANIMER(journéesna onales,conférences,universités…)

Réseauxthéma quesinterna onaux

PRODUIREDESCONNAISSANCESNOUVELLESSURL’ÉVALUATION(RECHERCHES…EXPÉRIENCESDETERRAIN)

DIFFUSER

FONCTIONSJOUÉESPARLESSECTIONSNATIONALES




- En 2013, le réseau EES : Evaluation et enseignement supérieur ;

- En 2014, le réseau EVADIDA : Evaluation et didactiques ;

- En 2016 : le réseau ASEE : Apprentissages scolaires et évaluations externes.

4.5 Les thèmes des colloques internationaux

La vie de l’ADMEE-Europe, depuis la première rencontre belgo-suisse en 1977 jusqu’au colloque de 2017, est ponctuée de 39 colloques4 dont un à Hull au Québec, en 1992, organisé conjointement avec l’association sœur, l’ADMEE-Canada. Depuis lors, des membres de chaque association assistent au colloque annuel de l’autre.

Nous avons tenté de faire une analyse de contenu des thèmes de ces 39 colloques. Une première chose nous frappe : deux colloques sur 39 ne comprennent pas dans leur titre les termes « évaluation » ou « évaluer ». Il s’agit d’une part du colloque de Genève en 1984 « Objectifs éducatifs et approche cognitiviste de l’éducation » et d’autre part du colloque de Bruxelles en 1988 « Les démarches et instruments de recherche en éducation ». Ceci ne veut pas dire que les travaux de l’époque sur l’évaluation sont absents, mais cela montre que l’évaluation entretient des liens étroits avec le choix des objectifs, des approches cognitives et des démarches de la recherche. Ceci sera conforté par les résultats de notre analyse de contenu des trente-neuf thèmes de colloque.

Pour la mener à bien, nous avons adopté une méthodologie de nature linguistique : en repérant des indicateurs linguistiques dans les titres des colloques, nous mettions en évidence les questions fondamentales soulevées par les travaux. Le Tableau 3 synthétise la méthodologie adoptée.

Tableau 3. Indicateurs linguistiques des questions abordées dans les colloques internationaux

Indicateurs linguistiques Questions soulevées

… évaluation de … (… évaluer …) Quoi évaluer?

… évaluation + adjectif ou qualification Types d’évaluation?

… évaluation et … (entre … dans … à la lumière de…) … évaluation + formation … évaluation + politique de …

Champs de l’évaluation?

Formation

Politique de …

… évaluation + expression d’un « comment ? » Comment évaluer?

… évaluation + expression d’un regard méta Regards méta sur l’évaluation?

L’analyse de contenu met en évidence l’importance accordée par l’ADMEE-Europe à l’ouverture vers des champs divers auxquels l’évaluation est associée (indicateurs linguistiques de relation « et » ou « entre » ou « à la lumière de »). Onze thèmes de colloque sur 39 obéissent à cette logique :



Champs de l’évaluation Lieux Dates

Objectifs éducatifs Mons 1977

Objectifs éducatifs Genève 1984

Communication Neuchâtel 1990

Processus d’orientation Tramelan 1997

Efficacité et équité Liège 2003

Régulation et pilotage Genève 2008

Développement professionnel Louvain-la-Neuve 2009

Enseignement supérieur Paris 2011

Auto-évaluation (espaces de formation) Fribourg 2013

Contextes et disciplines Liège 2015

Apprentissage Lisbonne 2016

Cette ouverture vers divers champs existe dès le départ lors des rencontres belgo-suisses et s’accélère au fil du temps, comme le montre le nombre de colloques de cette catégorie dans les dernières années.

Avec un nombre presque équivalent (10 colloques sur 39), la question des objets de l’évaluation (évaluation de quoi ? ou évaluer quoi ?) arrive en deuxième position.

Objets de l’évaluation Lieux Dates

… l’évaluation Dijon 1986

… les établissements de formation Liège 1991

… le fonctionnement de la formation Genève 1994

… la formation des enseignants Louvain-la-Neuve 1995

… les processus cognitifs dans l’apprentissage Mons 1998

… les politiques d’éducation Dijon 1999

… la qualité de l’éducation Lausanne 2002

… les compétences (et VAE) Lisbonne 2004

… les curriculums et les programmes Braga 2010

… les compétences (scolaires et prof.) Luxembourg 2012

Le positionnement des objets de l’évaluation à travers les dates des colloques montre bien l’évolution des thèmes dominants à certaines époques, comme l’évaluation de l’évaluation lors du colloque fondateur de Dijon en 1986 (regard distancié sur les travaux des rencontres antérieures), la préoccupation de la formation (thème qui reviendra régulièrement, comme nous le verrons plus loin), l’ouverture progressive vers les politiques (comme nous le verrons aussi plus loin) et l’évaluation des compétences, objet de débats et de difficultés exprimées par les acteurs de terrain ces dernières années.




La question du « comment évaluer ? » a été l’objet de la troisième préoccupation de l’association puisque 8 colloques sur 39 s’y sont attachées.

Expressions du comment évaluer Lieux Dates

Démarches Liège 1979

Stratégies Arlon 1981

Pratique (la) Namur 1983

Approche cognitiviste Genève 1984

Approches descriptives ou prescriptives

Bruxelles 1985

Démarches et instruments Bruxelles 1988

Pratiques (les) Hull 1992

Outils, dispositifs et acteurs Reims 2005

Sur les huit colloques portant sur le comment évaluer, six sont concentrés dans les années 80, ce qui marque la préoccupation des chercheurs à cette époque.

Entre 1987 et 2010, période où l’ADMEE-Europe attire progressivement de plus en plus d’acteurs de terrain et de formateurs, les colloques vont alors prendre régulièrement comme thème la formation (ici encore 8 colloques sur 39).

Champs de la formation (formation à …, évaluation …) Lieux Dates

Formation à l’évaluation Fribourg 1987

… des établissements scolaires Liège 1991

… et la formation continue Lyon 1993

… dans la formation Genève 1994

… de et dans la formation des enseignants Louvain-la-Neuve 1995

… et formation Aix-en Provence 2001

… de la qualité dans la formation Lausanne 2002

… des curriculums et programmes de formation Braga 2010

Cette liste montre que la problématique de la formation et de son évaluation a dominé les années 90 et le début des années 2000.

Très régulièrement, l’ADMEE-Europe a voulu marquer un temps d’arrêt pour jeter des regards rétro-spectifs et pro-spectifs sur ses travaux. On compte de nouveau pas moins de 8 colloques sur 39 pour faire le point.

Regards rétro- et pro-spectifs Lieux Dates

Les modèles de l’évaluation Jongy 1980

Évaluer l’évaluation Dijon 1986

L’évaluateur en révolution Paris 1989

Dix années de travaux de recherche en évaluation Grenoble 1996

Nouvelles formes, modèles et pratiques de l’éval. Luxembourg 2006

L’évaluation en tension Genève 2008

Cultures et politiques de l’évaluation Marrakech 2014

Levier pour l’enseignement et la formation Dijon 2017



Quatre moments forts (en gras) marquent la vie de l’ADMEE-Europe. Il s’agit de la rencontre fondatrice et des dixième, vingtième et trentième anniversaires de l’association dans sa phase institutionnelle. On remarquera le caractère dynamique de certaines expressions linguistiques utilisées : « en révolution », « en tension ». Celles-ci marquent la volonté de ne pas s’endormir et de ne pas avoir peur de débusquer les tensions qui traversent les diverses approches de l’évaluation. D’autres expressions sont plus sereines et manifestent le souci du bilan : « les modèles », « dix années de travaux », « les cultures et les politiques ». Enfin, d’autres encore expriment la volonté de ne pas s’arrêter au bilan, mais d’envisager l’avenir : « nouvelles formes, modèles et pratiques », « levier pour ». Cette analyse montre bien le dynamisme de l’association qui agit comme une organisation apprenante.

Avec les deux dernières rubriques de notre analyse, nous entrons dans des thématiques de colloque moins fréquemment abordées. L’une, le champ des politiques et de leur évaluation, montre un champ en pleine expansion (6 colloques sur 39)

Champ des politiques et de leur évaluation Lieux Dates

L’évaluation des politiques d’éducation Dijon 1999

L’évaluation de la qualité de l’évaluation Lausanne 2002

L’évaluation entre efficacité et équité Liège 2003

Le pilotage des systèmes : l’évaluation en tension Genève 2008

Politiques de l’évaluation en éducation Marrakech 2014

L’évaluation levier pour l’enseignement… Dijon 2017

L’avènement assez tardif du champ des politiques et de leur évaluation s’explique sans doute par plusieurs facteurs : les média s’intéressent de plus en plus au champ de l’éducation et sensibilisent une partie du grand public ; des organismes nationaux et internationaux se sont emparés des évaluations des politiques éducatives ; les chercheurs en éducation, dont les spécialistes de la mesure, de même que les sociologues et économistes de l’éducation, mais bien d’autres aussi, sont interrogés et s’interrogent ; des tensions naissent entre les responsables politiques et les acteurs de terrain. Originellement centrés sur l’évaluation des apprentissages, les membres de l’ADMEE-Europe se sentent de plus en plus concernés par l’évaluation des systèmes. Cette évolution ressort aussi dans notre analyse (cf. Tableaux 1 et 2) des numéros thématiques de la revue Mesure et évaluation en éducation.

Avec 5 colloques sur 39, la dernière rubrique portant sur les types d’évaluation (indicateur linguistique : évaluation + adjectif ou qualification) conforte le constat précédent si l’on examine les années où ils ont lieu.

Types d’évaluation Lieux Dates

… individualisée Mons 1977

… formative (dans un enseignement différencié) Genève 1978

… formative (contextes) Liège 1979

… formative (stratégies & généralisation) Arlon 1981

… formative (objectifs, compétences, capacités…) Lyon 1982

On remarque en effet que tous les colloques dans cette liste ont eu lieu avant la naissance officielle de l’ADMEE-Europe, à une période où l’évaluation formative était au centre des travaux des chercheurs belgo-suisses et du CEPEC de Lyon. Ceci ne signifie pas que la préoccupation de l’évaluation au cœur de l’apprentissage a été abandonnée mais plutôt que




l’évaluation formative est devenue un thème parmi d’autres traités dans les colloques suivants.

A titre de brève synthèse de cette analyse de contenu, nous pouvons relever les lignes de force suivantes :

Premièrement, l’évaluation formative (individualisée, dans un enseignement différencié : 5/39) est une ligne de force qui a dominé les travaux dans la période non institutionnalisée de l’ADMEE-Europe (entre 1976 et 1986), sans oublier l’accent mis sur le lien avec les objectifs éducatifs (3/39).

Deuxièmement, l’institutionnalisation de l’ADMEE-Europe (1986) s’accompagne d’un élargissement des champs (11/39), des objets (10/39) et des démarches ou stratégies (8/39) de l’évaluation. Cet élargissement s’est concrétisé surtout de trois manières :

- Une préoccupation, surtout dans les années 90 et début 2000, pour la formation (8/39) sous divers aspects (des acteurs, des institutions, … sans oublier la formation à l’évaluation) ;

- L’intérêt croissant, dans les années 2000 surtout, pour les politiques éducatives et leur évaluation (6/39) ;

- L’apparition tardive (2004) de l’évaluation des compétences (2/39).

Troisièmement, la préoccupation pour le « comment ? » (approches, démarches, stratégies, outils) est récurrente les dix premières années et tend à s’estomper par la suite (en 2005, la dernière fois).

Quatrièmement, des moments forts de regards méta (rétro- et pro-spectifs : 8/39) ont ponctué toute l’histoire de l’ADMEE-Europe (même avant son institutionnalisation) et continueront sans doute à la ponctuer, notamment mais pas exclusivement lors des anniversaires.

Cinquièmement, il nous paraît important aussi de signaler que l’audience s’est élargie au fil du temps. Sans doute, faut-il y voir un lien avec le choix des thématiques, l’importance prises par les publications, les liens établis entre les chercheurs et non seulement les acteurs de terrain, mais aussi les responsables des systèmes de formation.

Sixièmement, les colloques ont donné lieu très régulièrement à des publications, parfois des actes imprimés ou sous forme de CD-Rom diffusés aux membres et aux participants inscrits, mais ce sont surtout les ouvrages publiés par de grandes maisons d’édition, notamment De Boeck (Belgique), Lang (Suisse), l’Harmattan et ESF (France), qui ont contribué à diffuser largement les travaux dans les bibliothèques et les centres de recherche des universités, dans les institutions de formation et les administrations scolaires. Cette large diffusion a contribué fortement à la renommée des travaux sur l’évaluation menés par les membres de l’ADMEE-Europe et à la reconnaissance de l’association.

5. Perspectives

Au terme et à la lumière de notre analyse de l’évolution de l’association depuis 1986, nous souhaitons évoquer quelques perspectives pour l’avenir de l’ADMEE-Europe.

Premièrement, il paraît important de poursuivre la politique qui vise à ponctuer la vie de l’ADMEE-Europe de moments de regards méta (rétro- et pro-spectifs). Le quarantième anniversaire de l’association en 2026 devrait être l’occasion de travailler une thématique importante de l’évaluation, objet d’un livre collectif bien préparé et structuré.



Deuxièmement, l’ADMEE-Europe s’est élargie à de nouvelles sections nationales (Portugal, Maroc, Liban) dont les membres n’ont pas encore contribué par des articles aux revues scientifiques de l’association (Mesure et évaluation en éducation ; Évaluation-Journal international de recherche en éducation et formation). Faudrait-il une politique éditoriale plus incitative pour favoriser la participation d’auteurs de ces pays aux revues ? Ceci pourrait signifier, par exemple, de :

- lancer un appel pour des articles produits conjointement par un ou des auteurs de pays qui contribuent régulièrement aux revues et un ou des auteurs provenant des autres pays ;

- planifier un numéro spécial avec un rédacteur invité chevronné et un rédacteur invité provenant d’une section nationale récente.

On pourrait aussi envisager un numéro spécial de la revue e-JIREF composé d’articles provenant d’auteurs de chaque section nationale, montrant ainsi l’étendue internationale de l’association.

Troisièmement, l’ADMEE-Europe devrait pouvoir poursuivre sa politique d’internationalisation. Cela pourrait conduire à la création de nouvelles sections nationales dans des pays où les travaux sur l’évaluation se développent et dont un certain nombre de chercheurs viennent déjà aux colloques de l’ADMEE-Europe, par exemple : l’Algérie, l’Italie, la Roumanie, la Tunisie, ainsi que des pays de l’Afrique de l’ouest. Par ailleurs, des contacts avec des instances de la francophonie devraient pouvoir être noués : la Conférence des ministres de l’éducation des Etats et Gouvernements de la Francophonie (CONFEMEN) dont dépend le Programme d’analyse des systèmes éducatifs (PASEC) ; l’Organisation internationale de la Francophonie (OIF) et ses opérateurs de formation ; l’Agence universitaire de la Francophonie (AUF). Ce sont des institutions concernées par l’évaluation tantôt des systèmes éducatifs, tantôt des dispositifs de formation, tantôt encore de la qualité. En parallèle, il pourrait être intéressant de renforcer les échanges avec des associations anglophones travaillant sur l’évaluation, notamment : Association for Educational Assessment-Europe ; European Association for Research on Learning and Instruction, Special Interest Group « Assessment and Evaluation ».

Quatrièmement, dans le monde de la recherche francophone sur l’évaluation, les approches quantitatives et qualitatives restent trop souvent dissociées les unes des autres. Nous pensons qu’il est nécessaire de pallier le déficit actuel d’études empiriques quantitatives, avec dispositifs méthodologiques rigoureux, visant à estimer les effets …

- … de différentes formes de pratiques évaluatives dans différents contextes d’apprentissage,

- … de différentes formes d’accompagnement des acteurs locaux, notamment les jeunes enseignants et les équipes d’enseignement dans les établissements scolaires,

- … de différentes formes de politiques d’évaluation externe

… en fonction des objets de l’évaluation externe,

… en fonction de l’implication des acteurs intermédiaires et locaux,

… en fonction des modalités de mobilisation des résultats.

Les recherches qualitatives dans le champ de l’évaluation restent importantes, mais elles devraient être, en plus grand nombre, associées aux résultats des recherches quantitatives pour leur donner du sens. En effet, les pratiques évaluatives reposent encore trop souvent




sur des croyances et des idéologies : des recherches quantitatives solides, dont les résultats sont bien compris grâce aux recherches qualitatives qui y sont liées, seront nécessaires pour valider les pratiques à promouvoir. L’ADMEE-Europe ne peut rester étranger au mouvement « evidence-based education ». Elle doit rester toutefois fidèle à sa conception large des formes de recherche qui peuvent y contribuer.

Cinquièmement, par le développement d’une politique de communication active auprès des lieux de formation et des instances de décision, c’est au sein de chaque section nationale que l’ADMEE-Europe trouvera à la fois de nouvelles thématiques à explorer et de nouveaux adhérents. La diversité des contextes culturels permettra aussi des approches comparatives qui enrichissent les problématiques du champ de l’évaluation.

* * * *

Au terme de cet article, nous voudrions souligner le dynamisme des Conseils d’administration successifs de l’ADMEE-Europe. Ces conseils ont réussi à se renouveler grâce au relais pris par les jeunes et ont mené à bien de nombreux projets : le recrutement d’un nombre croissant d’adhérents, le développement de publications scientifiques reconnues, la création de nouvelles sections nationales, l’organisation d’un colloque international annuel sur un thème qui attire un large public allant au-delà des membres de l’association. L’ADMEE-Europe possède des atouts importants pour relever de nouveaux défis et tracer de nouvelles perspectives dans le champ de l’évaluation en éducation. Dans le monde actuel où les demandes en évaluation se diversifient et se multiplient, l’ADMEE-Europe a un avenir plein de promesses.

6. Références

Allal, L. (1983). Evaluation formative: Entre l'intuition et l'instrumentation. Mesure et évaluation en éducation, 6(5), 37-57.

Allal, L., Cardinet, J., & Perrenoud, P. (Eds.) (1979). L'évaluation formative dans un enseignement différencié. Berne : Peter Lang. (1995 - 7e édition).

Bloom, B. S., Hastings, J. T., & Madaus, G. F. (1971). Handbook on formative and summative evaluation of student learning. New York : McGraw Hill.

Campanale, F., & Raiche. G. (2008). L’évaluation dans la formation supérieure et professionnelle. Mesure et évaluation en éducation, 31(3), 35-59.

Cardinet, J. (1983). Quelques directions de progrès possible dans l’appréciation du travail des élèves. Mesure et évaluation en éducation, 6(5), 5-35.

Cardinet, J. (1986). Evaluation scolaire et mesure. Bruxelles : De Boeck-Wesmael. (comprenant le texte : « Objectifs éducatifs et évaluation individualisée »).

Cardinet, J., & Laveault, D. (1996). Dix années de travaux européens et nord-américains sur l’évaluation : Quelles lignes de force ? Mesure et évaluation en éducation, 18(3), 1-25.

Cardinet, J., Tourneur, Y., & Allal, L. (1976). The symmetry of generalizability theory: Applications to educational measurement. Journal of educational measurement, 13, 119-135.

De Ketele, J.-M. (1980). Observer pour éduquer. Berne : Peter Lang.

De Ketele, J.-M. (Ed.). (1986). L’évaluation : Approche descriptive ou prescriptive ? Bruxelles : De Boeck-Wesmael.

Figari, G. (2008). L’évaluation des dispositifs éducatifs. Mesure et évaluation en éducation (Numéro thématique: Trentième anniversaire de la revue), 31(3), 77-93.

Figari, G., & Achouche, M. (1997). Dix ans de travaux de recherche en évaluation (1986-1996) : Bilan tiré des travaux du Xe colloque ADMEE-Europe (septembre 1996). Mesure et évaluation en éducation, 19(3), 5-39.



Figari, G. & Mottier Lopez, L. (Eds.). (2006). Recherche sur l’évaluation en éducation : Problématiques, méthodologies et épistémologie (20 ans de travaux autour de l’ADMEE-Europe). Paris : l’Harmattan.

Groupe RAPSODIE. (1979). Prévenir les inégalités scolaires par une pédagogie différenciée : A propos d’une recherche-action dans l’enseignement primaire genevois. In L. Allal, J. Cardinet, & P. Perrenoud (Eds.), L'évaluation formative dans un enseignement différencié (68-108). Berne: Peter Lang.

Hurteau, M. (2008). L’implication des détenteurs d’enjeux (stakeholders) au sein de la démarche d’évaluation de programme : Problème et/ou solution ? Mesure et évaluation en éducation, 31(3), 63-76.

Lafontaine, D., & Simon, M. (2008). Evaluation des systèmes éducatifs. Mesure et évaluation en éducation, 31(3), 95-123.

Mottier Lopez, L., & Laveault, D. (2008). L’évaluation des apprentissages en contexte scolaire : Développements, enjeux et controverses. Mesure et évaluation en éducation, 31(3), 5-34.

Noizet, G., & Caverni, J.-P. (1978). Psychologie de l’évaluation scolaire. Paris : Presses universitaires de France.

Paquay, L., & Dayez, J.-B. (2006). 1986-2006 : Les vingt ans de l’ADMEE-Europe. Présentation PowerPoint.

Thurler, M. (1986). Appréciation du travail des élèves. In J.-P. Salamin (Ed.), Ecole primaire suisse - 22 thèses pour le développement de l’école primaire (pp. 83-106). Berne : Conférence suisse des directeurs cantonaux de l’instruction publique.

Valois, P., & Martin, R. (2008). Les modèles de mesure en éducation: Enjeux, développements et orientations. Mesure et évaluation en éducation, 31(3), 125-153.

Notes 1 Nous remercions vivement Nathalie Nazzari pour les informations qu’elle a transmises pour cet article et pour sa tenue rigoureuse des archives électroniques de l’ADMEE-Europe depuis 2009. Le secrétariat de l’ADMEE-Europe a déménagé plusieurs fois avant son installation à l’IRDP, à Neuchâtel. Les archives papier n’ayant pas toujours suivi, divers renseignements sur l’association font défaut. L’archivage électronique des dossiers de l’ADMEE-Europe a été introduit à l’IRDP en 2005. Nous remercions aussi les membres de l’association qui ont répondu aux demandes de renseignements que nous leur avons adressées : Marcel Crahay, Charles Delorme, Christian Depover, Jean Donnay, Gérard Figari, Anne Jorro, Dieudonné Leclerc, Lucie Mottier Lopez. 2 Le masculin est utilisé au sens générique dans cet article et concerne aussi bien les femmes que les hommes. 3 Un tableau manuscrit établi par Charles Delorme, en tant que secrétaire-trésorier de l’ADMEE-Europe, est le premier document qui donne des statistiques sur les adhérents (nombre de membres individuels et institutionnels) dès 1987, après le colloque de Dijon en septembre 1986. 4 Durant les 41 années de 1977 à 2017, il y a eu deux années sans colloque (2000 et 2007), ce qui donne un total de 39 colloques (dont 9 avant la fondation de l’ADMEE-Europe).



132 Evaluer. Journal international de Recherche en Education et Formation, 3(3), XX-XX

Annexe I : Quelques souvenirs de la rencontre fondatrice de l’ADMEE-Europe

Dijon, septembre 1986

Deux fondateurs : Yvan Tourneur (Univ. De Mons) et Jean Cardinet (IRDP, Suisse)

17 septembre 1986 : journée grand public

Le matin : Conférence à deux voix présidée par Jean Claude Eicher, Président de l’ARBRE

Evaluation : confrontation des approches économique (Alain Mingat – IREDU, Dijon)

et psychopédagogique (Yvan Tourneur – Univ. de Mons)



L’après-midi : Table ronde internationale animée par Jean Donnay (Univ. Namur) Les Bulletins scolaires et leur usage

Linda Allal (Univ. Genève), Pierre Goudet (Inspecteur, Minist. Agriculture, France),

Jacqueline Marsenach (INRP, Paris), Léopold Paquay (Univ. cath. de Louvain)

18 septembre et 19 septembre matin : Ateliers thématiques

Présentation et discussion de communications : les groupes de travail et leurs discutants :

Quelques participants particulièrement impliqués :

D. Bain J.J. Bonniol M. Bernard C. Delorme G. Frossard M. Genthon

Daniel Bain (Suisse) Guy Berger (France) Louise Bélair (Canada) Michel Bernard (France) Jean-Jacques Bonniol (France) Jean Cardinet (Suisse) Jacques Colomb (France) Jean-Marie De Ketele (Belgique) Yvan Tourneur (Belgique) Monica Thurler (Suisse)




9 septembre après-midi : Conclusion

Table ronde de synthèse sous la présidence de Michel Boulet, directeur de l’INRAP

De gauche à droite :

Daniel Bain, Linda Allal, Louise Bélair, Jacques Colomb, Michel Boulet, Charles Delorme, Jean Cardinet, Jean-Marie de Ketele, Guy Berger et Jacques Ardoino

D’autres aspects de la rencontre

Un joyeux ban bourguignon, animé par l’adjoint au Maire de Dijon, aux cuisines ducales



Un pot convivial pour célébrer la création de l’ADMEE-Europe et la collaboration avec l’ADMEE-Canada

Jean Cardinet (Suisse) et Louise Bélair (Canada)

Les actes de la rencontre




Annexe II

Membres du Bureau du Conseil d’administration de l’ADMEE-Europe 1986-2017

Présidents

Yvan Tourneur, Université de Mons Linda Allal, Université de Genève Jean-Marie De Ketele, Université catholique de Louvain Alain Bouvier, IUFM, Lyon Pierre Marc, Université de Neuchâtel Léopold Paquay, Université catholique de Louvain Gérard Figari, Université Pierre Mendès France Grenoble Léopold Paquay, Université catholique de Louvain Lucie Mottier Lopez, Université de Genève Réginald Burton, Université du Luxembourg Nathalie Younès, Université Clermont-Auvergne Vice-présidents Linda Allal, Université de Genève Jean-Marie De Ketele, Université catholique de Louvain Charles Delorme, CEPEC de Lyon Yviane Rouiller, Université de Genève Léopold Paquay, Université catholique de Louvain Gérard Figari, Université Pierre Mendès France Grenoble Anne Jorro, Université de Toulouse Le Mirail Marie-Christine Presse, Université de Lille Nathalie Younès, Université Clermont-Auvergne Walther Tessaro, Université de Genève Secrétaires-trésoriers

Charles Delorme, CEPEC de Lyon Micheline Perrin, Université de Genève Jacques Weiss, IRDP, Neuchâtel Christian Delory, Université catholique de Louvain et Centre de recherche et de documentation de l’enseignement catholique francophone, Bruxelles Matthis Behrens, IRDP, Neuchâtel Vincent Dupriez, Université catholique de Louvain Christophe Direndonck, Université du Luxembourg Walther Tessaro, Université de Genève Pascal Detroz, Université de Liège



Rédacteurs des revues et du bulletin de l’ADMEE-Europe Rédacteurs européens de la revue Mesure et évaluation en éducation 1986-2017 Jean Cardinet, IRDP, Neuchâtel Linda Allal, Université de Genève Charles Hadji, Université Pierre Mendès France Grenoble Jean-Marie De Ketele, Université catholique de Louvain Linda Allal, Université de Genève Claude Houssemand, Université du Luxembourg Christophe Direndonck, Université du Luxembourg Rédacteur de la revue Evaluer - Journal international de recherche en éducation et formation, 2015-2017

Marc Demeuse, Université de Mons Rédacteurs du Bulletin de l’ADMEE-Europe 1988-2017

Délégués nationaux à tour de rôle : Jean Paschoud, CVRP, Lausanne Michèle Genthon, Université d’Aix-en-Provence Jean-Marie De Ketele, Université catholique de Louvain Bernard Maccario, MAFPEN, Toulouse Antoine Bodin, IREM, Besançon Marie-Claire Dauvisis, ENESAD, Dijon Marc Demeuse, Université de Mons Nathalie Droyer, AgroSup Dijon Alexandre Buysse, Haute Ecole pédagogique du Valais, Sion Lucie Mottier Lopez, Université de Genève Natacha Duroisin, Université de Mons N.B. En raison de quelques lacunes dans les archives de l’ADMEE-Europe, il est possible que 1-2 noms manquent dans les listes des vice-présidents, secrétaires-trésoriers et rédacteurs du Bulletin.



Liste des évaluateurs pour l’année 2017

Almerindo Janela Afonso – Instituto de Educação da Universidade do Minho – Portugal

Linda Allal – Université de Genève – Suisse

Lucie Aussel – Université de Toulouse – France

Ariane Baye – Université de Lège – Belgique

Louise Bélair – Université du Québec à Trois-Rivières – Canada

Réginald Burton – Université du Luxembourg – Luxembourg

Marcel Crahay – Université de Genève – Suisse

Jean-François De Pietro – Institut de recherche et de documentation pédagogique – Suisse

Isabelle Demonty - Université de Liège – Belgique

Fadi El Hadge – Université Saint-Joseph – Liban

Gérard Figari – Université Pierre Mendès France – France

Antoine Fischbach – Université du Luxembourg – Luxembourg

Christophe Gremion – Institut fédéral des hautes études en formation professionnelle – Suisse

Charles Heimberg – Université de Genève – Suisse

Marie-Noëlle Hindryckx – Université de Liège – Belgique

Isabelle Kermen – Université d’Artois – France

Yann Mercier-Brunnel – Uiversité d’Orléans – France

Raymond Meyers – Université du Luxembourg – Luxembourg

Paul Milmeister – Université du Luxembourg – Luxembourg

Christian Monseur – Université de Liège – Belgique

Brigitte Morand – Université Clermont Auvergne – France

Joëlle Morissette – Université de Montréal – Canada

Pascal Ndinga - Université du Québec à Montréal – Canada

Helena Peralta – Instituto de Educação da Universidade de Lisboa – Portugal

João Pinhal – Instituto de Educação da Universidade de Lisboa – Portugal

Julie Pironom –Université Clermont Auvergne – France

Débora Poncelet – Université du Luxembourg – Luxembourg

Catherine Thevenot – Université de Genève – Suisse

Pascale Wouters – Université Catholique de Louvain – Belgique


Documents

Evaluer - ADMEE