15
I test INVALSI sono scientificamente sol... by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13 I test INVALSI sono scientificamente solidi? I limiti del modello di Rasch 2014-07-31 00:37:39 By Enrico Rogora I test INVALSI poggiano su una solida base scientifica? In questo articolo, Enrico Rogora descrive e spiega i limiti del modello di Rasch, il quale, scientificamene parlando, costituisce la pietra angolare dei test INVALSI. Meno di un anno fa, un analogo problema di solidità scientifica, riferito però ai test OCSE-PISA, era stato ripreso anche dalla BBC che aveva dato spazio ai giudizi fortemente critici di David Spiegelhalter, il quale, oltre ad essere professore a Cambridge, è uno dei più rinomati statistici a livello mondiale . Lo scorso maggio è stata indirizzata all'OCSE una richiesta di moratoria sottoscritta da un’ottantina di accademici che denunciavano gli effetti distorsivi dei test PISA nei confronti delle politiche nazionali sull'istruzione In risposta a questa lettera aperta, un altro gruppo di studiosi ha scritto una lettera di sostegno all’OCSE in cui viene ripresa una metafora già usata anche per i test INVALSI: i test standardizzati sarebbero come un termometro a cui non è saggio rinunciare. Tuttavia, alla luce della letteratura scientifica internazionale ed anche del presente articolo, ci sono ragioni per nutrire dubbi sul corretto funzionamento del "termometro di Rasch". Ed anche sulla facilità di aggiustarlo. page 1 / 15

Il Modello Di Rasch

Embed Size (px)

DESCRIPTION

statistica e valutazione

Citation preview

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

I test INVALSI sono scientificamente solidi? I limiti del modello diRasch

2014-07-31 00:37:39 By Enrico Rogora

I test INVALSI poggiano su una solida base scientifica? In questo articolo, Enrico Rogora descrive espiega i limiti del modello di Rasch, il quale, scientificamene parlando, costituisce la pietra angolaredei test INVALSI. Meno di un anno fa, un analogo problema di solidità scientifica, riferito però ai testOCSE-PISA, era stato ripreso anche dalla BBC che aveva dato spazio ai giudizi fortemente critici diDavid Spiegelhalter, il quale, oltre ad essere professore a Cambridge, è uno dei più rinomati statisticia livello mondiale. Lo scorso maggio è stata indirizzata all'OCSE una richiesta di moratoria sottoscrittada un’ottantina di accademici che denunciavano gli effetti distorsivi dei test PISA nei confronti dellepolitiche nazionali sull'istruzione In risposta a questa lettera aperta, un altro gruppo di studiosi hascritto una lettera di sostegno all’OCSE in cui viene ripresa una metafora già usata anche per i testINVALSI: i test standardizzati sarebbero come un termometro a cui non è saggio rinunciare. Tuttavia,alla luce della letteratura scientifica internazionale ed anche del presente articolo, ci sono ragioni pernutrire dubbi sul corretto funzionamento del "termometro di Rasch". Ed anche sulla facilità diaggiustarlo.

page 1 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

Nota introduttiva

Per la quasi totalità dell’opinione pubblica, ma anche degli insegnanti e degli accademici,l'elaborazione dei risultati dei test standardizzati è una “scatola nera” il cui corretto funzionamentoviene assunto sulla fiducia. Chi d’altronde avrebbe le competenze per entrare nel merito deimarchingegni statistici utilizzati? Anche chi ne contesta l’uso a causa delle distorsioni che provocanelle politiche educative raramente ne mette in dubbio la correttezza.

La metafora del termometro usata dai sostenitori dei test è chiara: per un medico la misura dellatemperatura fornisce un’informazione rudimentale sulla salute del paziente, ma è una misura tuttosommato affidabile:

Hospitals use a thermometer, which allows doctors to get useful, albeit partial and imperfect,information based on a standardized measure that is comparable over time and across patients.

page 2 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

Una metafora che però si rivela a doppio taglio: cosa succederebbe se i medici fossero talmentefocalizzati sulle misure di temperatura da curare qualsiasi forma di malattia ricorrendo agliantipiretici? La metafora del termometro dà ancor più da pensare quando si prende atto di alcunirecenti sviluppi del dibattito internazionale sui test standardizzati. Alla luce della letteraturascientifica, infatti, è tutt’altro che certo questi "termometri" siano capaci di fornire “a standardizedmeasure that is comparable over time and across patients”.

Ma dove sta il problema? Niente sembra più facile che elaborare i risultati di un test standardizzato.Dopo tutto, basta contare il numero delle risposte esatte e di quelle sbagliate. O no?

No, non è così facile. Prima di tutto, bisogna considerare che non tutti i quesiti hanno la stessadifficoltà. Poca cosa si dirà: basta assegnare un punteggio via via più alto alle domande più difficili.Ma come si fa a stabilire se e quanto una domanda è più facile di un'altra? Beh, basta verificarequanti esaminati riescono a dare la risposta giusta.

Un attimo, così non funziona, perché non tutti gli esaminati hanno la stessa "abilità" (qualsiasi cosapossa voler dire) e la distribuzione dei diversi gradi di abilità cambia da un campione di esaminatiall'altro. Potrei tentare di misurare l'abilità degli esaminati confrontando i punti che ottengono neltest, ma così tornerei al punto di partenza, proprio come un cane che si morde la coda.

Estrarre delle informazioni dai test standardizzati non è così semplice come leggere la temperaturasulla scala graduata di un termometro.

Per calibrare questo particolare "termometro" bisogna contemporaneamente ricostruire il grado didifficoltà delle domande e l'abilità degli esaminati. Bisogna passare attraverso la risoluzione di unparticolare problema matematico-statistico. Come facciamo a sapere se questo problema ammettesoluzione e se questa soluzione ha senso? Dipende dalle ipotesi che facciamo e, dopo che le abbiamofatte, dall'avere dei dati che non le contraddicano.

Ora, i termometri dei test PISA e dei test INVALSI si servono dello stesso principio di misurazionedella “temperatura”, ovvero del cosiddetto “modello di Rasch”, che specifica appunto le ipotesimatematico-statistiche utilizzate nella procedura di calibrazione.

Riguardo alle ipotesi del Modello di Rasch, due sono i problemi da affrontare:

1. non sembrano essere le uniche possibil;2. non c'è garanzia che siano soddisfatte dai dati.

Venendo al primo punto, le ipotesi appaiono tutt'altro che di validità universale, tanto è vero che nellafase di caibrazione vengono scartate sia le domande sia gli esaminati che non sono conformi almodello. Insomma, appare difficile parlare di "oggettività" dei risultati. Piuttosto, facendo ricorso adun ossimoro, verrebbe da dire con Rogora che l’abilità matematica testata dall’INVALSI è l’abilità dirisolvere i test INVALSI. Come spiegato più sotto, una conseguenza dell'adozione di un modellosoggetto a ipotesi così restrittive è la sostanziale immodificabilità del syllabus, almeno fino a quandosi vuole preservare la consistenza e le comparabilità con le precedenti rilevazioni.

Riguardo al secondo punto, in che misura le ipotesi del Modello di Rasch trovano conferma nei dati?Nel caso dei test OCSE-PISA, David Spiegelhalter, in un suo post apparso sul blog della Royal StatisticalSociety, ha sottolineato che il modello di Rasch è «demonstrably inadequate» e «over-simplified»,confermando quanto sostenuto da Svend Kreiner in un suo articolo scientifico apparso sulla rivista

page 3 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

Psychometrika[a]. Lo stesso Ray Adams, capo dell’OECD analysis team, non ha potuto negare che, sise effettua un test statistico di ipotesi sui dati PISA analizzati da Kreiner, il modello di Rasch risultarespinto (Comments on Kreiner 2011).

Inun articolo apparso sul blog della Royal Statistical Society, lo statistico di fama mondiale DavidSpiegelhalter, spiega le ragioni della sua perplessità nei confronti della metodologia statistica su cuipoggiano i test OCSE-PISA. In particolare, Spiegelhalter concorda con le riserve sollevate da S. Kreiner,secondo il quale per i dati PISA «le prove contro il modello di Rasch sono schiaccianti» (Theevidence against the Rasch model is overwhelming).

E i test INVALSI? Gnaldi et al, hanno sottoposto a verifica le ipotesi di applicabilità del modello diRasch sui test INVALSI 2009 di Italiano e Matematica per le scuole medie (Gnaldi et al., JointAssessment of the Differential Item Functioning and Latent Trait Dimensionality of Students’ NationalTests, submitted). Se si dà fede alla loro analisi, le ipotesi di applicabilità del modello di Raschrisultano respinte. In particolare, l'analisi mostrerebbe una

dependance of students’ scores on attributes other than those the scale is intended to measure, thatis students’ gender and geographical area.

Il test di italiano soffre inoltre di un altro problema, in quanto

a single score cannot be sensibly used to describe students’ attainment on the Italian Test (especiallyon the Grammar section), as the difference among students’ does not depend univocally on a singleability level.

Ma che pignoli questi statistici, penserà qualcuno. Si è scomodato persino il Financial Times perricordare a Spiegelhalter che «i confronti accademici sono sempre imperfetti, ma questo nonsignifica che non li si possa mai fare». In effetti, sarebbe inutile turbarsi per sbavature scientificheche modificano solo marginalmente gli esiti finali.

page 4 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

Kreiner ha provato a fare dei calcoli per quantificare gli effetti di queste "sbavature": la posizione delRegno Unito nel “Reading Test” 2006 oscillerebbe tra 14 e 30, quella della Danimarka tra 5 e 37, quelladel Canada tra 2 e 25 e quella del Giappone tra 8 e 40. Se si trattasse di un termometro, ci sarebbe ilrischio di confondere una febbre da cavallo con un congelamento. “The best we can say about Pisarankings is that they are useless” conclude Kreiner.

Spiegelhalter ha anche confrontato gli esiti di due diverse edizioni dei test PISA di matematica ed haosservato una "stranezza": la maggior parte delle nazioni che nel 2003 avevano ottenuto risultatisopra le media sono poi peggiorate nel 2013. Spiegelhalter osserva che è esattamente ilcomportamento che ci si aspetta di vedere quando una classifica è in gran parte influenzata dal caso:

This is exactly the pattern expected when much of the influence on the ranking is due to randomvariation, and is known as ‘regression-to-the-mean’, which reinforces my feeling that the precision ofthe estimates is not as great as claimed. When this pattern is observed, one should be very cautiousabout ascribing reasons for changes.

È un po’ come lanciare un dado due volte. Se il primo lancio ha dato “5″, con il secondo lancio è piùprobabile scendere che salire. Ecco perchè, secondo Spiegelhalter, "learning lessons from PISA is ashard as predicting who will win a football match".

Ma è giunto il momento di chiudere questa nota introduttiva e di cedere la parola ad Enrico Rogorache nel seguito ci illustra funzionamento e limiti del modello di Rasch applicato ai test INVALSI.

Giuseppe De Nicolao (Redattore Roars)

[a] S. Kreiner mostra che, relativamente ai test PISA 2006 di "Reading skills", la validità del modelloviene respinta ("rejected") per tutte le nazioni tranne il Lichtenstein; inoltre, nella quasi totalità deicasi i p-values sono inferiori a 10^-4, vedi Table A.1 in (S.Kreiner, Psycometrika 2013).

Il modello di Rasch

Enrico Rogora

Introduzione

Ormai numerosi, anche in Italia, sono gli ambiti in cui si utilizzano test basati su domande a rispostamultipla a fini valutativi. L'Istituto Nazionale per la Valutazione del sistema Educativo di Istruzione e diEducazione, INVALSI, prepara test che utilizzano sia domande a risposta multipla sia domande arisposta aperta, con griglia di correzione predeterminata. Questi test sono al centro da anni diinnumerevoli discussioni e polemiche[1].

Scopo di queste riflessioni è quello di contribuire alla comprensione di un aspetto particolare, ma a

page 5 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

mio avviso rilevante, di questa discussione: il modello statistico utilizzato dall'INVALSI per l'analisi deirisultati, cioè il cosiddetto modello di Rasch.

Credo che una discussione organica sui test debba essere fatta sul piano più elevato dei rapporti trastrumenti valutativi e processi di insegnamento/apprendimento, ma credo anche che sia utile avviareuna discussione su alcuni aspetti tecnici, talvolta utilizzati come dogmi assoluti, dietro cui trincerarsiper evitare il confronto. Inoltre, la scelta del modello di Rasch come strumento di analisi dei datiporta necessariamente a conseguenze non irrilevanti sui contenuti dei test, come spero di chiarirealla fine di questo articolo e mi sembra utile conoscere in anticipo gli effetti di tali scelte.

Indici e misure

Prendiamo la frase: questo test misura le abilità matematiche degli studenti che ci è moltoprobabilmente già capitato di sentire. La parola misura fa pensare a un'operazione analoga allamisura dell'altezza di una persona. Ma se per l'altezza si tratta di una grandezza ben determinata edal significato condiviso, che tutti sanno come misurare, nel caso delle abilità matematiche si puòintendere invece semplicemente[2] che si è assegnato un qualche punteggio (per esempio il numerodelle risposte esatte) ad un test costituito da un certo numero di domande di matematica. La misuradell'altezza gode di proprietà che il punteggio ottenuto da uno studente in un test non ha.Innanzitutto, nel caso dei test, la proprietà che si vuole misurare è tutt'altro che chiara. Non esisteuna nozione univoca e condivisa di abilità matematica e domande diverse testano, in generale, abilitàdiverse[3]. Inoltre, il punteggio assegnato in un test non è in generale confrontabile con quelloassegnato in un'altro test: per esempio un primo individuo può ottenere in un certo test A unpunteggio superiore a quello ottenuto da un secondo individuo in un certo test B perché "il primoindividuo è più bravo del secondo" o perché "il test A è più facile del test B", cioè la suppostamisurazione verrebbe a dipendere dallo strumento di misura.

In questa differenza del significato del termine misura si annidano pericolosi fraintendimenti.Chiamare misurazione una qualunque assegnazione di un punteggio ad un test ci fa pensare ad unaoggettività comparabile con quella che si può ottenere misurando le grandezze fisiche che invece èben lungi dall'essere giustificata.

Il modello di Rasch è un modello probabilistico, sviluppato dallo statistico danese Georg Rasch(1901-1980), con l'intento di definire operativamente un modo per stimare, dai risultati di un test,misure di abilità degli individui e di difficoltà delle domande del test o item.

La domanda intorno a cui ruotano le mie riflessioni è la seguente: possiamo affermare che utilizzandoil modello di Rasch riusciamo ad ottenere misure di abilità paragonabili alle misure fisiche?

La mia opinione, che spero di motivare nel resto dell'articolo, è che le misure psicometriche o misureindirette dedotte dall'applicazione del modello di Rasch, pur costituendo un sostanziale passo avantirispetto a meri indici numerici, non sono comparabili alle misure della fisica. Inoltre, tanto più siprende sul serio il modello di Rasch e si cerca di rendere queste misure indirette comparabili allemisure della fisica, tanto più è necessario delegare a un gruppo chiuso di esperti la definizione dellavariabile che si vuole misurare. In altre parole, parafrasando una famosa legge fisica propongoscherzosamente il seguente principio di indeterminazione per le misure di Rasch: detta q la distanzadi una misura di Rasch da una misura oggettiva di una proprietà ben determinata e detta d ladistanza tra il processo di stima dei parametri del modello di Rasch da un processo di misurazionetrasparente e democratico

page 6 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

q*d>!H!

dove !H! (da leggere "H imbavagliato") è una costante (costante di Plank psicometrica).

Spero di riuscire a spiegare nel seguito e in maniera comprensibile ai non specialisti, perché questaparafrasi scherzosa abbia un fondamento serio. Per fare ciò è necessario esporre sinteticamentealcune idee su cui si fonda il modello di Rasch.

Il modello di Rasch

I risultati della correzione di un test vengono organizzati in una tabella, o matrice in cui ogni rigarappresenta una persona e ogni colonna un item. Nei test composti di sole domande a rispostamultipla standard[4], la correzione assegna il punteggio 1 ad ogni risposta esatta e 0 ad ogni rispostasbagliata o non data. Per esempio, si consideri un test composto di due sole domande, cuipartecipano quattro persone. La matrice delle risposte sia

1 01 00 11 1

In questo test la prima e la seconda persona hanno risposto correttamente alla prima domanda enon hanno risposto correttamente alla seconda, la terza non ha risposto correttamente alla primadomanda ma ha risposto correttamente alla seconda, la quarta ha risposto correttamente aentrambe.

Il modello di Rasch ipotizza un modello di generazione stocastica di siffatte tabelle, in conseguenzadel quale si possono implementare algoritmi per stimare dalla matrice delle risposte un parametroper ogni persona e un parametro per ogni item, che prendono il nome di parametri di abilità eparametri di difficoltà rispettivamente. La giustificazione e i limiti di tali denominazioni verrannodiscusse più avanti.

Il modello di Rasch è quindi un modello probabilistico per la stima di parametri nascosti a partire dadati osservabili. Questo genere di modelli si presenta in molte situazioni che hanno applicazionianche alla vita di tutti i giorni: per esempio nel problema del riconoscimento vocale si usa il modellodelle catene di Markov a stati nascosti e in quello della ricostruzioni del moto tridimensionali a partireda dati accelerometrici, utile per esempio nella conduzione degli aeroplani, si usa il modello dei filtridi Kalman.

Per modellare un processo stocastico che generi tabelle di zeri e uno, la prima cosa che può venire inmente è quella di lanciare ripetutamente una moneta. Se viene testa segnerò uno nellacorrispondente casella, se viene croce segnerò zero. Questo primo modello è assolutamenteinadeguato in quanto produrrà dati simili a quelli raccolti in test troppo particolari: quelli in cui ognidomanda ha solo due possibili risposte e ogni persona risponde a caso. Riflettendo sui limiti diquesto modello, ci rendiamo conto che esso appiattisce completamente le persone. Quelle che sonopiù preparate devono avere una probabilità maggiore di rispondere correttamente di quelle menopreparate. Possiamo immaginare allora un modello in cui per ogni persona si scelga una diversamoneta e che si tratti di una moneta truccata. Tanto più preparata è la persona tanto più la suamoneta sarà truccata in modo da aumentare la probabilità che esca testa. Anche così però il modellonon può funzionare bene. La probabilità di rispondere correttamente deve anche diminuireall'aumentare della difficoltà della domanda. Per affinare il modello possiamo associare ad ogni

page 7 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

persona un parametro a, ad ogni item un parametro d e specificare una funzione di rispostap(a,d) che fornisce la probabilità che uno studente di abilità a risponda correttamente a un item didifficoltà d cioè scegliamo una moneta diversa per ogni interazione studente/item e truccata inaccordo con la funzione p(a,d).

Si noti che per denotare il parametro a ho usato una volta il termine abilità un'altra il terminepreparazione. Con questa ambiguità ho voluto sottolineare l'arbitrarietà del nome. In effetti iparametri a e d sono definiti in maniera puramente formale. Quanto questa definizione sia correlatacon l'abilità, con la preparazione o quant'altro non ce lo può (e non ce lo deve) dire il modello.

Torniamo alla funzione di risposta, che abbiamo lasciato ancora indeterminata, e per la quale èragionevole richiedere che assuma valori compresi tra zero e uno (per rappresentare una probabilità),che cresca al crescere di a (che è un parametro che vorremmo correlare all'abilità) e che decresca alcrescere di d (che è un parametro che vorremmo correlare alla difficoltà).

Per specificare il suo modello, Rasch[5] si domanda a questo punto se è possibile scegliere la funzionep in maniera tale che i parametri a e d siano misure e non semplici numeri e propone la seguentecondizione necessaria:

quando una persona ha abilità doppia di un'altra, e un item ha difficoltà doppia di un altro, la primapersona dovrà poter risolvere il primo problema con la stessa facilità con cui la seconda personarisolve il secondo[6].

Con riferimento alla funzione di risposta, questa condizione si può formalizzarerichiedendo p(2a,2d)=p(a,d) e più in generale,

p(ka,kd)=p(a,d) per ogni a,d e k numeri positivi (+).

La proprietà (+) viene definita da Rasch conformità. Tra le funzioni che verificano la condizione diconformità, Rasch sceglie quella che considera più semplice e propone un modello in cui[7]:

Ogni persona ha una certa probabilità di risolvere correttamente ogni problema di un dato genere ela sua probabilità, indipendentemente dalle risposte ai precedenti problemi, è data dalla formula[8]

dove a è una caratteristica della persona e d una caratteristica delproblema.

A partire dal modello di Rasch è possibile valutare la verosimiglianza di ogni matrice di dati infunzione dei parametri del modello. Se abbiamo N persone di abilità a1,...,aN che rispondono adomande di difficoltà d1,...,dn, la verosimiglianza della matrice delle risposte si ottiene, in virtù dellacondizione di indipendenza formulata da Rasch, moltiplicando le probabilità delle osservazioni in ognicella della matrice, ovvero p(ai, dj) se sulla i-esima riga e j-esima colonna c'è 1 oppure 1- p(ai, dj) sesulla i-esima riga e j-esima colonna c'è 0. Uno dei metodi per stimare i parametri consiste

page 8 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

semplicemente nello scegliere quelli che massimizzano la verosimiglianza dei dati. Il problemaconduce alla ricerca delle soluzioni di un sistema di equazioni non lineari, per cui esistono metodiefficienti di soluzione numerica.

Ovviamente la funzione (*) non è l'unica che verifica la condizione di conformità ma con questa sceltavalgono ulteriori proprietà molto interessanti, sia dal punto di vista teorico che pratico, per esempiola proprietà che Rasch chiama di oggettività specifica.

Oggettività specifica

La discussione di questa proprietà è a mio avviso esemplare delle discussione relative al modello diRasch. Il significato sostanziale della proprietà non è chiaro in quanto non è facile separare quello chesi nasconde dietro la sua definizione formale da quello che ci si vuol vedere ma che in effetti non c'è.La discussione è tecnica e mi limiterò ad esporre alcune considerazioni non tecniche e a suggerirealcuni approfondimenti.

Dice Rasch[9]:

Agli inizi degli anni 60 ho introdotto un nuovo - o piuttosto una più definita versione di un vecchio -concetto epistemologico. Ho mantenuto per esso il nome di oggettività, ma siccome il significato diquesta parola è passato attraverso numerose modificazioni sin dalla sua origine ellenica e vieneancora utilizzato, nei discorsi di ogni giorno e in quelli scientifici, in molti contesti diversi, ho aggiuntoun predicato restrittivo: specifica[10].

Secondo Stenner[11],

Georg Rasch ha utilizzato il termine "oggettività specifica" per descrivere quel caso essenziale nellemisurazioni in cui il confronto tra individui diventa indipendente dagli strumenti particolari -- test oitem o altro genere di stimoli -- che vengono utilizzati. Simmetricamente dovrebbe essere possibileconfrontare stimoli che appartengono alla stessa classe -- misurando la medesima cosa --indipendentemente da quale particolare individuo, all'interno della classe considerata, fossestrumentale per il confronto[12].

Da queste citazioni, e ancor di più dal titolo del lavoro di Rasch da cui è stata tratta la prima: Onspecific objectivity: An attempt at formalizing the request for generality and validity of scientificstatements, si trae l'impressione che la specifica oggettività sia un principio fondamentale eimprescindibile per dare un senso alle misure. Ma se si scava più profondamente si scopre che lecose non sono affatto così nette.

Secondo Van Linden[13] il principio di oggettività specifica introdotto da Rasch si compone in realtà didue diversi principi, uno di carattere matematico e uno di carattere statistico.

Dal punto di vista matematico, si tratta di una proprietà formale di una equazione funzionale, giàconsiderata da diversi matematici prima di Rasch[14]. Una delle conseguenze di questa proprietà è

page 9 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

che, nel modello di Rasch, è possibile definire una funzione matematica per confrontare laprestazione tra individui diversi che non dipende dai parametri di difficoltà degli item.L'interpretazione di questa proprietà da parte di molti, e secondo van der Linden anche di Rasch[15],è che si tratti di una condizione necessaria perché i parametri siano delle misure. Sempre secondovan der Linden invece questa separazione dei parametri nelle operazioni di confronto, pur essendoutile, non è affatto necessaria. È superfluo aggiungere che, in ogni caso, la condizione formale dioggettività specifica, necessaria o non necessaria che sia, è ben lungi dall'essere sufficiente agarantire che le stime dei parametri dei modelli di Rasch siano misure utili e chiaramentedeterminate.

Dal punto di vista statistico, dice sempre van der Linden:

sotto la condizione che valga il modello di Rasch, se la lunghezza di due test diversi tende all'infinito,gli stimatori di massima verosimiglianza condizionale dell'abilità della stessa persona hanno lo stessovalore atteso, ma, di norma, varianza diversa. In altre parole, il significato corretto è che la presenzadi statistiche sufficienti permette l'uso di stimatori consistenti dei parametri del modello di Rasch."Oggettività specifica" non ha altro significato oltre a questo![16]

I tentativi di leggere oltre questo ha portato a numerosi fraintendimenti[17]

È la generalità degli enunciati di Rasch e il suo confondere i concetti di statistiche sufficienti e dioggettività specifica che porta ad ascrivere proprietà non realistiche al modello di Rasch. Per esempioè molto diffusa la credenza che a causa della presenza di statistiche sufficienti, la stima di massimaverosimiglianza condizionale nel modello di Rasch permetta la stima degli stessi parametri di abilitàda campioni diversi di item dello stesso test. Questa affermazione è dal punto di vista statisticotroppo semplicistica per essere vera[18].

La discussione sul significato della proprietà di oggettività specifica mostra in maniera esemplarequanto sia facile creare confusione quando si trasmette un contenuto scientifico. Usare le parole dellinguaggio comune porta facilmente a estendere il senso di un contenuto scientifico, per esempio unaproprietà formale di un modello matematico, oltre al suo ristretto dominio di validità. È un compitodifficile, e a mio avviso troppo spesso trascurato da chi si occupa professionalmente di scienza, quellodi trasmettere, oltre a un contenuto scientifico, anche il senso dei limiti della sua applicabilità.

Osservazioni sul modello di Rasch

Il modello di Rasch non è molto flessibile. Per descrivere una matrice N*n di dati (le risposte di Npersone a n item) ha a disposizione N + n parametri e quindi impone una limitazione sulla strutturadei dati, che deve essere attentamente vagliata prima di trarne qualsiasi conseguenza. Non devetrarre in inganno il fatto che è sempre possibile dare una stima dei parametri del modello, qualsiasi

page 10 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

sia l'insieme dei dati raccolti. Una stima fornisce i parametri ottimali rispetto ad un dato criterio (peresempio il criterio di massima verosimiglianza) ma il fatto di individuare i parametri ottimali nonimplica che il modello sia adeguato alla descrizione dei dati.

Non entro in questa sede nella discussione dei problemi relativi alla valutazione della bontàdell'adattamento del modello di Rasch con i dati, salvo rinviare ad alcune critiche sull'adeguatezza deitest di aggiustamento per il modello di Rasch[19].

Per applicare il modello di Rasch è necessario controllare la qualità degli item. Qualità significa, inquesto contesto, conformità dell'item con il modello. In particolare si richiede che sia un item al qualegli studenti non rispondano a caso e che la sua discriminazione sia uguale a uno.

La prima ipotesi sembra in contrasto con il vincolo che la risposta sbagliata sia valutata come larisposta non data, ma se le domande non sono troppo difficili e i distrattori (cioè le risposte errate)sono plausibili si osserva nella pratica che le deviazioni da questa ipotesi non sono solitamentestatisticamente significative. È sempre necessario però fare un'analisi accurata dei dati perconfermarlo.

La seconda assunzione è, a mio avviso, di carattere esclusivamente formale.

Gli utilizzatori del modello di Rasch, in presenza di significative deviazioni da queste ipotesi, eliminanol'item. A tal fine organizzano dei pretest necessari alla verifica della conformità degli item al modellodi Rasch. La scelta di imporre a priori il modello sui dati e di modificare i dati eliminando item eindividui che non sono conformi al modello, è fonte di una diatriba infinita tra i sostenitori e gliavversari del modello di Rasch[20]. La motivazione dei sostenitori del modello è sostanzialmente cheil modello di Rasch è l'unico che fornisce misure psicometriche valide e quindi ciò che non èconforme al modello di Rasch non è misurabile. Un item che non verifica le ipotesi del modello diRasch è come un metro rotto[21].

La mia opinione è che le ragioni per cui i sostenitori del modello di Rasch affermano che questomodello sia l'unico in grado di fornire misure psicometriche valide non sono convincenti, come hocercato di spiegare nel paragrafo sulla proprietà di specificità oggettiva. Si tratta di voler vedere inproprietà matematiche o statistiche del modello di Rasch, alle volte neanche ben formulate, più diquanto ci sia in realtà. Credo anche però che aggiungere parametri per rendere il modello piùaderente ai dati non faccia compiere sostanziali passi avanti nella direzione di ottenere una misuraoggettiva di una proprietà ben determinata per le ragioni che cercherò di spiegare nel prossimoparagrafo.

Critiche alle misure indirette

Le misure stimate con il modello di Rasch sono misure indirette[22]. Anche se le misure indirettecostituiscono un passo avanti significativo in confronto ai meri indici numerici, esistono differenze,secondo me sostanziali, tra le misure indirette e le misure della fisica: innanzitutto, la precisione dellestime di una misura indiretta, oltre a essere molto inferiore, è molto meno controllabile e poi leproprietà che si cerca di misurare non sono ben definite.

La mia opinione sulle misure indirette è che si tratti di misure imprecise di proprietà non ben definitein condizioni critiche. L’immagine intuitiva che mi sono fatto di una misura indiretta è la seguente: ècome misurare il peso di una persona con una riga storta mentre la persona corre. Nell'immagine hoscritto: misurare il peso con una riga. Non è un errore, ma il tentativo di mettere a fuoco un problema

page 11 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

sostanziale. In una misurazione indiretta non abbiamo accesso diretto alla proprietà che vogliamomisurare. Per esempio, quando diciamo abilità matematica misurata da un test, intendiamo abilità disvolgere il test che è stato proposto. Ci immaginiamo che questa abilità sia correlata con l'abilitàmatematica che vorremmo misurare e ci troviamo quindi in una situazione analoga a quella in cui citroveremmo misurando il peso invece dell'altezza[23].

Le misure indirette infine vengono effettuate in condizioni critiche perché le condizioni al contornonon sono controllabili, come al contrario avviene per le misure fisiche. Le misure fisiche si fanno inlaboratorio su una realtà artificiale e questa è una loro caratteristica fondamentale. Il fatto dimisurare in laboratorio è uno dei tratti fondamentali della rivoluzione galileiana. La fisica modernanon è la scienza di Aristotele che si limita ad osservare il fenomeno ma sostituisce il fenomeno realecon un fenomeno artificiale più controllabile, e solo a questo punto procede con le misurazioni.Questo controllo del fenomeno prima di misurare non può essere fatto con le misure indirette. Cisono autori che dicono che questo ostacolo epistemologico impedisce la possibilità stessa di definiremisure indirette.

Io credo che possa essere comunque utile considerare misure indirette, purché ci si renda conto chel’oggettività della misura, se di misura si tratta, è discutibile.

Le misure indirette sono comunque utili? Dipende! È come il risultato di un'analisi clinica. Messo inmano a un bravo medico può essere utile a confermare una diagnosi o a far suonare in anticipo uncampanello d'allarme. Messo in mano a un cattivo medico, o peggio al paziente stesso, può produrreesiti catastrofici.

Un'ultima osservazione riguarda la trasparenza delle misure indirette. Quando si stima una misuraindiretta con un modello probabilistico è fondamentale verificare che il modello utilizzato sia in buonaccordo con i dati, altrimenti le misure indirette perdono completamente di senso. Questo introduceun grave rischio per la trasparenza delle misure indirette, per esempio nelle valutazioni, perché ilcontrollo della loro qualità e della loro significatività è delegata, nella migliore delle ipotesi a ungruppo di esperti, e nella peggiore alla fiducia cieca in procedure automatiche.

Critiche all'applicazione del modello di Rasch ai risultati dei test INVALSI

Dopo aver mosso alcune critiche generali alle misure indirette e in particolare a quelle dedotte dalmodello di Rasch, vorrei concludere le mie riflessioni sollevando due ulteriori critiche specifiche alleapplicazioni del modello di Rasch all'analisi dei risultati dei test INVALSI.

Le misure indirette di abilità, stimate nelle rilevazioni INVALSI, introducono un elemento quantitativoche, invece di aiutare a chiarire i termini del dibattito e sulla valutazione dei sistemi educativi, rischiadi mascherare i problemi reali spostando la discussione su un piano sbagliato. A una classe politica,che conosce poco i problemi che deve affrontare e che non sa o non riesce ad assumere le proprieresponsabilità di riformare il sistema educativo nazionale, risulta estremamente comodo cercare uncriterio semplice che guidi automaticamente o giustifichi le proprie scelte. Credo che sia utile edoveroso sottolineare con forza che questi criteri non sono affatto oggettivi e indiscutibili.

In secondo luogo, il modello di Rasch prescrive una interazione piuttosto rigida tra item e individui.Per dare senso alla stima dei parametri di abilità e difficoltà è necessario che gli item sianostrettamente conformi alle ipotesi del modello e quindi è necessario seguire un protocollo lungo,faticoso e costoso per la preparazione e per la selezione degli item. Il protocollo utilizzatodall'INVALSI per costruire un test definisce la variabile che si intende misurare. In altre parole, e

page 12 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

questo è necessaria conseguenza del modello di Rasch, l'abilità matematica testata dall'INVALSI èl'abilità di risolvere i test INVALSI. Non voglio entrare nel merito se questo sia giusto o sbagliato,voglio solo osservare che necessariamente questo non è modificabile. In altre parole, se vogliamomodificare in maniera sostanziale il syllabus sulla base del quale l'INVALSI ha preparato finora leproprie prove, il principio di misurazione basato sul modello di Rasch prevede che dobbiamo rifaretutto il lavoro di verifica della coerenza degli item e ricontrollare e probabilmente eliminare buonaparte dei risultati delle rilevazioni precedenti. In conseguenza del modello di Rasch, in altre parole, ètassativamente vietato variare la sostanza del syllabus INVALSI, perché questo equivale a modificarela variabile che si sta misurando.

Prendere sul serio il modello di Rasch pone anche dei vincoli al processo di rinnovamento deipreparatori delle domande, chiesto a gran voce da molti. Poiché per poter continuare a misurare lastessa variabile è necessario che ogni item sia statisticamente omogeneo ai precedenti, se prendiamosul serio il modello di Rasch è tassativamente vietato aggiungere nuove dimensioni alle modalità divalutazione dei contenuti del syllabus INVALSI.

In conseguenza, per avvicinare le misure di abilità e difficoltà all'ideale (secondo me comunqueirraggiungibile) di oggettività delle misure della fisica bisogna necessariamente sacrificare lepossibilità di sottoporre a un controllo esterno e di modificare le procedure, i syllabi e in definitiva lavisione della matematica di chi gestisce le prove INVALSI. È questo il senso del principio diindeterminazione per le misure di Rasch che ho enunciato nel secondo paragrafo.

[1] cfr. Intervista di G. Israel a Orizzonte scuola.http://www.orizzontescuola.it/news/giorgio-israel-invalsi-istituto-fuori-controllo-prof-state-guardia-potreste-diventare-semplici-

e l'interessante sito in cui vengono raccolti autorevoli pareri pro e contro i test standardizzati

http://standardizedtests.procon.org/

[2] Non è il caso dei test INVALSI, come vedremo.

[3] Cfr. per esempio le considerazioni nell'articolo già citato di Giorgio Israel.

[4] Mi limiterò a discutere questa tipologia di test perché il modello per l'analisi statistica èsostanzialmente lo stesso anche per test più complicati che ammettono griglie di correzionestandardizzate più complicate.

[5] G. Rasch, Probabilistic models for some Intelligence and attainment tests, Chicago, the Universityof Chicago Press, 1980.

[6] G. Rasch, op. cit.

[7] G. Rasch, op. cit.

[8] Il modello di Rasch viene oggi specificato con riferimento alla funzione

page 13 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

L'equivalenza con la formulazione precedente, utile per confrontare il modello diRasch con gli altri modelli della Item Response Theory (IRT), si ottiene ponendo

[9] G. Rasch, On specific objectivity: An attempt at formlizing the request forgenerality and validity of scientific statements. Danish Yearbook of Philosophy, 14, pp. 58-94, 1977.disponibile on line: http://www.rasch.org/memo18.htm

[10] Traduzione dell'originale:

In the beginning of the 60'es I introduced a new - or rather a more definite version of an old -epistemological concept. I preserved the name of objectivity for it, but since the meaning of that wordhas undergone many changes since its Hellenic origin and is still, in everyday speech as well as inscientific discourse, used with many different contents, I added a restricting predicate: specific.

[11] A. J. Stenner, Specific objectivity - local and general.Rasch Measurement Transactions, 1994, 8:3p.374 - disponibile on line: http://www.rasch.org/rmt/rmt83e.htm

[12] Traduzione dell'originale:

Georg Rasch used the term "specific objectivity" to describe that case essential to measurement inwhich "comparisons between individuals become independent of which particular instruments --tests or items or other stimuli -- have been used. Symmetrically, it ought to be possible to comparestimuli belonging to the same class -- measuring the same thing -- independent of which particularindividuals, within a class considered, were instrumental for comparison."

[13] W. J. van der Linden, Fundamental Measurement and the Fundamentals of Rasch Measurement,in ed. M. Wilson (ed.), Objective Measurement, theory into practice, vol. 2, Ablex PublishingCorporation, Norwood, New Jersey, 1994, pp. 3-25.

[14] G. Fischer, Applying the principles of specific objectivity and of generalizability to themeasurement of change, Psychometrika, v. 52 (4), pp. 565-587, 1987.

[15] van der Linden, op. cit., p. 18.

[16] Traduzione dell'originale:

under the condition that the Rasch model holds, if the lengths of two different tests go to infinity, theconditional maximum likelihood estimators of the ability of the same person have the same expectedvalue but are likely to have different variances. In other words, the correct inference is that thepresence of sufficient statistics paves the way for the use of consistent estimators of the parameters

page 14 / 15

I test INVALSI sono scientificamente sol...by Enrico Rogora - http://www.roars.it/online/ [email protected] date:2015-09-13

in the Rasch model. "Specific objectivity" has no meaning beyond this!

[17] Van der Linden, op. cit.

[18] Traduzione dell'originale:

It is the generality of Rasch's claims and his mixing up of the concepts of specific objectivity andsufficient statistics that could lead to ascribing unrealistic properties to the Rasch model. Forexample, the belief is widespread that due to the presence of sufficient statistics, conditionalmaximum likelihood estimation in the Rasch model allows estimation of the same ability parametersfrom different samples of test items. This statement is statistically too simple to be true.

[19] Per esempio: Wood ha mostrato come si possano rendere conformi al modello di Rasch anchedati casuali in Wood R., Fitting ther Rasch model: a heady tale. British Journal of Mathematical andStatisticalPsychology, 31, pp. 27-32, 1978; Goldstein e Blinkhorn hanno criticato le procedureutilizzate per l'analisi di adeguatezza del modello di Rasch in Goldstein H., Blinkhorn S. The Raschmodel still does not fit, British educational research journal, Vol. 8, n. 2, pp. 167-1701982

[20] Cfr. per esempio, W. Fisher, The Rasch debate, in ed. M. Wilson (ed.), Objective Measurement,theory into practice, vol. 2, Ablex Publishing Corporation, Norwood, New Jersey, 1994, pp. 36-73,Goldstein, H. Dimensionality, bias, independence and measurement scale problems in latent trait testscore models. British Journal of Mathematical and Statistical Psychology, 1980 33: 234-246.

[21] W. Fisher, The Rasch debate.

[22] E. Rogora, Valutare e scegliere, il ruolo della matematica, Lettera matematica PRISTEM, 87 (4), pp.4-7. Disponible on line, http://matematica.unibocconi.it/sites/default/files/LM87_Rogora.pdf.

[23] In realtà la situazione in cui ci troviamo è ancora più intricata in quanto non è affatto chiaro chela proprietà che ci interessa sia definibile, unodimensionale e misurabile. Cfr. la discussionenell'intervista citata di Giorgio Israel.

Copyright :

All this contents are published under Creative Commons Attribution-NonCommercial-ShareAlike2.5 Generic License.for reproduced, please specify from this website ROARS AND give the URL.Article link:http://www.roars.it/online/?p=37800

Powered by TCPDF (www.tcpdf.org)

page 15 / 15