120
1 Skript zur Vorlesung “Theorien psychometrischer Tests II“ WS 2009/2010 [transkribiert im SS 2010] Dozent: Norman Rose, abgekürzt als NR Ein Skript von Clemens Lechner und Moritz Niehaus Inhaltsverzeichnis: 1. Vorlesung vom 19.10.2009: Einführungssitzung .............................................................. 5 Einordnung..................................................................................................................................... 5 Rückblick ....................................................................................................................................... 5 Inhalte der Vorlesung „Theorien psychometrischer Tests I“.............................................................................. 5 Datenbeispiele ................................................................................................................................ 5 Datenbeispiel I mit metrischen Testwertvariablen Yi ....................................................................................... 5 Datenbeispiel II mit dichotomen Testwertvariablen Yi ..................................................................................... 6 Datenbeispiel III ....................................................................................................................................... 7 Zusammenfassung: Regression und probabilistische Testtheorie .......................................................... 8 2. Vorlesung vom 26.10.2009: Einführung in das Rasch-Modell ........................................... 8 Zusammenfassung der letzten Sitzung .............................................................................................. 8 Probleme linearer Zusammenhangsmaße ...................................................................................................... 8 Exkurs: Logistische Regression ......................................................................................................... 9 Regressionen bei dichotomen Items ............................................................................................................. 9 Definitionen der logistischen Regression ....................................................................................................... 9 Zwei Annahmen der Generalisierten Linearen Modelle ..................................................................................... 9 Begrifflichkeiten der logistischen Regression.................................................................................................10 Einführung in die Item Response Theorie: „Das Rasch-Modell“ ............................................................11 Hintergrund des Rasch-Modells...................................................................................................................11 Datenmatrix im Rasch-Modell .....................................................................................................................12 Modellgleichung des Rasch-Modells .............................................................................................................13 Graphische Darstellung des Rasch-Modells ...................................................................................................14 Details zur Bedeutung der Modellparameter .................................................................................................15 3. Vorlesung vom 02.11.2009: Vertiefung des Rasch-Modells ............................................ 16 Zusammenfassung der letzten Sitzung .............................................................................................16 Logistische Regression ..............................................................................................................................16 Rasch-Modell ...........................................................................................................................................16 Vertiefung des Rasch-Modells ..........................................................................................................17 Eindeutigkeit ...........................................................................................................................................17 Zulässige Transformationen .......................................................................................................................18 Bedeutsamkeit .........................................................................................................................................18 Normierung .............................................................................................................................................18 Exkurs: Rechenregeln ...............................................................................................................................18 Schätzbarkeit ..........................................................................................................................................19 Testbarkeit ..............................................................................................................................................22 Software zur Berechnung der Modellparameter des Rasch-Modells ......................................................23 WINMIRA ................................................................................................................................................23 Ausblick auf die nächste Sitzung .................................................................................................................23 4. Vorlesung vom 16.11.2009: Anwendungsbeispiel: Rasch-Modell & Maximum-Likelihood- Parameterschätzung .......................................................................................................... 24

Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

  • Upload
    leliem

  • View
    226

  • Download
    2

Embed Size (px)

Citation preview

Page 1: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

1

Skript zur Vorlesung “Theorien psychometrischer Tests II“

WS 2009/2010 [transkribiert im SS 2010]

Dozent: Norman Rose, abgekürzt als NR

Ein Skript von Clemens Lechner und Moritz Niehaus

Inhaltsverzeichnis:

1. Vorlesung vom 19.10.2009: Einführungssitzung .............................................................. 5 Einordnung..................................................................................................................................... 5 Rückblick ....................................................................................................................................... 5

Inhalte der Vorlesung „Theorien psychometrischer Tests I“.............................................................................. 5 Datenbeispiele................................................................................................................................ 5

Datenbeispiel I mit metrischen Testwertvariablen Yi ....................................................................................... 5 Datenbeispiel II mit dichotomen Testwertvariablen Yi ..................................................................................... 6 Datenbeispiel III ....................................................................................................................................... 7

Zusammenfassung: Regression und probabilistische Testtheorie.......................................................... 8

2. Vorlesung vom 26.10.2009: Einführung in das Rasch-Modell ........................................... 8 Zusammenfassung der letzten Sitzung.............................................................................................. 8

Probleme linearer Zusammenhangsmaße...................................................................................................... 8 Exkurs: Logistische Regression......................................................................................................... 9

Regressionen bei dichotomen Items ............................................................................................................. 9 Definitionen der logistischen Regression ....................................................................................................... 9 Zwei Annahmen der Generalisierten Linearen Modelle..................................................................................... 9 Begrifflichkeiten der logistischen Regression.................................................................................................10

Einführung in die Item Response Theorie: „Das Rasch-Modell“............................................................11 Hintergrund des Rasch-Modells...................................................................................................................11 Datenmatrix im Rasch-Modell.....................................................................................................................12 Modellgleichung des Rasch-Modells .............................................................................................................13 Graphische Darstellung des Rasch-Modells ...................................................................................................14 Details zur Bedeutung der Modellparameter .................................................................................................15

3. Vorlesung vom 02.11.2009: Vertiefung des Rasch-Modells ............................................ 16 Zusammenfassung der letzten Sitzung.............................................................................................16

Logistische Regression ..............................................................................................................................16 Rasch-Modell ...........................................................................................................................................16

Vertiefung des Rasch-Modells..........................................................................................................17 Eindeutigkeit ...........................................................................................................................................17 Zulässige Transformationen .......................................................................................................................18 Bedeutsamkeit.........................................................................................................................................18 Normierung .............................................................................................................................................18 Exkurs: Rechenregeln ...............................................................................................................................18 Schätzbarkeit ..........................................................................................................................................19 Testbarkeit..............................................................................................................................................22

Software zur Berechnung der Modellparameter des Rasch-Modells ......................................................23 WINMIRA ................................................................................................................................................23 Ausblick auf die nächste Sitzung.................................................................................................................23

4. Vorlesung vom 16.11.2009: Anwendungsbeispiel: Rasch-Modell & Maximum-Likelihood-Parameterschätzung .......................................................................................................... 24

Page 2: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

2

Zusammenfassung der letzten Sitzung.............................................................................................24 Kernaussage der letzten Sitzung.................................................................................................................24 Zentrale Begriffe ......................................................................................................................................24

Anwendung des Rasch-Modells mit WINMIRA....................................................................................25 Allgemeine Informationen..........................................................................................................................25 Datenbeispiel in WINMIRA .........................................................................................................................25 Erste Schritte in der Software ....................................................................................................................26 Lesen und Interpretation des Output ...........................................................................................................26 Prinzip der Maximum-Likelihood-Schätzung in WINMIRA ................................................................................27

5. Vorlesung vom 23.11.2009: Standardfehler & Reliabilität in der IRT.............................. 29 Prinzip der Maximum-Likelihood-Schätzung in WINMIRA [Fortsetzung].............................................................29

Zusammenfassung der letzten Sitzung.............................................................................................30 Standardfehler und Reliabilität in der IRT .........................................................................................30

Reliabilität: KTT vs. IRT.............................................................................................................................31 Genauigkeit der Parameterschätzung: Rasch-Modell ......................................................................................31 Darstellung in Rabix .................................................................................................................................33 Itemparameter und deren Standardfehler ....................................................................................................33 Itemparameter in verschiedenen Subpopulationen ........................................................................................34 Item- & Personenparameter.......................................................................................................................35 Reliabilität: KTT vs. IRT.............................................................................................................................36

6. Vorlesung vom 30.11.2009: Modellgeltungskontrolle (Rasch-Modell) ............................ 38 Zusammenfassung der letzten Sitzung.............................................................................................38

Reliabilität in der IRT vs. KTT .....................................................................................................................38 Iteminformationsfunktion und Testinformationsfunktion .................................................................................39 Andrich‘s Reliabilität .................................................................................................................................39

Modellgeltungskontrolle ..................................................................................................................40 Ausgangspunkt ........................................................................................................................................40 Testbarkeit des Rasch-Modells....................................................................................................................41 Arten der Modellgeltungskontrolle...............................................................................................................41 (1) Graphische Modellgeltungskontrolle .......................................................................................................41 (2) Likelihoodquotienten-Test.....................................................................................................................43

7. Vorlesung vom 07.12.2009: Modellgeltungskontrolle und Itemfitmaße im Rasch-Modell46 Zusammenfassung der letzten Sitzung.............................................................................................46

Modellgeltungskontrolle.............................................................................................................................46 (2) Likelihoodquotienten-Test (Fortsetzung) .....................................................................................46

Likelihood-Ratio-Test ................................................................................................................................46 Prüfgröße: Pearson χ2-Test ........................................................................................................................47 Bootstrap-Verfahren .................................................................................................................................48 WINMIRA-Output zu Bootstrap ...................................................................................................................50 Weitere Tests für Rasch-Modelle .................................................................................................................51 Zusammenfassung der Folien zur 6. Sitzung.................................................................................................52

Itemfitmaße ..................................................................................................................................52 Unterscheidung von Itemfitmaßen ..............................................................................................................53 Q-Index ..................................................................................................................................................53 Beispiel zum Q-Index................................................................................................................................55

8. Vorlesung vom 14.12.2009: Personenfitmaße und Zusammenfassung - Rasch-Model.... 55 Zusammenfassung der letzten Sitzung.............................................................................................55

Itemfitmaße ............................................................................................................................................55 Vertiefung zu Itemfitmaßen ............................................................................................................56

Details zum Q-Index .................................................................................................................................56 Personenfitmaße ......................................................................................................................................58

9. Vorlesung vom 04.01.2010: Das 2-parametrische logistische Modell nach Birnbaum..... 59 Zusammenfassung zum Rasch-Modell ..............................................................................................59

Was man zum Rasch-Modell wissen sollte ....................................................................................................60 Vom Rasch-Modell zum 2PL-Modell .............................................................................................................60

Page 3: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

3

2PL-Modell nach Birnbaum..............................................................................................................61 Modellgleichung des 2PL-Modells ................................................................................................................61 Itemcharakteristische Funktion...................................................................................................................61 Abgrenzung zum Rasch-Modell ...................................................................................................................61 Modellannahmen......................................................................................................................................61 Logits .....................................................................................................................................................62 Iteminformationsfunktion ..........................................................................................................................62 Maximum Likelihood Schätzung..................................................................................................................63 Marginal Maximum Likelihood-Schätzung (MML) ...........................................................................................65

Berechnung von 2PL-Modellen in Mplus ............................................................................................66 Modellspezifikation in Mplus .......................................................................................................................66 Output in Mplus .......................................................................................................................................67

10. Vorlesung vom 11.01.2010: Das 3-parametrische Logistische Modell nach Birnbaum & Linkfunktionen ................................................................................................................... 68

Zusammenfassung der letzten Sitzung.............................................................................................68 Das 2PL-Modell ........................................................................................................................................68

3-parametrisches Modell nach Birnbaum ..........................................................................................69 Einführung ..............................................................................................................................................69 Die Modellgleichung des 3PL-Modells ...........................................................................................................70 Varianzfunktion, Item- und Testinformationsfunktion.....................................................................................73

Linkfunktionen...............................................................................................................................74 Ausgangspunkt ........................................................................................................................................74 Logistische Funktion als Linkfunktion...........................................................................................................74 Weitere Linkfunktionen .............................................................................................................................76

11. Vorlesung vom 18.01.2010: Strukturgleichungsmodelle für geordnete kategoriale Variablen ............................................................................................................................ 78

Zusammenfassung der letzten Sitzung.............................................................................................78 3 PL-Modell .............................................................................................................................................78 Linkfunktionen .........................................................................................................................................79

Linkfunktionen: Fortsetzung............................................................................................................80 Zur Abbildung aus der letzten Sitzung .........................................................................................................80 Verwendung alternativer Linkfunktionen (als den Logit) .................................................................................80 Linkfunktion und Responsefunktion .............................................................................................................82 Zusatz ....................................................................................................................................................82

Modellgeltungskontrolle bei 2PL-Modellen .........................................................................................82 Strukturgleichungsmodelle für geordnete kategoriale Variablen.......................................................................83 Umsetzung in Mplus .................................................................................................................................87 Anwendung in Mplus.................................................................................................................................88

12. Vorlesung vom 25.01.2010: IRT-Modelle für polytome Variablen (Partial Credit Model)........................................................................................................................................... 91

Zusammenfassung der letzten Sitzung.............................................................................................91 SEM für kategoriale Variablen als Test des 2PL-Modells ..................................................................................91

Strukturgleichungsmodelle für geordnete kategoriale Variablen (Fortsetzung) ......................................91 Varianz-Kovarianzmatrix und Schätzfunktionen.............................................................................................91 Vertiefung zu den Annahmen des SEM-Modells für das 2PL-Modell ...................................................................91 Umrechnung der Modellparameter ..............................................................................................................92 Spezifikation eines Strukturgleichungsmodells in Mplus..................................................................................93

IRT-Modelle für polytome Variablen .................................................................................................94 Agenda...................................................................................................................................................94 Kategorien- vs. Schwellenwahrscheinlichkeiten .............................................................................................94 Das Partial-Credit-Modell (PCM)..................................................................................................................95

13. Vorlesung vom 01. Februar 2010: IRT Modelle für polytome Variablen II (PCM, GPCM & GRM) und die Frage: Was ist "C"?...................................................................................... 99

Zusammenfassung der letzten Sitzung.............................................................................................99 Das Problem der Skalierung.......................................................................................................................99

Page 4: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

4

Kategorienwahrscheinlichkeiten..................................................................................................................99 Schwellenwahrscheinlichkeit ......................................................................................................................99 Kategorienwahrscheinlichkeiten................................................................................................................100 Modellgleichung des Partial Credit Modells..................................................................................................100

Partial-Credit-Modell (Fortsetzung) ................................................................................................100 Ist die Modellgleichung des Partial Credit Modells eine Regression?................................................................100 Modellidentifikation.................................................................................................................................100

Exkurs: Was ist C? .......................................................................................................................101 Anwendung des PCM in WINMIRA ..................................................................................................101

WINMIRA-Output ...................................................................................................................................101 Unterscheidungen des PCM zum Rasch-Modell ............................................................................................103

Generalized Partial Credit Model (GPCM) ........................................................................................103 Itemdiskriminationen ..............................................................................................................................104 Fazit zum GPCM.....................................................................................................................................104

Graded Response Model (GRM) .....................................................................................................104 Formales Modell .....................................................................................................................................105 Operation Characteristic Curves (OCC) ......................................................................................................105 Berechnung der Kategorienwahrscheinlichkeit ............................................................................................105 Schwellenwahrscheinlichkeiten .................................................................................................................106 Kategorienwahrscheinlichkeiten................................................................................................................106

Artefakt: Problem von PCM und GPCM............................................................................................107

14. Vorlesung vom 08.02.2010: Zusammenfassung der Vorlesung: Theorien Psychometrischer Tests II................................................................................................ 107

Zusammenfassung der letzten Sitzung...........................................................................................108 Das Graded Response Model ....................................................................................................................108

Umsetzung eines GRM in Mplus .....................................................................................................108 Lesen des Outputs..................................................................................................................................108 Strukturgleichungsmodell zum Modelltest ..................................................................................................109

Semesterüberblick .......................................................................................................................110 Einführung ............................................................................................................................................110 GLM – Logistische Regression...................................................................................................................110 Rasch-Modell .........................................................................................................................................111 Anwendung des Rasch-Modells [Folie] .......................................................................................................113 Maximum Likelihood Schätzung (ML-Schätzung) .........................................................................................113 Standardfehler und Reliablilität in der IRT ..................................................................................................113 Modellgeltungskontrolle im Rasch-Modell ...................................................................................................115 2PL-Modell nach Birnbaum.......................................................................................................................115 3PL-Modell nach Birnbaum.......................................................................................................................116 Linkfunktionen [Folie] .............................................................................................................................116 SEM für geordnete kategoriale Variablen [Folie]..........................................................................................117 IRT-Modelle für mehrkategoriale manifeste Variablen [Folie].........................................................................118 Abschließender Überblick.........................................................................................................................119

Allgemeine Anmerkungen zur Prüfung aus verschiedenen Sitzungen............................... 120 Aus 1. Sitzung vom 19.10.2009 ....................................................................................................120 Aus 4. Sitzung vom 16.11.2009 ....................................................................................................120 Aus 5. Sitzung vom 23.11.2009 ....................................................................................................120 Aus 14. Sitzung vom 08.02.2010...................................................................................................120

Page 5: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

5

M

1. Vorlesung vom 19.10.2009: Einführungssitzung

Einordnung

Literatur

- Es gibt „kein wirklich gutes Lehrbuch“ zum Thema, das v.a. Item-Response-Theorie sein wird.

o In den einzelnen Sitzungen werden jeweils detaillierte Literaturangaben gemacht.

- 1.) Für den ersten Teil dieser Vorlesung „Rasch“-Theorie kann man aus dem Buch „Messen und Testen“ von Prof. Steyer die Kapitel 16 und 17, eventuell auch 18, lesen.

- 2.) Rost, J. (1996). Lehrbuch Testtheorie, Testkonstruktion: Kapitel 3.1-3.3, 4 und 5

o Eigentlich gut und verständlich, aber komplett andere Notation als in dieser VL und deshalb problematisch.

- 3.) Embretson, S. & Reise, S. (2000). Item Response Theory for Psychologists: Kapitel 4-9

o Englisch, leicht verständlich.

- Anmerkung: Auf der Website zur Lehrveranstaltung steht eine ausführliche Literaturliste für jedes Unterthema der Vorlesung („Literatur zur Vorlesung_WS09_10.pdf“).

Rückblick

Inhalte der Vorlesung „Theorien psychometrischer Tests I“

Begriffe der klassischen Testtheorie (KTT)

- True-Score-Variable

o Der True Score ist – wie auch viele andere Variablen – als Regression definiert: E(Y|U) - Messfehler

o Die KTT wird teilweise auch als „Messfehlertheorie“ bezeichnet, weil aus der Definition der True-Score-Variable hervor-geht, dass es einen Messfehler gibt.

- Modelle der KTT: Ausgehend auf der Zerlegung in True-Score und Messfehler bauen alle Modelle auf…

o Modell paralleler Tests

o Modell essentiell-τ-äquivalenter Tests

o Modell τ-kongenerischer Tests

- Reliabilität: Verschiedene Reliablitätsmaße für Summenscores (Spearman-Brown-Formel, Cronbach’s α)

- Begriffe & Modelle der Latent State Trait Theory (LST)

o Latent-State-Variable ist definiert als E(Y|U,St) o Latent-Trait-Variable ist definiert als E(Y|U)

- Modelle unter Berücksichtigung methodenspezifischer Effekte (Methodenfaktoren)

Datenbeispiele

Datenbeispiel I mit metrischen Testwertvariablen Yi

- [Die Datei mit den findet sich auf der Website und ist von M auch heruntergeladen: „Daten_V1.zip“]

- τ-kongenerisches Modell: Siehe Abb. rechts

- Die Zusammenhänge der manifesten Variablen untereinander sind in diesem Beispiel durch lineare Regressionen beschreibbar, d.h. sie sind korrelativ abhängig.

o Dies gilt auch für die regressive Abhängigkeit der manifesten Variablen Y1 bis Y7 und der latenten Variable ξ.

- Diese korrelative Abhängigkeit ist bedeutsam, weil man dadurch folgende Gleichung aufstellen kann:

- Yi = νI + λi* ξ + ε

o Die Regressionsgleichung ist dann: E(Yi | ξ)

Page 6: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

6

Sprachregelung

- Festlegung für alle folgenden Sitzungen: Die Ausprägung 0 nennen wir normalerweise „nicht gelöst“ und 1 „gelöst“, weil es meist um entsprechende Aufgaben in (Intelligenz-) Tests geht.

- Die Fähigkeit ξ könnte in diesem Beispiel die „numerische Intelligenz“ sein.

Datenbeispiel II mit dichotomen Testwertvariablen Yi

- [Ab Folie 11]

- Die Datengrundlage ist eine Korrelationsmatrix, weil wir – auch im Beispiel II – lineare Zusammenhänge annehmen.

Darstellung als Streudiagramm

- Ein Streudiagramm für nur zwei dichotome Variablen hat wenig Aussagekraft, weil immer genau 4 Punkte auftauchen. Durch Techniken wie unterschiedlich große Sonnenblumen erlangt die Grafik mehr Aussagekraft (siehe Abb. unten)

o In der obenstehenden Abbildung zeigt die Dicke der grauen Linie an, wie stark die Korrelation ist.

Korrelation und Lösungswahrscheinlichkeit

- Wenn es einen deterministischen Zusammenhang zwischen der manifesten Variable Yi und latenten Variable ξ gibt, ist…

o der Messfehler 0

o die Korrelation zwischen Y und ξ 1

o die Korrelation von zwei manifesten Variablen Kor(Y1 , Y2) 1

Dies kann man ausrechnen über die Kovarianzen: Cov(α1+λI* ξ + ε , α2+λI

* ξ + ε)

- Wir nehmen nun einen solchen deterministischen Zusammenhang an, d.h. es gibt keinen Messfehler. Zudem seien die mani-festen Variablen Y1 und Y2 dichotom.

o Die latente Variable ξ sei die Rechenfähigkeit der Personen. Die manifesten Variablen mit ihren Ausprägungen 0 und 1 beschreiben, ob das Item (Y1 oder Y2) gelöst wurde. Ab einer gewissen Fähigkeit, werden die Items gelöst.

Dabei können die Items gleich schwierig sein, d.h. sie werden – je nach Fähigkeit – beide gelöst oder beide nicht ge-löst. Dann korrelieren beide manifeste Variablen zu 1.

Sie können aber auch unterschiedlich schwierig sein. Dann ist die Korrelation (Y1 , Y2) kleiner als 1. Je unterschiedli-cher der Schwierigkeitsgrad der Items ist, desto mehr weicht sie von 1 ab.

Tetrachorische Korrelation

- Es gibt nicht nur die Pearson-Korrelation, die wir üblicherweise betrachten. Betrachtet man beispielsweise die Tetrachori-sche Korrelation sind die Koeffizienten größer.

o Die tetrachorische Korrelation ist ein Maß zur Beschreibung der korrelativen Abhängigkeit zwischen zwei künstlich dicho-tomisierten (ursprünglich normalverteilten metrischen) Variablen.

- Sinn dieser Ausführung: Wenn man dichotome Variablen hat, ist es problematisch, den Zusammenhang mit linearen Maßen zu beschreiben.

- Zusatz: Wichtig für die Prüfung: „Ein Erwartungswert ist eine gewichtete Summe der Werte einer Variablen, gewichtet mit deren Auftretenswahrscheinlichkeit.“

Page 7: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

7

Exkurs

- Für dichotome Variablen gilt: E(Yi| ξ) = P(Yi=1| ξ) o Damit weiß man, dass der Bereich für die Regression zwischen 0 und 1 liegt, weil Wahrscheinlichkeiten nur entsprechen-

de Werte annehmen können.

- Das Ganze noch mal von der Folie:

o

- Es ergeben sich jedoch bei diesen dichotomen Variablen Bereiche der latenten Variable ξ , die nicht mehr definiert sind.

o [Nachträglicher Zusatz von MN: Dies zeigt auch die folgende Folie: Für eine Lösungswahrscheinlichkeit von 1 beträgt ξ=1,67 ; für eine Lösungswahrscheinlichkeit von 0 ξ=-1,26 . Das sind aber nicht alle möglichen Werte von ξ , das – wie die nächste Abbildung (Folie 22) zeigt, auch größere bzw. kleinere Wer-te annehmen kann. In diesen Bereichen wäre die Wahrscheinlichkeit dann aber kleiner als 0 oder größer als 1.]

- Zur untenstehenden Abbildung (Folie 22): Dabei steht ξ auf der x-Achse, die y-Achse ist die Wahrscheinlichkeit.

o

Datenbeispiel III

- Sei X ein metrischer Regressor und Y eine dichotome abhängige Variable. Es gilt: E(Y|X) = P (Yi=1|a<x≤b) - Der kontinuierliche Prädiktor X könnte z.B. die mathematische Fähigkeit sein. Je größer diese ist, desto höher ist die Lö-

sungswahrscheinlichkeit für die Aufgabe Y.

Page 8: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

8

- Diese ansteigende Kurve könnte man durch eine logistische Regression ausdrücken. Für das Datenbeispiel III ergibt sich folgende mit Mplus berechnete Gleichung:

o o Rot ist die berechnete logistische Funktion, blau die tatsächlichen Daten.

Zusammenfassung: Regression und probabilistische Testtheorie

- Bisher haben wir immer lineare Abhängigkeiten betrachtet, d.h. lineare Regressionen.

o Auf Modellebene: Klassische Testtheorie

- Aber: Bei dichotomen abhängigen Variablen (z.B. „gelöst“ vs. “nicht gelöst“) ist die regressive Abhängigkeit zwischen einem Regressor und dem Regressand zumeist nicht linear.

- Korrelationskoeffizienten zur Beschreibung linearer regressiver Abhängigkeiten (Kovarianz und Pearson-Korrelation) sind bei dichotomen Variablen von der Randverteilung („Lösungswahrscheinlichkeit“) abhängig.

- Jetzt betrachten wir auch nicht-lineare Abhängigkeiten, weil Modelle, die lineare Abhängigkeiten zu Grunde legen (z.B. Messmodelle der KTT), für unsere Zwecke nicht mehr geeignet sind, weil unsere Items dichotom sind. Hierfür verwenden wir logistische Regressionen.

o Auf Modellebene: Item-Response-Theorie

- Die folgende Tabelle stellt dies dar:

o C

2. Vorlesung vom 26.10.2009: Einführung in das Rasch-Modell

Zusammenfassung der letzten Sitzung

Probleme linearer Zusammenhangsmaße

- In der letzten Sitzung wurde herausgearbeitet, dass den Modellen der klassischen Testtheorie allesamt lineare Regressionen zugrunde liegen. Die Parameterschätzung beruht auf Varianz-Kovarianz-Matrizen.

Page 9: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

9

- Bei dichotomen manifesten Variablen Yi sind die Werte der Regression E(Yi | ξ) die bedingten Wahrscheinlichkeiten P(Yi = 1| ξ = ξ(u)). o Der Definitionsbereich der Regression E(Yi | ξ) ist folglich auf das Intervall [0,1] beschränkt (Axiome von Kolmogorov).

- Die Verwendung linear parametrisierter Regressionen E(Yi | ξ) bei dichotomen manifesten Variablen Yi führt aber zu nicht definierten Werten der Regression.

o Folglich sind Modelle der klassischen Testtheorie, insofern sie auf linearen Zusammenhangsmaßen beruhen, bei dichoto-men manifesten Variablen Yi ungeeignet.

Eine kurz besprochene Lösungsmöglichkeit ist die logistische Regression, deren Grundlagen im Folgenden bespro-chen werden sollen.

Exkurs: Logistische Regression

Regressionen bei dichotomen Items

- Bereits besprochen wurde die Regression bei dichotomen Items:

o Bei dichotomen Variablen Y ist die Regression E(Y|ξ) gleich der bedingten Kategorienwahrscheinlichkeit für Y = 1 gegeben

ξ.

o In der einfachen logistischen Regression wird, anders als hier, auf eine manifeste Variable regrediert.

Definitionen der logistischen Regression

- Die logistische Regression gehört zu den Generalisierten Linearen Modellen (GLM).

o Anwendung bei nicht normalverteilten und/oder nicht metrischen abhängigen Variablen

o gestattet die Modellierung bestimmter nicht-linearer regressiver Abhängigkeiten

Beispiele: Poisson-Regression, Negativ-Binomiale Regression, Logistische Regression, …

Warum benötigt man generalisierte lineare Modelle?

- In den Klammern der obigen Definition steht ein „lineares Glied“ α0 + α1 X , das bereits aus einfachen Regressionen bekannt

ist. Dieses wird im Zähler allerdings noch mit einer Exponentialfunktion exp versehen, wozu im Nenner noch 1 addiert wird.

- Lineare Schätzmodelle haben oft die Annahme, dass der Fehler normalverteilt sei. Bei dichotomen Items ist dies nicht unbe-dingt der Fall. Stattdessen hat man an jeder Stelle von X eine bedingte Binomialverteilung (dies spiegelt die Lösungs-wahrscheinlichkeit des Items gegeben die Ausprägung des Regressors wieder).

o Würde man hier in einem Schätzmodell eine Normalverteilung annehmen, so würde dies zu Fehlern in der Parameterschätzung führen.

Generalisierte Lineare Modelle benötigt man also immer dann, wenn die abhängige Variable gegeben dem Regressor nicht normalverteilt ist, also z.B. bei dichotomen Items.

Zwei Annahmen der Generalisierten Linearen Modelle

- GLM machen folgende beide Annahmen:

o (1) Verteilungsannahme

o (2) Strukturannahme

(1) Verteilungsannahme

- Die bedingte Verteilung des Regressanden Y gegeben des Regressors X lässt sich durch eine bekannte Verteilung beschrei-ben (Binomialverteilung, Poisson-Verteilung, …).

o Beispiel: Je mehr man lernt, desto wahrscheinlicher ist es, dass man eine Prüfung besteht. So resultiert an jeder Stelle des Prädiktors X, der den Lernaufwand wiedergibt, eine unterschiedliche bedingte Verteilung der Werte von Y (0 oder 1, das heißt Bestehen oder Nichtbestehen).

Page 10: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

10

- Die bedingte Verteilung des Regressanden Y gegeben der Regressor X ist binomialverteilt, mit:

(2) Strukturannahme

- Die Werte der Regression E(Y | X) sind durch eine Responsefunktion h bzw. Linkfunktion g=h-1 mit einer linearen Funktion des Regressors X oder einer Linearkombination der Regressoren X, …, X verknüpft.

o Die Regression ist also eine Funktion des linearen Glieds, die aber selbst nicht linear sein muss: die Responsefunktion.

Dabei hat man die Wahl zwischen verschiedenen Funktionen. Dies wird im Laufe der Vorlesung noch genauer erklärt werden. In der Regel verwendet man für die Linkfunktionen integrierte Funktionen, d.h. kumulierte Verteilungsfunkti-onen bzw. Dichtefunktionen.

• In SPSS kann man zwischen Probit- und Logit-Funktionen wählen. Unterschiedliche Funktionen führen zu unterschiedlichen Parameterschätzungen, die aber die gleichen statistischen Eigenschaften haben.

o Man kann auch den umgekehrten Weg gehen und nach dem linearen Glied auflösen. Dazu verwendet man die Linkfunkti-on g. Dabei erhält man den Logit, der linear in X ist.

- Die Responsefunktion h ist die logistische Verteilungsfunktion:

- Die Linkfunktion g ist der Logit:

o Die Linkfunktion, d.h. der Logit, ist also, wie erwähnt, die Umkehrung der Responsefunktion.

Der Logit ist linear in X. Setzt man den Logit auf die Y-Achse, so erhält man die „vertrauten Bilder mit Regressionsge-raden“ [sic!].

Begrifflichkeiten der logistischen Regression

- Die folgenden Begrifflichkeiten bilden die zentrale Grundlage der gesamten Vorlesung:

o Zu 3.) Durch Umkehrung der unter der letzten Überschrift beschriebenen Linkfunktion g durch Exponieren (Gegenteil von

Logarithmieren) erhält man eine Odds Ratio, da im Nenner nichts anderes steht als die Gegenwahrscheinlichkeit zum Zähler.

Der Logit ist also nichts anderes als das logarithmierte Chancenverhältnis.

o Dadurch, dass man die Odds betrachet, begrenzt man den Wertebereich der abhängigen Variable auf ein Intervall von [0, 1]. Wenn man die Funktion logarithmiert, dann hat man einen Wertebereich von 0 bis unendlich, sodass man kein Problem mehr mit kontinuierlichen unabhängigen Variablen bekommt.

o Wir betrachten in der Regel bedingte Odds, bedingen aber auf eine latente Variable ξ statt auf eine manifeste.

Rückblick: Einfache logistische Regression

- In den nachfolgenden Abbildungen sind verschiedene logistische Regressionen graphisch dargestellt. Die allgemeine Modell-gleichung lautete:

Page 11: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

11

o Auf der Y-Achse stehen die Wahrscheinlichkeiten dafür, dass Y den Wert 1 annimmt gegeben X.

o Die unterschiedlichen Funktionen kommen durch unterschiedliche Intercepts und Steigungen zusammen [siehe Kasten].

- Auf der rechten Seite sieht man, was passiert, wenn man eine Logit-Linkfunktion und damit eine Transformation des Regressanden auf die Y-Achse legt: man erhält Regressionsgeraden.

o Je steiler der logistische Regressionskoeffizient, desto steiler ist die Regressionsgerade des Zusammenhangs zwischen Logit und Regressor.

Probleme der Strukturannahme

- In der Strukturannahme wird die Linearität des Logit in X angenommen. Diese Annahme kann falsch sein. Für das bekannte lineare Glied aus der Regression gilt nämlich alles, was wir aus der Regressionstheorie kennen: Man kann mehrere Prädikto-ren aufnehmen, quadratische Terme, etc. Dies ist bisweilen auch nötig: So muss es nicht immer so ein, dass die Lösungs-wahrscheinlichkeit für ein Item umso höher ist, je größer die Ausprägung des Prädiktors X ist. Stattdessen kann es etwa kur-vilineare Zusammenhänge geben.

o Man muss also auch bei logistischen Regressionen immer überprüfen, ob man das richtige Modell gewählt hat. Die nach-folgende Abbildung zeigt einen Fall, in dem sich die Daten nicht mit einer logistischen Regression beschreiben ließen, die eine einfache lineare Regression im linearen Glied annimmt:

Einführung in die Item Response Theorie: „Das Rasch-Modell“

- Das Rasch-Modell kann man sich als eine logistische Regression vorstellen, nur dass man den Prädiktor jetzt „nicht mehr sieht“.

Hintergrund des Rasch-Modells

- Das Rasch-Modell wurde begründet von dem dänischen Mathematiker und Statistiker Georg Rasch (1901 - 1980). Dieser interessierte sich für die Messung von Individuen bzgl. relevanter Merkmale.

Page 12: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

12

- Dass Personenmerkmale (latente Konstrukte) messbare quantitative Größen sind, betrachtete Rasch als prüfbare wissen-schaftliche Hypothese

- Ziel der Itemanalyse ist es also, Aussagen bzgl. Items unabhängig von den zu untersuchenden Personen zu machen

Datenmatrix im Rasch-Modell

- Ausgangspunkt der Modelle der Item Response Theorie wie auch des Rasch-Modells ist die Datenmatrix Y. Dies gilt im Grun-de auch für die KTT, nur dass in dieser Summenscores statt Einzelitems verwendet werden. Hier hingegen verwendet man wirklich Rohdaten von Einzelitems:

o Die Zeilen der Datenmatrix sind die Antwortmuster („response pattern“).

o Die Zeilensummen sind die Summenscores/Testscores der Personen.

o Die Spaltensummen sind die absoluten Häufigkeiten der Kategorie 1 für die Items Yi .

Dieser Kennwert sagt etwas über die Items aus: Fällt die Summe gering aus, so handelt es sich offensichtlich um ein schweres Item, da es von wenigen Personen gelöst wird.

Details zur Datenmatrix

- Die Zeile einer Datenmatrix enthält die Information für die Beobachtungen/Personen u1–uN (deren zu messende Eigen-schaft/Zustand).

o Auf den Summenscore wird später genauer eingegangen werden.

- Die Spalten einer Datenmatrix enthalten Informationen bzgl. der Items Y1–YM :

(Sub-) Population und unbedingter Erwartungswert als Itemschwierigkeit / Itemleichtigkeit

- Den Itemscore als Maß für die Itemschwierigkeit zu verwenden, birgt allerdings einige Nachteile. Insbesondere sind der I-temscore E(Yi) = E [E (Yi | ξ )] – sowie in der KTT alle anderen Kennwerte wie die Reliabilität – populationsabhängig. Analog sind die Fähigkeiten von Personen abhängig von der Normierungsstichprobe, d.h. wie gut jemand ist, hängt davon ab, mit wem man ihn vergleicht.

o Dies stellt laut Rasch ein großes Problem der KTT dar.

- Die nachfolgende Abbildung zeigt zwei Subpopulationen, die ganz unterschiedliche Lösungswahrscheinlichkeiten für die bei-den Items haben, weil sie unterschiedlich fähig sind.

Page 13: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

13

- Die nachfolgende Abbildung zeigt ein simuliertes Datenbeispiel mit zwei Subpopulationen.

o Der Erwartungswert von ξ ist in der Population „rot“= 0, für Population „blau“= 2 . Die Varianz ist in beiden Populationen = 1. Stichprobe N=5000 für jede Population.

o Gezeigt sind die Itemmittelwerte für die rote und blaue Population sowie die Differenz zwischen beiden Mittelwerten.

o Wie sich zeigt, sind die Populationen unterschiedlich gut. Man sieht vor allem: Unbedingte Erwartungswerte und ihre

Differenzen sind populationsabhängig!

Modellgleichung des Rasch-Modells

- Die Modellgleichung für die beiden Items aus dem Datenbeispiel von der letzten Folie lauten:

- Die Daten folgen dem Rasch-Modell, dessen allgemeine Modellgleichung lautet:

o Diese Definition ähnelt der oben besprochenen logistischen Regression.

Der Regressionskoeffizient hat immer den Wert 1 – dies ist eine Restriktion des Modells, die stimmen kann oder nicht.

Grundannahmen des Rasch-Modells

- Das Rasch-Modell macht zwei Grundannahmen:

o (1) Rasch-Homogenität

o (2) Lokale stochastische Unabhängigkeit

Page 14: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

14

o Zur Rasch-Homogenität: Nur die Differenz beschreibt, wie wahrscheinlich es ist, das Item zu lösen. Dies gilt für alle Items

eines Tests.

o Zur lokalen stochastischen Unabhängigkeit: Die Person löst ein Item nicht aufgrund dessen, was sie auf anderen Items erreicht hat. Nur die Fähigkeit ist entscheidend.

Diese Modellannahme ist zum Beispiel verletzt, wenn Reihenfolge- oder Lerneffekte auftreten.

„Lokal“ heißt diese Art der stochastischen Unabhängigkeit der manifesten Variablen Yi , weil sie für jede Stelle (lat. „locus“) von U, d.h. jeden Wert U=u, gilt.

Vergleich des Rasch-Modells mit der logistischen Regression

- In der nachfolgenden Abbildung werden die Modellgleichungen des Rasch-Modells und die der logistischen Regression gegen-übergestellt:

o Dass im Rasch-Modell der Itemdiskriminationskoeffizient αi auf 1 fixiert ist, bedeutet, dass angenommen wird, dass alle

Items gleich diskriminieren.

Graphische Darstellung des Rasch-Modells

- Die nachfolgende Abbildung zeigt itemcharakteristische Kurven (ICC). Diese sind die Funktionen der Lösungswahrschein-lichkeiten von Items.

o Je weiter links die Kurve verläuft, desto leichter das Item und desto höher die Lösungswahrscheinlichkeit für ein gegebe-nes ξ .

- Daraus erhellt, warum das Rasch-Modell (a) subtraktiv parametrisiert wird und warum (b) das β die Itemschwierigkeit

bezeichnet:

o (a) Je höher die Itemschwierigkeit β, desto schwieriger ist es, das Item zu lösen.

Page 15: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

15

Bei einer additiven Parametrisierung erhielte man die „Itemleichtigkeit“.

o (b) Die Lösungswahrscheinlichkeit eines Items beträgt genau 50%, wenn Personenfähigkeiten und Itemschwierigkeit gleich sind.

Dies lässt sich aus dem Zähler der Modellgleichung ableiten: Der Inhalt der Klammer wird 0, wenn β=ξ ist. Dann wird der gesamte Zähler eins, da exp (0) = 1 . Der Zähler ergibt 1+1, also 2, sodass 1/2 = 0.5 resultiert.

Parallelität von Logit und ICC

- Statt der Lösungswahrscheinlichkeit kann man, wie bereits besprochen, auch den Logit auf die Y-Achse legen. Logits und Itemcharakteristiken verlaufen im Rasch-Modell, wie die nächste Abbildung zeigt, jeweils beide parallel!

o Bezüglich der Logits gilt das Modell essentiell τ–äquivalenter Variablen

o Logits verlaufen parallel und sind um die Konstante βi verschoben.

o ICC verlaufen ebenfalls parallel in dem Sinne, dass der Abstand der ICC für jede Lösungswahrscheinlichkeit P (Yi = 1 | ξ) identisch ist mit dem Betrag der Differenz der Itemschwierigkeiten: |βi -βj|

Details zur Bedeutung der Modellparameter

Itemschwierigkeit

- Die Itemschwierigkeit βi ist gleich der Ausprägung [auf Folie: „Lokation“] von ξ , an der die Lösungswahrscheinlichkeit des Items P(Yi = 1 | ξ) = 0.5 beträgt

o Dies bedeutet, dass Kennwerte, welche die Items charakterisieren, auf derselben Ebene liegen wie die latente Personen-variable. Itemparameter und Personenparameter liegen auf der gleichen Metrik βi sind Lokationen auf der Skala ξ . Dies ist einer der wesentlichen Vorteile des Modells, weil man dadurch erreicht, dass die Parameter (anders als die

Summenscores der KTT) populationsunabhängig sind.

- Die Itemschwierigkeit ist der Wert von ξ , an der die erste Ableitung den maximalen Wert annimmt „steilste“ Anstieg

- Die Itemschwierigkeit ist der Wendepunkt der Itemcharakteristischen Funktion

- Verschiedene Items diskriminieren aber trotzdem unterschiedlich gut zwischen Personen. In der nachfolgenden Abbildung zeigt sich dies in unterschiedlich großen Abständen auf der Y-Achse, genauer: in unterschiedlich großen Abständen in den Lösungswahrscheinlichkeiten von je zwei Personen im selben Test für zwei verschiedene Tests bei gleichem Abstand im Fä-higkeitsniveau der Personen von zwei Einheiten [es handelt sich mutmaßlich um einen Test, nicht um zwei].

o In diesem Falle würde man das Personenpaar mit der niedrigeren Fähigkeitsausprägung (links auf der X-Achse) weniger

gut messen als jenes mit der höheren [unklar, ob korrekt]. Anders ausgedrückt: der Unterschied in der Lösungswahr-

Page 16: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

16

scheinlichkeit ist für das höher fähige Personenpaar in diesem Test größer als für das niedriger fähige, obwohl die beiden Personen voneinander je gleich weit entfernt sind.

- Beispiel: Wenn man wissen will, wer der beste Hochspringer ist, dann sollte man den Springern keine zu niedrige Latte ge-ben, da diese alle überspringen können. Vielmehr hängt man die Latte auf eine Höhe in einen Bereich, in dem die maximale Fähigkeit jeder Person liegt.

o Gleiches gilt für jede Art von Leistungstest.

Personenparameter

- Der Personenparameter ist eine latente Variable, die sich hinreichend mit wahrscheinlichkeitstheoretischen Begriffen be-schreiben lässt:

o Die latente Variable ξ ist zunächst nichts anderes als der Logit plus eine Itemkonstante. Es handelt sich also um eine

Funktion der Werte der Regression.

Was hinter einer auf diese Weise definierten Variable steht, unterscheidet sich dann in jeder Anwendung.

M

3. Vorlesung vom 02.11.2009: Vertiefung des Rasch-Modells

Zusammenfassung der letzten Sitzung

[Folie 2]

Logistische Regression

- In der ersten Hälfte der letzten Sitzung haben wir uns logistische Regressionen als Beispiel für generalisierte lineare Modelle (GLM) angeschaut.

o GLM zeichnen sich durch eine Verteilungs- und Strukturannahme aus.

o Wir haben aber nur den speziellen Fall der logistischen Regressionen betrachtet.

Dabei ist (1) der Regressand bedingt binomial verteilt (Verteilungsannahme).

Strukturannahme: Außerdem gibt es bei logistischen Regressionen das lineare Glied, d.h. die transformierten Werte der Regression sind linear. Daher kommt der Name „generalisierte lineare Modelle“, auch wenn man damit nicht-lineare Zusammenhänge darstellen kann.

- Die Linkfunktion ist in der logistischen Regression die kumulierte Verteilungsfunktion, die man verwendet, um Zusammen-hänge zwischen metrischen Variablen und dichotomen abhängigen Variablen zu modellieren.

- Wir haben logistische Regressionen verwandt, weil die abhängige Variable dichotom war. Bei mehreren dichotomen AVs hat man ein Set von logistischen Regressionen, das am einfachsten durch das Rasch-Modell beschrieben werden kann.

Rasch-Modell

- Restriktion des Modells: Der logistische Regressionskoeffizient ist für alle Items auf 1 fixiert.

- Auf Ebene der Logits handelt es sich um ein essentiell-τ-äquivalentes Modell.

- Wichtig sind die Grundannahmen des Rasch-Modells (siehe rechts).

o 1. Rasch-homogen sind Items, wenn die Lösungswahrscheinlichkeit ausschließlich von der Differenz zwischen der Personenvariablen und der Itemschwierigkeit abhängt.

Das Rasch-Modell ist bereits eine logistische Regression; der Regressionskoeffizient vor dem ξ beträgt allerdings 1, weshalb er nicht hingeschrieben wird. In anderen Modellen, die wir noch kennenlernen werden, wird der Koeffizient nicht immer 1 sein.

o 2. Lokale stochastische Unabhängigkeit: siehe Abbildung rechts. Demnach sind die Itemantworten voneinander sto-chastisch unabhängig, gegeben die latente Variable.

Page 17: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

17

Ein äquivalent zu dieser Annahme ist die Annahme der unkorrelierten Fehler aus dem Strukturgleichungsmodell: Cov (εi , εj) = 0

Modellparameter

- o Der dritte Modellparameter ist eigentlich der Regressionsparameter, der aber immer auf 1 fixiert ist.

Itemcharakteristische Kurven (ICC)

- … bilden die Modellgleichung grafisch ab.

- Jedes Item hat eine solche Kurve, das sie charakterisiert.

- Auf dieser Regressionskurve liegen die Werte der Regression, d.h. die bedingten Wahrscheinlichkeiten für die Lösung des Items, P(Y=1).

Logits der Items

- Logits sind die logarithmierten Chancenverhältnisse der Items.

- Wenn man den Logit verwendet, erhält man eine lineare Funktion. Die Items unterscheiden sich nur hinsichtlich des Achsen-abschnittes (siehe Abbildung oben).

Vertiefung des Rasch-Modells

- Gliederung dieses Abschnitts [vor „Schätzbarkeit“ werden Rechenregeln eingeschoben.]:

o Eindeutigkeit

o Zulässige Transformationen

o Bedeutsamkeit

o Normierung

o Schätzbarkeit [längster Abschnitt mit vielen Rechnungen]

o Testbarkeit

Eindeutigkeit

- Eindeutigkeit beschreibt, wie eindeutig die Parameter – ausgehend von der Definition – bestimmt sind. Parameter sind hier β und ξ. o Nicht eindeutig wäre, wenn man die Parameter verändern kann und die untenstehende Formel immer noch wahr ist.

- Wenn man beispielsweise zu ξ und β jeweils die Konstante γ addiert, ist die Gleichung immer noch wahr. Die γ im rechten Teil der obigen Gleichung kürzen sich heraus.

o Dies bedeutet: Die beiden Parameter ξ und β sind nicht eindeutig bestimmt, sondern es gibt unendlich viele Repräsen-tanten für ξ und β. Dies entspricht dem essentiell-τ-äquivalenten Modell, bei dem man durch Addition oder Subtraktion transformieren kann.

Page 18: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

18

Zulässige Transformationen

- Wenn die Parameter eines Modells eindeutig bestimmt sind, gibt es keine zulässigen Transformationen.

- Im Rasch-Modell ist die Translation zulässig, d.h. die Addition und Substraktion von Konstanten.

- Die Itemparameter βi und die latente Variable ξ sind differenzskaliert [„technischer Begriff, der keine so große Bedeutung hat“].

Bedeutsamkeit

- Wenn es Transformationen gibt, sind möglicherweise nicht alle Aussagen bezüglich der Parameter grundsätzlich wahr.

- Bedeutsame Aussagen…

Bzgl. Differenzen der latenten Variablen ξ

- Eine Aussage zu ξ , z.B. „jemand hat die Ausprägung ξ=1“, ist nicht invariant: Man kann das Modell anders identifizieren, z.B. den Mittelwert von ξ auf 500 oder auf 0 setzen.

o Eine Aussage wie ξ=1 ist in ihrer Bedeutsamkeit abhängig von der Wahl des Repräsentanten. Wenn man ein anderes ξ’ (z.B. mit Mittelwert 500) wählt, bedeutet ξ=1 etwas anderes.

- => nicht bedeutsam

Bzgl. der Varianzen Var(ξ)

- Aussagen bezüglich der Varianzen von ξ sind bedeutsame Aussagen, weil die Addition oder Subtraktion von Konstanten nichts am Wahrheitsgehalt ändert.

o Beispiel: Var(ξ) = Var(ξ+1)

Bzgl. der Differenzen der Itemparameter

- [Zeitmarke: 00:17:00]

- Wenn man zwei Items hinsichtlich ihrer Schwierigkeit β vergleicht, ist es unerheblich, ob man eine Konstante für alle Items addiert oder subtrahiert: Die Differenz bleibt gleich.

- => bedeutsam

Normierung

- Wenn es für ein Modell viele verschiedene Repräsentanten gibt, muss man sich in der Anwendung für einen Repräsentanten entscheiden. Um das Modell zu testen, muss man Restriktionen einführen und bestimmte Parameter fixieren, um das Modell identifizierbar zu machen.

Modellidentifikation

- Üblicherweise, d.h. als Standardeinstellung in Computerprogrammen, wird die Summe der Itemparameter auf 0 gesetzt:

o (Summennormierung der Itemparameter)

- Auch möglich:

- Die Fixierung von Varianzen oder Kovarianzen erfolgt normalerweise nicht.

Exkurs: Rechenregeln

- In Zukunft werden wir gelegentlich mit Logarithmen rechnen. Deshalb sollte man diese Regeln „immer dabeihaben“.

Page 19: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

19

-

Übungen als „Warm up“ zu den Rechenregeln

- [Zeitmarke: 00:22:30]

- Ziel ist es von der allgemeinen Modellgleichung des Rasch-Modells zum Logit zu kommen:

- Erster Schritt: Das ausklammern, was man kürzen möchte.

o P (Yi=1|ξ) = 1 * exp(ξ–βi) / [1+ 1/exp(ξ–βi) * exp(ξ–βi) ] rot Markiertes kürzen

- Zweiter Schritt: Andere Schreibweise als -1 . Diese Schreibweise findet man häufig in der Literatur.

o P(Yi=1| ξ) = 1 / [1 + exp(ξ–βi)-1 ] - Dritter Schritt (auch andere Varianten sind möglich): Kehrwert bilden

o 1 / [P (Yi=1|ξ)] = 1 + exp(ξ–βi)-1

- Vierter Schritt: 1 subtrahieren

o 1 / [P (Yi=1|ξ)] – 1 = exp(ξ–βi)-1

- Fünfter Schritt: Um die Subtraktion auf der linken Seite der Gleichung durchzuführen, beide Teile auf einen Nenner bringen

o 1 / [P (Yi=1|ξ)] – [ P (Yi=1|ξ) / [P (Yi=1|ξ)] ] = exp(ξ–βi)-1 - Sechster Schritt: Auf der linken Seite subtrahieren

o 1 – P (Yi=1|ξ) / [P (Yi=1|ξ)] = exp(ξ–βi)-1 - Siebter Schritt: Auf der linken Seite steht „Gegenwahrscheinlichkeit geteilt durch Wahrscheinlichkeit“, d.h. Item nicht gelöst

(Y=0) und Item gelöst (Y=1). Nun wird die gesamte Gleichung -1 genommen, d.h. Zähler und Nenner auf beiden Seiten ver-tauscht. Dadurch fällt der Exponent -1 auf der rechten Seite weg.

o P (Yi=1|ξ) / [P (Yi=0|ξ)] = exp(ξ–βi) - Achter Schritt: Anwendung der Rechenregel [welche?], um Gleichung zu exponenzieren. [MN nachträglich: Wird hier nicht

logarithmiert?]

o ln [ P (Yi=1|ξ) / [P (Yi=0|ξ)] ] = (ξ–βi)

- Links steht damit jetzt der „logarithmierte Odds“ (Logit):

- NR: Vergleichbare „Übungen“ wie diese kommen „immer mal wieder“ in der Vorlesung.

Schätzbarkeit

- [Zeitmarke: 00:33:00]

- Ziel des folgenden Abschnitts ist die Auseinandersetzung mit Schätzbarkeit und Testbarkeit des Rasch-Modells: „Hierfür betreiben wir jetzt ein bisschen Mathematik“ mit viel Bruchrechnung und etwas Wahrscheinlichkeitsrechnung.

- Schätzbarkeit: Es gibt latente Variablen mit Kennwerten, die man nicht sieht. Nur aufgrund von empirisch schätzbaren Größen (z.B. Stichprobenvarianz) kann man die Parameter der latenten Variablen schätzen.

o Beispiel im τ-äquivalenten Modell: Die Varianz der latenten Variablen ist schätzbar über die Kovarianz der manifesten Va-riablen.

Page 20: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

20

o Grundlegend ist also die Frage: „Wie kann man die Parameter der latenten Variablen schätzen, wenn man eine Daten-matrix hat?“

Herleitung zur Schätzbarkeit

- Die allgemeine Modellgleichung des Rasch-Modells kann man unter Anwendung der Rechenregeln für Exponentialfunktionen den oberen Teil des Bruchs auch so schreiben: exp(ξ) * exp(–βi) o [MN: Siehe dafür Regel 3 auf letzter Seite] Aus einer Differenz oder Summe einer Exponentialfunktion, darf man ein Pro-

dukt machen. Diese multiplikative Parametrisierung ist unter Umständen einfacher.

Summenscores im Rasch-Modell

- [Folie 12. Ab hier kaum noch Struktur in der Vorlesung, sondern Aneinanderreihung von Rechnungen]

- Der Summenscore im Rasch-Modell ist eine Zufallsvariable und gibt an, wie viele Items eine Person gelöst hat.

o In unserem Beispiel betrachten wir einen Test mit nur zwei Items, d.h. der Summenscore kann die Werte 0, 1 und 2 an-nehmen.

Dieses Beispiel mathematisch notiert:

- Es gibt zwei mögliche Ereignisse, wenn der Summenscore 1 beträgt. Diese stehen im Nenner der folgenden Gleichung:

o o [MN: Achtung! Links steht immer P(Yi =1 … , d.h. es geht darum, dass das erste Item i gelöst wird unter der Bedingung,

dass der Summenscore 0 beträgt.

- Wenn man die Wahrscheinlichkeit das Item i zu lösen bzw. nicht zu lösen als Produkt schreibt, erhält man folgende Glei-chung.

o Dafür benötigt man die Annahme der lokalen stochastischen Unabhängigkeit, d.h. gegeben ξ sind die Wahrschein-

lichkeiten unabhängig.

o Allgemein gesagt: P(A∩B) = P(A) * P(B) Dies gilt nur, wenn A und B stochastisch unabhängig sind.

- [Zeitmarke: 00:44:40, Folie 13]

- Durch Einsetzen von in die Modellgleichung erhält man:

zusammengefügt:

o weiter vereinfacht [Folie 14]:

o Damit steht dort inhaltlich [Zeitmarke: 00:49:00]: „Die Wahrscheinlichkeit ein Item zu lösen, gegeben der Personenfä-higkeit und des Summenscores“ ist nur noch eine Funktion des Summenscores.

Denn δi und δj sind nur noch Funktionen der Item-Parameter.

- Daraus resultiert:

o Die linke Hälfte der Gleichung ist eine dichotome Regression mit den Regressoren Fähigkeit der Person ξ und Summen-

score S.

Page 21: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

21

- Mit den Rechenregeln für Regressionen kann man den Erwartungswert für die Regression bilden:

o NR: „Sowas müssen Sie nicht aus’m Kopf herleiten. Sie müssen nur einmal sehen, wie man darauf kommt.“

- Wichtig ist: „Die Wahrscheinlichkeit ein Item zu lösen, gegeben der Personenfähigkeit und des Summenscores ist die Wahrscheinlichkeit das Item zu lösen, gegeben des Summenscores.“

o Dies bedeutet, dass die latente Variable keine Information über den Summenscore hinaus bietet. Der Summenscore hat schon alle Information über die Lösung eines Items.

o Begriff hierfür: Der Summenscore ist eine suffiziente Statistik bezüglich der latenten Variable ξ. Der Begriff suffiziente Statistik ist nicht auf das Rasch-Modell oder die IRT begrenzt.

o Dies drückt sich in folgender Gleichung aus [untere Zeile ist entscheidend]:

o Zusammenfassend [Folie 17]: „Unter Gültigkeit des Rasch-Modells ist es irrelevant welche Items gelöst werden, lediglich

die Anzahl der gelösten Items ist bedeutsam!“

- Man kann nun nach der Lösungswahrscheinlichkeit fragen, das Item Yi oder Yj zu lösen, gegeben einem Summenscore von 1.

- Nun benutzt man folgende Rechenregel für Wahrscheinlichkeiten: P(A|B) = P(A∩B) / P(B)

o [Zeitmarke: 00:55:00] Um zum Ausdruck zu gelangen, ist folgende Rechnung erforderlich:

Die Schnittmenge beider Verbundwahrscheinlichkeiten ist

- Diese Erkenntnis anders geschrieben:

Page 22: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

22

o Die obige Gleichung besagt, dass man die Parameter schätzen kann.

o Nun kann man Parameter durch relative Häufigkeiten schätzen, wenn man eine Fixierung vornimmt.

- Wir haben nun gezeigt, wie man Parameter für das Rasch-Modell schätzen kann. Dies werden wir nicht mehr für andere Modelle machen.

Sinn der Herleitung zur Schätzbarkeit

- Anders als bei der KTT kann man die Parameter nicht über Varianzen und Kovarianzen schätzen.

- Der Summenscore war ein Vehikel („Krücke“), um zu zeigen, dass die Parameter schätzbar sind. Er war nur zur Herleitung nötig.

o Die Verwendung des Summenscores war also ein Weg, um zu zeigen, dass die Parameter schätzbar sind.

Testbarkeit

- Die Testbarkeit fragt danach, ob es ausgehend vom Modell irgendwelche Implikationen gibt, die sich in den Daten nieder-schlagen und für oder gegen die Gültigkeit des Modells sprechen.

o Beispiel: In der KTT kann man an Subpopulationen testen, ob das kongenerische Modell zutreffend ist.

1. Implikation: Gleichheit der Rangfolge

- Im Rasch-Modell sagt man: Wenn die Lösungswahrscheinlichkeit für eines der beiden Items Yi und Yj geringer ist als für das andere, muss dies für alle Populationen gelten.

o Beispiel: Wenn Yi das leichtere Item ist, muss dies in allen möglichen Subpopulationen (Frauen/Männer, Junge/Alte) gel-ten.

- Unten abgebildet sind drei unterschiedlich schwere Items: Unabhängig von der Fähigkeit der Person ist das blaue Item im-mer leichter zu lösen als das rote.

2. Implikation: Gleichheit von Wahrscheinlichkeitsverhältnissen

- Die Lösungswahrscheinlichkeit P(Yi=1) darf man, weil die Variable Yi dichotom ist, als E(Yi) schreiben. Diese Wahrscheinlich-

keit bzw. Erwartungswert variiert, je nach Subpopulation.

o Beispiel: Hochbegabte haben eine höhere Wahrscheinlichkeit das Item zu lösen als die Durchschnittsbevölkerung.

- Die Itemschwierigkeit βi ist davon nicht betroffen, sondern – da sie derselben Metrik wie ξ folgt – liegt sie immer an der glei-chen Stelle.

o „Die Itemparameter sind unabhängig von der Verteilung der latenten Variable.“ Damit kann man die Parameter schätzen, obwohl man eine völlig unrepräsentative Stichprobe hat. Hierfür muss man nur zeigen, dass das Rasch-Modell für die ge-samte Population („alle“) gilt, was mit einer unrepräsentativen Stichprobe problematisch ist.

Beispiel: Man kann die Itemparameters eines Tests für Hochbegabte einer Population von Minderbegabten schätzen.

Im Gegensatz dazu ist diese Parameterschätzung mit einer unrepräsentativen Stichprobe in der KTT nicht möglich.

Page 23: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

23

3. Implikation

- Dies ist die relevanteste der drei Implikationen:

Software zur Berechnung der Modellparameter des Rasch-Modells

- Bisher haben wir das Rasch-Modell sehr formal betrachtet. Es gibt viele Programme, die die Rechnung des Rasch-Modells ermöglichen:

o ConQuest

Kommerziell, wurde speziell für den PISA-Test entwickelt, kommt mit tausenden Fällen und hunderten Items klar.

Das Rasch-Modell steckt hinter dem PISA-Test.

o MULTIRA

Kostenlos und frei erhältlich.

Bietet sich für IRT an.

Weitgehend menügesteuert, keine Syntax.

o BILOG

o MULTILOG

o PARSCALE

o Mplus

Wir wenden in der Vorlesung nur Mplus und WINMIRA an.

o WINMIRA

Zunächst werden wir das Modell in WINMIRA rechnen, weil es ohne Syntax auskommt.

WINMIRA

- Ist geeignet zur Berechnung von…

o eindimensionalen Modellen, d.h. nur eine latente Variable und nicht mehrere.

o latenten Klassenanalysen: werden wir im Laufe der Vorlesung noch kennen lernen

- SPSS-Datensätze können problemlos in WINMIRA eingelesen werden, ebenso ASCII-Files.

Parameterschätzungen in WINMIRA [Folie]

- Im Rasch-Modell

o Itemschwierigkeiten mit Standardfehlern

o Personenparameterschätzer mit Standardfehlern

Maximum Likelihood Schätzer (ML)

Warm’s Weighted Likelihood Schätzer (WLS)

- Alle Parameterschätzer werden mittels der Maximum Likelihood Methode geschätzt.

WINMIRA im Internet

- Manual zum Programm von H. Reimers: http://psycho1.psychologie.uni-bremen.de/tikiwiki-1-8-4/tiki-download_file.php?fileId=17

o Ist eine Schritt-für-Schritt-Anweisung, wo man in den Menüs hinklicken soll.

- Weiterhin gibt es das Manual von Mathias von Davier: http://www.ipn.uni-kiel.de/abt_ppm/tt0405/winmiramanualmvd.pdf

Ausblick auf die nächste Sitzung

- Wir werden mit dem CPM-Datensatz von Klauer („klauer_CPM_pre_18items.sav“) das Rasch-Modell im Programm WINMIRA rechnen.

- Klauer erfasste mit Coloured Progressive Matrices die fluide Intelligenz und testete eine Intervention. Die Teilnehmer wurden mit 0=Kontrollgruppe und 1=Interventionsgruppe kodiert.

o Klauers Modell ist ein Adjustierungsmodell, weil er einen Prä-Test für die Intelligenz durchführte und den Posttests um die Werte des Prä-Tests bereinigte.

- In der kommenden Sitzung werden wir das Rasch-Modell auf diese Daten anwenden und dabei einzelne Items betrachten.

Page 24: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

24

C

4. Vorlesung vom 16.11.2009: Anwendungsbeispiel: Rasch-Modell & Maximum-Likelihood-Parameterschätzung [Sitzung am 09.11.2009 ausgefallen]

Zusammenfassung der letzten Sitzung

Kernaussage der letzten Sitzung

- In der letzten Sitzung ging es darum zu zeigen, dass Parameter aus Wahrscheinlichkeitsverhältnissen schätzbar sind.

o Man benötigt keine Varianzen und Kovarianzen, sondern nur Informationen über das Lösen/Nicht-Lösen von Items.

o [Details siehe nächster Abschnitt „Schätzbarkeit“].

Zentrale Begriffe

o Die folgenden Begriffe, mit denen wir uns dem Rasch-Modell näherten, waren bereits aus der KTT bekannt.

- Eindeutigkeit im Rasch-Modell: Item und Personenparameter sind im Rasch-Modell nicht eindeutig bestimmt und differenz-skaliert. Man kann zu den Parametern also einfach eine Konstante addieren oder subtrahieren, ohne dass sich etwas an der Gültigkeit des Modells ändert.

o Daraus folgt, dass zulässige Transformationen Translationen sind.

- Bedeutsamkeit: Unter den zulässigen Transformationen sind folgende Aussagen bedeutsam:

o bzgl. Differenzen der latenten Variablen ξ o bzgl. Differenzen der Itemparameter βi o bzgl. der Varianzen Var(ξ)

- Wenn die Eindeutigkeit nicht gegeben ist, dann folgt daraus die Notwendigkeit, Itemparameter zu fixieren oder eine ähnliche Restriktion einzuführen, damit die Parameter überhaupt schätzbar werden. Daher verwendet man zur Modellidentifikation folgende Normierung:

Fixierung eines Itemparameters (z. B. βi = 0) Summennormierung der Itemparameter

Fixierung der latenten Variable: (z. B. E(ξ) = 0) o In der IRT sind allerdings auch ganz andere Möglichkeiten der Normierung gegeben.

- Die Schätzbarkeit folgt, wie gesagt, aus Wahrscheinlichkeitsverhältnissen:

o Herleitung der Schätzbarkeit unter Betrachtung der Regression:

Diese Wahrscheinlichkeit ist eine Regression auf den Summenscore.

o Der Summenscore wiederum ist eine suffiziente Statistik hinsichtlich der latenten Variable ξ :

Suffiziente Statistik bedeutet: Unter Gültigkeit des Rasch-Modells enthält der Summenscore bereits alle Informatio-

nen bezüglich dessen, was man für die Person schätzen will, nämlich deren latente Fähigkeitsausprägung.

• Wann weiß man, dass das Rasch-Modell gilt? Siehe dazu unten „Testbarkeit“.

o Die logarithmierte Differenz der Itemparameter βi und βj sind gleich dem folgenden logarithmierten Wahrscheinlichkeitsverhältnis…

- Testbarkeit: Es ergeben sich folgende testbare Konsequenzen:

o 1. Gleichheit der Rangfolge der unbedingten Lösungswahrscheinlichkeiten über Subpopulationen.

Beispiel: Wenn ein Item bei den Männern schwerer ist als ein anderes, dann muss dies auch für die Frauen gelten.

• Wenn sich Items als unterschiedlich schwierig für unterschiedliche Subpopulationen erweisen, stellt dies ein Prob-lem für die Gültigkeit des Rasch-Modells dar. Dies ist gar nicht selten und wird als differential item functioning be-zeichnet.

o 2. Gleichheit von Wahrscheinlichkeitsverhältnissen über Subpopulationen:

Page 25: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

25

o 3. Gleichheit von Itemschwierigkeiten über Subpopulationen.

o Mit diesen drei testbaren Konsequenzen wird jedoch üblicherweise kein praktischer Modelltest vorgenommen. Wir bewe-

gen uns hier vielmehr noch auf einer reinen Theorieebene.

Anwendung des Rasch-Modells mit WINMIRA

- Unter Verwendung des Programms WINMIRA wird im Folgenden ein Rasch-Modell berechnet.

- [Zeitmarke: 15:30]

Allgemeine Informationen

- Die Software WINMIRA kann man verwenden zur Berechnung von…

o eindimensionalen Rasch-Modellen

o Latenten Klassenanalysen

o gemischten Rasch-Modellen (Mixed Rasch-Models)

o Hybridmodellen

Datenbeispiel in WINMIRA

- Verwendet wird der Prätest des Datensatzes von Klauer („klauer_CPM_pre_18items.sav“)

o Publikation: Klauer, K. J., Willmes K., Phye, G. D. (2002). Inducing Inductive Reasoning: Does It Transfer to Fluid Intelli-gence. Contemporary Educational Psychology, 27, 1–25.

- Zur Generierung der Datensatz wurde der Coloured Progressive Matrizes Test (CPM) verwendet:

o eindimensionaler figuraler Matrizentest zur Messung der sprachfreien Intelligenz zur Messung induktiven Denkens

o Ableiten von Regeln aus konkreten Reizkonstellationen

Page 26: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

26

- Klauer wollte zeigen, dass sein Training zum induktiven Denken nur auf die fluide Intelligenz, nicht aber auf die kristalline wirkt. Fluide und kristalline Intelligenz wurden zu zwei Zeitpunkten als latente Variablen gemessen, die auf Summenscores beruhen.

o Wir werden für den ersten Messzeitpunkt 18 Items auswählen, damit der Output nicht zu groß wird.

Den originalen Summenscores von Klauer lagen mehr Items zugrunde: jeder Summenscore [z.B. CPM 1] wurde aus einer Itembatterie von 30 Items ge-bildet.

N=279

Erste Schritte in der Software

- Man öffnet den Datensatz, nachdem man spezifiziert hat, wie dieser angelegt ist.

o Man kann beispielsweise SPSS-Datensätze einlesen.

o Die Datenmatrix besteht in gewohnter Weise aus Zeilen (Personen) und Spalten (Items).

- Anschließend wählt man die zu verwendenden Variablen aus.

o Wenn man auf eines der Items doppelklickt, werden alle Items ausgewählt.

- Der nächste Schritt ist eine „Job definition“. Hier wird eingestellt, welche Operation das Programm vornehmen soll, d.h. welches Modell es berechnen soll.

o Entscheidend ist hier die Funktion „select model“. Hier ist zumeist das Rasch-Modell voreingestellt.

o Unter „model constraints“ kann man Einstellungen wie die Fixierung von Parametern vornehmen. Davon sehen wir aller-dings zunächst ab und verwenden die default-Einstellungen.

o Wichtig sind ferner die „Output-Options“. Hier ist zu spezifizieren, welche Informationen man im Output finden möchte. Beispiele [überwiegend nicht näher erklärt]:

item threshhold parameters (meint hier die Itemschwierigkeit)

discrimination index

standard errors

add person parameters to the data file

• Wählt man diese Option, so findet man später für jede Person eine Parameterschätzung.

- Durch Klicken auf „start“ beginnt WINMIRA die Berechnung des Modells.

Lesen und Interpretation des Output

[Datei „klauer_CPM_pre_18items.OUT“ im Ordner „20091116 Daten“]

- Der Output beginnt mit allgemeinen Informationen zum Output, z.B. dem Ort der (automatischen) Speicherung der Text-file, der Anzahl der Items und der Anzahl der definierten Subpopulationen („number of classes“).

- Darauf folgen die deskriptiven Statistiken zu den Items – d.h. die absoluten Häufigkeiten für gelöst/nicht gelöst.

- Es folgen Angaben zu Antwortmustern: number of different patterns und number of possible patterns.

o Die aufgefundene Anzahl an Lösungsmustern wird hier mit 19 angegeben. Theoretisch möglich wären bei 18 Items 218

Lösungsmuster im Sinne von Kombinationen von gelösten und nicht gelösten Items.

Warum diese Information wichtig ist, wird später noch klar werden. Hier nur so viel: Wenn es so ist, dass die Zahl der realisierten Lösungsmuster wesentlich geringer ist als die Zahl der möglichen Lösungsmuster, kann dies zu Problemen in der Maximum-Likelihood-Schätzung führen. Dann kann man den Modelltest und seine Prüfgrößen wie das Chi-Quadrat nicht mehr ansehen.

• Man erhält in diesem Fall die Warnmeldung „Warning: number of cells is larger than number of different patterns“.

Personenparameter

- Es folgt eine Tabelle zu Personenparametern.

o Raw Scores meint die Summenscores, d.h. die Anzahl der gelösten Items (0 - 18).

o Der MLE estimate gibt für jeden Summenscore eine Personenparameterschätzung durch ein Maximum-Likelihood-Verfahren an.

Die Anzahl der verschiedenen Personenparameterschätzer beträgt hier 19 und ist damit viel geringer als die tatsächli-che Anzahl an Personen (279).

Dies hat folgenden Grund: Im Rasch-Modell ist es egal, welche Items gelöst werden. Daher erhalten alle Personen, welche die gleiche Anzahl an Items gelöst haben (die also denselben Summenscore haben), dieselbe Personenpara-meterschätzung.

Page 27: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

27

o Für jeden Personenparameter wird ein Standardfehler ausgegeben [wichtig für die Prüfung!]. Dieser spiegelt die Streu-ung der Kennwerte um den wahren Wert wieder. [Zeitmarke: 36:30]

Dahinter steht die bekannte Annahme, dass wir ein Zufallsexperiment (Ziehen einer Person) durchführen, um den wahren Wert ξ zu schätzen. Die Schätzung folgt dem Gesetz der großen Zahl.

• In der KTT war das Maß für die Genauigkeit der Parameterschätzung die Reliabilität. Dabei wird angenommen, dass jede Person denselben Standardfehler hat. In der IRT gibt es hingegen für jeden Summenscore unterschiedli-che Parameterschätzungen. Man hat also mehr Information auf individueller Ebene.

Reliabilitätsmaß: Andrichs Reliabilität

- Ein allgemeines Reliabilitätsmaß für den Test ist die Andrichs Reliabilität. Sie ist so interpretierbar wie Cronbach’s Alpha in der KTT.

o Wichtig: Es handelt sich im Gegensatz zu den personenspezifischen Standardfehlern der Parameterschätzung um ein mittleres Reliabilitätsmaß.

Itemschwierigkeit

- Die Itemschwierigkeit wird unter „item locations“ wiedergegeben. Es handelt sich, wie letzte Sitzung besprochen, um eine latente Variable.

o Die Personenparameter können direkt mit diesen Itemparametern verglichen werden, da beide auf derselben Metrik lie-gen.

Beispiel: Eine Person mit einem Raw-Score von 1 und einer Fähigkeitsausprägung von –4,995 hat eine geschätzte Fä-higkeitsausprägung, die höher liegt, als die Schwierigkeit des ersten Items.

- Auch für die Itemschwierigkeit werden die Standardfehler ausgegeben.

Details zu Parameterschätzungen im Rasch-Modell

- Im Rasch-Modell werden folgende Parameter mittels Maximum Likelihood Methode geschätzt:

o Itemschwierigkeiten mit Standardfehlern

o Personenparameterschätzer mit Standardfehlern. Hierfür gibt es zwei Möglichkeiten:

Mit dem ML-Schätzer (Maximum Likelihood Schätzer) ist es nicht möglich, einen Personenparameter zu schätzen, wenn die Personen jedes oder kein Item gelöst haben. Die Personen erhalten dann keinen Parameter. In diesen Fällen empfiehlt sich…

Der WLS-Schätzer (Warm´s Weighted Likelihood Schätzer) verwendet einen anderen Algorithmus und hat eine et-was andere Fundierung.

• Die Standardfehler für die Extremscores sind mit diesem Verfahren dann allerdings sehr groß.

• Insgesamt sind die Standardfehler des WLS-Schätzers geringer – die Schätzung ist also genauer – weshalb dieser dem ML-Schätzer in aller Regel vorzuziehen ist.

- Zu beachten ist: Jede Parameterschätzung macht nur dann Sinn, wenn das Modell gilt!

o Die Frage der Modellgeltung werden wir allerdings erst später behandeln.

Prinzip der Maximum-Likelihood-Schätzung in WINMIRA

- Im Folgenden soll die Funktionsweise von WINMIRA anhand des zugrunde liegenden Schätzverfahrens, der Maximum Likeli-hood Schätzung, verstanden werden.

Grundprinzip der ML-Schätzung

- Die Modellparameter werden immer so geschätzt, dass die Wahrscheinlichkeit der beobachteten Daten Y, und somit die „Likelihood“, unter Annahme des Modells maximal wahrscheinlich sind: P (Y|θ) → max. o Die Modellparameter (im Rasch-Modell: Personen- und Itemparameter) werden also mit θ (Theta) bezeichnet.

- Die ML-Schätzung ist ein iteratives Verfahren; es ist also keine analytische Lösung möglich!

o Man setzt einen Startwert fest (meist per default). Von dort aus „sucht“ das Programm in der Wahrscheinlichkeitsfunktion so lange nach möglichen Parameterwerten, bis es ein Maximum findet.

Wenn man vermutet, dass diese Funktion nicht unimodal ist, sondern dass es mehrere lokale Maxima gibt, sollte man verschiedene Startwerte probieren. Dies wird für uns aber nicht relevant sein.

Verschiedene Schätzverfahren

- Es werden verschieden ML-Schätzverfahren unterschieden:

o UML / JML: unbedingte oder „joint“ ML-Schätzung

o CML: konditionale ML-Schätzung (nur bei Rasch-Modellen)

o MML: Marginal Maximum Likelihood Schätzung

- Im Resultat unterscheiden sich diese Verfahren i.d.R kaum oder nicht.

Page 28: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

28

Herleitung für das Rasch-Modell

- P (Y| θ ) = P (Y| ξ, β) o Die Datenmatrix besteht aus Zeilen. Jede Zeile ist ein Antwortmuster, das als Yi geschrieben wird, wobei der Index i die

Zeilennummer angibt. Es handelt sich um ein Verbundereignis gegeben die Verteilungsparameter:

= P (Y1 ∩ Y2 ∩ … YN | ξ, β )

- Wenn man annimmt, dass die Elementarereignisse (=Antwortmuster verschiedener Personen) voneinander unabhängig sind, lässt sich dies als Produkt schreiben:

= P (Y1 | ξ, β ) * P (Y2 | ξ, β ) … * P (YN | ξ, β ) - Jeder der Faktoren ist selbst wieder eine Verbundwahrscheinlichkeit, nämlich jene, dass man z.B. das erste Item löst, das

zweite nicht etc. Es geht also um die Wahrscheinlichkeit für das Zustandekommen eines Antwortmusters gegeben eine be-stimmte Person mit einer bestimmten Fähigkeitsausprägung. Dazu benötigt man die Annahme der lokalen stochastischen Unabhängigkeit.

An dieser Stelle ist die Likelihood-Funktion im Grunde schon vorhanden.

Die Likelihood-Funktion

- Zur ML-Schätzung muss eine Likelihood-Funktion aufgestellt werden, welche die Daten als Funktion der Parameter des hypothetischen Modells spezifiziert, die sog. Daten-Likelihood L(Y):

o Y= N×k Datenmatrix

o Y = Antwortmuster (response pattern)

o Π ist ein Produktzeichen und genauso zu verstehen wie das Summenzeichen ∑ .

- Die Likelihood für ein Antwortmuster gegeben einer Person u sieht ganz allgemein wie folgt aus:

o Der Exponent yiu ist die eigentliche Antwort der Person u auf dem Item i. Wenn die Person das Item löst (yiu=1, dann fällt

der rechte Term der vorletzten und letzten Zeile weg, weil sein Exponent dann 0 beträgt.

- Diese Formeln gelten natürlich wiederum nur unter der Annahme der Gültigkeit des Rasch-Modells.

Demonstration des Schätzprinzips an einem Beispiel

- Es erfolgt nun die Demonstration der Maximum Likelihood Schätzung des Personenparameters ξ bei bekannten Itemparame-tern (sog. Maximum Likelihood Scoring). [Zeitmarke: 01:07:00]

o Wir wählen also zu Anschauungszwecken nur eine Person aus und tun so, als würden wir die Itemparameter schon ken-nen. Dies ist in der Anwendung sogar häufig der Fall, wenn man einen Test bereits mit einer Population durchgeführt hat, die Parameter geschätzt hat und nun eine neue Population heranzieht.

- Jetzt schätzen wir die Fähigkeit dieser Person, wenn sie von vier Items das erste, dritte und vierte Item gelöst hat (womit sie einen Summenscore von 3 hat):

- Die Likelihood für ebendieses Antwortmuster wird wie oben besprochen berechnet:

- Für die Schätzung gilt dann:

Page 29: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

29

o Die Punktschätzung des Personenparameters ist unabhängig davon, welche Items gelöst werden, lediglich wie viele Items gelöst werden, ist relevant!

o Beachte: Die verschiedenen Antwortmuster gegeben ein Summenscore sind jedoch unterschiedlich wahrscheinlich!

wahrscheinlichstes Antwortmuster = „Guttman-Antwortmuster“

• [Zusatz MN: Die leichtesten Items werden gelöst, die schwersten nicht.]

unwahrscheinlichstes Antwortmuster = „Anti-Guttman-Antwortmuster“

- Die nachfolgende Abbildung zeigt Likelihood-Kurven für verschiedene Summenscores gegeben verschiedene latente Fähig-keitswerte. Dabei gab es drei Items zu lösen.

o Ein Score von 1 ist maximal wahrscheinlich bei einer Fähigkeit von etwa –0.75.

o Für die Extremwerte [Score von 0 und Score von 3, d.h. rosa und blaue Kurve] gibt es keine Maximum-Likelihood-Schätzer, da diese im Unendlichen konvergieren und somit kein definites Maximum aufweisen.

Hier sollte man also die WLS-Schätzung verwenden.

o Die verschiedenen grünen und roten Kurven demonstrieren den oben erwähnten Punkt, dass die Punktschätzung des Personenparameters – gleich welches Antwortmuster ihm zugrunde liegt – immer an derselben Stelle liegt. Anders ausgedrückt: Der Summenscore ist immer für den gleichen Wert der latenten Variable maximal wahrscheinlich, egal wie er zustande kommt.

Man sieht aber auch, dass die verschiedenen Antwortmuster gegeben ein Summenscore sich durchaus unterscheiden [unterschiedliche Höhe der Kurven auf der Y-Achse, welche die Wahrscheinlichkeit angibt].

Software zu Demonstrationszwecken

- Mit der Excel-Datei „rabix099-1.xls“ kann man sich itemcharakteristische Kurven und Likelihood-Funktionen sowie weitere Funktionen veranschaulichen.

M

5. Vorlesung vom 23.11.2009: Standardfehler & Reliabilität in der IRT

Prinzip der Maximum-Likelihood-Schätzung in WINMIRA [Fortsetzung]

- In der letzten Sitzung haben wir uns eine Grafik zur Maximum-Likelihood-Schätzung angeschaut, die mit der Excel-Datei „rabix099-1.xls“ erstellt wurde, angeschaut.

o Dabei haben wir die Item-Parameter als bekannt vorausgesetzt und man sah, dass alle Personen mit demselben Sum-menscore denselben Maximum-Likelihood-Schätzer bekommen.

- Antwortmuster, wenn das Modell gilt:

o Am wahrscheinlichsten ist immer das Guttman-Antwortmuster: Die leichtesten Items werden gelöst, die schwersten nicht.

o Am unwahrscheinlichsten ist das Anti-Guttmann-Antwortmuster: Die schweren Items werden gelöst, die leichten nicht.

- „Der Vollständigkeit halber“ wurde auch diese Folie aus der letzten Sitzung noch kurz gezeigt:

Page 30: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

30

Nicht prüfungsrelevante zusätzliche Erläuterungen

- Wenn man sagt, dass der Summenscore schon suffizient hinsichtlich der latenten Variable ξ ist, kann man den Summenscore auch nutzen, um das ξ „herauszukonditionieren“. Dies ist die CML-Schätzung: Conditional Maximum Likelihood.

o Damit erhält man eine andere Likelihood-Funktion, die Itemparameter allein aufgrund des Summenscores schätzt.

- Die Maximum-Likelihood-Schätzung hingegen schätzt die Personenparameter bei gegebenen Itemparametern.

o So geht beispielsweise WINMIRA vor.

Zusammenfassung der letzten Sitzung

- In der letzten Vorlesung haben wir ein Modell mit WINMIRA berechnet. Dabei schätzt WINMIRA mehrere Personenparameter

o ML-Schätzer: Maximum Likelihood Schätzer

o WLS-Schätzer: Weighted Likelihood Schätzer

WLS-Schätzer haben etwas bessere Eigenschaften: Standardfehler sind etwas kleiner, d.h. die Schätzung ist etwas besser.

Standardfehler und Reliabilität in der IRT

- Wenn man Tests generiert, gelten für diese die klassischen Gütekriterien wie Reliablität und Validität.

- Wir beschäftigen uns in der Methodenlehre vor allem mit der Reliablität, die wir zunächst getrennt vom Standardfehler be-trachten. Im weiteren Verlauf werden wir aber auch sehen, wie Standardfehler und Reliabilität verknüpft sind.

Konfidenzintervalle

- Bereits in der letzten Sitzung haben wir im WINMIRA-Output festgestellt, dass der Standardfehler für jeden einzelnen Personen-Parameter-Schätzer anders ist.

- Am Beispiel des Klauer-Datensatzes aus der letzten Sitzung gab es 19 Parameter-Schätzungen, die jeweils einen unterschiedlich großen Standardfehler aufweisen.

- Die nebenstehende Abbildung zeigt die jeweiligen Konfidenzintervalle:

o In der Mitte ist der Standardfehler kleiner als bei den Extremwerten. [Dies ist keinesfalls bei jedem Test und jedem Merkmal so.]

o In der KTT hingegen wären alle Konfidenzintervalle (blaue Balken) gleich groß. Damit unterstellt man, dass der Test für alle – unabhängig von der Fähigkeit – gleich geeignet ist.

Page 31: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

31

Reliabilität: KTT vs. IRT

- In der klassischen Testtheorie wird der Standardmessfehler zur Berechnung von Konfidenzintervallen herangezogen. Dabei gibt es in der KTT nur einen Standardmessfehler für jeden Test.

- Der Standardmessfehler wird in der KTT anhand der Reliabilität wie folgt berechnet:

Genauigkeit der Parameterschätzung: Rasch-Modell

- Im Folgenden wollen wir Standardfehler in der IRT betrachten, wie sie zu Stande kommen und wie sie mit der Varianz der manifesten Variable zusammenhängen.

o Beispiel: Wenn man die Leistung von Hochspringern messen will, wird man die Latte weder sehr hoch noch sehr niedrig hängen, weil sonst keiner bzw. alle erfolgreich sind. Jeder Sprung kann wie ein Item aufgefasst werden. Nur bei mittel-schweren Items variieren die Personen und diese Varianz benötigt man, um Fähigkeiten messen zu können.

- In der Variabilität steckt die Information, die wir in einem Test haben wollen. Man versucht nun die Latte gerade an die Stel-le zu legen, an der „die Hochspringer gerade noch drüberkommen“, um die Varianz zu maximieren.

Herleitung der Varianz einer dichotomen Variable

[NR vergisst in seinen Tafelbildern konsequent den Index i bei Yi . Deshalb ist er in den folgenden Gleichungen ebenfalls nicht aufgeführt.]

- Die Definition für die Varianz lautet: Var(Y) = E [(Y-E(Y)]2 - Nach einigen Rechenschritten kann man zeigen, dass dies äquivalent ist zu Var(Y) = E(Y²) – E(Y)² - Y kann in unserem Fall nur die Werte 0 und 1 (gelöst vs. nicht gelöst) annehmen. Deshalb erhält man, wenn man Y quad-

riert, Y. Damit kann man obige Gleichung umformen zu Var(Y) = E(Y) – E(Y)² - Den Erwartungswert einer dichotomen Variable kann man einfach als Wahrscheinlichkeit schreiben.

o Daraus folgt für obige Gleichung: Var(Y) = P(Y=1) – P(Y=1)² - Man kann nun ausklammern, „warum auch immer“ [Zeitmarke: 00:15:50]: Var(Y) = P(Y=1) * [1- P(Y=1)] - Die Wahrscheinlichkeit mal der Gegenwahrscheinlichkeit ist die Varianz einer dichotomen Variable = P(Y=1) * P(Y=0)

Erläuterung der letzten Gleichung

- Aus der letzten Gleichung kann man sehen, dass (bei dichotomen Items) die Varianz immer dann besonders groß ist, wenn die Wahrscheinlichkeit für das Lösen des Items 0,5 beträgt.

o Beispielrechnung für mittelschweres Item: 0,5*0,5 = 0,25 o Beispielrechnung für extrem leichtes Item: 0,9*0,1 = 0,09, für ein sehr schweres Item: 0,2*0,8 = 0,16

- Der maximale Wert der Varianz einer dichotomen Variable kann nie größer als 0,25 sein.

Bedingte Varianz

- Die oben hergeleitete Zusammenhang gilt für jede Stelle der latenten Fähigkeitsvariable ξ :

o Der Ausdruck der Varianz hängt nur von ξ ab, das unterschiedliche Werte annehmen kann. Wenn man ξ kennt, kennt

man also auch die Variabilität der manifesten Variable Y.

Wichtig: All dies gilt nur für den Fall von dichotomen Items!

- Das ξ ist in obiger Gleichung ein Prädiktor in einer Regression und damit die unabhängige Variable, die die abhängige Variab-le Y vorhersagt.

- Man kann herleiten, dass Var (Yi | ξ ) = P(Yi =1 | ξ ) * P (Yi =0 |ξ ) = Var (ε | ξ ) o Damit ist die Fehlervarianz an der Stelle maximal, an der man auch die maximale Varianz von ξ hat. Dies bedeutet: Man

misst an der Stelle am genauesten, an der die Vorhersage am ungenauesten ist.

Beispiel: Man kann, wenn die Latte genau in der kritischen Höhe liegt, kaum vorhersagen, ob der Hochspringer es schafft, die Höhe zu überspringen oder nicht. Aber man erfährt in dieser Situation am meisten über die Fähigkeit des Springers.

Page 32: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

32

- Herleitung zum Fehler ausführlicher auf den Folien:

o

- Die bedingte Varianzfunktion [letzte beiden Zeilen der obigen Abbildung] wird auch Informationsfunktion genannt.

o „Die Informationsfunktion ist die bedingte Varianzfunktion und ist also die Fehlervarianz gegeben ξ .“ [Zeitmarke: 00:23:25]

- Grafische Darstellung:

o Die schwarze Kurve stellt die Wahrscheinlichkeit das Item zu lösen in Abhängigkeit der Fähigkeit dar.

o An derjenigen Stelle, an der Itemschwierigkeit und Fähigkeit der Person übereinstimmen (hier die Stelle: βi=ξ=0), ist die Varianz am höchsten. [siehe rote Kurve: „Informationsfunktion“]

o An dieser Stelle, an der die Varianzfunktion (rote Kurve) am höchsten ist, ist auch die Diskriminationsfähigkeit des Items am höchsten.

- Zusammengefasst von Folie 10:

Informationsfunktion

- Unser Ausgangspunkt der heutigen Sitzungen waren die Standardfehler. Diese hängen mit der Informationsfunktion zusam-men.

- Jedes Item hat eine Informationsfunktion, wie sie die rote Kurve in der obigen Abbildung darstellt. Diese Iteminformations-funktionen summieren sich zur Testinformationsfunktion auf:

o

Verknüpfung von Informationsfunktion und Standardfehler

-

Page 33: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

33

o Dieser Standardfehler für den Personenparameter wird auch in WINMIRA ausgegeben. Mit obiger Formel kann man ihn auch per Hand ausrechnen.

- [Zeitmarke: 00:28:00] [Für die Prüfung:

o „Formeln will ich jetzt erstmal von Ihnen nicht wissen. Sie müssen mit Rechenregeln umgehen können. Wenn Ihnen also etwas vorgegeben wird, sollen Sie mit Rechenregeln weiterkommen. Aber ich werde ihnen jetzt nicht sagen: ‚Malen Sie mir mal die Formel für den Standardfehler auf.’ Aber die Zusammenhänge sollten klar sein: Dass die bedingte Varianz-funktion die Informationsfunktion ist. Welche Varianz ist dann maximal? Und dass es eigentlich die Fehlervarianz ist.“]

Darstellung in Rabix

- Die blauen Kurven sind Iteminformationsfunktionen; die rote Kurve die Testinformationsfunktion

- Wenn man alle drei Itemschwierigkeiten β auf 0 setzt, steigt die rote Kurve in der Mitte steiler an bis etwa 0,75, d.h. in der

Mitte steckt noch mehr Information. Der Preis, den man dafür bezahlt ist, dass die Randbereiche schlechter erfasst werden, weil die rote Kurve steiler nach links und rechts abfällt.

o So ein Test, der nur einen engen Fähigkeitsbereich sehr gut abdeckt, eignet sich beispielsweise für die Intelligenzmes-sung bei Hochbegabten. Solch ein Test misst Intelligenz für den Großteil der Bevölkerung ungenau, für Hochbegabte aber sehr genau.

- [Zeitmarke: 00:32:30] Zusammenfassung: „Die bedingte Varianzfunktion ist die Testinformationsfunktion [inkorrekt, es müsste heißen: Iteminformationsfunktion; die Summe über diese ist die Testinformationsfunktion]. Wenn man davon [=der Testinformationsfunktion] den Kehrwert bildet und die Wurzel zieht, hat man die Standardfehler.“

Standardfehler-Funktion

- Die Standardfehler-Funktion des Tests ist in der Grafik unten als rosa Linie darge-stellt. Sie ist nahezu eine Umkehrung der Testinformationsfunktion (rote Kurve der letzten Abbildung).

o „Die grüne Kurve ignorieren wir mal. Im Rabix sind einige Sachen drin, die wir hier nicht brauchen.“

Itemparameter und deren Standardfehler

- Bisher haben wir uns die Seite der Personenparameter angeschaut und gesagt, dass es geeignetere Items gibt, um bestimm-te Bereiche der Personenvariable zu messen.

- Um die Itemparameter zu betrachten, gibt es drei Datensätze

Page 34: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

34

o bsp_V3_1.sav Gesamtdatensatz, der die beiden Teildatensätze der Subpopulationen x0 und x1 enthält.

o bsp_V3_1x0.sav Datensatz gegeben der Gruppenvariable X=0 (niedrig fähig)

o bsp_V3_1x1.sav Datensatz gegeben der Gruppenvariable X=1 (hoch fähig)

- Die Daten werden aus Zeitgründen hier in der Vorlesung nicht berechnet, sondern nur Ergebnisse dargestellt.

Itemparameter in verschiedenen Subpopulationen

- Wenn man in beiden Subpopulationen getrennt die Itemparameter (d.h. die Itemschwierigkeiten im Rasch-Modell) berechnet, ergibt sich das obere rechte Bild (auf jeder Achse ist eine Population abgetragen):

o Die Itemparameter sind über Subpopulationen gleich, was wir schon in den testbaren Konsequenzen gesehen haben.

Man weiß nicht, ob das Rasch-Modell gilt. Aber wenn das Modell gilt, gibt es testbare Konsequenzen. Eine davon ist, dass die Itemparameter über die Subpopulationen gleich sind. Diese grafische Darstellung ist noch kein Test, aber ein sehr starker Hinweis darauf, ob die Konsequenz gilt oder nicht.

o Im Rasch-Modell gibt es also in beiden Subpopulationen die gleiche Parameterschätzung.

- Das untere rechte Bild zeigt den Anteil der Subpopulation, der das Item gelöst hat. Dies ist der Mittelwert des dichotomen Items und so würde man in der KTT vorgehen [wie genau: nicht verstanden]. Dieser Zusammenhang liegt, anders als in der oberen Abbildung, nicht auf der Winkelhalbierenden und der Zusammen-hang ist nicht linear. Damit gibt es eine Abhängigkeit von der Subpopulation.

o Die Itemmittelwerte als Maß der Schwierigkeit zu nehmen, ist eine subpopulationsspezifische Aussage und sagt nichts über das Item per se aus, sondern ist nur eine Aussage über das Item in einer spezifischen (Sub-)Population.

- Zusatz [ergab sich später aus einer Nachfrage]: In der Realität findet man auch bei guten Tests (wie rechtes Bild) oft einige Items (schwarze Punkte), die weit weg von der Geraden liegen.

o Solch ein Ausreißer ist ein Item, das in die eine Subpopulation sehr leicht lösen kann, die andere aber nicht, z.B. Fragen über Fußball: Für Männer leicht, für Frauen schwer.

Standardfehler der Itemparameter

- Die Punkte in der nachfolgenden Abbildung sind die Itemparameter: Ihre Lage auf der y-Achse gibt die Größe des Standardfehlers an. Die Kurven stellen die Verteilung der Fähigkeit in den beiden Subpopulationen dar.

Page 35: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

35

o Erklärung zur Grafik: Der Standardfehler ist immer dort besonders hoch, wo die Ausprägung in der Subpopulation selten

ist, d.h. links bei rot und rechts bei blau. Dort, wo man viele Personen hat, sind die Standardfehler der Itemparameter gering.

Damit sind bestimmte Subpopulationen von ξ unterschiedlich geeignet, um die Items zu kalibrieren. Wenn man genau wissen will, wie schwer ein schwieriges Item ist, benötigt man Personen, die auch sehr fähig sind.

Man könnte über die IRT auch sagen: „Die Personen messen die Items und die Items messen die Personen.“

- Wie die Standardfehler für die Items berechnet werden, ist unerheblich.

Item- & Personenparameter

- Das wissenschaftliche Prinzip der spezifischen Objektivität ist nicht auf die IRT begrenzt und besagt, dass eine Aussage über das Messinstrument nicht davon abhängen darf, was man messen möchte.

o Andersherum gesagt: Das Messinstrument selber darf nicht das zu Messende beeinflussen.

o In der IRT bedeutet dies, dass Itemparameter und Personenparameter vollständig voneinander separierbar sind.

- Noch einmal die Abbildung von oben: Rechts ist spezifische Objektivität gegeben, links nicht.

Page 36: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

36

Zusammenfassung der Sitzung bis hierher

Reliabilität: KTT vs. IRT

- Ist es überhaupt sinnvoll, in der IRT eine Gesamtreliabilität anzugeben, wenn der Test doch an jeder Stelle von ξ eine unter-schiedliche Reliabilität hat?

o Dieses Gesamtmaß ist im WINMIRA-Output die Andrich’s Reliabilität.

o Diese Frage wird im Folgenden beantwortet.

- Der Personenparameterschätzer ist in jeder Stichprobe fehlerbehaftet:

o Das „Epsilon mit Index Xi-Dach“ ist die Abweichung des Schätzers für ξ (Fehler).

- Dieser Fehler hat die Eigenschaft eines Residuums, d.h. die tatsächlich zu messende Variable ist unkorreliert mit ihrem Feh-

ler:

Herleitung der Reliabilität des Schätzers in der IRT

- Ziel der folgenden Schritte: Herleitung der Reliabilität in der IRT, die immer für den Summenscore angegeben wird.

- In der KTT ist die Reliabilität für einen Summenscore wie folgt definiert: Rel(S) = Var(τs) / Var(S) o Diese Varianz des Summenscores kann man dekomponieren: = Var(τs) / (Var(τs) + Var(εs))

- Man könnte die Reliabilität auch als das R² der Regression der Summenscores (manifest) auf den True Score (latent) auffas-sen: E(S|τ)

- Die Unreliabilität 1–Rel(S) ist 1 – Var(τs) / Var(S) - In der folgenden Zeile steht, dass die Reliabilität „1 minus der Unreliabilität“ ist. In diese Gleichung wird dann eingesetzt.

o Rel (S) = 1– [1– Rel(S)] o = 1– [1– [Var(τs) / (Var(τs) + Var(εs)) ]] | Bruch erweitern, d.h. gleiche Nenner herstellen o = 1– [Var(τs) + Var(εs) / (Var(τs) + Var(εs)) – [Var(τs) / (Var(τs) + Var(εs)) ]]

Die unterstrichenen Teile kennzeichnen den gleichen Nenner beider Summanden, d.h. es handelt sich nur noch um den einen folgenden Bruch:

o = 1– [Var(τs) + Var(εs) – Var(τs) / (Var(τs) + Var(εs)) ] | Var(τs) fällt weg

o = 1– [ Var(εs) / (Var(τs) + Var(εs)) ] | Var(τs)+Var(εs) ist Var(S) o = 1– [ Var(εs) / Var(S) ]

- Im Rasch-Modell hat man nicht die Varianz des ξ , sondern nur die Varianz des fehlerbehafteten Schätzers „Xi Dach“.

o Deshalb gilt in der IRT:

Dies ist die Formel der Andrich’s Reliabilität.

o Die Fehlervarianz des Personenparameterschätzers ist dabei „marginal“ (entspricht: „Rand-“), weil sie die quadrierten Standardfehler umfasst. Diese sind aber an jeder Stelle von ξ unterschiedlich. Der mittlere Standardfehler nennt sich marginal error.

Berechnung der Reliabilität anhand von WINMIRA-Output

- Mit dieser Marginal Error Variance (Randfehlervarianz) kann man die Reliabilität in der IRT berechnen:

Page 37: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

37

- o Unter „wobei“ wird noch einmal ausgesagt, dass die Fehlervarianz über die Verteilung von ξ gemittelt wird und ein Durch-

schnittswert ist.

- Die Marginal Error Variance kann im Rasch-Modell als Mittelwert der quadrierten Standardfehler der Personenparameter geschätzt werden:

o Die einzelnen Werte in dieser Formel findet man im WINMIRA-Output. So kann man auf Grundlage von WINMIRA die

Marginal Error Variance und damit die Reliabilität berechnen. [Sie wird aber auch durch WINMIRA berechnet und im Out-pur angegeben, s.u.] Die komplette Formel für die Berechnung der Reliabilität im Rasch-Modell lautet dann: [Zeitmarke: 01:14:30]

- Weil wir das Rasch-Modell behandeln, ist die untere Formel entscheidend.

Komponenten der Formel im WINMIRA-Output

- Gut erklärt auf untenstehender Abbildung:

Page 38: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

38

- Wenn man die Marginal Error Variance mit oben angegebener Formel selber berechnen möchte, muss man für jede Zeile den Wert „Expected freq.“ (für das n in der Formel) mal dem Eintrag in der Spalte „std. error WLE“ multiplizieren und über die Zeilen hinweg aufsummieren.

o Dann sollte man den gleichen Wert wie am Ende des Outputs unter „marginal error variance“ erhalten.

Beispiel

- Im Klauer-CPM-Datensatz gibt es hoch-fähige (linker Output) und niedrig-fähige (rechter Output) Probanden.

|

- Spalte „Expected freq.“: Bei den hoch-fähigen werden mehr Personen erwartet, die viele oder alle der 10 Items lösen. Daher ergibt sich der unterschiedliche „Mean“ von 1,703 (hoch-fähig) vs. –0,175 (niedrig-fähig).

- Viel wichtiger ist aber: Die mittleren Reliabilitäten sind unterschiedlich: Der Test ist für die niedrig-fähige Gruppe (0,584) geeigneter als für die hoch-fähige (0,142). [Anmerkung MN: Grund dafür dürfte sein, dass die hoch-fähigen häufiger diejeni-gen Rohwerte haben, bei denen der Test ungenau ist, d.h. die Standardabweichung hoch ist.]

o Allerdings misst derselbe Test in beiden Populationen die einzelnen Ausprägungen von ξ exakt gleich gut, d.h. genau! [Zeitmarke: 01:21:30]

Dies sieht man an der blau umkreisten Spalte „std. Error WLE“: Die Standardfehler für jedes Items sind in beiden Subpopulationen gleich.

o Die mittlere Reliabilität jedoch ist ein subpopulationsspezifischer Kennwert – auch in der IRT.

- Zusammengefasst:

o C

6. Vorlesung vom 30.11.2009: Modellgeltungskontrolle (Rasch-Modell)

Zusammenfassung der letzten Sitzung

Reliabilität in der IRT vs. KTT

- In der letzten Woche wurde die Frage der Reliabilität in der IRT behandelt. Dabei geht es darum, wie genau man die Perso-nenvariable schätzen kann.

o In der KTT ist die Reliabilität das Varianzverhältnis der True-Scores zu der manifesten Variablen.

• Für einen gesamten Test wäre der True-Score der Erwartungswert des Summenscores.

Dahinter steckt die Annahme, dass man alle Personen (unabhängig von ihrer Fähigkeitsausprägung bzw. ihrem Sum-menscore) gleich genau messen kann. Für alle hätte man die gleiche Reliabilität, was sich in gleich großen Standard-fehlern reflektiert.

o In der IRT ist der Standardfehler dagegen eine Funktion der latenten Variable, wie im nachfolgenden Abschnitt ausge-führt wird.

Page 39: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

39

Iteminformationsfunktion und Testinformationsfunktion

- Die bedingte Varianzfunktion eines (dichotomen) Items Yi ist eigentlich eine Fehlervarianz [s.u.]. Dennoch ist sie auch eine Iteminformationsfunktion, denn genau da, wo die Vorhersage der manifesten Variable maximal ungenau ist, dort hat man die meiste Information über die latente Variable.

o Die Summe der Iteminformationsfunktionen ist die Testinformationsfunktion.

Zusammenhang zwischen Item-, Testinformationsfunktion und den Standardfehlern

- Umso größer diese Testinformationsfunktion ist, desto kleiner ist der Standardfehler, weil es sich um eine inverse Beziehung handelt.

o Wichtig: Die Standardfehler für die Personenparameterschätzer sind gleich dem Kehrwert der Wurzel der Testinformationsfunktion.

Umso höher die Testinformationsfunktion, d.h. umso höher die bedingte Varianzfunktion für jedes einzelne Item, des-to ungenauer die Vorhersage auf vielen Items, desto genauer misst man aber sein ξ [fast wörtlich zitiert].

Andrich‘s Reliabilität

- Wenn man verschiedene Standardfehler für verschiedene geschätzte Werte erhält, ist die Angabe einer Reliabilität für den gesamten Test womöglich wenig zielführend. Ein solcher Kennwert ist die Andrich‘s Reliabilität, die als eine Art „mittlere“ Reliabilität (und zwar gemittelt über die Verteilung von ξ) interpretiert wird.

o Die Andrich‘s Reliabilität ist nicht nur von der Lage der Itemschwierigkeiten abhängig, sondern auch von der Verteilung von ξ (Populationsabhängigkeit). Der Kennwert sagt also nicht mehr nur etwas über einen Test aus, sondern wie gut der Test bezüglich einer bestimmten Zielpopulation funktioniert (d.h. wie gut er misst).

Unterschied zu den Standardfehlern für einzelnen Schätzer von ξ. o Vgl.: Die Standardfehler der Personenparameterschätzungen sind populationsunabhängig (wichtig: Itemschwierigkeiten!)

- Berechnung der Andrich‘s Reliabilität anhand der Marginal Error Variance und der Varianz der Schätzer:

o Woran sieht man in der Formel, dass hier über die bedingte Verteilung von ξ gemittelt wird?

Antwort: Am Zähler des zweiten Bruchs. Dort steht ein Erwartungswert eines Erwartungswerts, denn eine Varianz ist auch ein Erwartungswert (nämlich die Erwartung einer quadrierten Abweichung). So resultiert schließlich die unbe-dingte Varianz, welche die Marginal Error Varianz ist.

• Wenn man mittelt, d.h. einen Erwartungswert bildet, dann verwendet man eine gewichtete Summe.

Illustration im Tafelbild

- Man hat eine normalverteilte latente Variable ξ. o Die beiden oberen Verteilungen spiegeln zwei Subpopulationen wieder.

o Die Striche auf der Ordinate seien die Schwierigkeiten von 8 Items (die Itemlo-kationen liegen auf derselben Metrik wie ξ ).

o Die untere Kurve zeigt die Standardfehlerfunktion, die eine Funktion von ξ ist. An jedem Wert von ξ gibt es einen anderen Standardfehler.

- Der Standardfehler für ein ξ (das heißt eine Ausprägung der Personenfähigkeit) „gilt immer“, unabhängig davon, aus welcher Population eine Person stammt. Bei der Andrich’s Reliabilität wird aber über die Verteilung der Personenvariable gemittelt.

o Die Standardfehler werden mit den Häufigkeiten gewichtet, mit denen die einzelnen Werte von ξ in der Population vorkommen: Diese Häufigkeiten sind in WINMIRA die Gewichte für die Standardfehler.

Wenn man viele Personen hat, für die der Test nicht geeignet ist, so werden deren hohe Standardfehler hoch gewich-tet. Die Andrichs-Reliabilität ist damit abhängig von der Population, weil man über ξ mittelt [sic!].

- Daher ist für die Güte der Messung im Sinne der Andrichs-Reliabilität nicht egal, in welcher Population man den Test anwen-det:

o Bezogen auf die linke Population liegen die Itemlokationen in einem Bereich hoher Dichte der Verteilung der Personenfä-higkeiten in der Population. Für diese Subpopulation ist der Test gut geeignet: man wird im Mittel gut messen und be-kommt nur an den Rändern der Verteilung Probleme.

o Anders im Falle der rechten Population: für diese ist der Test weniger gut geeignet. Man misst hier eher für die weniger Befähigten am linken Rand der Verteilung gut, weil dort der Standardfehler gering ist.

Page 40: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

40

Wenn man die Reliabilität berechnet – also über die Verteilung von ξ mittelt – dann hat man einen relativ breiten Be-reich, in dem die Standardfehler hoch sind, und diese werden auch noch hoch gewichtet, weil die Werte häufig vor-kommen.

• Derselbe Test, der ebenso genau misst, misst bezüglich der rechten Population im Mittel also nicht mehr so genau

- Fazit: Die Reliabilität ist hier eine andere Aussage als der Standardfehler. Beide wollen etwas über die Messgenauigkeit aussagen, aber:

o Bei der Reliabilität handelt es sich um einen populationsspezifischen Kennwert, der angibt, wie genau man in einer Population im Mittel misst.

o Der Standardfehler ist ein populationsunabhängiger Wert, der aussagt, wie genau man einen Wert von ξ ganz un-abhängig von der Population misst.

- Welchen der Kennwerte man ansieht, ist von der Fragestellung abhängig. In der Regel sollte man beide Kennwerte beachten.

- [Zeitmarke: 15:00]

Modellgeltungskontrolle

- Nachdem das Thema Standardfehler und Reliabilität nun zugrunde gelegt wurden, betrachten wir nun noch einmal den WIN-MIRA-Output.

- Bisher haben wir bei allen betrachteten Parameterschätzern unterstellt, dass das Modell gilt. Nur wenn dies tatsächlich der Fall ist, ist eine Betrachtung dieser Parameter überhaupt sinnvoll. Daher sollte man immer erst die Modellgeltung kontrollie-ren.

o Um die Annahme der Modellgeltung zu überprüfen, gibt es Maße der Modellgeltung bzw. Modellpassung (goodness of fit), die den Hauptgegenstand der heutigen Sitzung bilden.

Ausgangspunkt

- In der nachfolgenden Abbildung, die in der letzten Sitzung bereits vorgestellt wurde, hat man zwei verschiedene Subpopula-tionen, deren Itemparameter man betrachtet.

- Die nachfolgende Abbildung zeigt die dazugehörigen Itemmittelwerte vs. Itemschwierigkeitsparameter (Rasch-Modell).

o Wenn man die Itemparameter, die getrennt in beiden Subpopulationen geschätzt wurden, auf diese gegeneinander plot-tet, dann sieht man bereits eine der testbaren Konsequenzen aus dem Rasch-Modell: Die Itemschwierigkeiten müssen in allen Subpopulationen gleich sein. Dies würde sich darin ausdrücken, dass alle Punkte auf der Winkelhalbierenden liegen.

In den klassischen Publikationen zur IRT wird dies als „grafische Modellgeltungskontrolle“ eingeführt.

Page 41: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

41

Testbarkeit des Rasch-Modells

- Das Rasch-Modell ist anhand der folgenden drei Gleichungen testbar:

o (a) Gleichheit der Rangfolge der unbedingten Lösungswahrscheinlichkeiten über Subpopulationen.

Dies ist die am wenigsten restriktive Methode der Testung. Sie bezieht sich nicht direkt auf die Itemschwierigkeitspa-

rameter, sondern auf die (unbedingten) Lösungswahrscheinlichkeiten.

o (b) Gleichheit von Wahrscheinlichkeitsverhältnissen über Subpopulationen:

o (c) Gleichheit von Itemschwierigkeiten über Subpopulationen.

- Diese drei Gleichungen wiederum kann man auf verschiedene Arten überprüfen, die im Folgenden besprochen werden.

Arten der Modellgeltungskontrolle

- Man unterscheidet folgende Arten der Modellgeltungskontrolle, die nachfolgend beschrieben werden:

o (1) Graphische Modellgeltungskontrolle des Rasch-Modells

o (2) Modellgeltungstests

Likelihoodquotienten-Test

Pearson χ²-Test

Bootstrap Verfahren

o (3) Informationskriterien

(1) Graphische Modellgeltungskontrolle

Mit Gleichung (a)

- Gleichung (a): Gleichheit der Rangreihe der unbedingten Lösungswahrscheinlichkeiten in Subpopulationen bei Gültigkeit des Rasch-Modells

o Die unterschiedlichen Farben repräsentieren unterschiedliche Items.

o Auf der Abszisse sind verschiedene Subpopulationen abgetragen.

o Die Ordinate zeigt die geschätzte unbedingte Lösungswahrscheinlichkeit.

o Im rechten Teil der Abbildung „schert das rote Item aus“. Es ist zwar im Mittel das zweitleichteste Item, da es die zweit-

höchste Lösungswahrscheinlichkeit P(Y=1) hat. In der zweiten Subgruppe scheint es aber das schwierigste Item zu sein.

Daher handelt es sich nicht um vier Rasch-homogene Items.

- Selbst wenn man von Rasch-Homogenität ausgeht, kann es sein, dass es weitere Subpopulationen gibt, für welche die Items doch nicht Rasch-homogen sind. In der Praxis kann man nicht alle potenziellen Populationen testen und beschränkt sich da-her darauf, für diejenigen Subpopulationen die Rasch-Homogenität zu demonstrieren, die für das zu messende Konstrukt theoretisch Relevanz besitzen.

- Vorteil solcher Grafiken ist die leichte Erkennbarkeit und Kommunizierbarkeit.

Mit Gleichung (c)

- Gleichung (c): Gleichheit der Itemschwierigkeiten über Subpopulationen (bei gleicher Normierung!)

Page 42: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

42

o Wenn die Itemschwierigkeiten nicht alle auf der Winkelhalbierenden liegen [rechter Teil der Abbildung], ist dies in der

Regel leicht zu erkennen. Man weiß auch sofort, welche Items dies betrifft.

Mit Gleichung (a) über Summenscores

- Unter Gültigkeit des Rasch-Modells korrelieren, bei hinreichend langen Tests, Personenfähigkeit und Summenscore aller Items mit r ≥ .90. Dann empfiehlt sich eine graphische Darstellung der geschätzten (unbedingten) Lösungswahrscheinlich-keiten der einzelnen Items in Abhängigkeit der Summenscores (Schätzer für ξ):

o Die obere Abbildung zeigt 9 Rasch-homogene Items; jedes davon ist eine Kurve. Dass die Items Rasch-homogen sind,

lässt sich aus den sich nicht überschneidenden Kurven ersehen.

- Die untere Abbildung zeigt hingegen Items mit abweichenden Itemdiskriminationen:

o 9 Rasch-homogene Items (schwarz) und zwei nicht modellkonforme Items:

„rotes“ Item mit zu geringer Itemdiskrimination (0.2)

„blaues“ Item mit zu starker Itemdiskrimination (2.5)

o Das Problem dieses Verfahrens ist, dass man keine eindeutige Aussage darüber treffen kann, ob man die Annahme der

Rasch-Homogenität nun verwerfen muss oder nicht – man hat keine Prüfgrößen, sondern nur einen visuellen Eindruck.

Über die modellimplizierte Itemcharakteristik

- Eine weitere Möglichkeit ist ein Vergleich der modellimplizierten Itemcharakteristik mit nicht-parametrischen Itemcharakte-ristiken (ohne Modellannahme!). Im Gegensatz zu der vorherigen Methode wurde hier bereits ein modellbasierter Schätzer für ξ verwendet:

o Blau: ICC unter Annahme des Rasch-Modells

o Schwarz: nicht-parametrische ICC (Ramsey-Curve)

Dies ist also eine Schätzung ohne jede Modellannahme.

o Rot: nicht-parametrische ICC (Mittelwerte – kategorisierte lat. Variable)

- Es erfolgt dann ein Vergleich der modellimplizierten Itemcharakteristik mit nicht-parametrischen Itemcharakteristiken (ohne Modellannahme!).

Page 43: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

43

o In der obigen Abbildung liegen alle drei Kurven sehr genau aufeinander.

o In der unteren Abbildung ist dies nicht der Fall:

Vor- und Nachteile der graphischen Modellkontrolle

- Vorteile der graphischen Modellgeltungskontrolle:

o Einfache Interpretierbarkeit

o Informationen/Hinweise darüber, welche Items nicht modellkonform sind

- Nachteil der graphischen Modellgeltungskontrolle: kein inferenzstatistischer Test auf Gültigkeit des Modells

o Man sollte daher immer zusätzlich einen inferenzstatistischen Test verwenden. Ein solcher ist der Likelihoodquotienten-Test, der nun besprochen werden soll.

(2) Likelihoodquotienten-Test

Hinführung: Nullhypothese des Modellgeltungstests in SEM

- In allen Tests von Strukturgleichungsmodellen wird immer eine „modellimplizierte“ Varianz-Kovarianz-Matrix gegen eine „tatsächliche“ (ohne Modell) getestet.

- Es gibt aber nicht zwei Matrizen, sondern vier: Man muss nämlich jeweils zwischen „wahren“ und aufgrund der Stichproben-ziehung „realisierten“ Werten unterscheiden:

o Die „wahre tatsächliche“ Matrix ∑ kennt man nicht; man sieht immer nur ihre verschiedenen Realisierungen S.

o Die „modellimplizierte wahre“ Matrix ∑(θ) kann man sich ebenfalls nicht ausgeben lassen, sondern immer nur die beobachtete modellimplizierte.

wahr beobachtet

modellimpliziert ∑(θ) ∑(θDach) tatsächlich (ohne Modell) ∑ S

- [Zeitmarke: 00:51:30]

- Getestet wird immer, ob die beiden wahren Matrizen gleich sind. Man will ja nicht wissen, ob diese in der (durch zufällige Einflüsse bei der Ziehung verfälschten) Stichprobe gleich sind, sondern ob sie es „in Wahrheit“ sind.

o Die wahren Varianz-Kovarianz-Matrizen werden aus den Stichprobendaten geschätzt.

o In der IRT gibt es keine Varianz-Kovarianz-Matrizen wie in SEM. Auch dort aber bezieht sich die Nullhypothese der Mo-delltests auf die wahren Werte.

Prinzip des Likelihoodquotienten-Tests

- Die Likelihood L(Y) dient nicht nur der Parameterschätzung, sondern kann auch zur Modellgeltungskontrolle verwandt wer-den. sog. Likelihoodquotienten (LR)-Tests

- Prinzip der LR-Tests: Inferenzstatistischer Vergleich…

o eines restriktiven Modells M0 (Modell der Nullhypothese)…

o und einem weniger restriktiven Modells M1 (Modell der Alternativhypothese)…

o anhand der Likelihoods L0 und L1 der beiden Modelle.

Page 44: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

44

Aus diesen beiden Likelihoods wird also ein Quotient gebildet.

- Voraussetzung des LR-Test:

o Modelle M0 und M1 sind genestet!

o Gültigkeit des weniger restriktiven Modells M1!

- [Bis hierher gilt alles Gesagte für jedes Strukturgleichungsmodell. Es folgt das Spezifische für die IRT.]

LR-Test in der IRT

- Likelihoodquotienten (LR)-Test zur Modelltestung von Messmodellen in der IRT:

o M0 ist das Modell mit den Parameterschätzungen unter Annahme der Gültigkeit des zu testenden Messmodells.

L0(Y) ist entsprechend die Likelihood der beobachteten Daten unter Annahme der Gültigkeit des Modells M0!

o M1 ist das Modell mit den Parameterschätzungen unter Annahme der Gültigkeit des weniger restriktiven Messmodells (Al-ternativmodell).

L1 (Y) ist entsprechend die Likelihood der beobachteten Daten unter Annahme der Gültigkeit des Alternativmodells M1!

- Zur allgemeinen Modellgeltungskontrolle wird üblicherweise das Messmodell M0 gegen das saturierte Modell Msat vergli-chen!

o Msat ist das allgemeinste (am wenigsten restriktive) Modell, das die beobachteten Daten perfekt beschreibt!

o Lsat ist die Likelihood des saturierten Modells

o Lsat (Y) ist der maximal erreichbare Wert aller Lw(Y)-Funktionen aller möglichen alternativen Modelle Mw zu den vorliegen-den Daten!

Die Datenlikelihood ist unter Annahme, dass die einzelnen Zeilen in der Datenmatrix unabhängig voneinander sind (dass also die Personen unabhängig geantwortet haben), in folgender Weise als Produkt schreibbar:

Wenn man keinerlei restriktive Modellannahmen macht, ist S [in obiger Tabelle: die realisierte Varianz-Kovarianz-Matrix] der Schätzer für die wahre modellimplizierte Matrix.

- [Zeitmarke: 1:08:50]

- Der entscheidende Gedanke hier ist also, aus einem überhaupt nicht restringierten Modell die Wahrscheinlichkeiten eines Antwortmusters zu schätzen und diese Likelihood zur Likelihood eines bestimmten Modells mit Restriktionen, dessen Geltung man testen möchte, ins Verhältnis zu setzen.

LR-Test am Beispiel des Rasch-Modells

- Berechnung von Lsat(Y) des saturierten Modells:

o Schätzung der Antwortmusterwahrscheinlichkeiten als relative Häufigkeiten aus einer Stichprobe der Größe N:

o n(Yq) ist die absolute Häufigkeit des Antwortmusters Yq

Im Klauer-Datensatz hatten wir 210 verschiedene beobachtete Antwortmuster. Zur Berechnung der Wahrscheinlich-keit eines Antwortmusters müsste man dessen Auftretenshäufigkeit durch diese Zahl teilen.

- Es folgt unter Annahme der stochastischen Unabhängigkeit der einzelnen Antwortmuster:

- Berechnung der Likelihood LRA des restringierten Modells, unter Annahme der Gültigkeit des Rasch-Modells und unter An-nahme der stochastischen Unabhängigkeit der einzelnen Antwortmuster :

Page 45: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

45

o Je nachdem, welche Modellgleichungen man oben einsetzt (hier ist es das Rasch-Modell), spricht man von einer anderen Likelihood. Auf diese Art kann man auch die Likelihoods unterschiedlicher Modelle vergleichen.

- [Dieser Abschnitt wurde nur sehr kurz besprochen. Auf die Formeln wurde nicht näher eingegangen; prüfungsrelevant sei lediglich das Prinzip des LR-Tests].

Nullhypothese und Prüfgröße des Likelihoodquotienten-Tests

- Hinter jedem inferenzstatistischen Test verbirgt sich immer eine Prüfgröße mit einer bekannten Verteilung.

- Der Likelihoodquotient selbst ist noch nicht sinnvoll verteilt:

- Wenn man diesen jedoch logarithmiert, erhält man eine χ2-verteilte Prüfgröße:

o Der logarithmierte Likelihoodquotient multipliziert mit –2 ist approximativ χ2-verteilt!

o Freiheitsgrade, wobei lMi gleich der Zahl der Modellparameter im Modell Mi ist:

- Berechnung der Prüfgröße:

- Ist der χ2-Wert bei gegebener Zahl der Freiheitsgrade nicht signifikant, so kann die Nullhypothese beibehalten werden,

der zufolge das Rasch-Modell gilt!

- Allgemeine Formulierung der Nullhypothese in der IRT:

o [Die genaue Nullhypothese wird jeder in der Prüfung nennen müssen. Dabei gilt es, die Worte „wahr“ und „modellimpli-

ziert“ nicht zu vergessen und genau zu erklären.]

- Diese Prüfgröße findet man auch in WINMIRA. Man bekommt dann zusätzlich einen p-Wert ausgegeben.

o Wenn die Anzahl der möglichen Antwortmuster die der tatsächlich beobachteten übersteigt, bekommt man allerdings ein Problem: Die Verteilung der Prüfgröße ist dann unbekannt und nicht mehr χ2-verteilt. Der p-Wert ist dann nicht mehr sinnvoll interpretierbar.

„Auch für den Ausweg, den es dort gibt, gilt dieselbe Nullhypothese“ [sic!] (daher wurde diese so intensiv bespro-chen). Die Nullhypothese ist, dass die wahren und die modellimplizierten Antwortmusterwahrscheinlichkeiten gleich sind. Wenn dies der Fall ist, sind auch die Likelihoods des restriktiven und des weniger restriktiven Modells auf der wahren Ebene gleich.

• In der realisierten Stichprobe können sie durchaus voneinander abweichen; die Frage ist nur, ob sie dies zufällig tun.

- [Zeitmarke: 1:23:09]

- Die Likelihood selbst ist für sich genommen bereits ein Maß der Abweichung. Man kann aus den beiden Likelihoods ein Devi-anzmaß bilden. Die Werte werden nämlich genau dann groß, wenn das Modell schlecht passt [unverständlich und unpräzise ausgeführt, nicht verstanden].

[Sitzung endet mit Folie 24 aus der Datei zur 6. Sitzung. Ab dort wird nächste Sitzung auch fortgesetzt.]

Page 46: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

46

M

7. Vorlesung vom 07.12.2009: Modellgeltungskontrolle und Itemfit-maße im Rasch-Modell

Zusammenfassung der letzten Sitzung

- Da die Folien aus der letzten Sitzung nicht bis zum Ende besprochen wurden, gibt es noch keine ausführliche Zusammenfas-sung, sondern nur einen „kurzen Abriss“.

Verlauf der vergangenen Sitzungen

- Bisher haben wir das Rasch-Modell kennen gelernt und gesehen, dass es sich dabei – ebenso wie in der KTT – um ein Set von Regressionen handelt. Im Rasch-Modell sind es logistische Regressionen, bei denen manifeste dichotome Variablen regrediert werden auf latente metrische Variablen (die Personenvariable ξ).

- Nachdem wir dies theoretisch behandelt haben, schauten wir uns den Klauer-Datensatz und die Parameterschätzungen an.

- Anschließend wurden die Kennwerte für die Genauigkeit der Parameterschätzung behandelt:

o Standardfehler

o Andrich’s Reliablität

Modellgeltungskontrolle

- In der letzten Sitzung betrachteten wir dann die Modellgeltungskontrolle, was man auf verschiedene Weise tun kann.

Grafisch

- Wenn man die Itemparameter, die in unterschiedlichen Populationen geschätzt werden, plottet, sollten sie auf der Winkelhal-bierenden liegen.

o Es gibt aber auch andere Arten von Grafiken.

- Bei den grafischen Kontrollen kann man gut erkennen, welche Items nicht den Annahmen des Rasch-Modells entsprechen. Es fehlt aber ein klares Kriterium, ab wann ein Item nicht mehr modellkonform ist.

- Aus der KTT sind wir gewöhnt, dass wir einen statistischen Modellgeltungstest haben.

Modellgeltungstest & Nullhypothesen

- Deshalb haben wir uns in einem Exkurs die Nullhypothese in einem Strukturgleichungsmodell angeschaut und dann das Äquivalent dazu in der IRT.

o Die Nullhypothese in einem Strukturgleichungsmodell lautet:

Die wahre und die wahre modellimplizierte Kovarianzmatrix sind gleich.

o In der IRT ist die Formulierung ähnlich, aber es geht hier nicht um Varianzen und Kovarianzen, sondern um Antwort-wahrscheinlichkeiten. Deshalb lautet die Nullhypothese bei der Testung des Rasch-Modells:

Die wahren und die wahren modellimplizierten Antwortmusterwahrscheinlichkeiten sind gleich.

(2) Likelihoodquotienten-Test (Fortsetzung)

- [Letzte Sitzung schon die 1. Art der Modellgeltungskontrolle (grafische Modellgeltungskontrolle) behandelt.]

- [Fortsetzung der „Folien 6“ aus der letzten Sitzung ab Folie 24: „Berechnung der Prüfgröße“]

- Formel zur Berechnung der Prüfgröße

o LRA ist die modellimplizierte Likelihood unter Schätzung der Parameter für das Rasch-Modell [sic!]. Sie ist die Likelihood

unter der Annahme, dass das Modell gilt.

Likelihood-Ratio-Test

- Was muss man zu diesem Likelihood-Ratio-Test (siehe Formel oben) für die Prüfung wissen? [2-3 wichtige Punkte]

o (1) Es werden zwei Likelihoods verglichen, also ein Verhältnis (engl. ratio) gebildet. Die Likelihoods werden ins Verhält-nis gesetzt.

Page 47: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

47

o (2) Der Quotient, also die Likelihood-Ratio, kann man in eine approximativ χ2-verteilte Prüfgröße umwandeln.

o (3) Damit ist es letztlich ein χ2-Test.

- Die Formel selber für χ2LR (sieh Abb. oben) „braucht man wirklich nicht aus’m Kopf wissen.“ Wichtig ist aber, dass es ein

Modellvergleich ist zwischen den Schätzungen zweier Likelihoods.

Likelihood-Ratio-Test in WINMIRA

- Der Output zeigt im oberen roten Kasten die Likelihoods des geschätzten Rasch-Modells und des saturierten Modells.

- Der untere rote Kosten zeigt die Likelihood ratio.

o Darunter stehen die degrees of freedom. Sie sind die Differenz der Parameter in den beiden Modellen.

- Es gibt vier Prüfgrößen, die allesamt das Gleiche testen:

o Cressie Read χ2 [ebenfalls ein χ2-Test, auch wenn es nicht dasteht]

o Pearson Chisquare

o Likelihood ratio

o Freeman-Tukey Chi^2

- Die vier Prüfgrößen sind aber unterschiedlich groß und haben dementsprechend auch unterschiedlich große p-Werte. Deshalb muss man sich für eine der Prüfgrößen entscheiden.

o Im folgenden Abschnitt werden wir behandeln, wann man sich für welche der Prüfgrößen entscheiden sollte.

Prüfgröße: Pearson χ2-Test

- Ein χ2-Test vergleicht beobachtete und erwartete Häufigkeiten. Die grundlegende Formel dafür, die wir schon aus der Infe-renzstatistik kennen, ist der einfache Bruch: ∑ (nbeob – nE)² / nE

o nbeob ist die beobachtete Häufigkeit

o nE die erwartete Häufigkeit (entspricht der Nullhypothese, dass es keine Unterschiede gibt)

- Angewandt auf das Rasch-Modell ergibt sich dann folgende Prüfgröße: [Zeitmarke: 00:12:30]

- Die Freiheitsgrade sind abhängig von...

o

- Ohne die Anzahl der Freiheitsgrade kann man in einem χ2-Test keinen p-Wert berechnen.

- Interpretation: Ist der χ2-Wert bei gegebener Zahl der Freiheitsgrade nicht signifikant, so kann die Nullhypothese beibehal-ten werden, der zufolge das angenommene Messmodell (hier: Rasch-Modell) gilt!

Unterschiede in den vier Prüfgrößen

- In unserem Datenbeispiel (siehe Output oben) hat der Pearson-χ2-Test einen p-Wert von 0,23 während die Likelihood ratio einen p-Wert von 0,07 ausgibt.

o Es wird dieselbe Nullhypothese getestet, aber die Prüfgrößen verhalten sich unterschiedlich.

- Die vier Prüfgrößen stehen unter der Überschrift „Power Divergence GoF statistics“, d.h. sie gehören alle zu einer Familie von Prüfgrößen, die etwas über die Goodness of Fit aussagen, d.h. über die Anpassungsgüte des Modells an die Daten.

- In die vier Prüfgrößen geht immer die gleiche Information ein: die Differenz zwischen beobachteten und erwarteten Antwortmustern.

Page 48: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

48

o Diese Differenz wird aber, je nach Prüfgröße, unterschiedlich stark gewichtet. Ursache für die unterschiedlichen p-Werte sind also Gewichtungsfaktoren.

Nachteile von Likelihood-Ratio-Test und Pearson-χ2-Test

- Für den Fall, dass alle möglichen Antwortmuster beobachtet worden sind, sind alle Prüfgrößen nahezu gleich groß und es ist egal, welche Prüfgröße man verwendet.

o In diesem Fall empfiehlt NR die Verwendung bekannter Prüfgrößen, d.h. Likelihood-Ratio oder Pearson-χ2-Test.

o Es ist aber extrem unrealistisch, dass alle möglichen Antwortmuster beobachtet werden:

Anzahl der Antwortmuster

- Die Anzahl der Antwortmuster ist mk , z.B. 27=128 bei einem Test mit sieben dichotomen Items; dabei ist…

o m: Anzahl der Kategorien pro Item

o k: Anzahl der Items im Test

- Die Empfehlung für die Verwendung von einem χ2-Test ist, dass jedes Antwortmuster, d.h. jede Zelle, mindestens fünf Mal beobachtet werden muss.

o Nun gibt es unter Gültigkeit des Rasch-Modells Antwortmuster, die sehr unwahrscheinlich sind. Diese mindestens fünf Mal zu beobachten ist – gegeben der Vielzahl möglicher Antwortmuster – unrealistisch. Dies zeigt folgendes Beispiel:

Um jedes Antwortmuster auch nur einmal zu beobachten, bräuchte man eine Stichprobe von über 244 Millionen Per-sonen.

Verteilung der Prüfgröße χ2

- Wenn bestimmte Zellen nicht besetzt sind, d.h. bestimmte mögliche Antwortmuster nicht beobachtet werden, ist die Vertei-lung der Prüfgröße nicht bekannt.

o [Anmerkung MN: Beim „klassischen χ2-Test, bei dem man 50 Männer und 50 Frauen hinsichtlich des Merkmals Rau-cher/Nichtraucher vergleicht, gibt es nur vier Zellen und die sind jeweils mit mindestens 5 Personen besetzt. Dann ist die Prüfgröße auch problemlos χ2-verteilt.]

o Der χ2-Wert, der im WINMIRA-Output steht, ist richtig berechnet. Aber wir kennen die Verteilung dieser Prüfgröße nicht mehr. Die Verteilung entspricht nicht mehr der bekannten χ2-Verteilung, die annimmt, dass alle Zellen (mindestens fünf Mal) besetzt sind.

- [Zeitmarke: 00:22:00] Wenn man einen p-Wert auch als solchen interpretieren will, ist es absolut notwendig, dass man die Verteilung der Prüfgröße kennt. Ist die Verteilung unbekannt, kann man beispielsweise nicht mehr sagen, was ein p-Wert größer/kleiner als 0,05 bedeutet.

- Dieser Abschnitt auf der Folie zusammengefasst:

- Der nächste Abschnitt behandelt eine Lösungsmöglichkeit für dieses Problem.

Bootstrap-Verfahren

- Um „wieder glücklich zu werden“, brauchen wir die Verteilung der Prüfgröße. Hierfür gibt es das Verfahren der Bootstrap Inferenz. [Zeitmarke: 00:23:30]

- Bootstrap-Verfahren sind ein sehr weites Feld. In dieser Vorlesung beschränken wir uns auf die Bootstrap-Modellgeltungskontrolle im Rasch-Modell.

Grundidee

- „Wenn einem die Prüfgröße verloren geht, steht man im Sumpf.“ Mit dem Bootstrap-Verfahren zieht man sich an den eige-nen Schuhlaschen aus dem Sumpf.

- Grundidee [von Folie]: Die Verteilung der Prüfgröße wird empirisch ermittelt!

- Bootstrap-Verfahren werden manchmal auch Resampling-Verfahren genannt, weil man immer wieder Stichproben zieht.

o [Der Begriff „ziehen“ ist irreführend, weil man die Bootstrap-Stichproben mit Hilfe der vorhandenen Parameter generiert, wie man im nächsten Abschnitt sehen wird.]

Page 49: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

49

Vorgehen

- Parameterschätzung: Aus der Original-Stichprobe schätzt man Parameter; im Rasch-Modell ein ξ Dach und sehr viele βiDach.

Mit Hilfe dieser Parameter kann man später neue Daten erzeugen.

- Zunächst aber errechnet man für jede Person eine Lösungswahrscheinlichkeit für jedes der Test-Items.

o Beispiel: Die Wahrscheinlichkeit, dass Klaus das 2. Item löst, beträgt 0,7.

- Erzeugung neuer Daten-Matrizen via Bootstrap: Das Item kann aber nur gelöst oder nicht gelöst werden. Man kann auf Grundlage der Parameter nun eine neue Datenmatrix schätzen, in der nur Nullen und Einsen stehen. Grundlage dafür sind die Lösungswahrscheinlichkeiten.

o Beispiel: Es ist wahrscheinlicher, dass Klaus’ Wert für das 2. Item Y2=1 beträgt als Y2=0. In 30% aller erzeugten Datenmatrizen wird aber in dieser Zelle 0 stehen.

- Das Erzeugen einer neuen Datenmatrix ist ein Bootstrap-Sample. Diesen Prozess wiederholt man mehrmals, so dass viele neue Stichproben entstehen.

- Da die Bootstrap-Samples nur stochastisch auf den bisherigen Daten und Parametern beruhen, sieht jedes Sample wieder anders aus.

o Beispiel: Klaus wird mal eine 0, mal eine 1 für sein 2. Item haben.

- Vorteil des Bootstrap-Verfahrens: Man hat, z.B. durch 1000 erzeugte Bootstrap-Samples, einen Datensatz erzeugt, für den man sicher weiß, dass die Daten unter Gültigkeit des Rasch-Modells zu Stande kommen. [Zeitmarke: 00:32:10]

Nach Ziehen der Bootstrap-Samples

- Inspektion der Verteilung: In jedem der Bootstrap-Samples werden – wie auch im Originalsample – geschätzt: Parame-ter, Likelihood und Prüfgröße.

o Somit erhält man bei 1000 Bootstrap-Samples 1000 Prüfgrößen, die irgendwie verteilt sind.

o Man kann die Verteilung der Prüfgröße als Histogramm darstellen, über das man eine Kurve legen kann.

Folgende Abbildung nur zur Illustration dieser Idee [stammt aus dem Abschnitt zur Berechnung des p-Wertes weiter unten, wurde aber nicht besprochen]

- Diese empirisch ermittelte Verteilung hat keinen Namen, denn sie ist ja keine χ2-Verteilung mehr.

o Anhand dieser neuen Verteilung kann man aber jetzt einen p-Wert ermitteln.

- Gesamtes Vorgehen auf der Folie zusammengefasst:

Fragen der Teilnehmer

- [Zeitmarke: 00:36:30] Wie kann es sein, dass die durch Bootstrap-Verfahren ermittelte Verteilung ganz anders liegt als die eigentliche χ2-Verteilung?

o [Antwort nicht verstanden. Interpretationsversuch:] Die beobachteten Daten können – trotz Bootstrap – schlecht zu den aufgrund des Modells erwartbaren Daten passen.

- Wie oft ein Bootstrap-Sample ziehen?

o Simulationsstudien haben gezeigt, dass zur Geltungskontrolle des Rasch-Modells 40 Mal meist ausreichen. Deshalb sind in WINMIRA 40 Bootstrap-Samples voreingestellt. NR würde aber auf jeden Fall 500 Mal empfehlen.

Page 50: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

50

WINMIRA-Output zu Bootstrap

- [Von 00:43:00 bis 00:45:30 wurde in der Vorlesung im Programm WINMIRA eine Analyse durchgeführt. Entsprechende An-leitung zur Bedienung des Programms nicht mitgeschrieben. Im Anschluss wurde der Output „klauer_CPM_pre_18items.OUT“ betrachtet, der sich im Ordner „20091207 Daten“ befindet.]

Modellgeltungskontrolle

- Zunächst sollte man die Modellgeltungskontrolle anschauen, auch wenn diese im WINMIRA-Output erst im unteren Teil zu finden ist: Abschnitt Goodness of fit statistics und dann unter „Power Divergence GoF statistics“

- Für alle vier Prüfgrößen findet sich ein p-Wert von p=1, was nicht korrekt ist und daran liegt, dass man die Verteilung der Prüfgröße nicht kennt.

o Deshalb gibt WINMIRA auch eine Warnung aus: „Number of cells is larger than number of different patterns!!!“ und „number of zero cells = 261934“ sagt aus, dass man 261.934 mögliche Antwortmuster gar nicht beobachtet hat.

Bootstrap-Ergebnisse

- Direkt im nächsten Abschnitt des Outputs wird das Bootstrap-Verfahren dargestellt.

- Unter „Parametric Bootstrap estimates for Goodness of Fit“ stehen die Bootstrap-Ziehungen [im Output in der Vorlesung waren es 40, in der heruntergeladenen Datei sind es 80].

- Die Spalten bedeuten…

o Satlik: Likelihood des saturierten Modells

o LogLik: Logarithmierte Likelihood unserer Modellannahme

o LR: Daraus resultierende Likelihood Ratio, die Prüfgröße. Diese Spalte entspricht der empirisch ermittelten Verteilung der Prüfgröße und aus ihr könnte man ein Histogramm erstellen.

Prüfgrößen

- Unter den vielen Bootstrap-Zeilen (ganz am Ende des Outputs) stehen zwei p-Werte

o P(X>Z): In diesem p-Wert steckt eine Verteilungsannahme, weshalb wir ihn nicht betrachten.

o p-values (emp. PDF): Dieser ist für uns wichtig

emp. PDF steht für „empirical Probability Density Function“ und meint die Verteilungsfunktion der Prüfgröße.

- Die vier Spalten stehen für die vier Prüfgrößen. Die Benennung der Spalten steht nur zu Beginn der [40, 80 oder 100] Bootstrap-Zeilen.

- Wir müssen uns nun für eine Prüfgröße entscheiden, worauf auch WINMIRA hinweist:

o It is recommended to use only the empirical p-values of the Pearson X^2 and the Cressie Read statistics. Do not use the FT and LR sta-tistics for model selection!

- Die Prüfgrößen werden – wie oben angesprochen – unterschiedlich gewichtet und funktionieren je nach Gewichtung unter-schiedlich gut. In Simulationsstudien hat sich gezeigt, dass Pearson χ2 und Cressie Read gut funktionieren.

o Für uns also wichtig: Pearson χ2 oder Cressie Read als Prüfgrößen nehmen, nicht LR oder FR!

o Ob nun Pearson χ2 oder Cressie Read ist egal. Man muss sich nur aufgrund der Testlogik vorher entscheiden.

[Welche Logik dies sein soll wurde nicht gesagt; ist aber auch irrelevant, weil wir – frei nach Gusto – einen der beiden Prüfgrößen verwenden können. NR nimmt lieber Cressie Read]

Bootstrap Inferenz: Berechnung des p-Wertes

- [Zeitmarke: 00:50:30. Ab hier wird nicht mehr der Output betrachtet, sondern an der Tafel gerechnet.]

- Den p-Wert kann man auch „ganz einfach“ berechnen.

Page 51: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

51

- Zunächst aber „die ganz wichtige Frage“: „Was ist der p-Wert?“

[Es wurde mehrfach auf die Prüfungsrelevanz hingewiesen. Die verbale Definition ist mindestens ebenso prüfungsre-levant, wurde aber von NR in dieser Sitzung nicht ausgesprochen.]

o Formal: (Vergleichswert ≥ Wert in Stichprobe | H0) o In unserem Fall: (χ2 ≥ χ2

Originalstichprobe | H0) Die H0 besagt, dass das Rasch-Modell gilt

- Bestimmung des p-Wertes anhand der empirisch ermittelten Verteilung der Prüfgröße:

o

- Der Wert für PGsample steht im Teil „Power Divergence GoF statistics“ des Outputs in der Zeile „Cressie Read“

o [Im heruntergeladen Output beträgt er 8664,71 , in der Vorlesung betrug der Wert etwa 8800.]

- Der p-Wert ist eine Wahrscheinlichkeit und wird deshalb – wie alle Wahrscheinlichkeiten – über relative Häufigkeiten ge-schätzt.

o Wenn man den Wert von Hand ausrechnen wollte, müsste man die Zeilen der Bootstrap-Ziehungen betrachten und zäh-len, wie häufig die Werte in der Spalte „Cressie Read“ über dem Wert PGsample liegen.

Genau dies besagt der Ausdruck n PG ≥ PG sample .

Weitere Tests für Rasch-Modelle

- [Zeitmarke: 00:57:30]

- Weitere Tests für das Rasch-Modell, die Likelihood-basierte Tests, werden nachfolgend besprochen.

o [„Ist nicht so wichtig“ und „Diese beiden Tests sind der Vollständigkeit halber auf den Folien drauf, werden aber nicht re-levant für die Prüfung sein.“ Der Likelihood-Ratio-Test, Pearson-χ2-Test und Bootstrap sind hingegen relevant.]

Andersen Test (auf Personenhomogenität)

Martin-Löf Test (auf Itemhomogenität)

Page 52: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

52

Zusammenfassung der Folien zur 6. Sitzung

- [Die Zusammenfassung wurde in der Vorlesung nicht gezeigt; hier dennoch die Folien]

Itemfitmaße

- [Ab hier Inhalte der Datei „Testtheorien II VL 2009-12-07 Folien 7.pdf“]

- Bis jetzt haben wir alle Teile des WINMIRA-Outputs behandelt: Standardfehler, Modellpassung, usw.

o Es fehlt uns nur noch die Tabelle „item fit assessed by the Q-index“, die sich im mittleren (bis unteren) Teil des Outputs befindet.

Analogie zur KTT

- [Zeitmarke: 01:00:00] Im Strukturgleichungsmodell kann man sich Residuals anschauen:

o S ist die Varianz-Kovrianz-Matrix der Stichprobe und ein Schätzer für die wahre Varianz-Kovarianz-Matrix ∑ .

- Wenn man von der beobachteten die modellimplizierte Varianz-Kovarianz-Matrix abzieht, bedeutet dies: S – ∑(θDach) o Dies entspricht, auf Ebene der wahren Varianz-Kovarianz-Matrizen: ∑ – ∑(θ)

Überleitung zur IRT

- Diese Differenzmatrix sind die Residuen. Diese betrachtet man, wenn die Modellpassung schlecht ist. Große Elemente in der Varianz-Kovarianz-Matrix der Residuen deuten darauf hin, wo ein Modell schlecht passt.

o Aber auch wenn ein Modell insgesamt gut passt, kann es lokale Miss-Spezifikationen geben, d.h. an einer Stelle passt das Modell nicht.

o Beispiel in der KTT: In einem essentiell-τ-äquivalenten Modell mit 50 Items korrelieren die Fehler des 2. und 3. Items miteinander. Insgesamt hat das Modell aber eine gute Passung.

- Allgemein gesagt, auch für die IRT gültig: Wenn man große Modelle hat, können trotz guter Modellpassung (Goodness of Fit-Statistik) lokale Miss-Spezifikationen vorliegen.

Page 53: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

53

o Deshalb sollte man nach der allgemeinen Modellgeltungskontrolle auch eine Kontrolle der Itempassung durchführen. Da-bei schaut man, wie gut jedes einzelne Item dem Messmodell folgt.

o In der IRT wird dann jedes einzelne Item auf Rasch-Konformität getestet. Dies macht der Q-Index.

Zusammenfassung der Einleitung zu Itemfitmaßen:

- Itemfitmaße dienen der Identifikation nicht modellkonformer Items.

o sind von globalen Goodness of Fit Statistiken (LR-Test, χ2-Test) abzugrenzen.

o zur Modellkontrolle auf Itemebene (zur Itemselektion bei der Testentwicklung geeignet)

Unterscheidung von Itemfitmaßen

- Wir unterscheiden zwei Arten von Itemfitmaßen:

o (1) Likelihoodbasierte Itemfitmaße: Wahrscheinlichkeit des Itemvektors Yi wird zugrunde gelegt (Yi = Spalte in der Datenmatrix für das Item Yi).

Beispiel: Q-Index (WINMIRA)

o (2) Residuenbasierte Itemfitmaße: Differenz zwischen beobachteter Itemantwort yiu und modellimplizierter Antwortwahrscheinlichkeit P (Yi | U=u) wird zugrunde gelegt.

Beispiel: Infit, Outfit (MULTIRA)

(1) Likelihoodbasierte Itemfitmaße

- Ausgangspunkt für likelihoodbasierte Itemfitmaße ist die übliche Datenmatrix: Jede Spalte beschreibt ein Item, jede Zeile eine Person.

o Bisher haben wir die Likelihood über eine Zeile hinweg, d.h. für eine Person betrachtet.

o Wenn man nun eine gesamte Spalte betrachtet, bezeichnet man dies als Vektor Yi . Dies ist die Likelihood für ein Item Yi .

- Man kann dann schauen, ob das Antwortmuster für ein Item wahrscheinlich oder unwahrscheinlich ist unter der Annahme, dass das Modell gilt.

o Ist das Antwortmuster unwahrscheinlich, folgert man daraus, dass das Item nicht modellkonform ist.

- Beispiel: Man hat in einem Test ein Item, das fast alle niedrig Fähigen lösen, aber keiner der hoch Fähigen. Unter Annahme des Rasch-Modells wäre dies ein extrem unwahrscheinliches Antwortmuster, was ein Hinweis darauf ist, dass das Item nicht dem Modell folgt.

o Modellkonform wäre dagegen, wenn ein Item von fähigeren Personen häufiger gelöst wird als von weniger fähigen Perso-nen.

- Diese Informationen werden im Q-Index ausgedrückt. [Nichts Genaueres zum Index erklärt. Dies erfolgt weiter unten im Abschnitt „Q-Index“.]

(2) Residuenbasierte Itemfitmaße

- Etwas anders funktionieren die residuenbasierten Itemfitmaße.

- Auch in der IRT gilt die einfache Zerlegung: Yi = τi + ε o Der True-Score τi ist definiert als τi = E(Yi|U) o Wenn Yi dichotom ist, heißt dies, dass τi = P(Yi=1|U)

- Da wir in der IRT die Personenfähigkeit (ausgedrückt in der latenten Variable ξ) bisher als eine Funktion von U auffassen, folgt daraus: τi = P(Yi=1|ξ)

- Damit folgt aus der allgemeinen Gleichung Yi = τi + ε für die IRT: Yi = P(Yi=1|ξ) o Der Fehler ist demnach folgende Differenz: ε = Yi – P(Yi=1|ξ)

- Für diese Differenz gibt es wiederum Kennwerte: Den Infit und den Outfit.

o [Zeitmarke: 01:12:00] Diese erhält man mit dem Programm MULTIRA: „Wir werden leider nicht mehr die Zeit haben, dieses Programm kennen zu lernen.“

o MULTIRA verwendet – anders als WINMIRA – nicht den Q-Index, sondern eben Infit und Outfit: „Deshalb sind sie es wahrscheinlich auch wert, sie hier mal kurz zu betrachten.“

Q-Index

- Der Q-Index als Kennwert funktioniert folgendermaßen: Mit den geschätzten Parametern wird die Wahrscheinlichkeit des beobachteten Antwortmusters Yi gegeben ein Modell θ, das durch die Parameter β und ξ definiert ist, berechnet.

Formal: P(Yi | θ) bzw. P(Yi | βi ,ξ) - Man kann auch eine Wahrscheinlichkeit für das Guttman-Antwortmuster berechnen. Das Guttman-Antwortmuster ist un-

ter Gültigkeit des Rasch-Modells das wahrscheinlichste Antwortmuster. Es entspricht einer Sprungfunktion und besagt, dass wenn man alle Personen hinsichtlich ihrer Fähigkeit ξ in eine Rangreihe bringt, ab einer bestimmten Ausprägung von ξ ein I-tem immer gelöst wird.

Page 54: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

54

Wenn also ab einer bestimmten Fähigkeitsstufe eine Person das Item löst (Yi=1), werden auch alle anderen Personen die eine ebenso große oder größere Ausprägung von ξ haben, dieses Item lösen.

- Es gibt auch das Anti-Guttman-Antwortmuster, das bei Gültigkeit des Rasch-Modells das unwahrscheinlichste Antwort-muster ist. Es besagt: Alle niedrig Fähigen lösen das Item und ab einem bestimmten Schwellenwert der Fähigkeit ξ löst kei-ner mehr das Item.

- Ebenso wie für das beobachtete Antwortmuster Yi kann man auch für das Guttman-Muster (Index G) und das Anti-Guttman-Muster (Index AG) die Wahrscheinlichkeit berechnen:

o P(YG | βi ,ξ) bzw. P(YAG | βi ,ξ) - Der Q-Index ist nun eine Standardisierung der bedingten Wahrscheinlichkeit für das beobachtete Antwortmuster Yi .

Sie wird doppelt standardisiert anhand der Wahrscheinlichkeit für YG und YAG .

Kurzzusammenfassung von der Folie

- Prinzip: Standardisiert die bedingte Wahrscheinlichkeit des beobachteten Itemvektors gegeben der Lösungshäufigkeit des betrachteten Items…

o (a) am wahrscheinlichsten Antwortmuster des jeweiligen Items unter Annahme der Gültigkeit des Modells (Guttmann-Antwortmuster) und…

o (b) am unwahrscheinlichsten Antwortmuster des jeweiligen Items unter Annahme der Gültigkeit des Modells (Anti-Guttmann-Antwortmuster.

Interpretation des Q-Index

- Wertebereich: Qi= [0 ≤ Q ≤ 1].

- Interpretation:

o Qi = 0 bedeutet perfekte Itemdiskrimination.

Die Itemdiskrimination ist dann unendlich steil und es handelt sich um eine Sprungfunktion: Ab einer bestimmten Ausprägung von ξ lösen alle Personen das Item.

o Qi = 0.5 bedeutet stochastische Unabhängigkeit von ξ und der Antwortwahrscheinlichkeit des Items Yi.

Die itemcharakteristische Kurve wäre eine Gerade ohne Steigung: Die Lösungswahrscheinlichkeit (y-Achse) ist unbeeinflusst von der Ausprägung von ξ (x-Achse) immer gleich hoch.

o Qi = 1 bedeutet perfekt negative Itemdiskrimination.

Ab einer bestimmten Ausprägung von ξ löst dann keine Person mehr das Item (ebenfalls eine Sprungfunktion).

- Im eindimensionalen Modell ist der Q-Index als Abweichung der Itemdiskrimination von αi=1 interpretierbar.

- Voraussetzung: Gültigkeit der Annahme der lokalen stochastischen Unabhängigkeit (Dimensionalität!).

- Niedrige Q-Werte bedeuten also eine zu steile Diskrimination, hohe Q-Werte eine zu flache Diskrimination.

o Viel zu hohe Q-Werte [alles über 0,5] bedeuten eine negative Itemdiskrimination, d.h. weniger Fähige können das Item besser lösen als hoch Fähige.

Q-Index im WINMIRA-Output

- Rechts abgebildet: Screenshot aus der Output-Datei „klauer_CPM_pre_18items.OUT“

- In der Datei sieht man, dass für alle Items der Q-Index zwischen 0 und 0,5 liegt.

- Es gibt in der Literatur keine genauen Angaben, was ein guter bzw. schlechter Q-Index ist. Deshalb wird er in die approximativ z-standardisierte Prüfgröße Zq umgerechnet.

o Im Output wird für jedes Zq eines Items auch gleich ein p-Wert angegeben. Ist der p-Wert [Spalte p(X>Zq)] kleiner als 0,05, ist das Item nicht raschkonform.

o Dank des p-Wertes muss man sich nicht weiter mit den Absolutwerten des Q-Index beschäftigen.

- In der letzten Spalte des Outputs wird eine Art Grafik dargestellt:

o Wenn das Q weit rechts des Ausrufezeichens in Richtung + liegt, ist die Itemdiskrimination zu steil.

- Wenn hinter dem p-Wert eines Items ein Fragezeichen steht, z.B. bei CPM1_24, bedeutet dies, dass der Q-Wert dieses Items signifikant von Q=0,5 abweicht.

o Bei einem Fragezeichen hinter dem Wert, wäre die Abweichung sogar auf einem Niveau von p<0,01 signifikant.

[Dies ist aber weniger wichtig]

- Wichtiger ist, was der Q-Wert aussagt: Der Q-Index ist sensibel für Abweichungen der Itemdiskrimination.

Page 55: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

55

Beispiel zum Q-Index

- [Gezeigt wird der WINMIRA-Output „16items_2pl_1latent.OUT“, der sich ebenso wie der entsprechende Datensatz im Ordner „20091207 Daten“ befinden.

o [Zeitmarke: 01:23:00]

- Diese Datei ist eine Simulation mit 16 Items und 700 Fällen.

- Es zeigt sich – wie üblich – eine riesige Differenz zwischen beobachteten und möglichen Antwortmustern, d.h. man muss zur Modellgeltungskontrolle den Bootstrap betrachten.

o [Siehe ganz am Ende des Outputs:] Aber auch beim Bootstrap werden alle p-Werte gleich 1.

Grund hierfür ist, dass wir nur 50 Bootstrap-Samples haben. Dabei kann es vorkommen, dass keines der Bootstrap-Samples so gut ist wie die Original-Stichprobe [sic!].

Daraus folgt die Interpretation: Die Original-Daten passen sehr gut zu dem Rasch-Modell

Q-Index im Output

- ... im Abschnitt „item fit assessed by the Q-index“.

- Man sieht, dass der Itemfit der Items 6 bis 16 gut ist. Allerdings „machen die ersten fünf Items Probleme“:

o Die Items 1 und 2 diskriminieren extrem stark; die Items 3, 4 und 5 hingegen kaum.

o Es gibt also fünf signifikante Items, d.h. diese fünf Items sind nicht modellkonform.

- Dennoch wird das gesamte Modell als gültig angenommen, was man an den p-Werten von 1 (s.o.) erkennt.

o [Zeitmarke: 01:25:40] Mit dem Beispiel soll gezeigt werden, dass es Items gibt, die besser diskriminieren als es das Mo-dell annimmt. Der χ2-Test ist aber nur in eine Richtung sensitiv.

o Wenn ein Modell zu gut ist, kann man dies in der allgemeinen Modellgeltungskontrolle (mit χ2-Test und p-Werten) nicht zeigen.

- „Hinweise, wenn Sie mal damit arbeiten werden“: Die allgemeine Modellgeltungskontrolle ist sensibel für Verstöße gegen die lokale stochastische Unabhängigkeit. [sic!] Dies ist gegeben, wenn die Eindimensionalität des Modells nicht gilt.

o Die allgemeine Modellgeltungskontrolle ist kaum bis gar nicht sensibel für Abweichungen der Item-Diskrimination. Des-halb ist es für die Item-Auswahl sinnvoll, die einzelnen Items bezüglich ihrer Fitmaße zu betrachten.

o Manche Tests sind sensibler als andere, d.h. sie haben eine höhere Power als andere.

- Fazit: „Auch auf Item-Ebene schauen.“

[Datei „Testtheorien II VL 2009-12-07 Folien 7.pdf“ nur bis einschließlich Folie 9 behandelt. NR kündigte an in der nächsten Sitzung einige Folien dieser Datei wegzulassen.] C

8. Vorlesung vom 14.12.2009: Personenfitmaße und Zusammenfas-sung - Rasch-Model

- [Aufgrund von Klagen über die zu hohe Geschwindigkeit der Vorlesung wird heute kein neuer Stoff behandelt, sondern ledig-lich der Stoff der letzten Sitzung wiederholt und vertieft. Dann wird es einen Exkurs zu Itemfitmaßen geben.]

Zusammenfassung der letzten Sitzung

Itemfitmaße

- Itemfitmaße kann man unterteilen in…

o Likelihoodbasierte Itemfitmaße: Wahrscheinlichkeit des Itemvektors Yi wird zugrunde gelegt (Yi = Spalte in der Da-tenmatrix für das Item Yi )

Beispiel: Q-Index in WINMIRA

o Residuenbasierte Itemfitmaße: Differenz zwischen beobachteter Itemantwort yttu und modellimplizierter Antwortwahr-scheinlichkeit P(Yi | U=u) wird zugrundegelegt.

Beispiel: Infit, Outfit in MULTIRA.

• Diese Maße sind – im Gegensatz zu den likelihoodbasierten – nicht prüfungsrelevant, obwohl sie eigentlich ver-breiteter sind. Wir werden aber keine Software kennenlernen, in denen mit diesen Fitmaßen gearbeitet wird.

Page 56: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

56

Der Q-Index

- Warum gibt es in WINMIRA den Q-Index? Dieser ist ein Kennwert für die Modellgeltung bezüglich eines einzelnen Items.

o Warum aber sollte man sich Tests für einzelne Items ansehen, obwohl das Gesamtmodell gilt? Dafür gibt es zwei Gründe:

(1) Insbesondere bei großen Modellen mit vielen Items trägt jedes Item kaum mehr viel zur Gesamtgeltung des Mo-dells bei. Der Beitrag eines einzelnen Items wird umso geringer, je mehr Items das Modell umfasst und je größer da-mit die Varianz-Kovarianz-Matrix wird. Das bedeutet: Ein Item kann sich sehr schlecht einfügen und im Extremfall so-gar eine negative Itemdiskrimination haben (lokale Missspezifikationen des Modells), ohne dass sich dies spürbar auf die Geltung des Gesamtmodells auswirkt.

• Dies ist besonders dann relevant, wenn später Subtests aus einzelnen Items oder Kurzformen konstruiert werden – in solchen Fällen müssen wirklich alle Items „funktionieren“ [Zeitmarke: 00:07:20].

(2) Spezifisch für das Rasch-Modell: die allgemeine Modellgeltungskontrolle kann gut ausfallen, obwohl einzelne Items abweichende Itemdiskriminationen aufweisen, die deutlich von 1 verschieden sind. Die Modellgeltungskontrolle im Rasch-Modell ist sensibel für die Verletzung der Annahme der lokalen stochastischen Unabhängigkeit und für die Dimensionalität, nicht aber für die Verletzung der Annahme einer Itemdiskrimination von 1; dies liegt an der geringen statistischen Power des Tests im Bezug auf diese Frage.

• Genau dafür sind der Q-Index und die dazugehörige z-Prüfgröße sensibel. Dieser ist ein Komplement zum allge-meinen Modelltest, der stärker auf die lokale stochastische Unabhängigkeit anspricht.

Vertiefung zu Itemfitmaßen

Details zum Q-Index

Datengrundlage des Q-Index

In der Item-response-Theorie hat man immer eine Datenmatrix der folgenden Form:

o In den Spalten stehen die Items Yi

o In den Zeilen stehen die Personen Pi

o Die Zellen enthalten damit die Information, ob eine Person ein bestimmtes Item gelöst hat oder nicht (0 oder 1).

- Y(u) ist dabei ein Zeilenvektor, der die Informationen über eine Person in einem Test wiedergibt.

- Yi ist ein Spaltenvektor, der Informationen über das jeweilige Item enthält.

o Auch für diesen Vektor kann man eine Likelihood berechnen, die etwas über das Item aussagen. Diese Likelihood für den Antwortvektor über alle Personen ist die Grundlage für den Q-Index.

Prinzip des Q-Index

- [Zeitmarke: 00:15:30]

- Bereits angesprochen wurde das Prinzip des Q-Index:

o (Doppelte) Standardisierung der bedingten Wahrscheinlichkeit des beobachteten Itemvektors gegeben die Lösungshäu-figkeit des betrachteten Items…

am wahrscheinlichsten Antwortmuster des jeweiligen Items unter Annahme der Gültigkeit des Modells (Guttman-Antwortmuster)

am unwahrscheinlichsten Antwortmuster des jeweiligen Items unter Annahme der Gültigkeit des Modells (Anti-Guttman-Antwortmuster)

- Die Wahrscheinlichkeiten der obigen Muster werden also zur Standardisierung des beobachteten Antwortmusters genutzt, wodurch man auf den Q-Index kommt.

o Durch die Standardisierung wird der Wertebereich auf 0 bis 1 festgelegt.

Beträgt der Index Qi=0.5, dann ist die Wahrscheinlichkeit einer richtigen Beantwortung des Items völlig unabhängig von der interessierenden latenten Variable [der Fähigkeit der Person].

Qi=0 bedeutet perfekte Itemdiskrimination (Vorliegen einer Sprungfunktion)

Qi=1 bedeutet perfekt negative Itemdiskrimination

• Das Item tut also genau das Gegenteil von dem was es soll: ab einer bestimmten Fähigkeitsausprägung löst nie-mand mehr das Item.

- In eindimensionalen Modellen ist der Q-Index als Abweichung der Itemdiskrimination von αi = 1 interpretierbar

o Der Q-Index ist also besonders sensibel, wenn die Itemdiskrimination von 1 abweicht.

- Es muss vor Betrachtung des Q-Index allerdings die Gültigkeit der Annahme der lokalen stochastischen Unabhängigkeit ü-berprüft werden.

o Für das Rasch-Modell bedeutet das insbesondere, dass die Dimensionalität stimmen muss. Dies soll nun anhand eines Datenbeispiels illustriert werden.

Page 57: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

57

Datenbeispiel zum Q-Index

- Simulationen wie die hier verwendete haben den Vorteil, dass man die tatsächliche Struktur seiner Daten kennt und davon ausgehend überprüfen kann, wie ein Test auf verschiedene Fehlspezifikationen reagiert:

o Datensimulation mit 16 Items und 2 latenten Variablen ξ1 und ξ2, bei Kor(ξ1,ξ2) = 0.3 o Stichprobengröße N = 700 o Items 1–8 indizieren ξ1, die Items 9–16 indizieren ξ2

- Fragestellung: Vergleich der Q-Indizes der ersten 8 raschhomogenen Items geschätzt im eindimensionalen Modell (mit nur 8 Items) mit Q-Indizes aus dem falsch spezifizierten Modell mit 16 Items (unter Annahme nur einer latenten Variable).

o [MN: Das zweite Modell mit 16 Items ist deshalb falsch, weil es nur eine latente Variable annimmt, obwohl die Items 9-16 ja für die 2. latente Variable „zuständig“ sind.]

o Man simuliert also absichtlich einen „Fehler“, d.h. eine Verletzung des Modells, um dessen Konsequenzen für den Q-Index zu ermitteln.

- Die nachfolgende Tabelle zeigt Q-Indizes für die beiden Fälle.

o Im richtig spezifizierten Modell deutet der Index darauf hin, dass VAR4 etwas zu niedrig diskriminiert (auch wenn dies

nicht signifikant ist).

o Im falsch spezifizierten Modell würde der Q-Index für dasselbe Item hingegen sogar die Richtung [des Ausrufezeichens] ändern; man würde also eher schlussfolgern, dass das Item zu hoch diskriminiert.

- Dies bedeutet: Wenn man die Dimensionalität vernachlässigt – d.h. wenn es mehr latente Variablen gibt, als man an-nimmt – und es in der Folge hohe lokale stochastische Abhängigkeiten gibt (die Annahme des Rasch-Modells also verletzt ist), kann man falsch geschätzten Q-Indizes anheim fallen.

o Die nachfolgende Abbildung zeigt dies noch einmal grafisch. Wie man sieht, unterscheiden sich die Indizes zwischen dem richtig und falsch spezifizierten Modell deutlich.

Rückfragen der Studierenden zum Q-Index

- Frage 1: „Wo sollte Q auf der ganz rechten „Schubskala“ in den obigen Tabellen liegen?“

o Q sollte an der Stelle des Ausrufezeichens liegen. Dort beträgt der z-Wert der geschätzten Q-Indizes 0, was bedeutet, dass die Itemdiskrimination αi =1 beträgt.

Umso höher der Q-Index, desto geringer die Itemdiskrimination, und desto weiter liegt das Q links vom Ausrufezei-chen.

Umso kleiner der Q-Index, umso höher die Itemdiskrimination.

- [Zeitmarke: 00:24:45]

- Frage 2: „Wie hoch kann die maximale Diskrimination eines Items werden?“

Page 58: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

58

o Man hat eine metrische Variable ξ, die in unserem Fall das Fähigkeitsniveau abbildet. Man eruiert, wie diese im Zusammenhang mit der Wahrscheinlichkeit steht, ein bestimmtes Item zu lösen.

o Die Itemdiskrimination als Parameter ist nichts Anderes als ein logistischer Regressionsparameter [siehe Formel in der Abbildung rechts: als α bezeichnet]. Die Werte der logistischen Regression liegen auf einer Kurve, welche die Itemdiskrimination widerspiegelt. Der Regressionsparameter bestimmt also, wie steil die Kurve ausfällt.

o Im Rasch-Modell steht die in der Abbildung oben rechts angegebene Differenz – die Itemdiskrimination – im Zähler.

Den Wert von α kann man natürlich nicht festlegen. Vielmehr ist dieser gegeben durch die Zusammenhänge der Itemlösungswahrscheinlichkeiten mit den Personenfähigkeiten. Wenn man also annimmt, alle Itemdiskriminationen seien gleich 1, dann ist dies eine Hypothese, die falsch sein kann.

• Im Extremfall kann die Itemdiskrimination perfekt sein; in diesem Fall lässt sich keine richtige Kurve mehr zeichnen, weil dann eine Sprungfunktion vorliegt: ab einem bestimmten Punkt lösen alle Personen das Item. In diesem Fall wäre α =+∞ . Dies ist der maximale Wert, den die Itemdiskrimination erreichen kann.

Der minimale Wert wäre dementsprechend α= –∞ .

- Frage 3: „Warum ist es nicht umso besser, je höher die Itemdiskrimination ist?“

o Ein hoch diskriminierendes Item unterscheidet zwischen Personen gut. Dies bedeutet, dass man in einem kleinen Bereich von ξ große Unterschiede in der Lösungswahrscheinlichkeit findet [steile Kurve]. Häufig möchte man daher durchaus hoch diskriminierende Items erzeugen.

o Speziell im Rasch-Modell hingegen stellen hoch diskriminierende Items einen Verstoß dar; sie werden also ausgesondert.

Nicht zuletzt deswegen ist das Rasch-Modell nur eines von vielen Modellen.

• In einem anderen Modell, das wir als nächstes kennen lernen werden, sind abweichende Itemdiskriminationen zu-lässig; dies erlaubt es, besonders gut diskriminierende Items auch dann im Modell zu behalten, wenn sie sich von den anderen Items in der Diskriminationsfähigkeit unterscheiden.

Personenfitmaße

- [Zeitmarke: 35:00]

- Fitmaße kann man statt für Items auch für eine Person über viele Items berechnen [in der abfotografierten Tabelle rechts: als Zeilenvektor].

- Diese Logik kennen wir schon aus Rabix: Man kann für jede Person im Bezug auf ein bestimmtes Antwortmuster eine Likelihood-Funktion aufstellen. Der Erwartungswert der Funktion wird als Schätzer für die maximale Likelihood verwendet.

o Bei gleichem Summenscore aber anderem Antwortmuster gibt es eine andere Likelihoodkurve, die aber an derselben Stelle ihr Maximum hat. Alle Personen mit gleichem Summenscore bekommen denselben Schätzer trotz unterschiedlichen Antwortmusters.

o In der nebenstehenden Abbildung ist aber auch zu sehen, dass unter Annahme der Gültigkeit des Modells die Antwortmuster unterschiedlich wahrscheinlich sind.

Genau diese Information über das Antwortmuster einer Person lässt sich in ein personenbezogenes Fitmaß umrechnen.

Anwendung personenbezogener Fitmaße

- Insbesondere bei langen Tests mit vielen Items kann die Lösungswahrscheinlichkeit systematisch abnehmen. Auch können Personen zu zufälligen Antwortmustern übergehen. Solche Muster lassen sich über Personenfitmaße feststellen: sie dienen der Identifika-tion von Personen mit ungewöhnlichen Antwortmustern

o Personenfitmaße haben also individualdiagnostische Relevanz: man kann mit ihrer Hilfe überprüfen, ob ein Summenscore in einem Test auch wirklich eine relevante Information enthält.

- Die personenbezogenen Fitmaße können auch dazu verwendet werden, Subgruppen mit einem einheitlich ungewöhnlichen Antwortmuster zu identifizieren.

o Beispiel: Eine Schulklasse, die einen bestimmten Aufgabentyp bereits intensiv besprochen hat – die Schüler werden eini-ge Items nicht aufgrund ihrer Fähigkeiten, sondern aufgrund erworbener Heuristiken lösen können.

Es gibt Modelle, in denen in jeder latenten Klasse [nicht: Schulklasse] ein eigenes Rasch-Modell gilt.

Ausgabe der personenbezogenen Parameter in WINMIRA

- [Zeitmarke: 00:50:00]

Page 59: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

59

- In WINMIRA sind personenbezogene Fitmaße nicht automatisch im Output; man kann sie sich aber in einem Datensatz ab-speichern lassen. Es gibt dann eine Variable „Personenfit“, auf der jede Person einen eigenen Wert hat.

o Über „select variables“ wählt man die betreffenden Items aus.

o Unter „output options“ kann man angeben „add person parameters to data file“:

Personenparameter werden für alle Personen abgespeichert

Personenfitindizes werden ebenfalls mit abgespeichert

o Anschließend wird ein bootstrap gezogen.

- Im Datenfile befinden sich dann drei verschiedene likelihoodbasierte Personen-Fitmaße:

o Es handelt sich um drei um approximativ z-verteilte Prüfgrößen.

Bei der Betrachtung eines Balkendiagramms einer der drei Variablen – „oldfit“ – fällt aber auf, dass die Prüfgröße schief verteilt ist, was fast immer passiert, auch wenn das Modell gilt [linke Abbildung].

Daher gibt es zwei weitere „newfit“ Variablen, die besser einer Normalverteilung entsprechen [rechte Abb.]:

• Daher sollten immer die „newfit“-Maße verwendet werden.

- Auch für die Personenfitmaße gilt, dass man sie nur ansehen sollte, wenn das Modell wirklich gilt.

o Wenn das Modell nicht passt, kann man mittels der Itemfitmaße versuchen, einzelne Items auszuschließen und erneut überprüfen, ob das Modell dann passt. Dabei handelt es sich immer um einen „lucky guess“!

Wenn das Problem einer schlechten Passung des Tests auf die Daten auftritt, kann man auch einen Dimensionali-tätstest durchführen. Dazu führt man eine exploratorische Faktorenanalyse durch.

• Dies hilft aber nichts, wenn es viele Personen mit ungewöhnlichem Antwortmuster gibt – dies kann nämlich eine vermeintlich höhere Dimensionalität vorspiegeln.

o Anknüpfend an die Dimensionalitätsprüfung kann man alternativ auch über die Personenfitmaße diejenigen Personen aus-schließen, für die das Modell schlecht passt. Dazu schließt man diejenigen Fälle aus, die auf dem „newfit“-Maß nicht innerhalb eines 1,96-SD-Konfidenzintervalls liegen.

- Nachdem man Items oder Personen ausgeschlossen hat, die eine schlechte Modellpassung verursachen, kann man explorativ ein passendes Modell finden. Dieses Modell muss man dann aber an einer neuen Stichprobe testen.

o Es empfiehlt sich daher, immer mit Teilstichproben zu arbeiten!

Relevanz bzgl. der allgemeinen Modellgeltung

- Unter Gültigkeit des Messmodells sind 5% signifikante Werte, daher nicht modellkonforme Antwortmuster zu erwarten.

- Bei überproportional vielen signifikanten, also nicht modellkonformen, Antwortmustern ist die Modellgeltung für die Gesamtpopulation fraglich!

M

9. Vorlesung vom 04.01.2010: Das 2-parametrische logistische Modell nach Birnbaum

Zusammenfassung zum Rasch-Modell

- In der heutigen Sitzung werden wir ein neues Modell kennen lernen und verlassen damit das Rasch-Modell.

- [Folien aus der Datei „Testtheorien II VL 2010-01-04 Folien 9.pdf“]

Page 60: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

60

Was man zum Rasch-Modell wissen sollte

- NR: „Diese Überschrift impliziert etwas [Prüfungsrelevanz], aber ich lasse mich nicht darauf festnageln. Das heißt nicht, dass man in einer Prüfungssituation nicht auch noch ein bisschen mehr Fragen bekommt. Aber das hier sind die Essentials.“

o [Zeitmarke: 00:06:00]

- Original-Folien hier [Text ist aber mit Erläuterungen auch unten in die Mitschrift eingefügt]

- Modellparameter, Itemcharakteristik

o Welche Parameter gibt es?

- Grundannahmen des Rasch-Modells

- Begriffe: Odds, Logit, Response-/Linkfunktion

o Zusätzlich „sollte man vielleicht“ auch wissen, was ein Odds Ratio ist.

o Gut ist, wenn man wirklich verstanden hat, was diese Begriffe sind und wie sie zusammenhängen.

Beispielsweise ist ein Logit ein logarithmierter Odds Ratio.

- Begriffe: bedingte Varianzfunktion, Iteminformationsfunktion, Testinformationsfunktion, Standardfehler des Personenpara-meterschätzers

o Wichtig ist auch hier wieder der Zusammenhang all dieser Begriffe: Wie sind sie miteinander verknüpft?

- Andrich-Reliabilität (Vergleich zur KTT)

o Reliabilität haben wir in der KTT schon kennen gelernt: Wo liegen Gemeinsamkeiten und Unterschiede?

- suffiziente Statistik, spezifische Objektivität

- Modellgeltungskontrolle

Was ist der Sinn von Modellgeltungskontrolle?

o graphisch

o Likelihood Ratio Test, Pearson χ²-Test

Die Nullhypothese zu jedem Test muss man unbedingt kennen

o bootstrap-basierter Modellgeltungstest

- Maximum Likelihood Schätzung (ML-Funktion; Zusammenhang zur Modellgeltungkontrolle und Fitmaßen)

o Dies ist eine Anwendung der Wahrscheinlichkeitstheorie

o Die Likelihood-Schätzung ergibt nicht nur Parameter, sondern ist (wichtiger!) auch die Grundlage für die den Likelihood Ratio Test, mit dem das Modell getestet wird.

[Zeitmarke: 00:11:45]

- Q-Index als likelihoodbasierter Itemfit-Index, in Abgrenzung zur allgemeinen Modellgeltungskontrolle

o Warum schaut man sich den Itemfit an, selbst wenn man schon die Geltung des Modells überprüft hat?

- Personenfitmaße

Vom Rasch-Modell zum 2PL-Modell

- [Zeitmarke: 00:13:00]

- Im Datensatz „16items_2pl_1latent.dat“ aus der letzten Sitzung (700 Personen, 16 Items) ergab sich eine perfekte Modell-passung mit einem p-Wert von p=1. Aber es gab fünf Items, die bezüglich des Q-Index vom Modell abwichen.

o Die allgemeine Modellgeltungskontrolle in WINMIRA ist vor allem sensibel für Dimensionalität, d.h. solange die ange-nommene Eindimensionalität des Modells gilt, wird der p-Wert nicht signifikant und das Modell passt.

o Der p-Wert von 1 sagt also aus, dass hinter den 16 Items nur eine latente Variable steht.

- Man könnte nun die fünf abweichenden Items aus dem Test entfernen. Darüber gibt es aber einen Theorie-Streit:

o Anhänger des Rasch-Modells würden die fünf Items „wegschmeißen“, weil sie einen Rasch-konformen Test mit Rasch-konformen Items konstruieren wollen – auch wenn diese Items informativ für das Antwortverhalten sind.

Page 61: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

61

o Die Gegenposition richtet sich eher nach den Daten: Wenn das Antwortverhalten informativ ist, dann sollte man diese In-formation auch nutzen. [Dieser Position ist NR eher zugeneigt. Es gebe aber kein Richtig oder Falsch.]

Hierfür gibt es das zweiparametrische logistische Modell (2PL-Modell), das anders als das Rasch-Modell unter-schiedliche Itemdiskriminationen zulässt. [Zeitmarke: 00:16:30]

2PL-Modell nach Birnbaum

- Birnbaum hat dieses zweiparametrische logistische Modell 1968 in die psychologische Literatur eingeführt.

- Dieses Modell enthält zusätzlich zum Rasch-Modell einen Itemdiskriminationsparameter. Die anderen Bestandteile sind sehr ähnlich zum Rasch-Modell.

Modellgleichung des 2PL-Modells

- Die allgemeine Modellgleichung bezieht sich – wie schon gehabt – auf dichotome Items (1=gelöst, 0=nicht gelöst) und lau-tet:

- Im zweiparametrischen Modell wird die aus dem Rasch-Modell bekannte Differenz (ξ – βi) zwischen der Personenfähigkeit und der Itemschwierigkeit gewichtet mit der Itemdiskrimination.

o Wenn man das α i auf 1 setzen würde, entspräche diese Gleichung der allgemeinen Modellgleichung des Rasch-Modells.

o Man könnte auch sagen: Das Rasch-Modell ist ein Spezialfall des zweiparametrischen Modells, bei dem α für alle Items 1 beträgt.

- Der Itemdiskriminationsparameter α i kann geschätzt werden.

Itemcharakteristische Funktion

- Die Gewichtung mit α i führt zu einem unterschiedlichen Anstieg der itemcharakteristischen Kurven:

o Je höher der Diskriminationsparameter α ist, desto steiler steigt die Kurve an (z.B. α =2 für die blaue Kurve).

Wenn α=0 ist, gibt es keinen Zusammenhang zwischen der latenten Fähigkeit ξ und der Lösungswahrscheinlichkeit.

o Für die Itemschwierigkeiten βi gilt, wie beim Rasch-Modell: Wenn die Fähigkeit gleich der Itemschwierigkeit ist, beträgt die Lösungswahrscheinlichkeit an dieser Stelle 0.5. [Diese Aussage ist möglich, weil Itemschwierigkeit und Fähigkeit die gleiche Skalierung haben].

- Fazit: Im 2PL-Birnbaum-Modell gilt also für die Itemschwierigkeit βi wiederum die Lokation der latenten Variable ξ für die gilt: P(Yi = 1 | ξ ) = 0.5

Abgrenzung zum Rasch-Modell

Modellannahmen

- 1. Lokale stochastische Unabhängigkeit:

Page 62: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

62

o Bedeutet, dass die Wahrscheinlichkeit für die Beantwortung eines Items nur auf die Fähigkeit der Person zurückzuführen ist – und eben nicht auf das Antwortverhalten auf anderen Items gegeben der latenten Fähigkeitsvariable. [Zeitmarke: 00:23:15]

- 2. stochastische Unabhängigkeit der Antwortmuster:

o In der Anwendung müssen die einzelnen Zeilen in der Datenmatrix unabhängig voneinander sein. Dies ermöglicht, dass man die Likelihoodfunktion für die Modelltestung als Produkt schreiben kann.

o Text von Folie 8: „In Anwendung wird zur Schätzbarkeit der Modellparameter noch die Annahme der Unabhängigkeit der einzelnen Beobachtungen gemacht“

Man könnte auch sagen: Die Personen haben nicht voneinander abgeschaut beim Beantworten des Tests.

Logits

- Erinnerung: Der Logit ist die durch die Linkfunktion transformierte Regression.

o [CL nachträglich: Der Logit ist das logarithmierte bedingte Chancenverhältnis (Odds).]

- Logits sind linear in ξ und sind lineare Funktionen voneinander.

o Im 2PL-Modell dürfen sie nun – anders als noch im Rasch-Modell – unterschiedliche Steigungskoeffizienten haben:

o Im 2PL-Modell sind also unterschiedliche Anstiege zulässig, weshalb es in Analogie zur KTT dem Modell τ-kongenerischer

Variablen entspricht.

- [Zeitmarke: 00:25:15] Der Parameter αi ist „ein Regressionskoeffizient in der logistischen Regression der manifesten Variab-le auf die latente Variable.“

o Dieser Regressionskoeffizient heißt im zweiparametrischen Modell Itemdiskriminationskoeffizient.

o In der KTT heißen Regressionskoeffizienten Faktorladungen.

Iteminformationsfunktion

- Im Rasch-Modell war die personenbedingte Varianzfunktion gleich der Iteminformationsfunktion.

o Die personenbedingte Varianzfunktion ist eigentlich die Fehlervarianz der Regression der manifesten auf die latente Vari-able.

Dies ist bedeutsam, weil die Messgenauigkeit der latenten Variable dann umso höher ist, je höher die Fehlerfunktion ist.

- Im 2PL-Modell ist dies nicht mehr so:

o Stattdessen lautet die Iteminformationsfunktion:

• Diese Formel gilt auch für das Rasch-Modell. Aber da dort α immer 1 beträgt, vereinfacht sie sich.

- Im Rasch-Modell und 2PL-Modell gilt: Je höher die bedingte Varianzfunktion, desto höher die Informationsfunktion.

o Im 2PL-Modell wird gewichtet, weshalb beide Funktionen nicht mehr identisch sind.

- Genau wie beim Rasch-Modell ist im 2PL-Modell die Testinformationsfunktion die Summe aller Iteminformationsfunktio-nen:

o

- Je größer das α wird, desto steiler ist die Iteminformationsfunktion. Je kleiner α , desto flacher die Iteminformationsfunktion.

Page 63: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

63

Grafische Veranschaulichung

- Für ein sehr hoch diskriminierendes Item mit α i=2 und βi=0 ergibt sich der Graph oben rechts:

o schwarz: itemcharakteristische Kurve

o blau: bedingte Varianzfunktion

Kann maximal 0,25 betragen, weil an der Stelle, wo das Item am besten diskriminiert, beide Wahrscheinlichkeiten, P(Yi=1) und P(Yi=0), je 0.5 betragen. [siehe letzte Zeile der Formel oben]

o rot: Iteminformationsfunktion

Besonders groß, weil der Wert 0,25 mit 22 multipliziert wird [siehe wiederum die 3. Zeile der obigen Formel].

- Für ein sehr niedrig diskriminierendes Item mit α i=0.5 und βi=0 ergibt sich der Graph unten rechts:

o Es wird an der sehr niedrigen roten Kurve offensichtlich, dass die Iteminformation viel geringer ist als beim ersten Beispiel. Eine geringe Itemdiskriminationsfähigkeit, d.h. ein kleines α , bedeutet, dass ein Item wenig Informationen und einen hohen Standardfehler bietet.

o Wenn man die Formel [3. Zeile oben] betrachtet, wird klar: Weil α quadriert wird, macht es die Iteminformationsfunktion sehr klein, wenn α kleiner als 1 ist.

Praxis der Testkonstruktion

- Man möchte bei der Testkonstruktion Items erzeugen/ verwenden, die eine hohe Itemdiskrimination aufweisen.

o Ein Nachteil der hoch diskriminierenden Items ist, dass sie ihre Information nur in einem sehr kleinen Fähigkeitsbereich liefern. Dieser wird allerdings sehr gut erfasst.

o Spiegelbildlich dazu ist der Vorteil von niedrig diskriminierenden Items, dass sie über einen weiten Bereich der Ausprägung von ξ noch Informationen liefern – wenn auch nicht sehr viel.

- Ein schwieriges Item zu erzeugen, ist leicht machbar: Man lässt sich z.B. eine schwierige Rechenaufgabe einfallen.

- Es ist aber nicht möglich, die Itemdiskrimination von vornherein zu beeinflussen. Noch gibt es keine Lösung hierfür und man kann erst im Nachhinein feststellen, ob ein Item gut oder schlecht diskriminiert.

Darstellung in Rabix

- [Zeitmarke: 00:37:30]

- Mit dem Rabix-Tool (Datei „rabix099-1.xls“ aus der Sitzung vom 2009-11-16) kann man sich auch das 2PL-Modell darstellen lassen:

o Wenn man in der Spalte „Discrim.“ einen anderen Wert als 1 eingibt, springt die Bezeichnung darunter auch automatisch von „Rasch model, one parameter logistic model“ auf „Birnbaum model, Two-parameter logistic model“ um.

Frage der Teilnehmer

- [Zeitmarke: 00:41:30] Ergebnis der Nachfrage:

o Eine mathematische Textaufgabe erfordert nicht nur mathematische Kenntnisse, sondern auch Textverständnis. Deshalb sollte der Zusammenhang zwischen der Lösungswahrscheinlichkeit und der Rechenfähigkeit kleiner sein als bei einer Rechenaufgabe

ohne Text.

Maximum Likelihood Schätzung

- Wenn man bezüglich der gesamten Daten (Zeilen und Spalten) eine Likelihood aufstellen möchte, benötigt man die Daten-Likelihood.

o Sie ist formuliert als das Produkt über alle Antwortmuster (Zeilen) hinweg [siehe obere Zeile der Abbildung rechts].

o Dabei ist die Annahme der stochastischen Unabhängigkeit der Antwortmuster erforderlich – im Rasch-Modell ebenso wie im 2PL-Modell.

Page 64: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

64

- Mann kann zudem die Antwortwahrscheinlichkeit für jedes einzelne dieser Antwortmuster beschreiben [Zeile „Antwortmus-terwahrscheinlichkeit“]

o Für eine bestimmte Person u ist diese Antwortwahrscheinlichkeit ein Produkt über die Items. [Zeitmarke: 00:47:00]

Man kann dies aber nur als Produkt aufschreiben, wenn die lokale stochastische Unabhängigkeit gilt.

- Den Ausdruck aus der vorletzten Zeile kann man in die Modellgleichung einsetzen und erhält die letzte Zeile in obiger Abbil-dung.

- [Folie kaum erläutert. Wenige Sätze dazu: 00:51:30 bis 00:52:00]

- Eine Likelihood ist in der Theorie auch für nicht realisierte Daten formuliert. Für realisierte Daten entspricht sie aber der Anzahl der Zeilen in der Datenmatrix.

Exkurs: Lokale stochastische Unabhängigkeit

o [Zeitmarke: 00:48:30] Ergebnis der Nachfrage eines Teilnehmers:

- Man kann lokale stochastische Abhängigkeiten durch Fehlerkorrelationen oder durch die Einführung einer weiteren laten-ten Variable modellieren. Für die Modellpassung ist dies völlig identisch.

o Die Unkorreliertheit der Fehler zweier Items in der KTT bedeutet in der IRT „lokale stochastische Unabhängigkeit“. Diese beiden Aussagen sind jeweils ineinander überführbar.

o Wenn in der KTT die Fehler zweier Items miteinander korrelieren, könnte man auch sagen, dass eine weitere latente Va-riable dahinter steckt.

- Ist in der IRT die lokale stochastische Unabhängigkeit verletzt, kann sie durch Hinzunahme einer weiteren latenten Variable in das Modell wieder hergestellt werden.

- Wenn wir in den nächsten Sitzungen mehrdimensionale Modelle kennen lernen, wird dieses Thema wieder aufgegriffen wer-den.

Parameterschätzung: Maximum Likelihood Schätzung

- Im Rasch-Modell gab es für jedes Antwortmuster eine Likelihood, d.h. für eine Person mit einem Antwortmuster konnte man das ξ schätzen.

o Es gab wahrscheinliche und unwahrscheinliche Antwortmuster. Diese hatten aber alle an derselben Stelle ihr Maximum, d.h. an einer bestimmten Stelle des Summenscores war die Auftretenswahrscheinlichkeit für alle Antwortmuster maximal.

o Es ist im Rasch-Modell also egal, welche Items gelöst werden, sondern nur wichtig, wie viele gelöst werden.

- Im 2PL-Modell gibt es bei gleichem Summenscore unterschiedliche Antwortmusterwahrscheinlichkeiten, je nachdem welche Items gelöst wurden.

- Demnach ist es im 2PL-Modell nicht ausreichend zu wissen, wie viele Items gelöst wurden, sondern man muss auch wissen, welche Items gelöst wurden.

o Der Summenscore ist keine suffiziente Statistik im 2PL-Modell

- Daraus folgt, dass man Summenscores am besten nur verwenden sollte, wenn das Rasch-Modell gilt. Falls es nicht gilt und man trotzdem Summenscores betrachtet, ist dies „nicht schlimm, aber man verschenkt Informationen“.

o Der folgende stochastische Zusammenhang bleibt auch im 2PL-Modell bestehen: Je mehr Items eine Person löst, desto fähiger ist sie. Aber es gibt eben noch mehr Informationen: Man kann innerhalb von Personen, die denselben Summen-score haben, noch einmal unterscheiden.

- Vorteil des 2PL-Modells: Es ist weniger restriktiv als das Rasch-Modell, d.h. man muss Items nicht mehr „wegschmeißen“, nur weil sie unterschiedlich diskriminieren (siehe dazu: „Vom Rasch-Modell zum 2PL-Modell“ am Anfang dieser Sitzung). Au-ßerdem kann es höhere Iteminformationen bieten

Vergleich von Antwortmusterwahrscheinlichkeiten

- Auf beiden untenstehenden Abbildungen sind die Itemschwierigkeiten βi jeweils gleich und steigen von Item 1 zu 3 an. Un-terschiedlich zwischen beiden Abbildungen sind jedoch die Itemdiskriminationen αi : o Im ersten Beispiel diskriminiert das leichteste Item 1 am schlechtesten (α = 0.5).

Page 65: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

65

o Im zweiten Beispiel hat das schwerste Item 3 die geringste Diskriminationsfähigkeit.

- In Abhängigkeit von α verändern sich die Schätzungen für die Antwortwahrscheinlichkeiten. Es hängt – anders als im Rasch-

Modell – nicht mehr nur von den Itemschwierigkeiten ab.

Zusammenfassung

- Summenscore ist keine suffiziente Statistik

- Es ist nicht nur informativ, wie viele Items gelöst wurden, sondern auch, welche Items.

- Personen mit gleichem Summenscore, aber unterschiedlichem Antwortmuster können unterschiedliche Personenparameter-schätzungen mit unterschiedlichen Standardfehlern haben.

- Keine CML-Schätzung möglich (nur für Modelle der Rasch-Familie ist dies möglich!).

o Im Rasch-Modell wird eine Conditional-Maximum-Likelihood-Schätzung (CML) verwendet, wo über die Summenscores zu-nächst nur die Itemparameter geschätzt werden und erst im zweiten Schritt die Personenparameter.

Marginal Maximum Likelihood-Schätzung (MML)

- [Zeitmarke: 01:12:15]

- Prüfungsrelevanz: „Ich frage Sie nicht zur Marginal Maximum Likelihood-Schätzung! Aber wenn man den Output verstehen will, sollte man hier dazu ein paar Worte verlieren.“

- Im 2PL-Modell kann man aus nur einer Likelihood alle Parameter schätzen: Alphas, Betas und für jede Person das ξ. o Diese Joint Maximum Likelihood Schätzung hat ein Problem: Je größer die Stichprobe wird, umso mehr Parameter muss

man schätzen. Denn für jede Person muss auch ein Personenparameter geschätzt werden.

Weil so immer mehr Parameter geschätzt werden müssen, wird die Schätzung schlechter (mathematisch gesprochen: inkonsistent).

- Um dieses Problem zu umgehen, schätzt man nicht alle Item- und alle Personenparameter auf einmal, sondern man macht eine Annahme hinsichtlich der Verteilung der latenten Variable.

o Üblicherweise nimmt man eine Normalverteilung der latenten Variable an. Dann reichen zur Beschreibung der Verteilung der latenten Variable die beiden Angaben zu Erwartungswert und Varianz aus. [Zeitmarke: 01:15:00]

o Es wird dann nicht mehr für jede einzelne Person geschätzt, sondern nur die beiden Parameter Var(ξ) und E(ξ). Damit steigt die Zahl der zu schätzenden Parameter nicht mehr an, wenn die Stichprobe größer wird.

- [Nochmals zur Prüfungsrelevanz: „Das will ich von Ihnen nicht wissen, sondern nur eine Verständnishilfe sein.“ Wenn es uns nicht beim Verständnis helfe, können wir es auch vergessen.]

- Das Ganze noch mal von den Folien 20 und 21:

Page 66: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

66

Berechnung von 2PL-Modellen in Mplus

- Der unten besprochene Input entspricht der Datei „Mplus_16items_2pl_mplus.inp“ im Ordner „20100104 Daten“

Modellspezifikation in Mplus

Erklärungen zum Screenshot:

- DATA: In welcher Datei findet man die Daten?

o TYPE IS INDIVIDUAL bedeutet, dass es sich um Rohdaten mit Nullen und Einsen handelt.

- VARIABLE: Vergibt Namen an die Items

o Außerdem sollen alle 16 Items in die Analyse einbezogen werden

o CATEGORICAL ARE: Die folgenden (hier: alle) Variablen kategorial und nicht metrisch, was die Voreinstellung wäre.

- ANALYSIS: Estimator=MLR steht für „Robust Maximum Likelihood Estimation“

o In Mplus ist die Kombination der Statements VARIABLE und ANALYSIS (rot eingekreist in obiger Abbildung) maßgeblich dafür, welches Modell berechnet wird; eine der Angaben reicht nicht aus!

- MODEL: Das BY-Statement sagt aus, wie die latente Variable (hier XI genannt) gemessen wird.

o Anschließend wird die Varianz von XI auf 1 und der Erwartungswert der latenten Variable auf 0 fixiert.

- SAVE: In der IRT möchte man oft für jede einzelne Person den Personenparameter nutzen. Dieser wird nicht im Out-put angegeben, weshalb man ihn sich als zusätzliche Datei abspeichern lässt.

o FILE IS benennt diese Datei

o SAVE=FSCORES sagt, dass die Faktor-Scores gespeichert werden sollen. Je nachdem, was man unter VARIABLE und ANALYSIS spezifiziert, bedeutet FSCORES etwas anderes.

Wenn man ein 2PL-Modell rechnet, sind die Personenparameter sogenannte EAPs: Expected A Posteriori-Schätzer [„Das will ich auch nicht von Ihnen in der Prüfung wissen.“]

- [Zeitmarke: 01:23:00] „Für die Interessierten habe ich hier geschrieben, was das mit den EAPs bedeutet. Das will ich nicht von Ihnen wissen.“

Page 67: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

67

Output in Mplus

- Besprochen werden die Inhalte der Datei „mplus_16items_2pl_mplus.out“

- Der Input steht zu Beginn. Danach folgt eine SUMMARY OF ANALYSIS, in der Mplus noch einmal auflistet, welche Variablen verwendet wurden und ob diese kategorial oder kontinuierlich sind:

Observed dependent variables Binary and ordered categorical (ordinal) I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 Continuous latent variables XI

- Über die folgende Schätztheorie und Schätzalgorithmen [dicht beschriebene Zeilen] „wollen wir nicht sprechen“. Wichtig ist aber am Ende dieses Abschnitts die vorletzte Zeile, die wie folgt aussieht:

Link LOGIT

o Diese Zeile bedeutet: Es ist ein logistisches Modell berechnet worden.

Itemdiskriminationen im Output

- Orientierung für die folgenden Screenshots: Wir wollen die rot umrandeten Angaben, die blau umrandeten sind „ein Verwirr-spiel“.

- Im Abschnitt MODEL RESULTS stehen in der Spalte „Estimate“ die Itemdiskriminationen, die wir mit α bezeichnet haben.

o Dies trifft aber nur zu, wenn man im Input ein logistisches Modell spezifiziert hat und die Variablen als kategorial be-zeichnet hat.

- Achtung Verwechslungsgefahr! Denn kurz darunter gibt es einen Abschnitt der mit „Item Discriminations“ überschrieben ist

[2. Screenshot, blau umrandet]

o Dies sind aber nicht unsere gewünschten Itemdiskriminationen.

o Damit sind aber nicht unsere Itemdiskriminationen gemeint!

- Die blau umrandeten Angaben werden wir in einer späteren Sitzung besprechen.

Vergleich: Rasch-Modell vs. 2PL-Modell

- Mit dem gleichen Datensatz wurde in der vorletzten und letzten Sitzung ein Rasch-Modell gerechnet, wobei die Items 1 und 2 zu hoch und die Items 3-5 zu niedrig diskriminierten.

Page 68: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

68

- Genau dies bestätigt sich auch in den MODEL RESULTS des 2PL-Modells, das wir nun gerechnet haben [siehe Spalte „Estima-te]:

Modellgeltungstest

- Im oberen Drittel des Outputs gibt es den TEST OF MODEL FIT.

- Es ergibt sich bei beiden Formen des Modellgeltungstests (Pearson Chi-Square, Likelihood Ratio Chi-Square) ein p-Wert von 1.

- Dies sollte misstrauisch machen, wenn man wie wir das Bootstrap-Verfahren verwendet hat. [Für Details: siehe 7. Sitzung vom 2009-12-07]

o Es sind nicht alle Zellen besetzt, weil 216 Antwortmöglichkeiten deutlich mehr als 700 sind, was der Stichprobengröße entsprechen würde.

o Dadurch ist die Verteilung der Prüfgröße nicht mehr bekannt.

- Der Bootstrap funktioniert aber im zweiparametrischen Modell nicht!

o Wir können also das 2PL-Modell berechnen, wir können auch die Parameter berechnen. Wir können das Modell aber nicht testen.

- Ein Bootstrap hilft hier nicht, sondern lediglich Strukturgleichungsmodelle.

o Dies wird aber in einer der folgenden Sitzungen besprochen werden.

C

10. Vorlesung vom 11.01.2010: Das 3-parametrische Logistische Mo-dell nach Birnbaum & Linkfunktionen

Zusammenfassung der letzten Sitzung

Das 2PL-Modell

- In der letzten Woche wurde das 2PL-Modell nach Birnbaum als zweites Modell der IRT vorgestellt.

- Das Modell arbeitet mit denselben Begrifflichkeiten wie das einparametrische Rasch-Modell, nur dass nun der Itemdiskrimi-nationsparameter als zweiter Parameter hinzukommt.

Diskriminationsparameter

- Der Diskriminationsparameter αi gibt den Anstieg der Logits an. Er gewichtet die Differenz von Personenparameter und Itemschwierigkeit.

- Bedingte Varianzfunktion und Iteminformationsfunktion sind bei αi ungleich 1, nicht gleich 1!

o Bei gegebenen Werten von ξ steigt die Iteminformation (sinken folglich die Standardfehler) mit zunehmenden Diskriminationsparameter αi . Aber: steigende Diskriminationsparameter bedeuten höhere Information in einem geringerem Bereich von ξ .

- Im 2PL-Modell ist nicht nur wichtig wie viele Items, sondern auch welche Items gelöst werden (Antwortmuster wichtig!)

Page 69: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

69

o d.h. der Summenscore ist in diesem Modell keine suffiziente Statistik bzgl. ξ . Man verschenkt (anders als im Rasch-Modell) Information, wenn man nur den Summenscore zur Schätzung verwendet.

- Auf Ebene der Logits entspricht das 2PL-Modell einem Modell τ-kongenerischer Variablen

- Die Rangfolge der Lösungswahrscheinlichkeiten kann unterschiedlich sein für verschiedene Werte von ξ (rechte Abbildung: sich schneidende itemcharakteristische Funktionen!).

o Hoch diskriminierende Items haben eine höhere Steigung in den ICC.

o „Die Itemschwierigkeit ist die Lokation auf der latenten Va-riable, an der die Lösungswahrscheinlichkeit 0.5 beträgt. Kein Unterschied zum Rasch-Modell, völlig identisch.“ [sic!]

Man könnte auch sagen: Das Rasch-Modell ist also ein Speziallfall des 2PL-Modells, in dem alle Itemdiskriminationen auf 1 restringiert sind.

3-parametrisches Modell nach Birnbaum

- Heute wird das dritte wesentliche Modell besprochen werden – das dreiparametrische Modell.

o Es gibt auch mehrparametrische Modelle, die allerdings kaum empirische Anwendung fanden.

Einführung

- Lord (1970) kritisierte in einem klassischen Artikel zum Zusammenhang zwischen der latenten Variable und der Lösungs-wahrscheinlichkeit die zweiparametrischen Modelle: „Item characteristic curves estimated without knowledge of their ma-thematical form – a confrontation of Birnbaum's logistic model“

- Die nachfolgende Abbildung zeigt zwei aus echten empirischen Daten gewonnene ICC.

o gestrichelte Linie = nicht-parametrische ICC

o durchgehende Linie = parametrische ICC

- Die linke Kurve sieht so aus, also folgten sie dem zweiparametrischen Modell. Das Item erscheint sehr leicht.

- Rechts scheint es sich um ein sehr schweres Item zu handeln. Allerdings fällt auf, dass die Asymptote nicht gegen 0, sondern gegen einen höheren Wert geht.

o Auch bei niedriger Fähigkeit gibt es noch eine gewisse Wahrscheinlichkeit, das Item zu lösen.

- Wie kommt es dazu?

Das Problem der Ratewahrscheinlichkeit

- Empirisch ist wie im obigen Beispiel oft zu beobachten, dass die Lösungswahrscheinlichkeit eines Items nicht gegen Null konvergiert.

- Dies kann an der Ratewahrscheinlichkeit liegen: Kann ein Item nicht gelöst werden (niedrige Ausprägung von ξ ), so ist Raten eine mögliches Antwortverhalten! Raten führt dazu, dass ICC gegen eine untere Asymptote größer 0 konvergieren.

- Wenn eine Person aber ein Item nicht aufgrund ihrer Fähigkeit löst, sondern rät, dann misst das Item nicht mehr nur unsere latente Variable ξ, da der Zusammenhang zwischen der Fähigkeit und der Lösungswahrscheinlichkeit für das Item nicht mehr eindeutig ist .

o Vielmehr gibt es eine weitere Dimension, eine Art „latente Ratedimension“. Diese hängt auch von der Person ab und ist ein Lösungsverhalten, das zum Erfolg führen kann – hat aber nichts mit der eigentlichen Fähigkeit zu tun.

- Unstrittig ist: Wenn die itemcharakteristische Kurve nicht gegen 0, sondern gegen einen höheren Wert konvergiert, so ist man gut beraten, das 3PL-Modell zu verwenden. Die Modellierung der Ratewahrscheinlichkeit ist die wesentliche Rechtferti-gung für die Verwendung des 3PL-Modells.

Page 70: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

70

- Der hinzukommende Parameter γi [siehe Modellgleichung im nächsten Abschnitt] wird meistens als „Pseudo-Rate-Parameter“ bezeichnet, um auszudrücken, dass es sich um Raten handeln könnte, dass aber auch andere Ursachen in die Lösung des I-tems trotz geringer Fähigkeiten eingehen könnten, die man nicht kennt.

Die Modellgleichung des 3PL-Modells

- [Zeitmarke: 00:16:15]

- Die Modellgleichung des 3PL-Modells lautet:

o Bekannt ist bereits der letzte Teil der Gleichung, der dem zweiparametrischen Modell entspricht.

Wenn γi=0, so entspricht das 3PL-Modell also dem 2PL-Modell.

Wenn zusätzlich αi=1, so entspricht das Modell dem Rasch-Modell.

o Grundidee der Gleichung: Je höher die Fähigkeit, umso eher antwortet die Person aufgrund dieser ihrer Fähigkeit (d.h. gemäß dem zweiparametrischen Modell), anstatt zu raten.

Die Gleichung ist also gleichsam eine Summe aus verschiedenen Gründen, das Item richtig zu beantworten, wobei γi

die untere Asymptote bei einer minimalen Fähigkeit darstellt. Umso höher hingegen die Ausprägung von ξ, desto hö-her wird der hintere Teil gewichtet.

Verbindung zum 4-PL-Modell

- Wenn auch diejenigen Personen mit hoher Fähigkeit ab und zu raten würden, dann würde die Kurve im oberen Teil nicht gegen 1, sondern gegen einen niedrigeren Wert konvergieren, weil dann nicht alle das Item lösen würden.

Daher wurde ein 4-PL-Modell vorgeschlagen, indem es auch eine obere Asymptote gibt.

Bedeutung der Modellparameter

- 1. Personenparameter = latente Variable ξ (Fähigkeit, …)

- 2. Itemparameter:

o βi Itemschwierigkeit

o αi Itemdiskriminationsparameter

o γi untere Asymptote/Rateparameter

Den Parameter „untere Asymptote“ zu nennen, ist immer richtig, man kann aber auch „Pseudorateparameter“ sagen.

Da es sich um eine Wahrscheinlichkeit handelt, gilt für den Wertebereich: γi ∈ [0,1] .

ICC im 3PL-Modell nach Birnbaum

- [Zeitmarke: 00:22:20]

- Die nebenstehende Abbildung zeigt itemcharakteristische Kurven im 3PL-Modell.

o Umso höher γi , desto höher ist die untere Asymptote.

o Die drei Itemdiskriminationsparameter αi sind alle gleich 1; genauso

sind die Itemschwierigkeiten βi alle gleich 0. Trotzdem sind die Anstiege auch im steilsten Punkt der Kurve unterschiedlich.

o Es erfolgt also eine Veränderung der Bedeutung des Schwierigkeitsparameters in Abhängigkeit des Rateparameters: Die Itemschwierigkeit entspricht bei γi > 0 nicht mehr der Ausprägung

von ξ , bei der die Lösungswahrscheinlichkeit gerade 0.5 beträgt!

Trotz gleicher Schwierigkeit gibt es in diesem Beispiel also unterschiedliche Lösungswahrscheinlichkeiten für die drei Items.

Exkurs: Schätzung des Rateparameters

- Der Rateparameter wird meistens geschätzt.

o Dies ist aber mitunter ein schwieriges Unterfangen, weil Testpersonen nicht einfach blind raten, sondern bestimmte Heuristiken verfolgen.

o Bei vier Antwortmöglichkeiten in einem Multiple-Choice-Test ist die Wahrscheinlichkeit eines Erratens der (einen) richti-gen Lösung also nicht einfach p=0,25, wie es theoretisch sein sollte.

Vertiefung: Modellparameter

- [Zeitmarke: 00:29:15]

Page 71: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

71

- Nun soll das Verständnis der Modellparameter anhand der Modellgleichung vertieft werden. Wir gehen dabei von folgender Ausgangsfragestellung aus: Wie hoch ist die Lösungswahrscheinlichkeit für ein Item, wenn die Personenfähigkeit gleich der Itemschwierigkeit ist?

- Im 2PL-Modell betrug sie dann ganz einfach 0.5. Da nun ein Parameter hinzukommt, ist der Zusammenhang nicht mehr so einfach. Wie groß aber ist „das Bisschen“ (d), das nun dazukommt?

o Diese Frage kann man in Gleichungen wie folgt ausdrücken:

Es gilt, wenn ξ(u) = βi:

Bei einem gegebenen Item Yi ist die Wahrscheinlichkeit für Yi = 1, bei Gleichheit von ξ = βi, um eine Konstante d von

0.5 verschieden.

• Frage also: Wie groß ist d?

- Ausgehend von…

- …folgt:

- [Fazit von NR zu den kaum besprochenen obigen Gleichungen: „Wichtig ist hier nur der Grundgedanke: die Wahrscheinlich-keit, durch Raten zu lösen, sinkt mit steigendem ξ, denn je höher das ξ, desto eher löst man aufgrund seiner Fähigkeiten wie im 2PL-Modell“.]

Itemschwierigkeitsparameter

- Die nachfolgende Abbildung zeigt die oben beschriebene Gleichung für das rote Item.

o Dieses hat einen Pseudorateparameter von γi =0.5. Wenn die Fähigkeit gleich der Itemschwierigkeit ist (ξ = βi), so beträgt

die Lösungswahrscheinlichkeit für dieses Item dann P=0.75.

Folglich beträgt dann d=0.25:

Linearität in ξ

- Die nachfolgende Abbildung verdeutlicht noch einmal die Bedeutung des Pseudorateparameters. Gezeigt ist eine lineare Darstellung in ξ, die wir bereits bei den generalisierten linearen Modellen (GLM) kennen gelernt haben. Die Frage ist dann, welcher Ausdruck linear in ξ ist?

Page 72: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

72

o In diesem Modell ist es nicht mehr der Logit (das logarithmierte Chancenverhältnis aus Lösen vs. Nicht-Lösen), der linear

in ξ ist. o Vielmehr ist es der Ausdruck links unten in der Abbildung, der im 3PL-Modell linear in ξ ist.

Daher gibt es auch keine Analogie zu einem Modell der KTT: Während das Rasch-Modell auf Ebene der Logits dem Modell essentiell τ-äquivalenter Variablen entsprach und das 2PL-Modell dem Modell τ-kongenerischer Variablen, kann man beim 3PL-Modell keine Entsprechung in der KTT ausmachen.

- Fazit für das 3PL-Modell: Der Logit ist nicht linear in ξ .

Nicht-parallele ICC

- Auch bei gleichen linearen Darstellungen in ξ können sich im 3PL-Modell nicht-parallele itemcharakteristische Kurven ergeben:

o Rechts ist die transformierte Lösungswahrscheinlichkeit.

o Es handelt sich um gleiche Items, die sich nur durch die Ratewahrscheinlichkeit unterscheiden.

Vor- und Nachteile der Modellierung der Ratewahrscheinlichkeit im 3PL-Modell

- Alle obigen Abbildungen sollten ein Problem verdeutlichen: Durch das Mit-Modellieren des Ratens und den daraus resultie-renden zusätzlichen Parameter ergeben sich Schwierigkeiten bezüglich der Interpretierbarkeit.

- Warum sollte man das Modell dann überhaupt verwenden?

o (1) Das Modell ist weniger restriktiv und kann komplexere Zusammenhänge zwischen Lösungswahrscheinlichkeit und la-tenter Variable modellieren.

o (2) Manchmal entsprechen die Daten eben sehr genau dem Modell. Dies ist keineswegs trivial: Wenn man Daten hat, die dem 3PL-Modell entsprechen und trotzdem nach dem 2PL-Modell vorgeht, dann kann die Parameterschätzung falsch aus-fallen. In der Item-Response-Theorie will man aber für Personen möglichst genaue Schätzer; durch die Modellierung der Ratewahrscheinlichkeit γ i erreicht man eine genauere Inferenz bezüglich der latenten Fähigkeitsvariable ξ(u) , wenn die ICC eine höhere untere Asymptote als 0 hat.

„Man frage also die Daten: Was seid ihr für welche und was braucht ihr?“ Man legt nicht vorher ein Modell fest, son-dern sucht ein für die Daten passendes Modell.

- Das 3PL-Modell wird in großen Untersuchungen der empirischen Bildungsforschung in den USA, wie etwa der SNAPE-Studie, verwendet.

o Es gibt aber auch Experten, die von der Verwendung des 3PL-Modells abraten und stattdessen forden, Items, deren Lö-sungswahrscheinlichkeit nicht mit sinkender Fähigkeitsausprägung gegen 0 konvergieren, sollten aus dem Test entfernt werden.

Page 73: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

73

Varianzfunktion, Item- und Testinformationsfunktion

- [Zeitmarke: 00:48:53]

- „Der Vollständigkeit halber“ hier noch die Formeln für die…

o Die Formeln sind bei γi=0 wieder analog dem 2PL-Modell.

- [„Die Formeln brauchen Sie sich nicht zu merken. Wichtiger ist, dass Sie die Konsequenzen mal praktisch sehen:“]

ICC, bedingte Varianzfunktion und Iteminformationsfunktion im 3PL-Modell

- Die blaue Linie in der nachfolgenden Abbildung ist die bedingte Varianzfunktion.

o Diese konvergiert im unteren Bereich [in der Grafik: links] nicht gegen 0. Dies kann sie auch nicht, weil es auch bei nied-rigen Fähigkeitsausprägungen immer noch die Möglichkeit einer richtigen Möglichkeit aufgrund von Raten gibt (=Grundgedanke des 3PL-Modells).

- Die rote Linie stellt die Iteminformationsfunktion dar. Diese konvergiert im Gegensatz zur bedingten Varianzfunktion sehr wohl gegen 0: In denjenigen Bereichen einer niedrigen Fähigkeitsausprägung, in denen nur noch aufgrund von Raten oder anderen Prozessen gelöst wird, liefert der Test ja keinerlei Informationen mehr bezüglich der latenten Fähigkeitsvariable ξ. o Dies ist sehr ähnlich dem 2PL-Modell: Genau in dem Bereich, wo die Lösungswahrscheinlichkeit stark ansteigt, ist die In-

formation am höchsten.

Bedingte Varianz-/Iteminformationsfunktion 2PL- versus 3PL-Modell

- Die nachfolgende Abbildung zeigt einen Vergleich der bedingten Varianz-/Iteminformationsfunktionen zwischen dem 2PL- und 3PL-Modell.

o Wenn ein Item nicht ausschließlich aufgrund der latenten Variable ξ gelöst werden kann, so liefert das Item insgesamt weniger Information: Beide Items haben ein hoch diskriminierendes Alpha und eine Schwierigkeit von 0. Durch die Rate-wahrscheinlichkeit im rechten Fall nach dem 3PL-Modell sinkt aber die Iteminformation [rote Kurven] gegenüber dem lin-ken Fall ohne Ratewahrscheinlichkeit.

Page 74: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

74

Fazit

- Im 3PL-Modell ist die Wahrscheinlichkeit ein Item zu lösen nicht ausschließlich eine Funktion der Personenvariable ξ, da Personen im Falle von „Raten“ nicht mehr in Abhängigkeit der Personenvariable ξ antworten.

- Mit steigendem Rateparameter nimmt die Iteminformation eines Items ab.

- [„Dies waren die wesentlichen Sachen zum 3PL-Modell. Mehr wollen wir dazu auch nicht machen. Sie haben jetzt die drei wesentlichen Modelle der IRT kennen gelernt.“]

Linkfunktionen

- Wir wechseln nun das Thema und greifen einen Aspekt auf, der in der letzten Sitzung bereits angeschnitten wurde: Für das 2PL-Modell kann man zwar Parameter schätzen, es gibt aber für dieses Modell keinen Modelltest. Nicht einmal Bootstrap-ping-Verfahren helfen weiter.

o Was kann man also tun? Es können spezielle Strukturgleichungsmodelle helfen. Um diese zu verstehen und zu sehen, wie man damit – so nämlich lautet das Ziel – das 2PL-Modell testen kann, müssen wir uns noch einmal vertieft mit den so genannten Linkfunktionen auseinandersetzen.

Ausgangspunkt

- Linkfunktion und Responsefunktion stammen beide aus dem Bereich der Generalisierten Linearen Modelle.

o Die Responsefunktion verbindet unsere abhängige Variable Y mit dem linear transformierten ξ. Ausgangspunkt ist also die Modellierung des Zusammenhangs zwischen latenter (zu messender) Personenva-

riable ξ und kategorialer manifester Variable Y!

- Bei dichotomen Variablen gilt:

o Durch den beschränkten Wertebereich [0,1] des Regressanden benötigen wir eine nichtlineare Funktion zur Beschreibung

des Zusammenhangs zwischen ξ und Item Yi – eine sog. Linkfunktion (sie ist die inverse Responsefunktion)!

Zusammenfassung des Grundgedankens

- Es gibt die oben genannte Regression, die eine Lösungswahrscheinlichkeit ist. Diese ist nicht linear in ξ, aber eine Funktion dieser Regression (nämlich der Logitlink) ist linear in ξ . o Man verlinkt mithin Regression und Regressand durch eine nicht-lineare Transformationsfunktion.

- Der Zusammenhang zwischen der abhängigen und der latenten Variable wird also durch die logistische Verteilungsfunk-tion modelliert, die nachfolgend besprochen wird.

Logistische Funktion als Linkfunktion

- Die logistische Verteilungsfunktion stammt eigentlich nicht aus der IRT. Normalerweise zeigt sie einfach den Zusammenhang zwischen dem logarithmierten Chancenverhältnis (Logit) und der Wahrscheinlichkeit für das Ereignis.

Page 75: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

75

- In der IRT sagt man nun, P(A) ist die Wahrscheinlichkeit für das Lösen eines Items, und zwar in Abhängigkeit von einer la-tenten Fähigkeitsvariable ξ (die man auf der x-Achse abtragen könnte).

o Dahinter steht eigentlich eine Verteilungsfunktion, die nachfolgend besprochen wird.

Dichtefunktion vs. Verteilungsfunktion

- Die nachfolgende Abbildung zeigt, dass die logistische Verteilungsfunktion [untere Hälfte der Abbildung] das Integral einer logistischen Dichtefunktion ist. [MN: Die logistische Dichtefunktion ist die obere Hälfte der Abbildung.]

o [„Die Formeln brauchen Sie sich nicht zu merken. Man kann aber erkennen, dass sich dahinter die Modellgleichung der

IRT verbirgt.“]

- Das Integral einer Dichteverteilung ist die (kumulierte) Fläche unter dieser Dichtefunktion. Das Integral kann man selbst wieder als Funktion darstellen.

Logistische Funktion als Linkfunktion in der IRT

- [Zeitmarke: 1:09:17]

- Hier wird gegenüber der Abbildung ganz oben auf dieser Seite die oben bereits angesprochene Ersetzung von P(A) und des Logarithmus auf der x-Achse durch die Parameter der IRT vorgenommen.

- „Man muss also zwei Zusammenhänge machen: zwischen dem ξ und der transformierten Regression, und erst von dort geht es zur Regression. Es gibt einen Zwischenschritt, wie in der linearen Regression“ [sic!] – dies ist die Linkfunktion.

Page 76: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

76

Weitere Linkfunktionen

- Man könnte fragen: Warum ärgern wir uns mit der logistischen Verteilungsfunktion und verwenden wir nicht die uns bereits bekannte kumulierte Verteilungsfunktion der ξ (αi = 1, βi = 0)? Auch diese ist eine ähnlich aussehende sigmoide (s-förmige) Funktion zwischen 0 und 1:

o In der Tat wurde in den Anfängen der IRT die kumulierte Normalverteilungsfunktion und nicht die logistische Verteilungs-

funktion als Linkfunktion verwendet.

Im Vergleich zur logistischen Verteilungsfunktion ist diese Funktion mathematisch allerdings tatsächlich komplizierter, was allerdings nur im Detail erkennbar ist.

- Bei einer standardnormalverteilten Zufallsvariable ist nicht der Logit linear in ξ, sondern das Z. Eine lineare Transformation davon ist dann wieder unsere Regression.

Logistische vs. Standardnormalverteilung

- Vergleich der logistischen und der Normalverteilung (Dichte & Verteilungsfunktion) bei gleichen Parametern:

o Linke Abbildung: Bei gleicher Parametrisierung ist die Standardnormalverteilung schmaler aber höher. Die logistische

Verteilung sieht so aus wie die Standardnormalverteilung einer Variable mit größerer Varianz.

o Rechte Abbildung: Die Verteilungsfunktionen haben unterschiedliche Anstiege.

Dies ist bedeutsam: Bei gleichem Zusammenhang zwischen manifester und latenter Variable erhielte man durch die Verwendung einer anderen Linkfunktion eine unterschiedliche Itemdiskrimination!

Logistische Funktion als Linkfunktion

- Logistische Itemresponsemodelle verwenden die logistische kumulative Verteilungsfunktion als Linkfunktion.

- In der nachfolgenden Abbildung sind die Auswirkungen der Verwendung unterschiedlicher Linkfunktionen dargestellt.

o Blaue Kurve: logistische Linkfunktion mit einem Itemdiskriminationsparameter von α=1 wie im Rasch-Modell

o Schwarze Kurve: Eine Standardnormalverteilung[sfunktion] mit einem α=1 wäre viel zu steil.

o Rote Kurve: Verwendet man aber für die Standardnormalverteilung einen Itemdiskriminationsparameter von α=0.588, dann liegen die Kurven [rot, blau] nahezu übereinander.

Wenn man eine Standardnormalverteilung als Responsefunktion verwendet, kann man also auch mit dieser die Gül-tigkeit des Rasch-Modells überprüfen – wenn man ein bestimmtes [d.h. durch eine Konstante transformiertes] α ver-wendet.

Page 77: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

77

- Die Itemdiskriminationsparameter werden also in Abhängigkeit von der verwendeten Linkfunktion (logistisch oder standard-normalverteilt) unterschiedlich ausfallen. Man kann die entsprechenden Parameter aber folglich ineinander überführen.

Standardnormalverteilung als Linkfunktion

- Alternative Parametrisierung des Normal-Ogiven-Modells zur besseren Interpretation der Modellparameter:

o Φ ist die kumulative Standardnormalverteilung.

- Dieses Modell wird auch als Probit-Modell bezeichnet.

o Dies ist das Analogon zu den Logit-Modellen, welche die Logit-Funktion als Linkfunktion verwenden.

o Auch die Probit-Modelle gibt es als Rasch-Modell und 2PL-Modell.

Nochmals wiederholt: Die Bedeutung der Parameter bleibt vollkommen gleich, aber die Zahlenwerte (gerade die I-temdiskrimination) sind in Probit-Modellen anders als in Logit-Modellen.

Exkurs zum Begriff „Probit“

- Die Probit-Variable ergibt sich als Funktionswert (y-Achse) der inversen Standardnormalverteilung Φ-1:

- Man sieht hier den Zusammenhang zwischen der abhängigen und unabhängigen Variablen.

o Die Responsefunktion ist die kumulierte Standardnormalverteilungsfunktion.

o Die Linkfunktion – die Umkehrfunktion – ist die Probit-Funktion.

- Für die Umkehrfunktion gibt es keine Formel, weil diese mathematisch nicht mehr darstellbar ist.

Page 78: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

78

Zusammenfassende Abbildung zu Standardnormalverteilung als Linkfunktion

- [Zeitmarke: 1:23:00]

- „Wer diese Grafik verstanden hat, der weiß, was Link- und Responsefunktion wollen.“ [Daher annähernd wörtlich transkri-biert]

o Links oben steht die Regression, welche die Lösungswahrscheinlichkeit widerspiegelt; die latente Variable ξ ist der Regressor.

o Man modelliert den Zusammenhang zwischen dem ξ und der Lösungswahrscheinlichkeit. Zwischendurch sagt man aber die durch die Linkfunktion transformierte Regression linear durch das ξ vorher.

o Ergo: Jedem Wert von ξ ist also eindeutig ein Wert auf dem Probit oder auf dem Logit zugewiesen, und diesem wiederum ist ein Wert zwischen 0 und 1 zugeordnet. Deswegen ist dies der Link, der die Regression verlinkt.

Erreicht wird immer die Verbindung zwischen etwas Nicht-Linearem und etwas Linearem – das ist die Linkfunktion.

• Welche Funktion man dafür nimmt – Logit oder Probit – muss man auswählen.

M

11. Vorlesung vom 18.01.2010: Strukturgleichungsmodelle für geord-nete kategoriale Variablen

Zusammenfassung der letzten Sitzung

3 PL-Modell

- In der letzten Sitzung haben wir das dreiparametrische Modell der IRT nach Birnbaum besprochen.

- Der zusätzliche Parameter, der dort eingeführt wird, ist eine untere Asymptote. Dies ist „die richtigste Bezeichnung für diesen Parameter“. Die Bezeichnung Rateparameter nimmt schon eine Interpretation vor; der Parameter kommt aber nicht immer durch Raten zu Stande. Deshalb wird er in der Literatur häufig auch Pseudo-Guessing-Parameter (Pseudo-Rate-Parameter) genannt.

- Der Parameter drückt denjenigen Wert aus, gegen den die Lösungswahrscheinlichkeit des Items konvergiert, wenn die Fä-higkeit in Richtung minus unendlich geht.

- Der Pseudo-Rate-Parameter beträgt häufig nicht 1 geteilt durch die Anzahl der Kategorien. Wenn man dies dennoch an-nimmt, führt diese Schätzung häufig zu einer schlechten Modellpassung.

o Beispiel: Bei einem dichotomen Item ist der Rateparameter nicht einfach 0.5.

o Stattdessen beziehen Personen die Distraktoren in ihre Überlegungen ein und achten auf die Plausibilität der Antwort-möglichkeiten, wenn sie ein Item nicht beantworten können, d.h. sie raten intelligent.

o Der Parameter ist schätzbar und kann alle Werte zwischen 0 und 1 annehmen, da er eine Wahrscheinlichkeit ist.

- Der Pseudo-Parameter muss manchmal eingeführt werden, weil die itemcharakteristischen Kurven manchmal einfach so aussehen, dass sie nicht anders beschrieben werden können.

Page 79: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

79

o Dies ist vor allem der Fall, wenn die Lösungswahrscheinlichkeit bei niedriger Fähigkeit nicht gegen 0, sondern einen höhe-ren Wert, nämlich den Parameter γ , konvergiert.

o Wenn man einen solchen Zusammenhang nur mit einem 2PL-Modell oder einem anderen Modell beschreibt, erzeugt man systematisch Fehler.

Unterschied zum 2PL-Modell

- Der einzige Unterschied „ist eigentlich nur“, dass die itemcharakteristischen Kurven [d.h. die Lösungswahrscheinlichkeit bei zunehmend niedriger Fähigkeit) nicht gegen 0, sondern gegen einen bestimmten Wert von γ konvergieren.

- Allerdings gibt es bezüglich der Interpretation weitere Konsequenzen und Unterschiede:

o Die Itemschwierigkeit ist nicht mehr der Wert, an der die Lösungswahrscheinlichkeit 0.5 beträgt. Stattdessen muss man den Betrag γ /2 addieren. [Zeitmarke: 00:05:30]

o Die Interpretierbarkeit der anderen Parameter leidet also unter der Hinzunahme des dritten Parameters γ.

- Für die Iteminformationsfunktion ergibt sich: Je höher der Pseudo-Rate-Parameter, desto geringer die Iteminformations-funktion.

o Dies ist plausibel, wenn man sich überlegt, dass das Item auf zwei Arten gelöst werden kann: Durch die Fähigkeit ξ oder durch Raten (oder anderen Faktoren).

3PL-Modell auf einer Folie zusammengefasst

- Diese Punkte wurden oben besprochen, wenn auch mit anderen Worten:

o Dritter Itemparameter γ i als untere Asymptote

o Sowohl die Interpretation als auch die Schätzung der Itemparameter ist schwierig, da sie voneinander abhängig sind.

o Ist eigentlich kein Modell mit einer latenten Variable, mit der die Lösungswahrscheinlichkeit eines Items erklärt wird, sondern ein Modell, das (mindestens) zwei Lösungsstrategien abbildet

( kann als Mischverteilungsmodell aufgefasst werden.

o Die Iteminformation – und in der Folge die Messgenauigkeit der Personenvariable – sinkt mit höheren Werten der unteren Asymptote.

Linkfunktionen

- [NR: „Das ist ein staubtrockenes Thema und in den letzten zwei Jahren ist mir immer rückgemeldet worden: Der Tiefpunkt der Vorlesung sind die Linkfunktionen.“]

- Wir haben Linkfunktionen betrachtet, weil es für das zweiparametrische Modell keinen Test gibt. Nicht einmal der Bootstrap (wie wir ihn im Rasch-Modell kennen gelernt haben), hilft uns bei der Prüfung des 2PL-Modells.

- Es gibt aber spezielle Strukturgleichungsmodelle, die es ermöglichen, das 2PL-Modell zu testen. Diese Modelle werden wir in der heutigen Sitzung kennen lernen.

- Das Strukturgleichungsmodell ist aber ein ganz anderes Modell. Wenn man damit das zweiparametrische logistische Modell testen möchte, ist dies nur möglich, wenn man zeigen kann, dass zwischen den Modellparametern des einen und denen des anderen Modells eine eindeutige Beziehung besteht. [sic!]

o Dies ist die Grundvoraussetzung um behaupten zu können, dass ein Test des Strukturgleichungsmodells eine Prüfung des zweiparametrischen Modells ist.

- Neben dem Logit-Link gibt es auch den Probit-Link, hinter dem sich die kumulierte Standardnormalverteilung verbirgt.

o Man könnte sich aber noch viel mehr Link-Funktionen ausdenken, die die monoton steigende sigmoide Kurve der Lö-sungswahrscheinlichkeit beschreibt.

o Wenn man andere Linkfunktionen benutzt, bedeutet dies auch, dass daraus andere Parameter resultieren. Dies bedeutet aber nicht, dass es sich um einen anderen Zusammenhang handelt. Stattdessen sind die resultierenden Parameter inein-ander überführbar.

Linkfunktionen auf einer Folie zusammengefasst

- [Diese Punkte wurden oben nicht alle besprochen.]

- Es gibt verschiedene sigmoide Response-Linkfunktionen, die geeignet sind, um die regressive Abhängigkeit zwischen den manifesten dichotomen und den latenten metrischen Variablen zu beschreiben.

- Probit- und Logit-Link sind zwei solche Linkfunktionen. Sie sind die inversen Funktionen der Verteilungsfunktionen und der Standardnormalverteilung bzw. der logistischen Verteilung.

- Beachte: verschiedene Response-/Linkfunktionen bedeuten verschiedene Modellparameter bei gleicher regressi-ver Abhängigkeit zwischen den Variablen, die aber ineinander umgerechnet werden können.

- Itemparameter des Probit-Modells können nicht nur in die Logit-Metrik transformiert werden, sondern auch in Faktorladun-gen, Schwellen und Intercepte von speziellen Strukturgleichungsmodellen, die Modellgeltungstests für 2-parametrische IRT-Modelle erlauben!

Page 80: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

80

Linkfunktionen: Fortsetzung

Zur Abbildung aus der letzten Sitzung

- In IRT-Modellen gibt es eine latente Variable, die im rechten Teil der nachfolgenden Abbildung auf der x-Achse abgetragen ist.

o Auf der y-Achse im rechten Teil der Abbildung ist der Probit-Link verwendet. Der Probit ist die „durch die Link-Funktion transformierte Regression.“

o Der Probit hängt ausschließlich von der Lösungswahrscheinlichkeit ab und ist ihr eindeutig zugeordnet.

- Über diese Verbindung (Link) kann man Regression und Prädiktor verlinken. [sic! Zeitmarke: 00:12:50]

- Der Probit [linker Teil der Abbildung] ist immer ein und derselbe, nämlich die inverse Funktion der kumulierten Standard-normalverteilung.

- Die obige Abbildung aus der letzten Sitzung wird im Folgenden als Tafelbild noch einmal entwickelt und erläutert [siehe fol-

gende Tafelbilder].

o Auf der x-Achse steht die durch die Linkfunktion veränderte Regression: Abgetragen in rot (wenn die Linkfunktion der Lo-git ist) bzw. in blau (bei Probit als Linkfunktion).

o Wenn man den linken Teil der obigen Abbildung um 90° dreht, erhält man die Response-Funktion. So wie abgebildet ist es die Linkfunktion.

Verwendung alternativer Linkfunktionen (als den Logit)

- Ziel ist die Demonstration, dass bei Verwendung einer anderen Linkfunktion andere Parameter folgen müssen.

- Das folgende Tafelbild zeigt den Logit als Linkfunktion:

- Die Person II hat die höhere Fähigkeit [siehe rechter Teil der Grafik: höhere Ausprägung von ξ]. Für sie beträgt die Lösungs-

wahrscheinlichkeit 0.8 [ganz oben im linken Teil der Grafik].

o Für die Person I beträgt die Lösungswahrscheinlichkeit nur 0.25.

- Diese Werte sind völlig unabhängig davon, welche Linkfunktion man verwendet, sondern stehen fest: Die Lösungswahr-scheinlichkeit eines Items ist eine Funktion von ξ , was eine Eigenschaft der Person ist.

- Wenn man die Itemparameter kennt, gibt es einen bestimmten Anstieg im Logit, der α entspricht. Dies ist die Steigung der Geraden im rechten Teil der oberen Abbildung. [Zeitmarke: 00:14:20]

Page 81: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

81

- Wenn man nun einen Probit-Link verwendet, ändert sich die Kurve der Link-Funktion [linker Teil der Abbildung unten]. Es ändert sich aber gleichzeitig auch die daraus resultierende Gerade [rechter Teil des Tafelbilds unten], die nun eine niedrigere Steigung hat.

Zusammenhang von Logit und Probit

- Die Itemdiskriminationen α, d.h. in die Steigung in der Grafik, unter dem Probit-Link und unter dem Logit-Link unterscheiden

sich um den Faktor 1.7, d.h. die Steigung der Probit-Funktion beträgt 0.588, wenn die der Logit-Funktion 1 beträgt.

- [Zeitmarke: 00:17:50] Man könnte auch andere Funktionen als Logit oder Probit verwenden: Bei allen ändern sich weder

Lösungswahrscheinlichkeiten noch Fähigkeiten, sondern lediglich die Parameter bezüglich der Items.

- „Der entscheidende Punkt ist: Unterschiedliche Alphas bedeuten nicht unterschiedliche Zusammenhänge zwischen ξ und Lösungswahrscheinlichkeit, sondern 0.588 und 1 bedeuten den gleichen Zusammenhang.“

o Analogie: Bei einer einfachen linearen Regression erhält man beispielsweise den Regressionskoeffizienten 15. Nachdem man die Variablen standardisiert hat, ist er aber kleiner als 1, obwohl derselbe Zusammenhang beschrieben wird.

- Der Zusammenhang zwischen Logit und Probit ist eindeutig: Sie sind durch den Umrechnungsfaktor 1.7 ineinander überführ-bar.

Zusammenfassung von Folie

- [Die Folie ist als Zusammenfassung „zum Nachschauen“ gedacht und wurde nicht erläutert.]

Zusammenhang mit Strukturgleichungsmodellen

- Unser übergeordnetes Ziel ist immer noch, das 2PL-Modell zu testen. Dies ist auch mit dem Probit-Modell nicht möglich.

- Aber die Probit-Diskriminationen α lassen sich eindeutig in Faktorladungen für Strukturgleichungsmodelle umrech-nen. Deshalb haben wir uns noch einmal mit dem Probit befasst.

Page 82: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

82

Linkfunktion und Responsefunktion

Linkfunktion

- [Folgende Folie dazu nur kurz gezeigt, Zeitmarke: 00:23:30]

Responsefunktion

Zusatz

- [Diese beiden Folien ergänzen die Aussagen dieser und letzter Sitzung, wurden aber in der Vorlesung nicht gezeigt.]

Umrechnung der Modellparameter [F]

Warum Probitmodelle? [F]

- Historische Bedeutung: die ersten IRT-Modelle waren Probitmodelle („Discriminal Dispersion Theory“ von Thurstone, 1927).

- Einige Programme (BILOG, MULTILOG, …) ermöglichen es, zwischen den beiden Linkfunktionen auszuwählen.

Modellgeltungskontrolle bei 2PL-Modellen

- Wir wollen im Folgenden Strukturgleichungsmodelle (SEM) behandeln, weil wir die 2PL- und 3PL-Modelle testen möch-ten. Dazu ein Zitat:

o „Whereas with the Rasch model, a number of sound statistical tests have been produced for addressing fit, the situation for the two- and three-parameter models is quite different. Well-established statistical tests do not exist… “ (W. J. van der Linden & R. K. Hamble-ton, 1997)

- In Strukturgleichungsmodellen werden lineare Regressionen der latenten Variablen auf manifeste Variablen angenommen.

o Für die IRT ist eine lineare Regression aufgrund der sigmoiden Zusammenhänge aber unplausibel.

o Damit sind auch Varianz-Kovarianz-Matrizen, die Maße linearer Zusammenhänge enthalten und die Grundlage von Struk-turgleichungsmodellen bilden, für die IRT nicht geeignet.

- Wenn wir hier über Strukturgleichungsmodelle reden, sind dies also besondere Strukturgleichungsmodelle. [Zeitmarke: 00:28:40]

Page 83: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

83

Strukturgleichungsmodelle für geordnete kategoriale Variablen

- Die Faktorladungen λi der speziellen Strukturgleichungsmodelle, die wir kennen lernen werden, lassen sich eindeutig in I-

temdiskriminationsparameter αi der Probit-Metrik umrechnen. Diese wiederum lassen sich in die Logit-Metrik transformieren.

o Kurz von Folie: Faktorladungen λi und Schwellenparameter δi aus diesen Strukturgleichungsmodellen lassen sich in Item-

diskriminationsparameter αi und Itemschwierigkeiten βi (in der Probit-Metrik) umrechnen!

- Damit kann man letztendlich die zweiparametrischen logistischen Modelle testen. Denn für Strukturgleichungsmodelle stehen mehrere Möglichkeiten der Modellgeltungskontrolle zur Verfügung, z.B. der χ²-Test oder der RMSEA.

- Zusätzlich werden wir Schwellenparameter δi kennenlernen, die wir bisher noch nie bei Strukturgleichungsmodellen betrach-

tet haben. Diese kann man in Bezug setzen zu den Itemschwierigkeiten βi.

Korrelationsmatrix

- In der ersten Sitzung fiel der Begriff tetrachorische Korrelation, die es für dichotome Variablen gibt.

- Für ordinale Variablen gibt es die polychorische Korrelation.

- Diese Zusammenhangsmaße bilden eine spezielle Korrelationsmatrix und man verwendet sie als Grundlage der Strukturglei-chungsmodelle.

- Auch für diese speziellen Korrelationsmatrizen gilt alles, was wir schon zu Strukturgleichungsmodellen kennen: Modellimpli-zierte, empirisch geschätzte, wahre und wahre modellimplizierte Matrizen.

Aufbau und Annahme des Modells

- In diesen speziellen Strukturgleichungsmodell wird – wie immer – eine Modellannahme getroffen: Hinter jeder manifesten dichotomen Variable Yi steht eine latente kontinuierliche Variable Yi

*, die normalverteilt ist:

o Die dichotome manifeste Variable Yi hat die beiden Ausprägungen 0 und 1 und entspricht einem Testitem, das gelöst oder nicht gelöst wurde.

o Die kontinuierliche latente Variable Yi* wird Latent Response Variable (LRV) genannt. Sie ist unsichtbar/nicht beob-

achtbar.

Die Existenz der LRV ist lediglich eine Annahme: „Deshalb mag sie der Prof. Steyer nicht.“ Die LRV ist ein Kunstgriff und weder sichtbar noch prüfbar. Damit ist sie aus Sicht der Wahrscheinlichkeits- und Messtheorie ein Problem.

• Norman ist aber „ein Verfechter“ der LRV, weil sie eine gute „Schubkarre“ ist, d.h. sie hat einen praktischen Nut-zen.

- Auf der latenten Variable gibt es eine Schwelle δ. Wenn dieser Schwellenwert überschritten ist, antwortet die Person mit 1,

ansonsten mit 0.

o Dies ist ein deterministischer Zusammenhang, d.h. die Stochastik [aus der IRT] „ist erst einmal verloren gegangen.“

- Die latente Variable hier unterscheidet sich von allen anderen latenten Variablen, die wir in vergangenen Semestern kennen-gelernt haben, dadurch, dass sie fehlerbehaftet ist.

o Dies bedeutet: Der Wert der LRV steht nicht fest mit der Person, d.h. die LRV ist keine Funktion der Person. „Und dort versteckt sich auch die Stochastik.“

Zusatz

- [Der folgende Stichpunkt wurde nicht besprochen, hier trotzdem Kopie von der Folie.]

Page 84: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

84

Beziehung der Modellvariablen

- Das Schaubild zeigt u.a.: Die LRV ist eine lineare Funktion von ξ plus einem Fehler ε.

- Der gelbe Kasten rechts unten sagt aus: Der Zusammenhang zwischen der LRV und der manifesten Variable Y ist ein deterministischer Zusammenhang, der durch die Schwellenstruktur beschrieben wird.

o Damit formuliert das Modell die manifeste Variable Y als eine „in Scheibchen geschnittene normalverteilte Variable“.

- Wichtig: Das Messmodell besteht aus zwei Teilen

o Der erste Teil beschreibt den stochastische Zusammenhang zwischen der latenten Variable ξ und der Latent-Response Variable als lineare Regression [mittlerer der drei gelben Kästen].

o Der zweite Teil beschreibt den Zusammenhang zwischen der LRV und der manifesten Variable als deterministisch, gege-ben der Schwellenwerte.

- Die Formulierung Y= c ⇔ δc < Y*< δc+1 aus dem Schaubild besagt: Die Variable Y nimmt den Wert c an, wenn der Wert von Y*

zwischen den Schwellenwert δc und dem Schwellenwert δc+1 liegt.

o Im Falle eines dichotomen Items fällt der letzte Teil der Formel weg und es folgt:

- Alle Parameter wie das Intercept ν oder die Faktorladungen λ sind keine Regression der manifesten Variable (wie in vorheri-gen Semestern), sondern der LRV, die wir nicht sehen.

Eventuelle Prüfungsfrage

- „Warum gibt es überhaupt einen stochastischen Zusammenhang zwischen Y und ξ, wenn doch die Schwellenstruktur eine deterministische ist?“

o Grund ist, dass die LRV einen Fehler hat, d.h. die Werte der Variable Y* weichen – trotz gleich bleibender Fähigkeit ξ – bei wiederholter Durchführung voneinander ab.

Modellparameter

- Wie in bisherigen Semestern gelten die bekannten Modellparameter:

- Es gelten auch die bekannten Rechenregeln:

o Allerdings stehen in der Varianz-Kovarianz-Matrix keine Korrelationen wie wir sie kennen, sondern es ergibt sich eine tet-

rachorische oder polychorische Matrix.

Hypothese beim Test von Strukturgleichungsmodellen

- [Zeitmarke: 00:46:50] Die Nullhypothese bei Strukturgleichungsmodellen war immer: „Die wahre und die wahre modellimp-lizierte Varianz-Kovarianz-Matrix sowie die wahre und die wahre modellimplizierte Erwartungswertstruktur sind gleich.“

- Nun kommt eine dritte Annahme bezüglich der Schwellenwerte hinzu [wichtig]: Neben der wahren und modellimplizierten Kovarianz-/Erwartungswertstruktur gibt es in SEM für kategoriale Variablen auch einen wahre und eine wahre modell-implizierte Schwellenstruktur.

Pfaddiagramme bei SEM für kategoriale Variablen

- Auch bei speziellen Strukturgleichungsmodellen wird [von Computerprogrammen?] die bekannte Darstellungsweise gewählt. Problematisch ist dabei, dass es so scheint, als ob die LRV die manifeste Variable wäre. Dem ist aber nicht so, sondern die eigentlichen manifesten Variablen sind gar nicht mit abgebildet.

o Deshalb hat NR in untenstehender Abbildung zusätzlich zur sonst üblichen Darstellung innerhalb der gestrichelten Linien noch die manifesten Variablen Yi als graue Kästen hinzugefügt.

Page 85: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

85

o Hier stimmt also der Grundsatz „Alle als eckig dargestellten Variablen sind manifest“ nicht mehr.

Parameter in Mplus

- Die untenstehenden Modellgleichungen geben die Möglichkeit, dass man die latente Variable auch durch weitere latente Variablen erklären könnte. Deshalb tauchen in den Formeln Α und Β für Matrizen auf.

- Es ist nicht falsch, „Kovarianzstruktur“ zu sagen. Es handelt sich jedoch um eine spezielle Kovarianzstruktur, nämlich um die

tetra- oder polychorische Korrelationsstruktur.

Modellidentifikation

- Problem für die Identifikation: Die Intercepts ν der Latent-Response-Variablen und die Schwellen δ sind nicht voneinander unabhängig. Wenn man einen Wert transformiert, verschiebt sich auch der andere Wert.

o In Mplus ist das Problem behoben, weil die Erwartungswerte immer und unveränderlich auf 0 gesetzt sind und nur die Schwellen frei geschätzt werden.

o Von Folie:

- [Zeitmarke: 00:52:30] Um die Schwellenwerte zu schätzen, ist die Annahme der Standardnormalverteilung für die LRV [ Y*~N(0,1) ] notwendig.

Page 86: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

86

- Bei jedem Item gibt es relative Häufigkeiten für die Antwortoptionen 0 und 1. Sie sind Schätzer für die Wahrscheinlichkeiten P(Y=0) und P(Y=1). o Beispiel: Von 1000 Personen haben 16% das Item nicht gelöst (Y=0) und 84% gelöst (Y=1).

1. Schritt: Berechnung der Schwellen

- Man kann nun sagen: 16% der Werte von Y* müssen kleiner als der Schwellenwert sein. Aufgrund der angenommenen Stan-dardnormalverteilung für die LRV muss die Schwelle nun derjenige Wert von Z sein, für den gilt: P(Z≤z) = 0.16

o Damit ist die Wahrscheinlichkeit beschrieben, mit der Wert z größer oder genauso groß wie Z ist.

o Um den Wert zu ermitteln, muss man sich die Dichtefunktion anschauen, d.h. die kumulierte Standardnormalverteilung.

- Auf diesem Wege wird zunächst univariat, d.h. für jedes Item separat, die Schwelle geschätzt:

o Die Schwellen sind nicht in der Metrik von ξ , sondern in der Metrik der LRV Y* gehalten.

2. Schritt: Schätzung der tetrachorischen Korrelationen

- Im nächsten Schritt [2. Schritt] muss die tetrachorische Korrelation berechnet werden, was wir uns nicht im Detail anschau-en.

- Wenn man die Schwellenwerte für jedes Item ermittelt hat, kann man sie für zwei Items miteinander in Beziehung setzen.

o Für dichotome Items ergeben sich dann vier Kombinationen:

- Die tetrachorische Korrelation ist die Korrelation der LRV: Kor(Yi

*,Yj*)

- Die tetrachorische Korrelation funktioniert auch für Items, die nicht dichotom sind:

3. Schritt: Schätzung der Faktorladungen, Varianzen, Mittelwerte, etc.

- Die Schätzung im 3. Schritt erfolgt…

o auf Basis der initialen Schwellenschätzungen (aus den univariaten Verteilungen der manifesten Variablen) Schritt 1

o und den tetra-/polychorischen Korrelationen (aus den bivariaten Verteilungen der manifesten Variablen) Schritt 2

Page 87: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

87

- Bei nicht-normalverteilten manifesten Variablen ist in Strukturgleichungsmodellen keine ML-Schätzung möglich.

- Auf das spezielle Verfahren des WLSMV werden wir nicht weiter eingehen. Es ist bisher auch nur in Mplus umgesetzt und

nicht in anderen Programmen wie Lisrel zu finden.

o In Mplus muss man angeben, dass man den WLSMV-Schätzer haben möchte.

- WLSMV steht für: „weighted least squares mean and variance adjusted”

o [Laut NR für: Weigthed Least Square Estimator with Variance and Mean adjusted χ²-statistic”]

- Für eine Schätzung nach dem WLSMV-Verfahren benötigt man größere Stichproben als für die klassische Maximum-Likelihood-Schätzung: Erst ab 200-250 Personen ist es ein robustes Schätzverfahren.

- Die Berechnung der Freiheitsgrade ist anders und viel komplizierter als wir dies in vorherigen Semestern kennengelernt ha-ben. Eine Berechnung des χ²-Differenzentests per Hand wäre hier nicht mehr möglich.

Umsetzung in Mplus

- Letzte Zeile: NR hat die Schwellenwerte δ genannt, weil wir (in vorherigen Semestern) τ schon mehrfach verwendet haben.

In Mplus sind die Schwellen aber mit τ bezeichnet.

Modellidentifikation in Mplus

o Zu den obigen Optionen: „Das ist äquivalent zu dem bisherigen Strukturgleichungsmodell.“ [Zeitmarke: 01:18:00]

- Man kann Restriktionen bezüglich der Schwellen einführen, z.B. Gleichheitsrestriktionen.

o Beispiel: Zu zwei Zeitpunkten sollen die Schwellen eines Items gleich sein. Es wäre nämlich unplausibel, dass sich die Ei-genschaft des Items über die Zeit ändert.

- Für den Mplus-Input: Schwellen werden über $-Zeichen angesprochen. Die erste Schwelle für das Item y1 lautet dann: [y1$1] , die erste Schwelle für das Item y2 [y2$1] .

Syntax

- Wir verwenden den gleichen Datensatz wie in der Sitzung zum 2PL-Modell. Das Input-File ist absolut identisch, bis auf den ESTIMATOR:

Page 88: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

88

o Bisher stand unter ESTIMATOR immer MLR. In diesem Fall würde das 2PL-Modell gerechnet werden.

o Diese wenigen Buchstaben geben also an, welche Klasse von Modellen man berechnet.

Beziehung der Parameter verschiedener Modelle

- „Das jetzt bitte nicht auswendig lernen“ [Zeitmarke: 00:12:00]

- Umrechnung der Modellparameter:

o Beispiel: Wenn man die standardisierten Faktorladungen gegeben hat und die Probits wissen möchte, muss man die For-

mel verwenden, die am roten Pfeil steht, der von unten nach links oben zeigt.

- Weil man diese Umrechnungen machen darf, testet man mit dem Strukturgleichungsmodell das zweiparametrische Modell.

Anwendung in Mplus

- [Zeitmarke: 01:16:00]

- Verwendet wird der bekannte Simulations-Datensatz „16items_2pl_1latent.dat“, in dem die ersten Items in ihren Diskrimina-tionen deutlich von 1 abweichen.

- Input-File: „Mplus_16items_wlsmv.inp“ [alles im Ordner „20100118 Daten“ gespeichert]: TITLE: 16 Items 1 latente Dimension 2PL; DATA: FILE IS 16items_2pl_1latent.dat; TYPE IS INDIVIDUAL; VARIABLE: NAMES ARE i1-i16; USEVARIABLES ARE i1-i16; CATEGORICAL ARE i1-i16; ANALYSIS: Estimator=WLSMV; TYPE IS MEANSTRUCTURE; MODEL: XI BY i1-i16*; Der Stern bedeutet, dass alle Ladungen frei geschätzt werden XI@1;

[XI@0]; Das Modell ist identifiziert, weil die Varianz der exogenen Variable ξ auf 1 und der

Erwartungswert auf 0 fixiert sind. Damit ist ξ standardnormalverteilt OUTPUT: TECH1; RESIDUAL;

SAMPSTAT; Dieser Befehl gibt deskriptive Statistiken und berechnete Schwellenwerte mit aus. MODINDICES;

Page 89: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

89

Output

- [Auszüge kopiert aus Datei “mplus_16items_wlsmv.out”]

- Zu Beginn bestätigt uns Mplus, dass 16 dichotome oder ordinalskalierte Variablen und eine latente Variable gefunden wur-den: Observed dependent variables Binary and ordered categorical (ordinal) I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 Continuous latent variables XI

- Im folgenden Abschnitt stehen unter “SUMMARY OF CATEGORICAL DATA PROPORTIONS” die univariaten Verteilungen, auf Grundlage derer die Schwellen berechnet werden: SUMMARY OF CATEGORICAL DATA PROPORTIONS I1 Category 1 0.187 Category 2 0.813 I2 Category 1 0.223 Category 2 0.777 I3

... [gekürzt]

- Die Schwellen stehen dann unter: SAMPLE STATISTICS ESTIMATED SAMPLE STATISTICS SAMPLE THRESHOLDS I1$1 I2$1 I3$1 I4$1 I5$1 ________ ________ ________ ________ ________ 1 -0.888 -0.763 -0.313 -0.224 -0.140 ... [gekürzt]

- Darunter steht die tetrachorische Korrelationsmatrix, die die Korrelationen zwischen den Latent-Response-Variablen wie-dergibt:

o In einer Maximum-Likelihood-Schätzung wären diese Korrelationen andere und im Durchschnitt geringer.

- Im Abschnitt TESTS OF MODEL FIT folgt der bekannte…

Chi-Square Test of Model Fit Value 88.273* Degrees of Freedom 87** P-Value 0.4418

- Dahinter steht die Hypothese: Wahre und wahre modellimplizierte Varianz-Kovarianz-Matrix, Erwartungswertstruktur und Schwellenwertstruktur sind gleich.

- Der p-Wert kann wie üblich interpretiert werden: Ist er größer als 0.05, kann man das getestete Modell beibehalten – in diesem Fall das 2PL-Modell, das nun indirekt getestet worden ist.

- Ein wenig weiter unten ist auch der RMSEA angegeben, an dessen Interpretation sich ebenfalls nichts ändert: RMSEA (Root Mean Square Error Of Approximation) Estimate 0.005

Page 90: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

90

- Unter MODEL RESULTS bezeichnet die Spalte Estimates die Faktorladungen:

- Unter Tresholds bezeichnet die Spalte Estimates dann die Schwellen, die wir δ genannt haben:

- Etwas weiter unten sind die Probit-Werte und –Schwellen (auf der Metrik von ξ) angegeben [jeweils in der linken der vier Spalten mit Zahlen]:

o Die Werte unter Item Discriminations könnte man in Logit-Werte umrechnen. Die Itemschwierigkeiten (Item Diffi-

culties) werden allerdings nicht zwischen Probit- und Logit-Modell transformiert, weil dann ja das ξ selbst transformiert werden würde.

- Direkt darunter werden Residualvarianzen von manifesten Items angegeben, mit denen man eine Reliabilität berechnen kann: 1-Fehlervarianz ist der aufgeklärte Varianzanteil:

o Dieses R² ist aber nicht die Reliabilität des einzelnen Items, sondern lediglich die Fehlervarianz der Latent-Response-

Variable! Es handelt sich also höchstens um die Reliabilität der LRV, die aber keinerlei Bedeutung hat.

[Die Folien 25-29 aus der Datei „Testtheorien II VL 2010-01-18 Folien 11.pdf“ wurden nicht (mehr) behandelt.] C

Page 91: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

91

12. Vorlesung vom 25.01.2010: IRT-Modelle für polytome Variablen (Partial Credit Model)

Zusammenfassung der letzten Sitzung

SEM für kategoriale Variablen als Test des 2PL-Modells

- In der letzten Sitzung wurden Strukturgleichungsmodelle für geordnete kategoriale Variablen vorgestellt. Diese werden be-nötigt, um das nicht direkt testbare zweiparametrische logistische Modell zu testen.

o Dieses Modell kann man auch als Probit-Modell konzipieren, das die kumulierte Standardnormalverteilungsfunktion ver-wendet.

- SEM für kategoriale Variablen erlaubt also die Modellgeltungskontrolle von 2-parametrischen IRT-Modellen:

o Parameter des Messmodells umfassen neben Faktorladungen, Achsenabschnitten auch Schwellen (Thresholds).

o Folge: es gibt eine wahre modellimplizierte vs. wahre Schwellenstruktur

o Schwellen, Achsenabschnitte und Erwartungswerte sind direkt voneinander abhängig (wichtig bei der Modellidentifikation)

o Faktorladungen lassen sich in Itemdiskriminationen umrechnen und vice versa.

o Schwellen lassen sich in Itemschwierigkeiten umrechnen und vice versa.

- Dass es eine eindeutige Beziehung zwischen den jeweiligen Parametern ist, ist die Grundvoraussetzung dafür, dass man die 2PL-Modelle mit dem SEM testen kann.

Annahmen des SEM-Modells für das 2PL-Modell

- Wichtig ist die Existenz einer Latent Response Variable Y*i , die jeder manifesten Variable Yi zugrunde liegt.

o Y*i ist eine messfehlerbehaftete metrische Variable, die linear regressiv abhängig ist von ξ. - Die Schwellenstruktur verknüpft die Latent Response Variable Y*i mit der manifesten Variable Yi .

o Da die Schwellenschätzung für jedes Item Yi unter Annahme der Normalverteilung von Y*i erfolgt, kann analytisch gezeigt werden, dass es sich bei SEM für kategoriale Variablen um Probit-Modelle handelt.

- Es werden in diesen SEM-Modellen tetrachorische und polychorische Korrelationen (anstatt Pearson-Korrelationen) zugrunde gelegt.

Strukturgleichungsmodelle für geordnete kategoriale Variablen (Fortsetzung)

- Im Folgenden sollen die Annahmen sowie die technischen Prinzipien hinter diesen Strukturgleichungsmodellen für geordnete kategoriale Variablen vertieft werden.

Varianz-Kovarianzmatrix und Schätzfunktionen

- Wie oben erwähnt, handelt es sich um eine symmetrische tetrachorische Korrelationsmatrix. Sie enthält die Korrelatio-nen der Latent Response Variablen Yi* miteinander bzw. – in den Diagonalen, die daher immer mit 1 besetzt sind – mit sich selbst.

- Wenn man dem Modell noch die Schwellen gibt, ist diese Matrix im Prinzip ausreichend, um das Modell zu schätzen [Zeit-marke: 0:06:00].

o Rückblick: Bei den logistischen Modellen gibt es keine solche Matrix mit bivariaten Zusammenhängen; vielmehr wird eine sehr lange Maximum-Likelihood-Funktion aufgestellt, die alle Antworten enthält.

o SEM und logistische Modelle unterscheiden sich also deutlich im Bezug auf die Schätzung. Bei SEM wird eine Rated-Least-Square-Schätzung auf Basis der Varianz-Kovarianzmatrix vorgenommen [nicht klausurrelevant].

Vertiefung zu den Annahmen des SEM-Modells für das 2PL-Modell

- Die Annahme, dass jeder (im einfachsten Fall: dichotomen) manifesten Variable eine kontinuierliche latente Variable zugrun-de liegt, ist keineswegs trivial und kann durchaus auch angezweifelt werden.

- Man kann sich aber plausibel vorstellen, dass es hinter der Beantwortung eines Items eine Antwortvariable (Latent Res-ponse Variable Y*i) gibt. Jedes Item hat dann eine bestimmte Schwelle im Sinne eines zur Lösung erforderlichen latenten Variablenwerts; wenn man auf der Ausprägung der Latent-Response-Variable über die spezifische Schwelle kommt, dann löst man das Item.

o Die manifesten Variablen sind also sozusagen „kategorisierte fehlerbehaftete latente Variablen“

o Jedes Item hat eine eigene Schwelle.

Was bedeutet die Latent Response Variable nicht?

- Im Bezug auf die latente Antwortvariable Y*i gilt es insbesondere die folgenden beiden Punkte zu beachten:

o Es handelt es sich nicht um die latente Fähigkeitsvariable ξ, die wir eigentlich messen wollen!

Page 92: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

92

o Die Strukturgleichungsmodelle machen nicht aus einem dichotomen Item eine kontinuierliche Variable. Vielmehr nimmt man nur an, dass hinter dem dichotomen Item eine kontinuierliche Variable stünde. Diese Annahme macht man, damit man bestimmte Parameter schätzen kann.

- Y*i ist also einfach ein nützliches Hilfskonstrukt, das man formal nicht sehen kann und das man nicht auf den anderen Wahrscheinlichkeitsraum exportieren kann.

o Man braucht es nur, um im ersten Schritt die Schwellen zu schätzen, im zweiten Schritt dann die bivariaten Korrelationen für das SEM. Danach aber kann man wie üblich Itemdiskriminationen schätzen, und Y*i taucht gar nicht mehr auf.

o Man will aber keiner Person auf der Latent Response Variable einen Wert zuweisen. Dies wäre auch nicht sinnvoll, weil es sich im Gegensatz zu ξ um eine fehlerbehaftete latente Variable handelt.

- [Zeitmarke: 0:14:30]

Messmodell und Schätzung

- Das Messmodell besteht jetzt also aus zwei Teilen. Dies ist in der rechten Abbildung grafisch veranschaulicht:

o Man ist eigentlich an der messfehlerfreien Fähigkeitsvariable ξ interessiert.

o Jedes Item Yi ist eine kategorielle manifeste Variable (lösen oder nicht lösen).

o Man nimmt an, dass hinter jeder dieser manifesten Variablen nun eine latente Res-ponsevariable Y*i liegt.

- Die Verknüpfung zwischen diesen drei Ebenen geschieht nun wie folgt:

o (1) In einem ersten Schritt wird aus der univariaten Verteilung der relativen Häufigkeiten für die Lösung eines Items die Schwelle für jedes Item geschätzt. Im Falle von Y3 beträgt die Lösungswahrscheinlichkeit in der Stichprobe 50%. Daraus folgt, dass die Schwelle für die Lösung auf der normalverteilten Responsevariable Y*i bei einem z-Wert von 0 liegt (dort beträgt die kumulierte Standardnormalverteilung 0.5).

Analog geht man für das schwere Item Y2 und das leichte Y1 vor.

Es gibt also jetzt eine Schwellenstruktur, welche die manifeste Variable Yi mit der latenten Antwortvariable Y*i verbindet.

• Dabei handelt es sich um einen deterministischen Zusammenhang. Dies gab es in anderen Modellen nirgends; hier muss man folglich noch nichts schätzen.

o (2) In einem zweiten Schritt leistet man die Verknüpfung zur latenten Fähigkeitsvariable ξ. Die latente Responsevariable lässt sich nämlich durch folgende Modellgleichung beschreiben: Y*i = E (Y*i | ξ ) + εi = νi + λi* ξ + εi Aus der Tatsache, dass es in dieser Regressionsgleichung einen Fehlerterm εi gibt, erhellt, warum der Zusammenhang

zwischen ξ und den manifesten Variablen Yi immer noch probabilistisch ist, auch wenn jener zwischen Yi und Y*i wie erwähnt deterministisch ist.

• So erhält man trotz der deterministischen Zusammenhänge zwischen Yi und Y*i insgesamt doch ein stochachsti-sches Messmodell.

Umrechnung der Modellparameter

- [Zeitmarke: 0:22:00]

- In der vergangenen Sitzung wurde bereits besprochen, dass sich die Parameter der Strukturgleichungsmodelle in die eigent-lich interessierenden Parameter des 2PL-Modells umrechnen lassen:

o Faktorladungen lassen sich ohne weiteres in Itemdiskriminationsparameter umrechnen (obwohl dies kompliziert ist).

o Schwellen und Intercepts sind eindeutig mit den Itemschwierigkeiten verknüpft.

- [„Es genügt hier, zu wissen, dass das so ist.“]

- Die nachfolgende Abbildung zeigt die verschiedenen Zusammenhänge:

o Mit dem Umrechnungsfaktor 1.7 kann man Logit- in Probitdiskriminationen überführen.

o Mit den standardisierten Faktorladungen, die man ausgegeben bekommt, kann man mittels einer nicht-linearen Trans-formation die Logit- und Probit-Itemdiskriminationsparameter erhalten.

Dabei gilt: Je höher die Faktorladung, desto höher die Itemdiskrimination.

Page 93: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

93

Spezifikation eines Strukturgleichungsmodells in Mplus

Input

- [Zeitmarke: 0:29:30]

- In einer früheren Sitzung wurde ein 2PL-Modell gerechnet. Der Befehl „CATEGORICAL ARE i1-i16;“ mit „ANALYSIS: Estimator=MLR“ schätzt ein logistisches zweiparametrisches Modell.

- Es folgt nun der Input für ein Strukturgleichungsmodell. Dieser weist große Ähnlichkeiten zum zweiparametrischen logistischen Modell auf und ist sogar nahezu identisch; man ändert nur die 2 Buchstaben [des Schätzverfahrens]:

o Als Schätzer verwendet man statt MLR nun WLSMV.

WLSMV ist auch die Default-Einstellung in MPlus.

Output: Model Results

- Im Output [gleiche Datei wie in letzter Sitzung] erhält man im Abschnitt „MODEL RESULTS“ als erstes die Estimates für die Verbindung von XI und den Items I1-I16 [siehe von CL vorgenommene blaue Markierung in der Abbildung rechts].

o Diese sind tatsächlich die Itemdiskriminationsparameter α i unter Verwendung der logistischen Linkfunktion.

- Die danach ausgegebenen Estimates für die Thresholds sind aber nicht die uns interessierenden Itemschwierigkeiten βi . Dieser Teil des Outputs hat für uns derzeit keinen Nutzen.

o Die tatsächlichen Itemschwierigkeiten βi stehen hingegen unter der Bezeichnung „Item difficulties“.

Diese sind mit dem Probit-Umrechnungsfaktor 1.7 versehen.

Bedeutung der Estimates für die „Thresholds“

- Was aber bedeuten die Thresholds?

o Wir gehen aus von der Formel αi (ξ – βi ).

- Weiter unten im Output erhält man einen Abschnitt, der überschrieben ist mit: „IRT PARAMETERIZATION IN TWO-PARAMETER PROBIT METRIC WHERE THE PROBIT IS DISCRIMINATION*(THETA - DIFFICULTY)“.

o Dieser Text lautet übersetzt in eine mathematische Formel: 1.7 * αi * (ξ – βi )

o Wenn man die Klammern auflöst, erhält man: 1.7 α i ξ – 1.7 α i βi . Der linke Teil [blaue] der Formel ist das Estimate für den Itemdiskriminationsparameter [unsicher, gesagt wurde nur

„Estimate“].

Der rechte [grüne] Teil ist das, was in MPlus als „Threshold“ bezeichnet wird.

• In dieser Formulierung liegt die Schwelle nicht mehr auf derselben Lokation wie die latente Variable ξ . Daher prä-ferieren wir den Klammerausdruck, bei dem man sagen kann: Die Differenz wird bei einer Itemdiskrimination ge-wichtet, egal in welcher Metrik.

Daher betrachten wir die ausgegebenen Thresholds nicht.

Unterschiede zwischen dem Strukturgleichungsmodell und dem logistischen 2PL-Modell

- [Zeitmarke: 00:37:35]

- Im Strukturgleichungsmodell sind die Estimates nun Faktorladungen.

o MPLUS rechnet bereits Probit-Itemdiskriminationen aus.

Gegenüber dem mit dem MLR-Schätzer berechneten Itemdiskriminationen ergeben sich leichte Abweichungen; diese sind rein zufällig und ergeben sich einfach aus der Verwendung eines anderen Schätzverfahrens für das Strukturglei-chungsmodell als für das logistische Modell (WLSMV).

- Bei der Umrechnung zwischen Probit- und Logit-Modell verändert sich die Itemschwierigkeit βi nicht – sonst würde man eine andere latente Variable ξ konstruieren, da diese ja auf derselben Metrik liegt.

o Die Schwellen sind im Strukturgleichungsmodell hingegen sehr wohl etwas anderes: Dort liegen sie auf derselben Metrik wie die Latent Response Variable Y*i , nicht aber auf derselben Metrik wie die latente Fähigkeitsvariable ξ.

- Für die Umrechnung gibt es verschiedene Formeln, die weitgehend schon letzte Sitzung behandelt wurden.

Page 94: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

94

IRT-Modelle für polytome Variablen

- [Zeitmarke: 00:55:50]

- Bisher wurden nur Modelle besprochen, die auf Tests mit dichotomem Antwortformat basieren. In der Psychologie hat man aber oft andere Antwortformate, wie etwa 5-stufige Likertskalen.

- Wie man solche Modelle mit polytomen Variablen in der IRT modellieren kann, ist Gegenstand des nachfolgenden Abschnitts.

Agenda

- Modelle für ordinale manifeste Variablen [die Unterpunkte entsprechen dem weiteren Ablauf der Vorlesung]

o Kategorien- vs. Schwellenwahrscheinlichkeit: Bevor wir Modelle kennenlernen, gilt es erst einige theoretische Grundlagen zu legen.

o Partial Credit Model (PCM): Wenn eine Person eine Aufgabe zumindest teilweise löst, bekommt sie Punkte

Dieses Modell wird zuerst besprochen

o Generalized Partial Credit (GPCM)

o Graded Response Model (GRM)

o empirisches Beispiel: GRM in Mplus

Kategorien- vs. Schwellenwahrscheinlichkeiten

- [Zeitmarke: 1:00:30]

- In den mehrkategorialen Modellen wird zwischen einer Kategorienwahrscheinlichkeit und einer Schwellenwahrschein-lichkeit unterschieden. Was ist damit gemeint? Dazu zunächst einige einleitende Gedanken zur Kategorienwahrscheinlich-keit.

Kategorienwahrscheinlichkeit

- Im dichotomen Rasch-Modell gilt die bekannte Gleichung:

- Die nachfolgende Abbildung zeigt die Kategorienwahrscheinlichkeiten dieses Modells:

o Bisher wurde außerdem nicht reflektiert, dass – wie in der linken Abbildung – stets nur eine von zwei Kategorienwahr-scheinlichkeiten dargestellt war – nämlich jene, das Item zu lösen. Es gibt, wie in der rechten Abbildung dargestellt, aber noch eine zweite Kategorienwahrscheinlichkeit, nämlich die Gegenwahrscheinlichkeit, das Item nicht zu lösen: P (Yi=0 | ξ). Diese beiden Kategorienwahrscheinlichkeiten addieren sich an jeder Stelle von ξ zu 1 auf. Daher reichte es, immer die

Lösungswahrscheinlichkeit darzustellen.

- In den jetzt folgenden Modellen wird es noch mehr Kategorienwahrscheinlichkeiten geben, da sich die möglichen Ergebnisse nicht mehr auf „gelöst“ vs. „nicht gelöst“ beschränken.

Alternative Berechnung der Kategorienwahrscheinlichkeit

- Man kann die oben benannte Kategorienwahrscheinlichkeit auch mit folgender Formel berechnen:

o Die Wahrscheinlichkeit, das Item zu lösen, ist der „Anteil“ der Wahrscheinlichkeit, in der Kategorie 1 zu antworten, an der

Wahrscheinlichkeit, in einer der beiden Kategorien zu liegen.

Dies ist eigentlich trivial, weil der Ausdruck im Nenner immer P=1 beträgt – wenn es nur zwei Kategorien gibt, ist die Wahrscheinlichkeit, in eine davon zu fallen, 1. Dennoch wird diese Zerlegung später noch wichtig werden.

Page 95: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

95

Unterscheidung von Kategorien- und Schwellenwahrscheinlichkeiten

- Basierend auf der Kategorienwahrscheinlichkeit kann auch die Schwellenwahrscheinlichkeit definiert werden.

o Die Schwellenwahrscheinlichkeit kann man sich einfach vorstellen, wenn man nur zwei benachbarte Kategorien nimmt, z.B. die Kategorien 2 und 3 in einem 4-kategorialen Modell. Man fragt nun: Wie wahrscheinlich ist es, in der nächsthöheren Kategorie (also 3) zu antworten, gegeben, dass man in einer der beiden Kategorien (2 oder 3) antwortet?

Kurz zusammengefasst:

Jede Schwellenwahrscheinlichkeit ist zunächst identisch mit den Funktionsgraphen im Rasch-Modell.

o Die Kategorienwahrscheinlichkeit erklärt sich hingegen mit folgenden Überlegungen: Je höher das ξ, desto höher ist die Wahrscheinlichkeit, in der nächsthöheren Kategorie (in unserem Beispiel: 3 statt 2) zu antworten. Dies ist die Schwel-lenwahrscheinlichkeit. Wenn man nun aber nicht mehr nur zwei benachbarte Kategorien betrachtet, sondern alle Katego-rien gleichzeitig, nennt sich dies Kategorienwahrscheinlichkeiten. [Sie sind also die ξ -bedingte Wahrscheinlichkeit, in ei-ner bestimmten Kategorie zu antworten.]

Die nebenstehende Abbildung zeigt die Kategorienwahrscheinlichkeiten für eine Kategorienanzahl von drei.

• Auch bei einer höheren Kategorienanzahl zeigt sich ein einfacher Zusammenhang:

Die niedrigste Kategorie hat immer eine monoton fallende Kategorienwahrscheinlichkeit.

Die höchste Kategorie hat immer eine monoton steigende Kategorienwahrscheinlichkeit.

Alle Kategorien dazwischen haben unimodale Kategorienwahrscheinlichkeiten.

- Schwellenwahrscheinlichkeiten sind also nicht das Gleiche wie Kategorienwahrscheinlichkeiten; sie sind für uns aber hilfreich, um die Modellgleichung des Partial-Credit-Modells herzuleiten.

- Schwellenwahrscheinlichkeiten werden im Folgenden – der Literatur von Rost folgend – mit PTiy(ξ) bezeichnet.

o P steht dabei für „probability“, T für „threshold“.

o Der Index i bezeichnet das Item, y bezeichnet die Kategorie des Items.

o Man fragt also nach P(Yi=y| ξ ) .

Kategorienwahrscheinlichkeiten und Schwellenwahrscheinlichkeiten im Rasch-Modell

- Im Rasch-Modell für dichotome Variablen gilt: Die Kategorienwahrscheinlichkeit P(Yi= 1|ξ) ist zugleich die (einzige) Schwel-lenwahrscheinlichkeit.

- Im Rasch-Modell gibt es eine Schwellenwahrscheinlichkeit und zwei Kategorienwahrscheinlichkeiten.

o Allgemein gilt für dichotome und ordinale Variablen: Die Zahl der Schwellwahrscheinlichkeiten PTiy(ξ) entspricht der Zahl der Schwellen und die Zahl der Kategorienwahrscheinlichkeit der Anzahl der Kategorien!

Das Partial-Credit-Modell (PCM)

Vorbemerkungen zum PCM: Personenvariable und Kategorienwahrscheinlichkeiten

- Gegeben sei ein Item Yi mit C Kategorien und folglich C–1 Schwellen κij! [κ sprich „Kappa“]

o Merke: Es gibt immer eine Schwelle weniger als Kategorien!

- [Achtung! Das grau Eingefärbte stand so auf der Folie, aber…

o In der nächsten 13. Sitzung wurde von 00:36:00 bis 00:41:00 korrigiert: Das große C ist demnach nicht die Anzahl der Kategorien, sondern „die Zahl der höchsten Kategorie“.

o Es gibt demnach C+1 Kategorien und C Schwellen.

Beispiel: Für das Item Y={0,1,2,3} ist C=3. Es hat 4 Kategorien und 3 Schwellen.

o NR: „Sie werden aber nicht nach groß C oder klein C in der Prüfung gefragt. Sie müssen wissen, dass es eine Schwelle weniger als Kategorien gibt; nicht die Indizes.“

- Richtig ist also: „Gegeben sei ein Item Yi mit C+1 Kategorien und folglich C Schwellen κij!

o Die Präsentation sollte in korrigierter Form online gestellt werden – ist aber anscheinend nicht erfolgt. ]

- Manifeste Items mit mehreren geordneten Kategorien (Bsp. Likert-Skalen) implizieren eine Ordnungsrelation!

o ABER: Unter Annahme eines stochastischen Modells bedeutet eine Antwort in einer höheren Kategorie nicht per se [=deterministisch] höhere Ausprägungen auf der latenten Personenvariable ξ !

Page 96: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

96

Idee des PCM

- Die Schwellenwahrscheinlichkeit PTiy(ξ) gibt wie erwähnt den relativen Anteil der Kategorienwahrscheinlichkeit der „höhe-ren“ Kategorie Y=y von zwei benachbarten Kategorien y–1 und y an.

o Rechte Abbildung: Die Schwellenwertwahrscheinlichkeiten sind im PCM monoton steigende Funktionen von ξ. o [Linke Abbildung: Zusatz von http://books.google.de/books?id=KA8NPX-kw7EC&pg=PA251&lpg=PA251&dq=schwellenwahrscheinlichkeit&source=bl&ots=jCi-

hAMaMM&sig=msRTZhawKHkQKHTeaVoh-d4Z_bg&hl=de&ei=wGg9TJ6uDpeJOKb1-O8O&sa=X&oi=book_result&ct=result&resnum=2&ved=0CBwQ6AEwAQ#v=onepage&q=schwellenwahrscheinlichkeit&f=false ]

- Es gibt C Schwellenfunktionen, wobei diese Zahl gleich der Anzahl der Schwellen ist!

Alternative Formulierung der Schwellenwertwahrscheinlichkeit

- Eine alternative Formulierung der Schwellenwahrscheinlichkeit sieht wie folgt aus:

o Dies ist die bedingte Wahrscheinlichkeit in der höheren Kategorie y zu antworten, gegeben dass die Antwort in einer der

beiden Kategorien y und y–1 erfolgt.

Schwellenparameter

- Auch im Partial Credit Model gilt, dass die Schwellenparameter κij auf derselben Metrik liegen wie die latente Personenvariable ξ. o Der Schwellenparameter κij ist im PCM derjenige Wert von ξ , für den die Schwellenwahrscheinlichkeit gleich PTiy(ξ)=0.5

ist!

Im PCM ist damit jede Schwellenwertwahrscheinlichkeit eine logistische Funktion:

• Dies entspricht im Grunde den Itemschwierigkeiten im Rasch-Modell.

• Es gibt wie oben erwähnt so viele Schwellen wie Kategorien minus eins.

- Zusammenfassung zu Schwellen im PCM:

o Im PCM sind die Schwellen letztlich wie im Rasch-Modell die Schwierigkeiten, d.h. die Stelle auf der latenten Variable, auf der die Schwellenwahrscheinlichkeit 0.5 beträgt.

Page 97: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

97

o Jedes Item hat mehrere Schwellen – immer eine weniger als Kategorien.

o Achtung: Die Bezeichnung „Schwelle“ wird sehr unterschiedlich verwendet (siehe vorher behandelte „Thresholds“ in MPlus).

Kategorienwahrscheinlichkeiten

- [Zeitmarke: 1:11:20]

- Im PCM werden Kategorienwahrscheinlichkeiten gegeben die latente Personenvariable berechnet!

o Die Kategorienwahrscheinlichkeiten der Kategorie Y=0 und Y=C sind monotone Funktionen von ξ. o Die Kategorienwahrscheinlichkeiten der Kategorie Y=1 bis Y=C–1 sind unimodale, nicht-monotone Funktionen von ξ.

- Wie die linke nachfolgende Abbildung zeigt, liegen Schwellen genau an den Kreuzungspunkten der Kategorienwahrscheinlich-keiten. Die Schwellenwahrscheinlichkeiten sind also genau diejenigen Lokationen auf ξ, bei denen es gerade wahrscheinlicher wird, in der nächsthöheren Kategorie zu antworten.

o Formal: Die Kategorienwahrscheinlichkeiten zweier benachbarter Kategorien schneiden sich gerade bei der Ausprägung von ξ für die gilt; ξ= κij

Die rechte nachfolgende Abbildung zeigt gleichzeitig die Kategorien- und Schwellenwahrscheinlichkeiten für ein Item Yi mit fünf Kategorien:

- Formal gilt dabei:

Was geben die Kategorienwahrscheinlichkeiten an? [nicht behandelt, nur Folie]

- Die Kategorienwahrscheinlichkeiten geben den relativen Anteil der Kategorienwahrscheinlichkeit der Kategorie Yi = y gegeben ξ an allen bedingten Kategorienwahrscheinlichkeiten an.

o Dies gilt, da:

Fazit zu Schwellen- und Kategorienwahrscheinlichkeiten [Folie]

- Die Schwellenwahrscheinlichkeiten PTU iy sind monoton steigende Funktionen.

- Die Kategorienwahrscheinlichkeit der Kategorie Yi = 0 ist eine monoton fallende Funktion.

- Die Kategorienwahrscheinlichkeit der Kategorie Yi = C ist eine monoton steigende Funktion.

- Die Kategorienwahrscheinlichkeiten der mittleren Kategorien Yi = 1 ≤ yi ≤ C–1 sind nicht-monotone unimodale Funktionen.

Page 98: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

98

Modellgleichung des PCM

- Die Modellgleichung des Partial Credit Model für ein Item Yi mit insgesamt C Kategorien lautet:

o Dabei gilt:

- Diese Modellgleichung ist sehr umständlich und kompliziert. Auf eine Herleitung wird aus Zeitgründen an dieser Stelle ver-zichtet.

- Der Itemdiskriminationsparameter fehlt in der Gleichung, weil er auf 1 festgesetzt ist. Es handelt sich also um ein Rasch-Modell für Items mit mehr als zwei Kategorien.

Alternative Formulierung der Modellgleichung

- Alternative Modellgleichung des Partial Credit Model für das Item Yi mit insgesamt C Kategorien:

o Dabei gilt:

Modellidentifikation in der Anwendung des Partial Credit Model (PCM)

- [Zeitmarke: 1:22:05]

- Die Modellparameter sind auch im PCM nicht eindeutig bestimmt! Wie im Rasch-Modell für dichotome Variablen sind die Itemparameter und die Personenvariable ξ nur eindeutig bis auf Translationen bestimmt.

- Um das Modell identifizieren zu können, muss man folglich Restriktionen einführen.

o Mögliche Modellrestriktionen zur Identifikation sind zum Beispiel:

(a) Summennormierung:

• Man fixiert die Summe aller Schwellenparameter über alle Items über alle Kategorien auf einen bestimmten Wert, z.B. auf 0.

(b) Fixierung eines Itemparameters κij= α

(c) Fixierung der latenten Variable ξ - Das Partial Credit Model mit einer latenten Variable kann in WINMIRA berechnet werden.

Page 99: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

99

M

13. Vorlesung vom 01. Februar 2010: IRT Modelle für polytome Vari-ablen II (PCM, GPCM & GRM) und die Frage: Was ist "C"? [In dieser Sitzung wurden ausschließlich die Folien aus der Datei „Testtheorien II VL 2010-01-25 Folien 12.pdf“ verwendet.]

Zusammenfassung der letzten Sitzung

Das Problem der Skalierung

- Letzte Sitzung haben wir den Sprung von dichotomen abhängigen Variablen zu mehrkategoriellen Variablen gemacht. Wir haben aber nur solche polytomen Variablen betrachtet, die von ihrem Antwortformat eine Ordnungsrelation implizieren und die man daher gemeinhin als „ordinale Variablen“ bezeichnet.

o Das einfachste Beispiel hierfür sind Likert-Skalen mit 0=„stimme gar nicht zu“ 1=„etwas“ 2=„mittel“ 3=„sehr“ 4=„stimme vollkommen zu“

o Diese Variablen sind in Fragebogenuntersuchungen sehr häufig und werden häufig als intervallskaliert betrachtet.

- Man darf ordinale Variablen eigentlich nie als intervallskaliert betrachten, weil man dabei immer einen Fehler macht.

o Es gibt aber Studien, die zeigen, dass dieser Fehler, ab vier oder fünf Ausprägungen sehr klein wird und man solche ordi-nalen Variablen „schon als intervallskaliert behandeln kann“.

NR: „Ob sie dennoch lieber den umständlichen, aber richtigen Weg gehen, die Variablen nicht als intervallskaliert zu behandeln, ist Ihre Entscheidung.“

o Da man aber immer einen Fehler macht, kann es passieren, dass man Werte für die Regression bekommt, die nicht mehr definiert sind. Dies könnte z.B. eine Antwortwahrscheinlichkeit für eine Kategorie sein, die größer als 1 ist.

Beispiel

- [Unspezifisches Beispiel; Ziel unklar: „Nur, dass Sie das als Gedanken mitnehmen.“]

- Man hat zwei Gruppen, die sich sehr stark unterscheiden:

o Die Ausprägung von ξ – z.B. das Wohlbefinden – der Treatment-Gruppe (x=1) ist sehr viel höher als das der Kontrollgruppe (x=0) [obere Hälfte der Grafik rechts].

Das Wohlbefinden ist mit einem fünfstufigen Item abgefragt worden, d.h. es hat vier Kategorien.

o Die Kontrollgruppe hat auf dem Item am häufigsten die dritte Stufe angegeben, während die Kontrollgruppe fast ausschließlich die höchste Ausprägung angekreuzt hat [untere Hälfte der Grafik].

In diesem Fall sieht man einen großen Mittelwertsunterschied, der bei ausreichender Stichprobengröße signifikant werden würde.

- Problematisch ist aber, dass es innerhalb der Treatmentgruppe keine Varianz mehr gibt, weil ein Deckeneffekt eintritt.

o Deshalb kann man keine Aussagen über die Varianz mehr treffen.

- In diesem Beispiel wird die Varianz in der Treatmentgruppe sehr klein, weil das Item nicht geeignet ist das Befinden dieser Gruppe zu messen – es ist sozusagen „zu leicht“.

Kategorienwahrscheinlichkeiten

- Vor der letzten Sitzung haben wir immer unterschlagen, dass die Regression, wie hier dargestellt, die bedingte Kategorienwahrscheinlichkeit für die erste Kategorie ist [schwarze Kurve].

o Es gibt aber für jede Kategorie eine Wahrscheinlichkeit. Hier im Beispiel eines dichotomen Items ist dies nur die nullte Kategorie [rote Kurve], die keine zusätzliche Information zur schwarzen Kurve liefert; sie ist redundant.

o Bei Items mit mehr als zwei Kategorien, sind die Kategorienwahrscheinlichkeiten dann nicht mehr redundant.

Schwellenwahrscheinlichkeit

- Im Partial Credit Modell (PCM) gilt für jede der Schwellenwahrscheinlichkeiten das Rasch-Modell. Bei polytomen Items gibt es für ein Item ebenso viele Gleichungen wie Schwellen – im Beispiel sind es vier [siehe Abbildung unten: rote Kurven].

- Die Schwellenwahrscheinlichkeit für die erste Schwelle des Items i ist definiert als:

o PTY=1 = [ exp (ξ - κi1)] / [1+exp(ξ - κi1)]

Page 100: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

100

[Die Kategorie Y=1 ist die zweite Kategorie, weil 0 schon die erste Kategorie ist.]

- [Zeitmarke: 00:19:00] Die Schwellenwahrscheinlichkeiten sind genauso wie die Itemschwierigkeiten im Rasch-Modell Lokati-

onen auf ξ. Die Schwelle ist dann diejenige Stelle auf ξ , an der die Schwellenwahrscheinlichkeit 0.5 beträgt.

- Wenn man hingegen die Kategorienwahrscheinlichkeit betrachtet [siehe Abbildung oben: schwarze Kurven], sind diese immer für zwei Kategorien genau an der Stelle gleich groß, an welcher der Wert einer Schwellenwahrscheinlichkeit 0.5 be-trägt [in der Grafik sieht man dies an den Stellen, an den die roten Kurven den Wert 0.5 auf der y-Achse schneiden].

Kategorienwahrscheinlichkeiten

- Wenn man mehr als zwei Kategorien bei einem Item hat, gilt:

o Die Kategorienwahrscheinlichkeit der niedrigsten Kategorie ist eine monoton fallende Funktion.

o Die Kategorienwahrscheinlichkeit der höchsten Kategorie ist eine monoton steigende Funktion.

o Die Kategorienwahrscheinlichkeiten aller mittleren Kategorien sind nicht-monotone unimodale Funktionen.

Modellgleichung des Partial Credit Modells

o Es gibt zwei Modellgleichungen, die ineinander überführbar sind [siehe auch: „Alternative Formulierung der Modellglei-chung“ als vorletzter Abschnitt der letzten Sitzung]. Alternative Modellgleichung:

- Für die alternative Modellgleichung wird auf Nachfrage einer Studentin im späteren Verlauf der Sitzung an der Tafel gezeigt, wie man den Wert einer Itemausprägung einsetzt. [Zeitmarke: von 00:27:00 bis 00:35:00]

o Für den eingesetzten Wert y=2 wird die Modellgleichung dann berechnet.

Partial-Credit-Modell (Fortsetzung)

Ist die Modellgleichung des Partial Credit Modells eine Regression?

- In einer der ersten Sitzungen konnten wir für dichotome Items zeigen, dass: E(Y|X) = P(Y=1|X). Die Regression ist also iden-tisch mit der Lösungswahrscheinlichkeit.

- Für polytome Items kann man dies nicht so leicht zeigen, sondern man muss Indikatorvariablen (I) verwenden. Dann kann man zeigen [hier nicht ausgeführt]:

o Die Regression E(IYi=y =1 | ξ) ist identisch mit der Modellgleichung P(yi=y| ξ). o NR: „Das nur der Vollständigkeit halber, weil das manchmal als Frage kommt.“ [Unklar, ob damit Verständnisfrage der

Studierenden oder Prüfungsfrage gemeint ist. Zeitmarke: 00:24:30]

Modellidentifikation

- Das PCM gehört zur Familie der Rasch-Modelle.

- Auch im PCM muss man etwas fixieren, weil die Modellparameter (u.a. die latente Variable) nicht eindeutig bestimmt sind.

- Wie im Rasch-Modell für dichotome Variablen sind die Itemparameter und die Personenvariable ξ eindeutig bis auf Translati-onen bestimmt.

Page 101: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

101

- Mögliche Modellrestriktionen zur Identifikation:

o • Meist wird die Summe der Schwellenparameter (Lokationen) über alle Items auf 0 fixiert. Dies ist auch die Vorein-

stellung in WINMIRA.

o

o • Dabei wird üblicherweise der Mittelwert von ξ auf 0 fixiert.

- Das Partial Credit Model mit einer latenten Variable kann in WINMIRA berechnet werden.

Exkurs: Was ist C?

- Von 00:36:00 bis 00:41:00 wurde der eine Satz aus der letzten Sitzung zur Bedeutung von C hinsichtlich Anzahl der Katego-rien und Schwellen korrigiert.

- Die Ausführungen sind in der Mitschrift zur letzten Sitzung unter dem Abschnitt „Das Partial-Credit-Modell (PCM)“ eingefügt.

Anwendung des PCM in WINMIRA

- Polytome Modelle können auch in WINMIRA berechnet werden, wenn man die Diskriminationen auf 1 fixiert und damit ein Modell der Rasch-Familie verwendet.

o WINMIRA kann keine unterschiedlichen Diskriminationen berechnen.

Einstellungen im Programm

- [Zeitmarke: 00:42:10] In WINMIRA wird die Textdatei „pcm.dat“ eingelesen [abgespeichert im Ordner].

o Das Programm akzeptiert eine solche durch Tabulator getrennte Textdatei.

- Die Datei enthält verschiedene Itemtypen: Dichotome und solche mit fünf oder sechs Antwortmöglichkeiten.

o Diese können bei WINMIRA problemlos in einer Analyse kombiniert werden.

- Im Menüpunkt „Select Model“ [siehe Screenshot rechts] wählt man „Rasch model“ aus.

o Wir rechnen hier zwar ein „Partial Credit Model“, weil die Items mehr als nur zwei Antwortmöglichkeiten haben, aber dieses gehört zur Familie der Rasch-Modelle.

o Dass es sich um ein PCM handelt, obwohl wir „Rasch model“ ausgewählt haben, weiß WINMIRA dadurch, dass es mehr als zwei Antwortkategorien gibt.

WINMIRA-Output

- [Zeitmarke: 00:45:00 – Output ist in der Datei „pcm.OUT“ abgespeichert]

Anzahl der Antwortmuster

- Zu Beginn des Outputs sieht man die absoluten Häufigkeiten der Items (VAR_):

Page 102: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

102

o Für uns ist hierbei einzig die Anzahl der Antwortmuster eine relevante Information: Es gibt viel mehr mögliche (3000) als

tatsächlich auftretende (360) patterns.

- Wenn alle Items die selbe Anzahl an Antwortkategorien haben [ist hier nicht der Fall] beträgt die Anzahl der möglichen Ant-wortmuster: (C+1)Anzahl der Items

o Im mehrkategoriellen Fall gilt noch stärker als bei dichotomen Items, dass man in der Realität niemals genug beobachte-te Fälle hat, um einen normalen Likelihood-Ratio-Test oder Pearson-χ²-Test durchzuführen.

o Deshalb muss man hier wieder auf den Bootstrap-Test zurückgreifen. Dieser ist auch bei polytomen Items möglich, weil es sich um ein Modell der Rasch-Familie handelt. [Zeitmarke: 00:47:15]

Prüfgrößen

- Ganz am Ende des Outputs findet man Prüfgrößen, wobei wir die empirisch ermittelten Prüfgrößen betrachten.

o [Die Beschriftung der Spalten findet sich am Kopf der darüberliegenden Tabelle] LR CressieRead Pearson X^2 FT

Personenparameterschätzer & Reliabilität

- Die erste große Tabelle im Output zeigt 20 Personenparameterschätzer, wobei der Datensatz nur fünf Items enthält.

o Die Zahl 20 entspricht den möglichen Ausprägungen des Summenscores: So bedeutet ein Rawscore von 20, dass der Proband bei allen Items die höchste Antwort getroffen hat.

Page 103: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

103

- Auch im mehrkategoriellen („ordinalen“) Fall ist der Summenscore eine suffiziente Statistik, d.h. man kann bezüglich ξ nicht mehr Informationen finden als den Summenscore.

- Die WLE-Schätzer haben – wie schon im Raschmodell – etwas günstigere Eigenschaften als die MLE-Schätzer.

o Ebenso kann man die „Andrichs reliability“ so verwenden wie gehabt.

- Wichtiger ist aber, dass die Reliabilität hier schon sehr hoch ist: Obwohl der Datensatz nur fünf Items enthält, beträgt die Andrichs-Reliabilität schon 0.769

o Grund hierfür ist, dass kategorielle Items informativer als dichotome Items sind: Im Mittel werden die Standard-fehler bei mehrkategorialen Items kleiner.

o Wenn man also die Möglichkeit bei der Testkonstruktion hat, sollte man Items mit mehreren Kategorien verwenden, um so eine höhere Reliabilität zu erreichen.

- Grafisch kann man sich dies so vorstellen, dass schon ein Item die Fähigkeit ξ an mehreren Stellen abtastet, weil es ja meh-rere Schwellen besitzt.

Schwellenparameter

- Etwas weiter unten im Output finden sich die „threshold parameters“, die dem κ in der Modellgleichung entsprechen:

- Jedes Item (VAR1-VAR5) hat mehrere Schwellenwerte, deren Standardfehler direkt in der Tabelle darunter angegeben sind

(„standard errors of item parameters“).

- Der Q-Index funktioniert auch in diesem mehrkategoriellen Fall, d.h. man kann auf Itemebene schauen, wie gut ein Item zum Modell passt.

o Die Interpretation ist wie gehabt: Der Q-Index ist sensibel für die Abweichungen der Itemdiskrimination.

Unterscheidungen des PCM zum Rasch-Modell

- Was unterscheidet sich im WINMIRA-Output, wenn man ein PCM rechnet, von einem dichotomen Rasch-Modell?

o Es gibt mehrere Thresholds.

o Es gibt zusätzliche Personenparameterschätzer [hier: 20], die sich nach dem Summenscore aller Items richten.

- Insgesamt gibt es also nur wenige Veränderungen.

o Identisch bleibt auch die Nullhypothese: „Die wahren und die wahren modellimplizierten Antwortmusterwahrscheinlichkei-ten unterscheiden sich nicht.“

- Das PCM ist also eine Verallgemeinerung des Rasch-Modells, in dem es nun mehr als zwei Antwortkategorien gibt, die in einer Ordnungsrelation zueinander stehen.

- [Zeitmarke: 00:55:00]

Generalized Partial Credit Model (GPCM)

- Bisher haben wir immer die Annahme gemacht, dass der Itemdiskrimationsparameter αi =1 beträgt und ihn entsprechend fixiert.

o Dies muss aber nicht der Fall sein, weshalb wir nun das Generalized Partial Credit Model (GPCM) betrachten.

- Im GPCM sind unterschiedliche Itemdiskriminationen erlaubt.

o Dies kann man nur so „sinnvoll vorstellen“, dass die Diskrimination innerhalb eines Items nicht variiert, sondern nur über Items hinweg.

Page 104: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

104

- Die Formel des GPCM nahezu identisch mit der des PCM; es wird lediglich im Zähler und Nenner jeweils ein α hinzugefügt.

Itemdiskriminationen

- Unterschiedliche Itemdiskriminationen äußern sich in unterschiedlichen Anstiegen der Schwellenwahrscheinlichkeiten [rote Kurven in Abbildung unten].

- Das GPCM ist das „ganz normale zweiparametrische Birnbaum-Modell für die Schwellen.“ [Zeitmarke: 00:57:10]

- Im GPCM gilt wie im PCM, dass an der Stelle, wo eine Schwellenwahrscheinlichkeit 0.5 beträgt, zwei Kategorienwahrschein-

lichkeiten gleich groß sind [Schnittpunkte der schwarzen Kurven].

- Im Vergleich zum PCM [oben: kleine Abbildung ganz rechts] sind die Kurven des GPCM steiler. [Aber auch nur weil α=2 ge-

setzt ist. Bei α=0,5 wären sie flacher.]

o Die Bedeutung dieses „visuellen Vergleichs“ ist NR nicht ganz klar. Erklärungsversuch: [Zeitmarke: 01:00:15]

Für die mittleren Antwortkategorien gibt es im GPCM einen kleinen Bereich, in dem eine Kategorie sehr wahrscheinlich ist, andere Kategorien dafür unwahrscheinlicher als im PCM.

Kurz: Die Vorhersage wird also genauer.

• [MN nachträglich: Auch in den beiden obigen Stichpunkten hat NR wieder eine falsche Generalisierung getroffen, in der Annahme dass im GPCM immer α>1 gelten würde.

- Generell gilt: Umso höher der Diskriminationskoeffizient, umso genauer wird die Vorhersage.

- In der Praxis möchte man ein großes α, weil ein hoher Diskriminationskoeffizient „mehr Information“ bedeutet.

Fazit zum GPCM

- Das GPCM erlaubt unterschiedliche Anstiege zwischen Items. Innerhalb eines Items müssen die Anstiege gleich sein.

Anwendbarkeit

- Das GPCM kann man weder in Mplus noch in WINMIRA rechnen, weshalb wir es hier nur kurz behandelt haben.

Graded Response Model (GRM)

- Das Graded Response Model ist „für uns wieder attraktiv“, weil man es in Mplus berechnen kann.

- Vorteil des Modells: Es gibt mehr als zwei Antwortkategorien pro Item und trotzdem enthält die Formel nicht mehrere Summenzeichen wie im GPCM.

- Nachteil: Die Kategorienwahrscheinlichkeiten, die man im GPCM mit einer Formel berechnen kann, sind im GRM nicht direkt berechenbar, sondern müssen im Nachhinein indirekt berechnet werden.

Anwendung

- Wie auch bei PCM und GPCM wird das GRM für Items mit geordneten Antwortkategorien (z.B. Likertskalen) verwendet.

Page 105: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

105

Kognitionspsychologischer Ausgangspunkt [F]

- Kognitive Prozesse wie Problemlösen erfolgen in Bezug auf eine Aufgabe in (zählbaren) Schritten/Stufen.

o Ist die „Lösung“ bzgl. eines Items Yi bis zur Stufe y erfolgreich absolviert, aber die Stufe y+1 nicht erreicht worden, ist die Ausprägung Yi = y zu beobachten.

- Modellierung der Wahrscheinlichkeit, dass Stufe y erreicht wird, gegeben der Ausprägung der zu messenden Variable ξ.

Formales Modell

- Das GRM wird zu den indirekten IRT-Modellen gerechnet, da zur Berechnung der Kategorienwahrscheinlichkeiten ein zweischrittiges Vorgehen erforderlich ist:

o 1. Berechnung der Operation Characteristic Curves (OCC) für jede Stufe (Schwelle) des Modells

Es gibt Kurven für jede Kategorie/Stufe eines Items, die Lösungswahrscheinlichkeiten darstellen.

Die Formel für jede dieser OCCs ist mit dem 2PL-Birnbaum-Modell identisch.

o 2. Berechnung der Kategorienwahrscheinlichkeiten als Differenzen der Operation Characteristic Curves

Deshalb wird das GRM auch als Differenzenmodell bezeichnet.

Operation Characteristic Curves (OCC)

- Im GRM wird die Wahrscheinlichkeit betrachtet, dass die Antwort auf einem Item mindestens in einer Kategorie erfolgt. Die-se Wahrscheinlichkeit schließt also alle Antworten auf höheren Kategorien des Items ein.

o Die Formel, um die Wahrscheinlichkeit zu berechnen, ist aus dem Birnbaum-Modell bekannt.

o [Der untere Teil der Abbildung ab „Entspricht…“ wurde nicht erläutert.]

Berechnung der Kategorienwahrscheinlichkeit

- Wie kommt man nun zu den Kategorienwahrscheinlichkeiten ohne „mindestens“, d.h. die Wahrscheinlichkeit für eine ganz bestimmte Kategorie?

Erläuterung im Beispiel

- Für das Item Y={0,1,2} kann man die Wahrscheinlichkeit, mindestens in der Kategorie 1 zu antworten, wie folgt berechnen:

o P (Yi ≥1 | ξ) - Diese kann man aber auch schreiben als

o P (Yi =1 ∪ Yi =2 | ξ) [ ∪steht für „oder“]

- Um nun die Antwortwahrscheinlichkeit nur in der Kategorie 1 zu ermitteln, bildet man folgende Differenz:

o P (Yi =1 ∪ Yi =2 | ξ) – P (Yi =2 | ξ) Diese Differenz entspricht der gesuchten Wahrscheinlichkeit P (Yi =1 | ξ)

Verallgemeinert

Page 106: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

106

- Aufgrund dieser Berechnung über Differenzen spricht man von einem indirekten Modell.

- Nur die höchste Kategorie eines Items kann man direkt berechnen, alle anderen Kategorienwahrscheinlichkeiten müssen über die Differenz berechnet werden.

Schwellenwahrscheinlichkeiten

- Die Schwellen im GRM sind mit β bezeichnet, weil sie nicht den κ im GPCM entsprechen.

- Die β sind aber – ebenso wie ein κ im GPCM – Lokationen

auf der latenten Variable. Sie geben die Stelle von ξ an, an der die Wahrscheinlichkeit 0.5 beträgt, mindestens in dieser Kategorie zu antworten.

o [Zeitmarke: 01:16:40, Zitat NR:] „Aber wir betrachten in jeder dieser Kurven immer alle Kategorien, wenn man sagt mindestens in dieser oder in einer niedrigeren und nicht nur in der benachbarten Kategorie wie im GPCM.“

Kategorienwahrscheinlichkeiten

- Die Lokationen der β sind – anders als die Lokationen der κ im GPCM – nicht mehr die Punkte, an denen sich die Katego-rienwahrscheinlichkeiten schneiden.

o Die Unterschiede sind aber nur gering, „haben nur didaktischen Wert“.

Bedeutung der Schwellenparameter β

- „Was bedeuten denn dann die Parameter?“

o [Die folgenden Erklärungen hierzu seien für manche Studenten hilfreich, für andere eher verwirrend: „Ich finde das im-mer nicht so wichtig.“]

- Im GRM liegt in der Mitte zweier Lokationen das Maximum der Kategorienwahrscheinlichkeit derjenigen Kategorie, die zwi-schen den beiden Parametern liegt.

o [MN nachträglich: „Dazwischenliegen“ meint in diesem Fall die y-te Kategorie, wobei y der Index der unteren Lokation wäre und y+1 der Index der oberen Lokation. Beispiel: In der Mitte der Stellen ξ =βι1 und ξ =βι2 ist die Wahrscheinlichkeit für die Kategorie y=1 maximal.]

o [Zeitmarke: 01:18:00]

Page 107: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

107

Parameter im GRM [F]

- Folie wurde nicht weiter erläutert, fasst aber die obigen Ausführungen zusammen.

o In der letzten Zeile muss es aber Yi=C+1 heißen [Fehler wurde in der Sitzung korrigiert].

Artefakt: Problem von PCM und GPCM

- Wenn man in WINMIRA ein PCM [im Beispiel hier: kein GPCM] rechnet, findet sich im Output unter „threshold parameters“ manchmal eine solche Schwellenschätzung:

o Für das Item VAR4 beträgt die…

Schwelle 1 0.391 Schwelle 2 0.472 Schwelle 3 0.426

- Wieso kann es sein, dass die Schwelle 3 einen niedrigeren Wert hat als die Schwelle 2?

- Dies wird anhand der Grafik rechts erläutert

o Die monoton fallende Kurve ist die Kategorie 0,

o die monoton steigende Kurve ist die Kategorie 2,

o die flache unimodale Kurve stellt die Kategorie 1 dar.

- Die mittlere Kategorie zu beantworten, ist also an keiner Stelle von ξ wahrscheinlicher als eine der benachbarten Kategorien zu beantworten.

- Unter dieser Bedingung scheitert das PCM öfters – ebenso das GPCM.

- Das GRM scheitert in solch einem Fall aber nicht, ist also robuster.

Fazit: Wann verwendet man welches Modell?

- Wenn man mit dem PCM (oder GPCM) rechnen sollte, muss man sich die Reihenfolgen der Schwellen innerhalb eines Items anschauen.

o Sollten solche Probleme wie im obigen Beispiel auftauchen, kann man Antwortkategorien des Items zusammenlegen oder eben ein GRM rechnen.

C

14. Vorlesung vom 08.02.2010: Zusammenfassung der Vorlesung: Theorien Psychometrischer Tests II

Überblick

- Nach einer Zusammenfassung der letzten Sitzung wird deren Stoff anhand zweier Berechnungsbeispiele in Mplus vertieft.

- In der zweiten Hälfte der Stunde wird ein Überblick über den im Laufe des Semesters behandelten Stoffs gegeben.

- Abschließend werden Informationen zur Prüfung gegeben.

Page 108: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

108

Zusammenfassung der letzten Sitzung

Das Graded Response Model

- In der letzten Sitzung wurde das Graded Response Model (GRM) behandelt.

- Warum wurde dieses behandelt? In der Sitzung zuvor war bereits das Partial Credit Model (PCM) behandelt worden. Dies war, wenn man so will, das „Rasch-Modell für mehrkategoriale Variablen“ für den Fall, dass diese Kategorien eine Rangord-nung implizieren (d.h. ordinale manifeste Variablen).

o Die Anstiege waren alle auf 1 fixiert – mit allen Konsequenzen, die auch für das dichotome Rasch-Modell gelten: z.B. ist dort der Summenscore eine suffiziente Statistik und es gibt nur eine begrenzte Anzahl an Personenparametern.

- Dass alle Items gleich diskriminieren, ist aber eine sehr starke Annahme. Entsprechend haben wir ein zweiparametrisches Modell für ordinale manifeste Variablen eingeführt. Dort gibt es dann einen Diskriminationsparameter, der über Items vari-iern kann und frei geschätzt werden kann.

- Diese konsequente Erweiterung des Partial Credit Models war dann das Generalized Partial Credit Model (GPCM). Dieses wurde nur kurz behandelt, weil uns keine Software zur Analyse dieses Modells zur Verfügung steht, die leicht handhabbar wäre.

o Ein anderes Modell, das dem Partial Credit Model sehr ähnlich ist, ist eben das Graded Response Modell (GRM), wes-wegen dieses auch behandelt wurde. Darin werden ordinale Variablen mit unterschiedlichen Itemdiskriminationen ge-schätzt und man kann latent-state-trait-Modelle spezifizieren.

Operational Characteristic Curves (OCC) im Graded Reponse Model

- Die Unterschiede zwischen dem Graded Response Model und den vorher behandelten Modellen liegen schon in den Begriff-lichkeiten:

- Im GRM gibt es „operational characteristic curves“ (OCC). Diese geben die Wahrscheinlichkeit an, auf einem Item min-destens in einer bestimmten Kategorie zu antworten.

o Kategorienwahrscheinlichkeiten kann man nicht direkt aus den Modellgleichungen, sondern nur indirekt als Differenzen zwischen OCC berechnen; daher zählt man das Modell zu den indirekten IRT-Modellen.

- Die OCC sind die bekannten sigmoiden Funktionen. Darin steckt die logistische Verteilungsfunktion. Der Logit ist wieder die Linkfunktion, und auch bezüglich der Schwellenparameter ändert sich nichts: sie sind die Lokationen auf der latenten Variab-le ξ , an der die Wahrscheinlichkeit, mindestens in einer bestimmten Kategorie zu antworten, gerade 50% beträgt. [Zeitmarke: 0:07:17]

o Kleine Unterschiede zum Generalized Partial Credit Model ergeben sich bezüglich dieser Schwellen insofern, als diese nicht genau auf den Schnittpunkten der Kategorienwahrscheinlichkeiten liegen. Die Unterschiede sind aber gering und spielen in der Anwendung kaum eine Rolle.

Ein Vorteil des Graded Response Modells ist, dass es im Gegensatz zum (Generalized) Partial Credit Model kein Prob-lem damit hat, wenn Mittelkategorien (viel) unwahrscheinlicher sind als die Randkategorien; beim PCM kann dies dazu führen, dass die Reihenfolge der Schwellen vertauscht werden, das GRM ist dagegen robuster.

Testung

- Das Graded Response Model hat noch einen weiteren Vorteil: Es kann mittels der bekannten Strukturgleichungen getestet werden. Dort müssen nur zusätzlich Schwellenparameter geschätzt werden.

o Man kann also nicht nur Parameter, sondern über den χ2-Wert auch das ganze Modell testen.

Umsetzung eines GRM in Mplus

- Wir setzen nun eine Graded Response Model mit einem Datenbeispiel in Mplus um. Wir haben dabei 5 Items zur Verfügung.

o Mplus schätzt automatisch das GRM mit dem Logit-Link, wenn mehr als zwei Antwortkategorien bei den Items gefunden werden.

o Man ändert also nur einige wenige Buchstaben in Mplus; dennoch wird ein völlig anderes Modell geschätzt.

Die Residuen sind z.B. auch ganz anders als in den vorherigen Modellen.

o Man merkt auch an der längeren Rechenzeit (man sieht das Konsolenfenster länger), dass man nicht das Standard-Strukturgleichungsmodell berechnet, sondern das GRM.

- [Zeitmarke: 0:15:00]

Lesen des Outputs

- [MN: Diese Berechnung dürfte der Datei „grm.out“ entsprechen. Darin: ANALYSIS: Estimator=MLR ]

- Zunächst erhalten wir die Information, dass wir 632 Fälle und 5 Items verwendet haben. Außerdem wird ausgegeben, dass der Logit als Link verwendet wurde. Anschließend werden die Kategorienhäufigkeiten für die fünf Items ausgegeben.

- Es folgt der „Model Test“. Die Prüfgröße für den χ2-Test ist wieder unbekannt; wie auch schon im Rasch-Modell.

o Ab dem zweiparametrischen Modell kann auch der Bootstrap nicht mehr helfen; auch mit ihm kann man die Verteilung der Prüfgröße nicht mehr simulieren.

Page 109: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

109

Model Results

- In den „Model Results“ steckt die Annahme, dass die OCC gleiche Anstiege haben; diese ist in der Anwendung aber auch meistens erfüllt.

- Man erhält jetzt eine höhere Anzahl an Schwellenparametern. Um auf eine Schwelle zu verweisen, verwendet Mplus ein Dol-larzeichen. Links des Dollarzeichens steht dann das Item, rechts davon die Schwelle, also z.B. Y1$3.

Anmerkungen zur Modellidentifikation

- Wenn man in Mplus einfach spezifiziert: XI BY Item_1 Item_2 Item_i, ohne weitere Spezifikationen oder Restriktionen einzuführen, so wird automatisch die Faktorladung (hier: die Itemdiskrimination) des ersten Items auf 1 fixiert; alle anderen und die Varianz der latenten Variable werden frei geschätzt.

o Man könnte auch die Varianz der latenten Variable fixieren und dafür alle Itemdiskriminationsparameter frei schätzen las-sen.

Residual Output

- Für jede Kategorie jedes Items ist hier die Differenz zwischen den vom Modell erwarteten und in der Stichprobe vorgefunde-nen relativen Kategorienhäufigkeiten angegeben.

o Unter „BIVARIATE DISTRIBUTIONS FIT“ wird für jedes Paar von Items die gemeinsame Verteilung angegeben. [nicht ge-nau verstanden, sei aber, laut NR, auch nicht wichtig, denn:]. Dieser Output wird sehr schnell sehr umfangreich und ist schwer zu interpretieren.

- Der Residuenoutput hat zwar seine Berechtigung, ist aber im mehrkategoriellen Fall oft nicht besonders hilfreich.

o Um zu prüfen, ob das Modell abweicht, ist man meist mit Strukturgleichungsmodellen besser bedient.

- [Zeitmarke: 0:26:03]

Strukturgleichungsmodell zum Modelltest

- [MN: Diese Berechnung dürfte der Datei „grm_wlsmv.out“ entsprechen. Darin: ANALYSIS: Estimator=WLSMV]

- Wir rechnen das Modell jetzt noch einmal als Strukturgleichungsmodell. Dieses schätzt die Schwellen anhand der relativen Kategorienhäufigkeiten.

o Weil für die Latent-Response-Variable eine Normalverteilung angenommen wird, verbirgt sich hinter dem Modell eigent-lich ein Probitmodell. Daher können die Schwellen und Itemdiskriminationen in Probits umgerechnet werden.

- Für dieses Modell wird ein allgemeiner Modellgeltungstest wie im dichotomen Fall angegeben.

o Die Nullhypothese lautet, dass die wahren und wahren modellimplizierten polychorischen Korrelationsmatrizen, Schwellen und Erwartungswertstrukturen gleich sind.

Erwartungswerte und Schwellen sind allerdings nicht unabhängig voneinander.

Für alle drei Komponenten sehen wir immer nur die Schätzung, die aber nicht signifikant abweichen darf.

Model Results

- Unter „Model Results“ erhält man unter „Estimate“ diesmal Faktorladungen (keine Diskrimination), weil wir den WLSMV-Schätzer verwendet und damit ein Strukturgleichungsmodell gerechnet haben.

- Für jedes Item gibt es dann eine Schwelle weniger als das Item Kategorien hat.

o Im Strukturgleichungsmodell heißen diese Schwellen „Thresholds“; sie sind aber nicht dasselbe wie die Thresholds im logistischen Modell: letztere sind nämlich Lokationen auf ξ , während die Thresholds im Strukturgleichungsmodell auf der Metrik der Latent Response Variable liegen.

- Gegenüber dem bereits behandelten dichotomen Fall ändert sich am Modell nur wenig: man hat wieder seine latente Variable ξ und ein Messmodell mit Faktorladungen, die in Diskriminationen umgerechnet werden. Außerdem haben wir die „unsichtbare“ (nur angenommene) Latent-Response-Variable Y*i für jedes Item. Nur hat man jetzt eben statt einer Schwelle [wie in der Abbildung bei Y1] mehrere Schwellen [wie bei Y2].

o Der einzige Nachteil ist, dass das Hilfskonstrukt der Latent Response Variable verwendet werden muss.

- Die Schwellen erkennt man wieder am Dollarzeichen.

o Die Residuen bezüglich der Schwellen, die unter den Schätzern für die Schwellen angegeben werden, betragen 0, weil wir keinerlei Restriktionen eingeführt haben.

- Ausgegeben wird dann die geschätzte polychorische Korrelationsmatrix (die Diagonalen sind 1 und werden nicht ausgege-ben). Darunter steht die Matrix Residuen, die die Abweichungen der modellimplizierten von der empirischen Matrix angibt.

o Diese Residuen zu lesen und bei Bedarf auf dieser Basis Modellmodifikationen vorzunehmen, ist bei Strukturgleichungs-modellen viel einfacher als beim logistischen Modell, das wir vorher gerechnet haben.

- [Zeitmarke: 0:38:15]

Page 110: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

110

Semesterüberblick

Einführung

- Zu Semesterbeginn wurde noch mal die Definition der Regression mit wahrscheinlichkeitstheoretischen Begriffen herausge-arbeitet. Es wurde herausgestellt, dass es sich um Zufallsvariablen handelt, deren Werte die bedingten Erwartungswerte sind.

- Der einfachste Fall sind lineare Regressionen, die auch die Grundlage für die Testtheorien bilden – nur, dass uns der Regres-sor gleichsam „abhanden gekommen sind“: es handelt sich jetzt um latente Variablen, auf die selbst erst geschlossen wer-den muss. Dies geschieht aufgrund der Beziehungen zwischen manifesten Variablen.

o Wenn man eine modellimplizierte Varianz-Kovarianzmatrix berechnet, tut man genau das: man schließt auf den Prädiktor

einer solchen Regression und macht Modelle so testbar.

- Gezeigt wurde aber, dass die linearen Zusammenhänge nicht immer sinnvoll sind. Manchmal braucht man nicht-lineare Zu-sammenhänge, z.B. bei dichotomen Variablen; sonst kann es Werte der Regression geben, die nicht mehr definiert sind.

o Bei dichotomen Variablen Y ist die Regression E(Y|η) gleich der bedingten Kategorienwahrscheinlichkeit für Y=1 gegeben η.

- Wenn man annimmt, dass der Zusammenhang eine sigmoide Kurve beschreibt, dann braucht man nur noch ein passendes

Modell, um dies zu beschreiben. Dies haben wir mit den Modellen mit latenten Variablen zur Verfügung, bei denen sich nicht-lineare Zusammenhänge im Messmodell verstecken:

o Ergo: Der Regressor ist in der IRT eine latente Variable, auf die geschlossen wird, und zwar mittels einer logistischen

Regression.

GLM – Logistische Regression

- Die logistische Regression aus den Generalisierten Linearen Modellen wurde nur als kurzer Exkurs behandelt, bei dem vor allem die folgenden beiden Begriffe wichtig sind: Responsefunktion und Linkfunktion.

Zwei Annahmen der Generalisierten Linearen Modelle

- 1. Verteilungsannahme: Die bedingte Verteilung des Regressanden Y gegeben des Regressors X lässt sich durch eine be-kannte Verteilung beschreiben (Binomialverteilung, Poisson-Verteilung, …).

- 2. Strukturannahme: Die Werte der Regression E(Y | X) sind durch eine Responsefunktion h bzw. Linkfunktion g = h–1 mit einer linearen Funktion des Regressors X oder einer Linearkombination der Regressoren X1, …, Xm verknüpft:

o Erläuterung: Um die Modelle in die gewünschte interpretierbare Form bringen zu können, muss man entweder…

den linearen Prädiktor durch eine Responsefunktion h transformieren und dadurch die Werte der Regression errei-chen, obwohl der Zusammenhang ohne Transformation ja eigentlich nicht-linear wäre

oder die Regression selbst durch die Linkfunktion g so transformieren, dass sie letztlich linear in ξ ist. • Wichtig: Nicht die Regression selbst ist dann linear in X oder ξ, sondern die durch die Linkfunktion transformierte

Regression.

Page 111: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

111

- Die Begriffe der Responsefunktion und Linkfunktion stammen aus den GLMs und sind nicht spezifisch für die IRT.

o Es wurden dann die Probit-Linkfunktion (=kumulierte Verteilungsfunktion der Standardnormalverteilung) und die Lo-git-Linkfunktion (=kumulierte Verteilungsfunktion der logistischen Verteilung) als zwei mögliche Linkfunktionen bespro-chen. Es gibt darüber hinaus noch wesentlich mehr mögliche Link-Funktionen.

- [Zeitmarke: 0:51:45]

Modellgleichung

- Die Modellgleichung lautet:

- Schließlich haben wir uns damit beschäftigt, wie dies graphisch aussieht. Die Logits [rechter Teil der Abbildung] sind lineare Funktionen des Prädiktors, wobei ein stärkerer Anstieg eine stärkere stochastische Abhängigkeit impliziert.

Rasch-Modell

- Als erstes Modell der IRT behandelten wir ausführlich das Rasch-Modell.

o Das Rasch-Modell ist im Wesentlichen das Pendant zum Modell essentiell τ-äquivalenter Variablen auf Ebene der Logits.

- Für die durch die Linkfunktion transformierte Regression gilt ein essentiell τ-äquivalentes Modell. Für die itemcharakteristi-schen Kurven im Rasch-Modell folgt daher, dass diese alle parallel verlaufen (genau wie auch die Logits):

- Wir lernten dann die allgemeine Modellgleichung des Rasch-Modells kennen:

Annahmen des Rasch-Modells

- Wichtiger sind jedoch die beiden Annahmen des Rasch-Modells:

Page 112: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

112

o Rasch-Homogenität bedeutet also: das Modell gilt für jedes Item, und zwar ausschließlich.

o Die lokale stochastische Unabhängigkeit soll sicherstellen, dass die Lösungswahrscheinlichkeit für ein bestimmtes I-tem ausschließlich auf das dahinter stehende ξ zurückgeht.

Wenn Items nicht nur lokal, sondern „richtig“ statistisch unabhängig sind, spricht dies in der Regel gegen die Geltung des Modells, weil dann ja keine latente Variable hinter den unabhängigen Antworten plausibel angenommen werden kann.

Vertiefung des Rasch-Modells

- Für das Rasch-Modell wurden auch einige Begriffe vertieft behandelt, die allgemein für die IRT Bedeutung besitzen:

o Existenz: Man muss zeigen können, dass die latente Variable, die man zu messen postuliert, auch wirklich existiert.

Die Existenz einer latenten Variable ist im Rasch-Modell dann gegeben, wenn alle Logits lineare Funktionen voneinan-der sind.

o Eindeutigkeit: Im Rasch-Modell sind die Parameter nur eindeutig bis auf Translationen definiert (man kennt nur ξ – β, was nicht eindeutig ist).

o Zulässige Transformationen: daher gibt es zulässige Transformationen der o.g. Differenz.

Eine Folge der Nicht-Eindeutigkeit ist, dass man Parameter fixieren muss, damit das Modell definiert ist und geschätzt werden kann.

o Bedeutsamkeit (bedeutsame Aussagen)

o Testbarkeit: Das Rasch-Modell ist einfach auf der Ebene der Antwortmusterwahrscheinlichkeiten (wahre vs. wahre mo-dellimplizierte, die beide auf Basis der Stichprobe geschätzt werden) testbar.

Dafür wurden verschiedene Tests kennen gelernt, z.B. den Likelihood-Ratio-Test und den Pearson- χ2-Test. Alle testen dieselbe Nullhypothese.

• [Zeitmarke: 1:10:02, ab hier nur Folie im Rest des Abschnitts]

• In der Anwendung ist aber nicht immer jede Zelle mit einer hinreichenden Häufigkeit besetzt. Daher mussten wir uns mit der Bootstrap-Inferenz auseinandersetzen und damit auch mit Likelihood-basierten Prüfgrößen und Schät-zungen.

o Schätzbarkeit

- Summenscores als suffiziente Statistik bzgl. der Personenparameterschätzung:

- bedingte Varianzfunktion

- Iteminformationsfunktion

- im Rasch-Modell folgt:

Page 113: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

113

Anwendung des Rasch-Modells [Folie]

- WINMIRA

- Prätest des Datensatzes von Klauer („klauer_CPM_pre_18items.sav“)

o Klauer, K. J., Willmes K., Phye, G. D. (2002). Inducing Inductive Reasoning: Does It Transfer to Fluid Intelligence. Con-temporary Educational Psychology 27, 1–25.

- Coloured Progressive Matrizes – Test (CPM)

o eindimensionaler figuraler Matrizentest zur Messung der sprachfreien Intelligenz

o zur Messung induktiven Denkens

o Ableiten von Regeln aus konkreten Reizkonstellationen (Bsp.)

Maximum Likelihood Schätzung (ML-Schätzung)

- Allgemeines Prinzip der Maximum Likelihood Schätzung:

o Die Modellparameter werden so geschätzt, dass die Wahrscheinlichkeit der beobachteten Daten Y, und somit die Likeli-hood, unter Annahme des Modells maximal wahrscheinlich sind:

Wenn diese Annahme falsch ist, werden falsche Parameter geschätzt!

- ML-Schätzung ist ein iteratives Verfahren (keine analytische Lösung möglich)!

- Es werden verschiedene ML-Schätzverfahren unterschieden

o UML / JML unbedingte oder „joint“ ML-Schätzung

o CML konditionale ML-Schätzung (nur bei Rasch-Modellen)

o MML Marginal Maximum Likelihood Schätzung

- Die nachfolgende Abbildung zeigt die Likelihoods verschiedener Antwortmuster bei verschiedenen Summenscores zur Illust-ration der Personenparameterschätzung:

o Es handelt sich um unimodale Funktionen; die Extreme sind hingegen monoton fallende/steigende Funktionen.

- Dass der Summenscore eine suffiziente Statistik bezüglich der latenten Variable ist, bedeutet, dass es egal ist, welches

Item gelöst wird; für ξ ist nur wichtig, wie viele Items gelöst wurden.

o Dass die einzelnen Antwortmuster trotzdem wahrscheinlicher oder weniger wahrscheinlich sein können, ist die Grundlage für die Konstruktion der Personen-Fit-Maße.

Wenn eine Person ein sehr untypisches Antwortmuster zeigt, führt dies zu einem schlechten Personenfit.

• Das Antwortmuster sagt aber nichts Zusätzliches über ξ aus.

- [Zeitmarke: 1:15:00]

Standardfehler und Reliablilität in der IRT

- Der große Unterschied der IRT zur KTT liegt darin, dass man für jede Person auf der latenten Variable einen Schätzer be-kommt, der auf der Metrik der latenten Variable liegt [so gesagt; unklar ob sinnvoll].

Page 114: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

114

o In der KTT wird immer normbasiert getestet, d.h. man setzt den Wert einer Person immer in Bezug zu einer Normstich-probe. Vorgehen: Mit SEM wird zunächst die Gültigkeit des Modells getestet; dann schlussfolgert man, dass nichts gegen die Anwendung des Modells spricht. Dann muss man aber aufwändig Normstichproben ziehen, um die Summenscores in-terpretieren zu können. Dies ist nicht immer problemlos möglich.

Beispiel: Einen 80-Jährigen bezüglich seiner Intelligenz mit einer 16-Jährigen zu vergleichen, bleibt in der KTT immer schwierig.

o Für IRT-Modelle kann man hingegen Subpopulationen vergleichen, weil man eine common metric erzielt. Auf dieser Metrik hat man Schätzer, die auch Vergleiche zwischen Subpopulationen ermöglichen.

Daher ist Individualdiagnostik die große Stärke der IRT.

- Die nachfolgenden Abbildungen zeigen Item- und Testinformation und Standardfehlerfunktion bei drei Items mit β1 = –2, β2 = 0 und β3 = 2:

- Auch der Reliabilitätskennwert der KTT ist populationsabhängig. Um Konfidenzintervalle bestimmen zu können, muss man die Annahme machen, dass der Test für jede Ausprägung gleich gut misst. Diese Annahme ist aber oft nicht haltbar.

- In der IRT kann man dagegen zeigen, dass der Standardfehler der Personenparameterschätzung eine Funktion der latenten Variable ist.

o Rechts unten [Teil der obigen Abb.] sieht man (am Beispiel des Klauer-Datensatzes), dass die Konfidenzintervalle sich je nach Ausprägung auf der latenten Variable unterscheiden. Der Fehler könnte auch in den Extrembereichen am geringsten sein, der Test muss also nicht immer in der Mitte am besten messen.

Man kann bei IRT-Tests also angeben, für welche Subpopulationen (bzw. Fähigkeitsbereiche) ein Test besonders ge-eignet ist und für welche weniger.

• Wichtig: Wo der Standardfehler am niedrigsten ist, hängt von der Verteilung der Itemschwierigkeiten ab, nicht von der Verteilung der Personenvariable!

• Wenn es um die Standardfehler der Itemparameter geht, ist dies anders: In den Bereichen hoher Dichte der laten-ten Variable ist die Parameterschätzung für die Itemparameter am genauesten, der Standardfehler also am ge-ringsten.

Man kann in der IRT daher gewissermaßen sagen: Die Personen messen die Items und die Items messen die Personen. Auf Ebene der Standardfehler wird dies deutlich.

Varianzfunktion und Iteminformationsfunktion

- Besprochen wurden auch Varianzfunktion und Iteminformationsfunktion:

o Die Iteminformationsfunktion ist eine Funktion der Varianzfunktion.

o Im Rasch-Modell sind beide gleich.

o „Im zweiparametrischen Modell ist die Varianzfunktion gewichtet beim [=mit dem] Quadrat der Itemdiskriminationen gleich der Informationsfunktion.“

Umso höher die bedingte Varianzfunktion, umso höher die Iteminformationsfunktion und umso geringer der Standard-fehler bezüglich der Messung der latenten Variable ξ .

- [Zeitmarke: 1:25:00]

- Da der Standardfehler für die Schätzer der latenten Personenvariable für die verschiedenen Ausprägungen verschieden ist, ist auch die Reliabilität für jeden dieser Schätzer verschieden!

Page 115: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

115

Andrich’s Reliabilität

- Es gibt in der IRT allerdings ein Pendant zur Reliabilität in der KTT, mit dem man eine Aussage über die Reliabilität des Ge-samttests machen kann: Die Andrich’s Reliabilität, die üblicherweise für einen Test angegeben wird, lässt sich als eine Art mittlere Reliabilität interpretieren (gemittelt über die Verteilung von ξ).

o Beachte: Die Andrich’s Reliabilität ist populationsspezifisch, nicht jedoch die Standardfehler der Personenparameter,

die bei Modellgeltung invariant über Subpopulationen bleiben!

Modellgeltungskontrolle im Rasch-Modell

- 1. Graphische Modellgeltungskontrolle des Rasch-Modells

o Darstellung der unbedingten Lösungswahrscheinlichkeiten für verschiedene Subpopulationen

o Darstellung der Schwierigkeitsparameter für verschiedene Subpopulationen

o graphischer Vergleich der Rasch-modellimplizierten und nichtparametrischen ICC

- 2. Modellgeltungstests

o Likelihoodquotienten-Test

o Pearson χ2-Test

o Bootstrap Verfahren

Berechnung der Prüfgröße im Likelihood Ratio Test [Folie]

- Ist der χ2-Wert bei gegebener Zahl der Freiheitsgrade nicht signifikant, so kann die Nullhypothese beibehalten werden, der zufolge das Rasch-Modell gilt!

- Allgemeine Formulierung der Nullhypothese in der IRT:

Bootstrap-Inferenz [Folie]

- Grundidee der Bootstrap-Inferenz im Rahmen der Modellgeltungskontrolle ist es, die unbekannte Verteilung der Prüfgröße empirisch zu ermitteln. Vorgehen:

o 1. Berechnung der Modellparameter und der Prüfgröße anhand der realen Stichprobendaten

o 2. Simulation der Ziehung erneuter Stichproben der gleichen Größe N unter Geltung des Messmodells (Anhand der ermittelten Item- und Personenparameter)!

o 3. Berechnung der Modellparameter und der Prüfgröße in jeder simulierten Stichprobe!

o 4. Ermittlung des p-Wertes anhand der empirisch gefundenen Verteilung der Prüfgröße!

Itemfit- und Personenfitmaße im Rasch-Modell [Folie]

- Itemfitmaße

o Likelihoodbasierte Itemfitmaße (Q-Index)

o Residuenbasierte Itemfitmaße (In-/Outfit)

- Personenfitmaße

o Likelihoodbasierte Personenfitmaße

o Residuenbasierte Personenfitmaße

- 2PL-Modell nach Birnbaum

o in Mplus

2PL-Modell nach Birnbaum

- Es wurde schon angesprochen, dass im 2PL-Modell nach Birnbaum bedingte Varianzfunktion und Iteminformationsfunktion nicht mehr identisch sind.

- Wenn man den Zusammenhang bedenkt, dass „umso höher die Iteminformationsfunktion, desto kleiner der Standardfehler“, dann kann man anhand der nachfolgenden Abbildungen folgern: Man möchte in aller Regel hoch diskriminierende Items, weil die bedingte Varianzfunktion mit der quadrierten Iteminformationsfunktion gewichtet wird; umso höher diese ist, desto mehr Information.

Page 116: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

116

o In einfachen Begriffen der Regression bedeutet dies, dass der Regressand eine stärkere stochastische Abhängigkeit von der latenten Variable hat. Wenn man vom manifesten Antwortverhalten auf die latente Variable schließt, dann tut man dies umso genauer, je größer der stochastische Zusammenhang zwischen manifester und latenter Variable ist.

3PL-Modell nach Birnbaum

- Besprochen wurde schließlich auch noch kurz als drittes klassisches Modell das 3PL-Modell nach Birnbaum.

- Das Modell wurde deswegen besprochen, weil es – z.B. in den USA in der Bildungsforschung – einen großen Anwenderkreis gibt. In Europa werden eher die ein- und zweiparametrischen Modelle genutzt.

- Dieses Modell hat einige Schwierigkeiten. Es kann aber tatsächlich sein, dass es bezüglich des Zusammenhangs zwischen manifester und latenter Variable eine untere Asymptote gibt.

o Wenn dies der Fall ist, sollte diese untere Asymptote mit modelliert werden, wenn man eine gültige Inferenz bezüglich der Personenparameter betreiben will.

o Dies geschieht allerdings zum Preis der Interpretierbarkeit auf Ebene der Itemparameter:

So ist etwa β nicht mehr der Punkt, an dem die Lösungswahrscheinlichkeit des Items p=0.5 beträgt.

Auch die Itemdiskrimination hat eine leicht veränderte Bedeutung.

- In diesem Modell sind mehrere Antwortprozesse abgebildet, nicht nur jener, der auf ξ zurückgeht (sondern z.B. auch Raten).

- [Folien nur bis hier (Folie 25) behandelt, Ausnahme: Überblicks-Schaubild am Ende]

Linkfunktionen [Folie]

- Die Abbildung zeigt das Prinzip einer Linkfunktion:

Page 117: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

117

- Es gibt verschiedene Arten der Linkfunktion; Probit- und Logit-Link sind sehr ähnlich:

- Die Verwendung von Linkfunktionen erfordert eine Umrechnung der Modellparameter:

SEM für geordnete kategoriale Variablen [Folie]

- Spezielle Strukturgleichungsmodelle für geordnet kategoriale Daten erlauben (indirekt) die Schätzung der Modellpara-meter von ein- und zwei-parametrischen Probit-Modellen

o In SEM für kategoriale Daten stehen mehrere Möglichkeiten der Modellgeltungskontrolle zur Verfügung (χ2-Test, RMSEA).

- Beziehung der Modellparameter: Faktorladungen λi und Schwellenparameter δi aus diesen Strukturgleichungsmodellen lassen sich in Itemdiskriminationsparameter αi und Itemschwierigkeiten βi (in der Probit Metrik!) umrechnen!

Beziehung der Modellvariablen

- Die nachfolgende Abbildung zeigt die Beziehung der Modellvariablen:

Page 118: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

118

IRT-Modelle für mehrkategoriale manifeste Variablen [Folie]

- Man unterscheidet direkte und indirekte IRT-Modelle.

o Direkt:

Partial Credit Model (PCM)

Generalized Partial Credit Model (GPCM)

o Indirekt:

Graded Response Model (GRM)

Page 119: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

119

Abschließender Überblick

- Die nachfolgende Abbildung soll die Zusammenhänge des behandelten Stoffes darstellen.

- Einige Erläuterungen:

o In der Testtheorie fragen wir nach Personenvariablen und nach Zustandsvariablen.

o Früher hatten wir nur lineare Abhängigkeiten bei metrischen Testwertvariablen betrachtet. Jetzt haben wir kennenge-lernt, dass es in der IRT auch kategorielle Variablen mit nicht-linearen Abhängigkeiten gibt.

Dichotome Testwertvariablen kann man mit verschiedenen Modellen (Rasch-, 3PL- etc.) bearbeiten.

Für ordinale Variablen gibt es andere Modelle, z.B. das PCM-Modell.

o Wir haben es nicht mehr geschafft, die Modelle auch für den mehrdimensionalen Fall zu besprechen, bei dem noch einige Besonderheiten auftreten, gerade wenn es sich um Längsschnitte handelt.

Page 120: Skript zur Vorlesung “Theorien psychometrischer Tests II ... · PDF fileVorlesung vom 26.10.2009: Einführung in das Rasch-Modell ... Vorlesung vom 14.12.2009: Personenfitmaße und

120

Allgemeine Anmerkungen zur Prüfung aus verschiedenen Sitzungen

- In diesem Abschnitt sind nur allgemeine Hinweise aus den einzelnen Sitzungen kopiert. Spezifische Hinweise, zu einzelnen Inhalten, die konkret prüfungsrelevant sind oder einzelne Aspekte, die nicht abgefragt werden, finden sich in den jeweiligen Sitzungen.

- Außerdem StudiVZ-Gruppe mit den Fragen der mündlichen Prüfungen: http://www.studivz.net/Groups/Overview/b08c4dde76780d3c

Aus 1. Sitzung vom 19.10.2009

- Für die Modulprüfung (mündlich, 25 min) muss man mitbringen…

o 1 schriftliche Ausarbeitung, die im Seminar angefertigt wurde und vorher dem Seminarbetreuer abgegeben wurde.

o 2 Analysen mit Fragestellungen/Methoden, die in der Vorlesung behandelt wurden.

Dafür müssen keine eigenen Daten gesucht werden, sondern es reicht, einen fertigen Ausdruck aus der VL mitzubrin-gen.

- Wortlaut der Folie: Es dürfen Outputs von Analysen zur Prüfung mitgebracht werden, die auch in der Vorlesung verwendet wurden.

- Von diesen 3 Themen/Analysen kann man eines als Einsprechthema wählen.

o Man wird nicht nur zu den 3 Analysen gefragt, sondern zu allen Themengebieten aus der VL. Allerdings wird Software nicht Gegenstand der Prüfung sein.

Aus 4. Sitzung vom 16.11.2009

- In der Prüfung werden keine Herleitungen verlangt; wichtig ist aber, die Herleitungen nachvollziehen zu können.

Aus 5. Sitzung vom 23.11.2009

- „Formeln will ich jetzt erstmal von Ihnen nicht wissen. Sie müssen mit Rechenregeln umgehen können. Wenn Ihnen also etwas vorgegeben wird, sollen Sie mit Rechenregeln weiterkommen. Aber ich werde ihnen jetzt nicht sagen: ‚Malen Sie mir mal die Formel für den Standardfehler auf.’ Aber die Zusammenhänge sollten klar sein: Dass die bedingte Varianzfunktion die Informationsfunktion ist. Welche Varianz ist dann maximal? Und dass es eigentlich die Fehlervarianz ist.“]

Aus 14. Sitzung vom 08.02.2010

- Die mündliche Prüfung wird ca. 25 Minuten dauern.

- Man kann als Einsprechthema einen Output aus der Vorlesung nehmen oder den Bericht aus dem Anwenderseminar.

- Mitzubringen sind:

o (1) Zwei Analysen mit Fragestellungen/Modellen die in der Vorlesung behandelt wurden (Software entsprechend der Vor-lesung)

es können simulierte Daten sein

es brauchen keine eigenen Daten sein – es können Analysen aus der Vorlesung sein, aber nicht 2 mal die gleiche Ana-lyse (!!!)

o (2) Der Abschlußbericht aus dem Anwendungsseminar

Jedes der Anwendungsseminare und die Ausarbeitung aus diesem Anwendungsseminar kann Gegenstand der Prüfung sein

- Hinweis: Basiswissen – Das Wissen um allgemeine Konzepte & Begriffe der Methodenlehre sind Vorraussetzung für den erfolgreichen Abschluss der Prüfung (Standardfehler, Erwartungswert, Regression, bedingter Erwartungswert, …).