1
Entsprechend setzt sich die beobachtete oder ‘Observed Rasch Variance’ (ORV) aus der Varianz der wahren oder ‘True Rasch Variance’ (TRV) sowie einer Error Rasch Variance (ERV) zusammen. Geschätzt werden die ORV sowie das Verhältnis TRV/ORV (=Reliabilität). Die TRV ist damit unabhängig vom Messfehler bestimmbar (vgl. Abbildung 3), da TRV=ORV*Rel. Die Wahl des Reliabilitätsschätzer ist allerdings von Bedeutung (vgl. Abbbildung 4), da Cronbach‘s Alpha und die aus den IRT- Softwareprogrammen angegebene Reliabilität durchaus 3. EINFLUSS DER SCHÄTZALGORITHMEN. Eine Vielzahl von Simulationstudien (z. B. Hoijtink & Boomsma, 1993, 1995, 1996; Kim & Nicewander, 1993; Warm, 1989) konnten systematische Verzerrungen der Schätzmethoden auf die ORS nachweisen. Eigene Auswertungen zeigen nur einen relativ schwachen Einfluss. 4. EINFLUSS DER LINK-FUNKTION. Je nach verwendeter Software muss eine Adjustierung von der Normal-Ogive auf die logistische Funktion durchgeführt werden. Für die eigene Studie wurde für bestimmte BilogMG Programme eine Kurtosisindikators bei den Analysen nicht angewendet. ERGEBNIS Die TRV der vier Skalen für die vier Sprachvarianten des EPQ-R finden sich in Abbildung Diskussion Die TRV in Abbildung 6a sprechen nicht gegen eine gelungene Übersetzung des EPQ-R mit Ausnahme der polnischen Version. Interpretation und Vergleich der raschskalierten Interpretation und Vergleich der raschskalierten Personenparametervarianzen der englischen, deutschen und polnischen Personenparametervarianzen der englischen, deutschen und polnischen EPQ-R Versionen EPQ-R Versionen zur Überprüfung der Inhaltsvalidität zur Überprüfung der Inhaltsvalidität Jörg M. Müller Universität Tübingen http://www.joergmmueller.de/default.htm oder http://www.psychological-tests.de Theoretischer Ansatz Die Variabilität von Personen bildet sich nach einer Arbeit von Müller (2002) in den geschätzten Varianzen der Personenparameter des Raschmodells (Gleichung 1) ab. Entsprechend weisen verschiedene psychologische Eigenschaften i.d.R. verschiedene Variabilität auf, was schematisch in Abbildung 1 dargestellt ist. Abbildung 1 Verschiedene Variabilität in verschiedenen Dimensionen. Diese besondere Eigenschaft der raschskalierten Personenparameter lässt sich verschiedentlich nutzen (Müller, 2003), u.a. für eine Überprüfung der Inhaltsvalidität. Inhaltsvalidität Inhaltsvalidität (Fitzpatrick, 1983; Klauer, 1984) stellt ein zentrales Konzept innerhalb der Gültigkeitseinschätzung eines Persönlichkeitsfragebogens dar. Sie fassen Inhaltsvalidität als Repräsentativität der Itemstichprobe aus dem Universum einer (validen; Ergänzung des Autors) und theoretisch unendlichen Itemmenge auf. Hypothese Entsprechend dieser Auffassung und unter der Annahme, dass sich die vier Europäischen Nationen nur zufällig in ihrer Variabilität unterscheiden, sollten die vier durch den EPQ-R abgebildeten Skalen vergleichbare Rasch Varianzen aufweisen. Daten Zur Überprüfung dieser Hypothesen werden die Normierungsdaten von vier Operationalisierungen des EPR-R in den Sprachen Englisch (Eysenck & Eysenck, 1991)*, Deutsch (Ruch, 1999), Polnisch (Zawadzki, 1995) und Spanisch (EPQ- RS; Aluja, García, & García, 2003 ) mit vier Software- Programmen (Winmira, BilogMG, Bigsteps, Parscale) reanalysiert . Methode/Störeinflüsse auf die ‚Observed Rasch Variance‘ (ORS) Die geschätzte Varianz der Personenparameter ist allerdings von einer Reihe von Einflussgrößer mit bestimmt, u. a. von: 1. SOFTWARE 2. MESSFEHLER 3. SCHÄTZALGORITHMEN 4. LINK-FUNKTION 5. BODEN-UND-DECKEN-EFFEKTE Ziel der methodischen Überlegungen über die Einflussgrößen ist die Suche nach einem möglichst unverzerrten Schätzer der Personenparametervarianzen, welcher Vergleiche über die testspezifischen Besonderheiten hinaus erlaubt, sodass teststarke Prüfverfahren, wie der Homogenitätstests von Bartlett (1954; eine genauere Diskussion über Test zur Überprüfung gleicher Varianzen siehe Olejnik & Algina, 1988), herangezogen werden können. 1. EINFLUSS DER SOFTWARE. Auf der Basis einer Simulationsstudie wurde Parscale für die Schätzung von Rasch Varianzen als ungeeignet eingestuft (vgl. Abbildung 2). 6. Tagung der Fachgruppe Methoden und Evaluation, Wien 2003 * Mein Dank an P. Barrett, W. Ruch, A. Aluja und P. Brzozowski und R. Horn von Swets für die Daten. i i i ˆ geschätze TRS_est Einfluss der verwendeten Software: Simulationsstudie TRS 0.25 bis 4.00 (.25); N=1000; Items=20 ca. 1. Std- abw. Relevanter Bereich für reale Testverfahren Wahre TRS Abbildung 6. EPQ-R(S) Variationsunterschiede (Winmira) Personparameter Gleichung1 i A i A Ai Ai x x p exp 1 exp BODEN-UND-DECKEN Effekte auf die STANDARDABWEICHUNG BODEN-UND-DECKEN Effekte auf die KURTOSIS BODEN-UND-DECKEN Effekte auf die SCHIEFE a) Alle Items Ne Ps Spanisch (N=1006, 48 Items) Ne Ps Ne Ps Ne Ps Englisch (N=1434, 100 Items) b) Skalen um Q-INDEX auffällige Items reduziert Ne P s 0 1 2 3 Deutsch (N=2554, 64 Items) Ex Ex Ne P s Englisch (N=1434, 82 Items) 0 1 2 3 Ex Ne P s Polnisch (N=1414, 60 Items) 0 1 2 3 Ex Ne P s Spanisch (N=1006, 38 Items) 0 1 2 3 Abbildung 3: Die Reliabilität beeinflusst die ORV, aber nicht die TRV Beispiel des SPM (N=1500) TRV 0.5 1.0 1.5 2.0 Rasch Varianzen Personen ORV 10 20 30 40 50 60 Anzahl an Items Zufällig Itemreduktion Erwar tet Cronbach RawS OPP 0 1 2 Ex 0 1 2 0 1 2 0 1 2 Ex Deutsch (N=2554, 102 Items) Ex Ex Polnisch (N=1414, 90 Items) Erwar tet Winmira Parscale BilogMG Bigsteps TRV TRV TRV TRV TRV TRV TRV TRV Spearman Korrelat ion r = 0.75 s. (N=466) Cronbach s Alpha Reliabilit äten der IRT- Software 0.0 0.25 .5 0.75 1.0 0.0 0.25 .5 0.75 1.0 Erwar tet Abbildung 4: Die Wahl des Reliabilitätsschätzers ist nicht unerheblich Zusammenhang zweier empirischer Reliabilitätsschätzungen

Jörg M. Müller Universität Tübingen

  • Upload
    iman

  • View
    31

  • Download
    0

Embed Size (px)

DESCRIPTION

Interpretation und Vergleich der raschskalierten Personenparametervarianzen der englischen, deutschen und polnischen EPQ-R Versionen zur Überprüfung der Inhaltsvalidität. Jörg M. Müller Universität Tübingen http://www.joergmmueller.de/default.htm oder http://www.psychological-tests.de. - PowerPoint PPT Presentation

Citation preview

Page 1: Jörg M. Müller Universität Tübingen

Entsprechend setzt sich die beobachtete oder ‘Observed Rasch Variance’ (ORV) aus der

Varianz der wahren oder ‘True Rasch Variance’ (TRV) sowie einer Error Rasch Variance

(ERV) zusammen. Geschätzt werden die ORV sowie das Verhältnis TRV/ORV

(=Reliabilität). Die TRV ist damit unabhängig vom Messfehler bestimmbar (vgl.

Abbildung 3), da TRV=ORV*Rel. Die Wahl des Reliabilitätsschätzer ist allerdings von

Bedeutung (vgl. Abbbildung 4), da Cronbach‘s Alpha und die aus den IRT-

Softwareprogrammen angegebene Reliabilität durchaus voneinander abweichen können.

3. EINFLUSS DER SCHÄTZALGORITHMEN. Eine Vielzahl von Simulationstudien (z.

B. Hoijtink & Boomsma, 1993, 1995, 1996; Kim & Nicewander, 1993; Warm, 1989)

konnten systematische Verzerrungen der Schätzmethoden auf die ORS nachweisen. Eigene

Auswertungen zeigen nur einen relativ schwachen Einfluss.

4. EINFLUSS DER LINK-FUNKTION. Je nach verwendeter Software muss eine

Adjustierung von der Normal-Ogive auf die logistische Funktion durchgeführt werden. Für

die eigene Studie wurde für bestimmte BilogMG Programme eine entsprechende Korrektur

vorgenommen.

5. EINFLUSS VON BODEN-UND-DECKENEFFEKTEN. Über die standardisierten

Indikatoren Schiefe und Kurtosis sollten Verzerrungen entsprechend den Abbildungen

5a,b,c ermittelt und korrigiert werden. Diese Korrekturmethode wurde entwickelt, jedoch

aufgrund des unreliablen Kurtosisindikators bei den Analysen nicht angewendet.

ERGEBNISDie TRV der vier Skalen für die vier Sprachvarianten des EPQ-R finden sich in Abbildung 6a,b.

DiskussionDie TRV in Abbildung 6a sprechen nicht gegen eine gelungene Übersetzung des EPQ-R mit Ausnahme der polnischen Version. Die TRV in Abbildung 6b geben zum Teil Hinweise über Verbesserungen der Skalen zur Angleichung der inhaltlichen Validität.

AusblickZukünftig soll der Einfluss der Schwierigkeits- und Trennschärfeparameter auf die TRS genauer untersucht werden. Vorbereitung hierzu sind bereits erfolgt.

LiteraturAluja, A., García, Ó. ,& García, L.F. (2003). Dimensionality of the EPQ-RS: Structure equation modeling analysis. Personality and Individual Differences, 35 (2), 449-460.Eysenck, H. J. & Eysenck, S. B. G. (1991) Manual for the EPQ-R. Sevenoaks: Hodder and Stoughton.Müller, J. M. (2002a). Unterschiedliche Variationen in psychologischen Eigenschaften - eine Interpretation der Erstreckung einer Raschskalierung. Zeitschrift für Differentielle und Diagnostische Psychologie, 23, 261-271.Müller, J. M. (2002b). The contribution to interpret rasch variance to personality psychology. The 11th European Conference on Personality of the European Association of Personality Psychology Jena vom 21.- 25. Juli 2002.Müller, J. M. (2003). Nutzen für die psychologische Diagnostik aus der Interpretation geschätzer raschskalierter Personenparametervarianzen. Positionsreferat auf der 7. Arbeitstagung der Fachgruppe Differentielle Psychologie, Persönlichkeitspsychologie und Psychologischen Diagnostik in Halle.Ruch, W. (1999). Die revidierte Fassung des Eysenck Personality Questionnaire und die Konstruktion des deutschen EPQ-R bzw. EPQ-RK. Zeitschrift für Differentielle und Diagnostische Psychologie, 20(1), 1-24.Zawadzki, B. (1995). [The universal validity of psychoticism, extraversion, and neuroticism as the 3 superfactors of personality: The psychometric characteristics of the Polish adaptation of the Eysenck Personality Questionnaire--Revised (EPQ--R)]. Studia Psychologiczne, Vol 33(1-2), 147-188.

Interpretation und Vergleich der raschskalierten Personenparametervarianzen der englischen, Interpretation und Vergleich der raschskalierten Personenparametervarianzen der englischen, deutschen und polnischen EPQ-R Versionen deutschen und polnischen EPQ-R Versionen

zur Überprüfung der Inhaltsvaliditätzur Überprüfung der Inhaltsvalidität

Jörg M. Müller Universität Tübingen

http://www.joergmmueller.de/default.htm oder http://www.psychological-tests.deTheoretischer Ansatz

Die Variabilität von Personen bildet sich nach einer Arbeit von Müller (2002) in den geschätzten Varianzen der Personenparameter des Raschmodells (Gleichung 1) ab. Entsprechend weisen verschiedene psychologische Eigenschaften i.d.R. verschiedene Variabilität auf, was schematisch in Abbildung 1 dargestellt ist.

Abbildung 1 Verschiedene Variabilität in verschiedenen Dimensionen.

Diese besondere Eigenschaft der raschskalierten Personenparameter lässt sich verschiedentlich nutzen (Müller, 2003), u.a. für eine Überprüfung der Inhaltsvalidität.

InhaltsvaliditätInhaltsvalidität (Fitzpatrick, 1983; Klauer, 1984) stellt ein zentrales Konzept innerhalb der Gültigkeitseinschätzung eines Persönlichkeitsfragebogens dar. Sie fassen Inhaltsvalidität als Repräsentativität der Itemstichprobe aus dem Universum einer (validen; Ergänzung des Autors) und theoretisch unendlichen Itemmenge auf.

Hypothese Entsprechend dieser Auffassung und unter der Annahme, dass sich die vier Europäischen Nationen nur zufällig in ihrer Variabilität unterscheiden, sollten die vier durch den EPQ-R abgebildeten Skalen vergleichbare Rasch Varianzen aufweisen.

DatenZur Überprüfung dieser Hypothesen werden die Normierungsdaten von vier Operationalisierungen des EPR-R in den Sprachen Englisch (Eysenck & Eysenck, 1991)*, Deutsch (Ruch, 1999), Polnisch (Zawadzki, 1995) und Spanisch (EPQ-RS; Aluja, García, & García, 2003 ) mit vier Software-Programmen (Winmira, BilogMG, Bigsteps, Parscale) reanalysiert .

Methode/Störeinflüsse auf die ‚Observed Rasch Variance‘ (ORS)Die geschätzte Varianz der Personenparameter ist allerdings von einer Reihe von Einflussgrößer mit bestimmt, u. a. von:

1. SOFTWARE 2. MESSFEHLER 3. SCHÄTZALGORITHMEN 4. LINK-FUNKTION5. BODEN-UND-DECKEN-EFFEKTE

Ziel der methodischen Überlegungen über die Einflussgrößen ist die Suche nach einem möglichst unverzerrten Schätzer der Personenparametervarianzen, welcher Vergleiche über die testspezifischen Besonderheiten hinaus erlaubt, sodass teststarke Prüfverfahren, wie der Homogenitätstests von Bartlett (1954; eine genauere Diskussion über Test zur Überprüfung gleicher Varianzen siehe Olejnik & Algina, 1988), herangezogen werden können.

1. EINFLUSS DER SOFTWARE. Auf der Basis einer Simulationsstudie wurde Parscale für die Schätzung von Rasch Varianzen als ungeeignet eingestuft (vgl. Abbildung 2).

Abbildung 2

2. EINFLUSS DES MESSFEHLERS. Bereits Lord (1983) hat den geschätzten

Personenparameter als Summe eines wahren Wertes und eines Fehlerterms im Sinne der

Klassischen Testtheorie aufgefasst. Gleichung 2:

6. Tagung der Fachgruppe Methoden und Evaluation, Wien 2003

* Mein Dank an P. Barrett, W. Ruch, A. Aluja und P. Brzozowski und R. Horn von Swets für die Daten.

iii ˆ

geschätze TRS_est

Einfluss der verwendeten Software: SimulationsstudieTRS 0.25 bis 4.00 (.25); N=1000; Items=20

ca. 1. Std-abw.Relevanter Bereich für reale Testverfahren

Wahre TRS

Abbildung 6. EPQ-R(S) Variationsunterschiede (Winmira)

Personparameter

Gleichung1

iA

iAAiAi

xxp

exp1

exp

BODEN-UND-DECKEN Effekte auf die

STANDARDABWEICHUNG

BODEN-UND-DECKEN Effekte auf die

KURTOSIS

BODEN-UND-DECKEN Effekte auf die

SCHIEFE

a) Alle Items

Ne PsLü

Spanisch (N=1006, 48 Items)

Ne PsLüNe PsLü

Ne PsLü

Englisch (N=1434, 100 Items)

b) Skalen um Q-INDEX auffällige Items reduziert

Ne PsLü

0 1 2 3

Deutsch(N=2554, 64 Items)

Ex

Ex Ne PsLü

Englisch(N=1434, 82 Items)

0 1 2 3

Ex Ne PsLü

Polnisch(N=1414, 60 Items)

0 1 2 3

Ex Ne PsLü

Spanisch(N=1006, 38 Items)

0 1 2 3

Abbildung 3: Die Reliabilität beeinflusst die ORV, aber nicht die TRV Beispiel des SPM (N=1500)

TRV

0.5 1.0 1.5 2.0

Rasch Varianzen Personen

ORV

10 20 30 40 50 60

Anzahl an Items

Zufällig Itemreduktion

Erwartet

Cronbach

RawS

OPP

0 1 2

Ex

0 1 2 0 1 2

0 1 2

Ex

Deutsch (N=2554, 102 Items)

Ex Ex

Polnisch (N=1414, 90 Items)

Erwartet

Winmira

Parscale

BilogMG

Bigsteps

TRV TRV

TRVTRV

TRV

TRV

TRV

TRV

Spearman Korrelation

r = 0.75 s.(N=466)

Cronbachs Alpha

Reliabilitäten der IRT-Software

0.0 0.25 .5 0.75 1.0

0.0

0.2

5

.

5

0

.75

1.0

Erwartet

Abbildung 4: Die Wahl des Reliabilitätsschätzers ist nicht unerheblich

Zusammenhang zweier empirischer Reliabilitätsschätzungen