View
31
Download
0
Category
Preview:
DESCRIPTION
Interpretation und Vergleich der raschskalierten Personenparametervarianzen der englischen, deutschen und polnischen EPQ-R Versionen zur Überprüfung der Inhaltsvalidität. Jörg M. Müller Universität Tübingen http://www.joergmmueller.de/default.htm oder http://www.psychological-tests.de. - PowerPoint PPT Presentation
Citation preview
Entsprechend setzt sich die beobachtete oder ‘Observed Rasch Variance’ (ORV) aus der
Varianz der wahren oder ‘True Rasch Variance’ (TRV) sowie einer Error Rasch Variance
(ERV) zusammen. Geschätzt werden die ORV sowie das Verhältnis TRV/ORV
(=Reliabilität). Die TRV ist damit unabhängig vom Messfehler bestimmbar (vgl.
Abbildung 3), da TRV=ORV*Rel. Die Wahl des Reliabilitätsschätzer ist allerdings von
Bedeutung (vgl. Abbbildung 4), da Cronbach‘s Alpha und die aus den IRT-
Softwareprogrammen angegebene Reliabilität durchaus voneinander abweichen können.
3. EINFLUSS DER SCHÄTZALGORITHMEN. Eine Vielzahl von Simulationstudien (z.
B. Hoijtink & Boomsma, 1993, 1995, 1996; Kim & Nicewander, 1993; Warm, 1989)
konnten systematische Verzerrungen der Schätzmethoden auf die ORS nachweisen. Eigene
Auswertungen zeigen nur einen relativ schwachen Einfluss.
4. EINFLUSS DER LINK-FUNKTION. Je nach verwendeter Software muss eine
Adjustierung von der Normal-Ogive auf die logistische Funktion durchgeführt werden. Für
die eigene Studie wurde für bestimmte BilogMG Programme eine entsprechende Korrektur
vorgenommen.
5. EINFLUSS VON BODEN-UND-DECKENEFFEKTEN. Über die standardisierten
Indikatoren Schiefe und Kurtosis sollten Verzerrungen entsprechend den Abbildungen
5a,b,c ermittelt und korrigiert werden. Diese Korrekturmethode wurde entwickelt, jedoch
aufgrund des unreliablen Kurtosisindikators bei den Analysen nicht angewendet.
ERGEBNISDie TRV der vier Skalen für die vier Sprachvarianten des EPQ-R finden sich in Abbildung 6a,b.
DiskussionDie TRV in Abbildung 6a sprechen nicht gegen eine gelungene Übersetzung des EPQ-R mit Ausnahme der polnischen Version. Die TRV in Abbildung 6b geben zum Teil Hinweise über Verbesserungen der Skalen zur Angleichung der inhaltlichen Validität.
AusblickZukünftig soll der Einfluss der Schwierigkeits- und Trennschärfeparameter auf die TRS genauer untersucht werden. Vorbereitung hierzu sind bereits erfolgt.
LiteraturAluja, A., García, Ó. ,& García, L.F. (2003). Dimensionality of the EPQ-RS: Structure equation modeling analysis. Personality and Individual Differences, 35 (2), 449-460.Eysenck, H. J. & Eysenck, S. B. G. (1991) Manual for the EPQ-R. Sevenoaks: Hodder and Stoughton.Müller, J. M. (2002a). Unterschiedliche Variationen in psychologischen Eigenschaften - eine Interpretation der Erstreckung einer Raschskalierung. Zeitschrift für Differentielle und Diagnostische Psychologie, 23, 261-271.Müller, J. M. (2002b). The contribution to interpret rasch variance to personality psychology. The 11th European Conference on Personality of the European Association of Personality Psychology Jena vom 21.- 25. Juli 2002.Müller, J. M. (2003). Nutzen für die psychologische Diagnostik aus der Interpretation geschätzer raschskalierter Personenparametervarianzen. Positionsreferat auf der 7. Arbeitstagung der Fachgruppe Differentielle Psychologie, Persönlichkeitspsychologie und Psychologischen Diagnostik in Halle.Ruch, W. (1999). Die revidierte Fassung des Eysenck Personality Questionnaire und die Konstruktion des deutschen EPQ-R bzw. EPQ-RK. Zeitschrift für Differentielle und Diagnostische Psychologie, 20(1), 1-24.Zawadzki, B. (1995). [The universal validity of psychoticism, extraversion, and neuroticism as the 3 superfactors of personality: The psychometric characteristics of the Polish adaptation of the Eysenck Personality Questionnaire--Revised (EPQ--R)]. Studia Psychologiczne, Vol 33(1-2), 147-188.
Interpretation und Vergleich der raschskalierten Personenparametervarianzen der englischen, Interpretation und Vergleich der raschskalierten Personenparametervarianzen der englischen, deutschen und polnischen EPQ-R Versionen deutschen und polnischen EPQ-R Versionen
zur Überprüfung der Inhaltsvaliditätzur Überprüfung der Inhaltsvalidität
Jörg M. Müller Universität Tübingen
http://www.joergmmueller.de/default.htm oder http://www.psychological-tests.deTheoretischer Ansatz
Die Variabilität von Personen bildet sich nach einer Arbeit von Müller (2002) in den geschätzten Varianzen der Personenparameter des Raschmodells (Gleichung 1) ab. Entsprechend weisen verschiedene psychologische Eigenschaften i.d.R. verschiedene Variabilität auf, was schematisch in Abbildung 1 dargestellt ist.
Abbildung 1 Verschiedene Variabilität in verschiedenen Dimensionen.
Diese besondere Eigenschaft der raschskalierten Personenparameter lässt sich verschiedentlich nutzen (Müller, 2003), u.a. für eine Überprüfung der Inhaltsvalidität.
InhaltsvaliditätInhaltsvalidität (Fitzpatrick, 1983; Klauer, 1984) stellt ein zentrales Konzept innerhalb der Gültigkeitseinschätzung eines Persönlichkeitsfragebogens dar. Sie fassen Inhaltsvalidität als Repräsentativität der Itemstichprobe aus dem Universum einer (validen; Ergänzung des Autors) und theoretisch unendlichen Itemmenge auf.
Hypothese Entsprechend dieser Auffassung und unter der Annahme, dass sich die vier Europäischen Nationen nur zufällig in ihrer Variabilität unterscheiden, sollten die vier durch den EPQ-R abgebildeten Skalen vergleichbare Rasch Varianzen aufweisen.
DatenZur Überprüfung dieser Hypothesen werden die Normierungsdaten von vier Operationalisierungen des EPR-R in den Sprachen Englisch (Eysenck & Eysenck, 1991)*, Deutsch (Ruch, 1999), Polnisch (Zawadzki, 1995) und Spanisch (EPQ-RS; Aluja, García, & García, 2003 ) mit vier Software-Programmen (Winmira, BilogMG, Bigsteps, Parscale) reanalysiert .
Methode/Störeinflüsse auf die ‚Observed Rasch Variance‘ (ORS)Die geschätzte Varianz der Personenparameter ist allerdings von einer Reihe von Einflussgrößer mit bestimmt, u. a. von:
1. SOFTWARE 2. MESSFEHLER 3. SCHÄTZALGORITHMEN 4. LINK-FUNKTION5. BODEN-UND-DECKEN-EFFEKTE
Ziel der methodischen Überlegungen über die Einflussgrößen ist die Suche nach einem möglichst unverzerrten Schätzer der Personenparametervarianzen, welcher Vergleiche über die testspezifischen Besonderheiten hinaus erlaubt, sodass teststarke Prüfverfahren, wie der Homogenitätstests von Bartlett (1954; eine genauere Diskussion über Test zur Überprüfung gleicher Varianzen siehe Olejnik & Algina, 1988), herangezogen werden können.
1. EINFLUSS DER SOFTWARE. Auf der Basis einer Simulationsstudie wurde Parscale für die Schätzung von Rasch Varianzen als ungeeignet eingestuft (vgl. Abbildung 2).
Abbildung 2
2. EINFLUSS DES MESSFEHLERS. Bereits Lord (1983) hat den geschätzten
Personenparameter als Summe eines wahren Wertes und eines Fehlerterms im Sinne der
Klassischen Testtheorie aufgefasst. Gleichung 2:
6. Tagung der Fachgruppe Methoden und Evaluation, Wien 2003
* Mein Dank an P. Barrett, W. Ruch, A. Aluja und P. Brzozowski und R. Horn von Swets für die Daten.
iii ˆ
geschätze TRS_est
Einfluss der verwendeten Software: SimulationsstudieTRS 0.25 bis 4.00 (.25); N=1000; Items=20
ca. 1. Std-abw.Relevanter Bereich für reale Testverfahren
Wahre TRS
Abbildung 6. EPQ-R(S) Variationsunterschiede (Winmira)
Personparameter
Gleichung1
iA
iAAiAi
xxp
exp1
exp
BODEN-UND-DECKEN Effekte auf die
STANDARDABWEICHUNG
BODEN-UND-DECKEN Effekte auf die
KURTOSIS
BODEN-UND-DECKEN Effekte auf die
SCHIEFE
a) Alle Items
Ne PsLü
Spanisch (N=1006, 48 Items)
Ne PsLüNe PsLü
Ne PsLü
Englisch (N=1434, 100 Items)
b) Skalen um Q-INDEX auffällige Items reduziert
Ne PsLü
0 1 2 3
Deutsch(N=2554, 64 Items)
Ex
Ex Ne PsLü
Englisch(N=1434, 82 Items)
0 1 2 3
Ex Ne PsLü
Polnisch(N=1414, 60 Items)
0 1 2 3
Ex Ne PsLü
Spanisch(N=1006, 38 Items)
0 1 2 3
Abbildung 3: Die Reliabilität beeinflusst die ORV, aber nicht die TRV Beispiel des SPM (N=1500)
TRV
0.5 1.0 1.5 2.0
Rasch Varianzen Personen
ORV
10 20 30 40 50 60
Anzahl an Items
Zufällig Itemreduktion
Erwartet
Cronbach
RawS
OPP
0 1 2
Ex
0 1 2 0 1 2
0 1 2
Ex
Deutsch (N=2554, 102 Items)
Ex Ex
Polnisch (N=1414, 90 Items)
Erwartet
Winmira
Parscale
BilogMG
Bigsteps
TRV TRV
TRVTRV
TRV
TRV
TRV
TRV
Spearman Korrelation
r = 0.75 s.(N=466)
Cronbachs Alpha
Reliabilitäten der IRT-Software
0.0 0.25 .5 0.75 1.0
0.0
0.2
5
.
5
0
.75
1.0
Erwartet
Abbildung 4: Die Wahl des Reliabilitätsschätzers ist nicht unerheblich
Zusammenhang zweier empirischer Reliabilitätsschätzungen
Recommended