12
Psicometria diferencial , mq Editorial Trillas

Magnusson 5

Embed Size (px)

DESCRIPTION

Teoría de los Tests, Magnusson, Trillas

Citation preview

Page 1: Magnusson 5

Psicometria diferencial

, mq Editorial Trillas

ZhapKiel
Text Box
Magnusson, D. (1975) Teoría de los Test. México: Trillas
Page 2: Magnusson 5

76 VARlANZA TOTAL DE UN TEST; CCVARIANZA

Tabla 4-2. Matriz varianza-covarianza, Item

Capltulo 5

I tem

1

5-1 DOS ASPECTOS DE LA CONFlABlLlDAD DE LA MEDIC16N

1 2 3 ... i . . . n

52 CIZ C18 , . . Cl( . .. C1n

Las ecuaciones derivadas y presentadas en este capitulo son importantes para entender la composici6n de la varianza de un test. Sin embargo, a menos que 10s cilculos sean realizados con mhquinas, resulta tedioso aplicar estas ecuaciones en la prictica para computar la varianza total del twt. El nGmero de tdrminos de covarianza que han de computarse se incrementa rhpidamente con el nGmero de items del test. La varianza total puede, sin embargo, computarse directamente de 10s puntajes individuales en el t:st completo. La varianza de 10s puntajes en la columna de la matriz puntaje que contiene el nGmero de soluciones correctas para cada individuo se computa de la manera acostumbrada. El resultado de tal cdculo es numi- ricamente igual a1 que se obtendria' si la varianza del test se hubiera compu- tad0 sumando todos 10s puntajes de las celdillas de la matriz varianza- covarianza.

PROBLEMAS

1. Construya una distribucih de lrecuencias de 10s puntajes obtenidos por 10s indi- viduos en el problema 10 (capitulo 3 ) .

2. Construya la matriz varianza-covarianza para 10s items del problems 10 (ca- pitulo 3 ) . Use 10s coelicientes g que lueron computados en erte problema.

3. Compute la varlanza de la distrlbuci6n de 10s puntajes obtenidos en la matriz del problema 10 (capitulo 3 ) , a ) usando 10s valores de la mat& varianza-cova- rianza, y b ) usando la ecuacidn comhn para computar la varianza.

4. Usando la ecuacih (4-5) determine la varianza total de un test de 10 items, si para cada item p = 0.50 y para cada pareja de items, a) rrr = 0.30, b ) rcr = 1.00, C ) r r , = 0.00.

Lecturas sugeridas

GULLIKSEN, H., (1950). Theory of mental tests. Nueva York: Wiley. HORST, P. (1963). Matrix algebra for social scientists. Nueva York: Holt, Rinehart

& Winston.

Para que 10s datos obtenidos con diferentes tipos de instrumentos de me- dici6n puedan usarse en situaciones pricticas, Cstos deben satisfacer ciertas condiciones. Primero, el instrumento de medida que se usa en un cam y con un prop6sito dados debe realmente medir el rasgo que se intenta me- dir. Segundo, el instrumento debe dar medidas confiables, de manera que se obtengan 10s mismos resultados a1 volver a medir el rasgo, bajo condicio- I& similares del objeto 6-duo'en cuesti6nJ Los datos deben ser con-

I fiables desde dos puntos de vista: deben ser sipificativos y reproducibles. El primer requisito impuesto a1 instruments de medida, que 10s resulta-

dos realmente se refieran a1 r a g 0 que se intenta medir, es obvio. No hay I problemas cuando se miden propiedades fisicas de 10s objetos; es comple- I tamente evidente que si usamos una cinta mitrica de manera corrects,

medimos la longitud de un objeto, per0 ya no es tan claro cuando usamos ! un cuestionario de cierto tipo para medir el grado de neurotismo de un

individuo. No podemos convencernos de inmediato de que 10s datos obte- pidos con este instrumento realmente expresen el grado de neurotismo del individuo. En psicologia diferencial muchos instrumentos fueron construidos para medir ciertos rasgos y empleados con este propbsito; se desacreditaron m6s tarde cuando un examen cuidadoso revelb que otras variables eran las que determinaban 10s resultados individuales. Es necesario, por consiguiente, probar empiricamente que el instrunlento mide la variable que se intenta medir en cada caso especifico. A esto se le llama investigar la validez del instrumento y es una fase importante en el trabajo de construcci6n de nue- vos instrumentos en psicologia diferencial. El conocimiento del grado de valida del instrumento es necesario para que 10s datos obtenidos con 61 puedan usarse significativamente.

El segundo requisito de 10s instrumentos de medida, mencionado a1 prin- cipio de esta secci6n, fue que 10s resultados obtenidos con el instrumento

Page 3: Magnusson 5

, 78 CONFlABlLlDAD 5 - 2

en una determinada ocasibn, bajo ciertas condiciones, deben ser reproduci- bles, es decir, 10s resultados dcben scr 10s mismos si volvemos a medir el mismo rasgo en condiciones iddnticas. Este aspect0 de la exactitud de un instrumento de medida es su con!irlbilidad en la acepci6n tCcnica de este t6rmino. Aqui la confiabilidad es la exactitud de la medici6n,..independjeenen- tcmente de que uno . estk realmerite midiendo lo gu.e-ha querido-medir;- Por Gem- uno prueba la confiabilidad de un test de aptitud escolar, la medida que uno obtiene de la prueba empirica de la confiabilidad, es una medida de la capacidad del test para dar 10s mismos resultados en repetidas pruebas, sin importar si estc resultado tiene que ver o no con la aptitud de 10s niiios para la escuela.

Como en el caso de la validez, la confiabilidad debe ser investigada empiricarnentc para cada instrumento. El conocimiento de la confiabilidad es necesario para que 10s datos dc 10s instrumentos de la psicologia dife- rencial puedan usarsc correctamentc.

5-2 CONFIABILIDAD; COEFICIENTE DE CONFlABlLlOAD

Los problemas dc confiabilidad se reficren entonccs a la exactitud con que un instrumento de mcdida, pot cjcrnplo, un test, mide lo que mide. Cono- ciendo su confiabilidad podemos intcrpretar 10s datos del instrumento con un grado conocido de confianza.

Si medimos una cierta distancia varias veces con una cinta mktrica de metal, probablcmente obtengamos resultados casi idCnti6os en todas las ocasiones. Esto es cierto, independientemente de que sea el mismo indivi- duo quien realice todas las medicioncs. Los datos que obtenemos tienen un alto grado de confiabilidad. Supongamos ahora que las mediciones se hacen con una cinta mftrica de material elirtico, entonces, a1 hacer repetidas me- diciones de la misma distancia no darin 10s mismos resultados, sino una distribuci6n de valores con cierta cantidad de dispersibn. Esto serl cierto independientemcnte dc que el inismo individuo efectGe o no las medidas. Si las medicioncs de una Inisma distancia son efectuadas por diferentes indi- viduos, la dispcrsi6n dc 10s valorcs obtenidos seria mis grande que si cl mismo nGmero de mediciones fueran hechas pot un solo individuo. Los datos obtenidos de las medicioncs efectuadas con una cinta mktrica elistica tienen un grado m h bajo de confiabilidad que las obtenidas con una cinta mCtrica metilica. La dispersi6n dc 10s valores obtenidos de repetidas me* diciones de la misma distancia, bajo condiciones similares, puede tomarse como expresi6n dc inconfiabilidad; cuanto mayor es la diferencia entrc medidas del, mismo rasgo en rcpetidas ocasiones, tanto menor es la con- fiabilidad.

5-2 CONFIABILIDAD; COEFICIENTE DE CONFlABlLlDAD 7 9

Los valores obtenidos con una cinta mktrira elistica serin afectados no solamente por la distancia medida, sino tambidn por otros factores. En este caso, el instrumento de medici6n es sensible a las fluctuaciones intraindi- viduales y a las diferencias interindividuales expresadas por Cste en la exten- si6n de la cinta de medir en diferentes ocasiones.1-La inconfiabilidad es un resultado de la sensibilidad del instrumento a 10s factores que no afectan el tamaiio de las medidas sistemiticamente, per0 cambian de una situaci6n de medida a otraLfn un capitulo posterior tratarema la naturaleza de 10s factores de er& q e deben tenerse en cuenta a1 hacer mediciones en psi- cologia diferencial.

El grado de acuerdo entre medidas hechas en diferentes ocasiones pue- de computarse por medio de 10s mktodos de correlaci6n. El coeficiente de correlaci6n para el acuerdo entrc medidas repetidas bajo condiciones simi- lares, constituye el valor numErico de la confiabilidad de 10s datos que pue- - -

den obtenerse con un instrumento dado. Este coeficiente de correlaci6n es /llamado coeficiente d e cenfiabilidad, y pugde?Toma_r ~ a 5 r e s en5cgro-f / ~ & ; v r o ~ n $ ~ e ~ - n e g a t i v o (vcr t&bikn p6gs. 80-01) . E e l --- instrument~ i es insensible a 10s factorcs debidos a1 azar, 10s puntajes del individuo en

medidas sucesivas serin idfnticos, y sus posicioncs cn las distribuciones que podemos construir cn cada ocasi6n de inedida ser6n las mismas, por lo que la correlaci6n entre las distribuciones s e r 5 . a l a s medidas que puedcn hacerse con tal instrumento son completamente confiablcs.

Cuando medimos las caracteristicas de un objeto con la ayuda de ins- trumentos fisicos (cintas mktricas, balanzas, e t ~ . ) , ~odemos volver a medir el mismo objeto con el mismo instrumento para obtener valores sobre dos distribuciones, como se hace cuando deseamos establecer la confiabilidad de un instrumento. Esto puede hacerse mientras la magnitud del rasgo que se esti midiendo no cambia para el objeto en cuesti6n (por ejemplo, el resultado de aplicar el instrumento de medida a1 objeto), y mientras el valor cuya magnitud va a ser esdmada permanczca sin cambiar.

Cuando las variables psicol6gicas son medidas por 10s mktodos usados en psicologia diferencial a menudo es dificil estimar la confiabilidad del instrumento de esta mancrx; una ra76n cs que 10s individuos que fueron sometidos a la prueba son alcctados por la primera aplicacih del instru- mento; este efecto es diferente para cada individuo. Como resultado, 10s

-valores relativos de 10s individuos cn la variable mcdida en la primera o z - s16n, serin un tanto diferentcs en la segunda ocasi6n de medidas, simple- mente porque el material ya ha sido presentado una vez. Si hay un espacio de tiempo entre las dos aplicaciones, 10s individuos pueden haberse desarro- llado de diferentes maneras; esto tambikn conduce a la medida de valores objetivos cambiados. No es necesario, sin embargo, repetir las medidas con

Page 4: Magnusson 5

90 CONFlABlllDAD 5 .'2 I

el mismo instrumento para estimar su confiabilidad, pues pod :mos usar instrumentos de medida equivalerites, llamados test paralelos.

Lo que hemos presentado hasta aqui es la teoria clisica de la confia- bilidad. La prcsentaci6n mis completa de esta teoria fue dada por Gullik- sen en su b6sico y bien conocido iibro Theory of Mental Tests (1950).

De acuerdo a la teoria clisica de la confiabilidad, 10s test paralelos de- ben construirse de tal manera que una aplicacibn de dos tests de li misma correlaci6n entre las dos distribuciones de puntajes, que la de dos aplicaciones de uno de 10s tests. Esta condici6n esti basada en la suposici6n de que podemos quitar todas las huellas de la primera aplicaci6n en la segunda ocasi6n. Los items que correspondan entre si en 10s tests paralelos deberin ser tan similares en contenido y dificultad, que las medidas con arnbos den 10s mismos resultados que el medir dos veces con uno de cLm. Cuando construimos tests paralelos de acuerdo con esta definici611, debi mos asegurarnos de que 10s items de un test corresponden a 10s ftems del $atro en contenido, instrucciones, tip0 de respuesta, etc. En teoria, 10s tests p: ra- lelos tienen medias, varianzas e intcrcorrelaciones iguales; si las condicic- nes son satisfechas completamente, 10s tests serin perfectamente paralelos. Sin embargo, en la prictica no es posible lograr esto.

Nuestro tratamiento de la teoria de la confiabilidad bisica se basari en la definici6n dada de confiabilidad como la correlaci6n entre tests paralelos. Las medicioncs pueden hacerse o bien por medio de la aplicaci6n repetida del instrumento cuya confiabilidad estamos estudiando (si suponemos que todas las huellas de la primera aplicaci6n pueden borrarse), o bien por medio de dos tests paralelos que iucron construidos satisfaciendo las condi-. ciones de tales tcsts. En lo sucesivo, el tkrrnino "tests paralelos" se referiri a tales medidas.

La correlaci6n cntre dos tests paralelos que satisfacen las condiciones mencionadas nos da una idea de la cxactitud con que fueron escogidos 10s items especificos para que el test mida una variable dada. Sin embargo, en muchas situac~oncs estamos intercsados en la exactitud con que este tipo de item mide el rasgo ya medido en el primer test. Los tests paralelos han sido tambikn dcfinidos como tcsts compuestos de items seleccionados a1 azar de la misma "poblaci6n" de items. Los tests paraleios de este tip0 serin ilamados en lo futuro tests paralelos a1 azar. Las consecuencias de esta defi- nici6n de tests paralelos s e r h disc~tidas en este y en 10s capitulos siguientes.

El lector interesado en un estudio mis detallado del importante proble- ma de la confiabilidad, como cxpresibn de las posibilidades de generalizar de un conjunto de observaciones a un universo especifico de observaciones, puede consultar a Cronbach, Rajnratnam o a Gleser (1963).

5-3 PUNTAJE OBSERVADO; PUNTAJE VERDADERO; PUNTAJE ERROR 81

5-3 PUNTAJE OBSERVADO; PUNTAJE VERDADERO; PUNTAJE ERROR

La teoria de la confiabilidad se basa en una suposici6n, ya presentada por Spearman (1910), que el puntaje t obtenido por un individuo j (esto es, t j )

puede considerarse que est5 formado por dos componentes: T j (un pun- taje verdadero) y el (un puntaje error) :

El rasgo medido por un cierto test de ejecuci6n puede representarse por un continuo latente, que es una escala de capacidad, en la que cada indivi- duo toma cierta posici6n. La posici6n de un individuo en esta escala de capxidad determina con una correlaci6n perfecta, pero no lineal, su pun- taje verdadero en el test, su posicih en una escala de puntajes verdaderos.

En la teoria clisica de la confiabilidad, el puntaje verdadero que puede . predecirse con completa certaa a partir del continuo latente es el mismo

para cada individuo en todos 10s tests paralelos (ver figura 5-1). Cuando a1 usar instrurnentos equivalentes de medida para estimar 10s

puntajes verdaderos del individuo, obtenemos diferentes valores de cierto rasgo, podemos deducir que son el resultado de la presencia de puntajes error, 10s cuales pueden ser caracterizados como errores fortuitos o errores a1 azar. Estos son provocados por la sensibilidad del instrumento a aquellos factores cuyo efecto varia de una ocasi6n a otra, es decir, factores diferentes a aquellos que determinan los puntajes verdaderos del individuo; pueden ser factores individuales, tales como si el individuo esti o no cansado, si ha comido o no, si ha hecho ejercicios fisicos, si esth ansioso, etc. Tambikn pueden ser factores ambientales, como la presencia de perturbaciones ex- ternas que distraigan a1 individuo. Estos factores cambian de una ocasi6n d e medida a otra y en cierto grado modifican la capacidad de ejecuci6n del individuo.

El puntaje error de un individuo en una medici6n resulta de la dife- rencia entre el puntaje observado y el puntaje verdadero:

Algunas propiedades de 10s errores se definen comirnrnente mediante las siguientes ecuaciones:

Page 5: Magnusson 5

Test

I

M,=O

Fig. 5-1. \'arias tests paralelos 1, 2, '3, . . . , g, todor con el mismo puntaje verdadero (TI) pero con tliferentes puntajes error, e l , , ell , etc., independientes entre si, para el individuo j.

L a ecuaci6n (5-3) establece que la media de 10s puntajes error es cero. Esto es cierto a) para un nrimcro infinito d e individuos en el mismo test, sin importar sus puntajes verdaderos, y b ) para 10s puntajes error d e un individuo en un nlimero infinito d e tests paralelos (ver figura 5 -1 ) .

La ecuaci6n (5 -4 ) establecc que la correlaci6n entre 10s puntajes error cn difercntcs aplicaciones dcl test cs ccro para un nlimem infinito de indivi- duos. Esto cs ra-/onable si 10s puntajcs crror son considerados como errores a1 azar.

L a ecuaci6n (5-5) establccc quc la correlaci6n entre 10s puntajes ver- daderos y 10s puntajes error cs ccro. Esta suposici6n ha sido muy discutida y serP tratada con mhs detalle cn cl s ip icn te capitulo. DeLeri observarse, sin embargo, que una implicacih d e la suposici6n de que la correlaci6n entre 10s puntajcs verdaderos y de error es cero - 4 s decir, que la direc- ci6n de 10s crrores es independientc del tamafio de 10s puntajes verdaderos

5 - 3 PUNTAJE OBSERVADO; PUNTAJE VERDADERO; PUNTAJE ERROR 83

para un nlirnero infinito de individuos- tiene validez en las dcducciones que siguen inmediatamente. El resultado de esto es que la suma sobre un ndmero de individuos, de 10s productos del tip0 T,ei, donde T j y e j son desviaciones d e las medias de las distribucioncs dc 10s puntajcs vcrdadcros y de error, respectivamente, ser i igual a ccro para un nlimcro infinito dc productos.

Deberi observarse quc la dcfiniridn dc errorcs como crrorcs a1 azar significa que 10s llamados rrrorcs constantrs, no estin incluidos cn 10s pun- tajes error, por ejemplo, cl crror quc sc produce a1 mcdir con una cinta rnhtrica que siempre d a un resultado dos pulgadzs m i s largo o 10% mAs corto (ver Andreas, 1960, piginas 107-108).

Suponiendo que 10s puntajes error tienen una mcdia csperada de cero, podemos definir el puntajc vcrdadcro dc un individuo corno la mcdia dt: 10s puntajes en un nlimero'infinito dc tcsts paralelos. Cuanto mayor cs el ndmero dc tests paralelos aplicados, tanto mayorcs son las oportunidades d e que 10s errorcs a1 azar sc cancclcn cntrc si; por lo quc la suma de 10s puntajes crror ser i cero para un nlimcro infinito dc tcsts paralclos.

U n a distribuci6n de frccucncias dc puntajcs, er, la que fsta incluye el puntaje de cada individuo, puedc traparse despufs dc quc a un detcrminado nlirnero de individuos sc Ic ha aplicado cicrto test. Esta distribuci6n ( t en la f i p r a 5-2) se obtuvo combinando las distribucioncs T y c, cs decir, las distribuciones que puedcn dibujarsc para 10s puntajes verdadcros y puntajcs error. Cada individuo incluido cn la distribucihn t, por ejemplo, 10s indivi- duos j y I , tambien se incluycn cn las distribncioncs T y c. Usando las supo- siciones hcchas anteriomcntc, podcrnos escribir la varianpa dc la distribu- ci6n t como la suma de las varianzas dc las dos subdistribucioncs; ya que la correlaci6n entre 10s puntajes verdadcros y dc error se supone que es cero, el t h n i n o de covarianza que debcria incluirse en cl lado derecho de la siguiente expresi6n es tambifn ccro:

L a varianza total dcl test ( s f ) cs igual para 10s tcsts paralelos; la va-

rianza de 10s puntajes vcrdaderos ( s? ) cs tanlbiCn i p a l para 10s tcsts pa- ralelos, puesto que cada individuo contribuye exactamente con el misnio puntaje a las diversas distribucioncs de puntajes vcrdadcros. Por lo tanto, la distribucidn d e error t a m b i h ticnc la misma varianza para tests para- lelos; per0 mientras que 10s individuos tienen 10s mismos puntajes en las diversas distribuciones d e puhtajcs vcrdadcros, el tamaiio y la direcci6n dc sus puntajes error variari a] azar dc un test paralelo a otro.

Page 6: Magnusson 5

' 84 CONFlABlLlDAD LA D E F I N I C I ~ N ESTADkTlCA DE CONFlABlLlDAD 85

Fig. 5-2. Distribucionrs de puntajes verdaderos (T) , de puntajes error ( e ) y de puntajes obtenidos ( t ) para 10s datol de la misma poblaci6n.

5-4 PA DEFINIC16N ESTADISTICA DE CONFlABlLlDAD

Volvie~do a1 problema de estimar la confiabilidad de un test, empecemos por la definici6n de confiabilidad como la correlaci6n entre un test dado y un test paralelo.

Los puntajcs de un individuo j en dos tests paralelos se representan por tjl y ti2, estos valores dan 10s resultados del individuo como desviaciones respecto dc las medias de las distribucionef. Obtenemos asi

donde c , , es cl componente de error del puntaje del individuo en el test 1, y el? es el componente de error del puntaje del individuo en el test 2. N6te- se que el puntaje verdadero de un individuo dado es el mismo en tests pa- ralelos.

De la ecuaci6n que define un coeficiente de correlaci6n (ecuaci6n 3-6), I

obtenemos la siguiente expresibn para la correlacibn entre dos tests para- 1

lelos :

Los terminos segundo y tercero serin cero (ver phg. 82), ya que las direcciones de 10s puntajes vcrdaderos y de crror sc han supucsto que son independientes entretsi; el cuarto tdrmino cs tnmbikn cero porque de acuerdo con las suposiciones hechas, 10s errores no cstin correlacionados entre si.

Como se supuso que 10s dos tests eran paralelos, las desviaciones estin- dar de 10s puntajes en dichos tests son igualcs:

El primcr tkrmino puedc escribirse ahora XT;/Ns;, donde TI exprcsa las desviaciones de 10s individuos respecto de la media de la distribuci6n de 10s puntajes verdaderos, y X T f / N es, entonces, la expresi6n para la varianza de 10s puntajes verdaderos (s?,). Por lo tanto, el primer tkrmino puede es- cribirsc s?,/s:. Asi obtenemos

Pero sl, = s; - s,2, luego la ecuaci6n (5-7) puede escribirse

r t t = 1 - --- _.

(5-8) . Con las suposiciones clisicas que hemos hecho, la confiabilidad puede

entonces definirse como la proporci6n entre la varianza verdadera y la varianza total. El coeficiente de confiabilidad para la relaci6n entre dos tcsts paralelos da el valor numdrico de la proporci6n entre In varianza de la distribucibn de 10s puntajes verdaderos y la varian~a de la distribuci6n de 10s puntajes obtenidos en 10s tests. L - /

Ahora volvamo<'a la figura 5-2. Cuando la varianza de la distribuci61-1 total (1) ticne un tamalio dado, la confiabilidad esti determinada por la magnitud de la varianza de 10s puntajes verdaderos. Si el puntaje de cada individuo en la distribuci6n total cs el mismo que su puntaje verdadero, entonces la varianza de la distribucih total seri la misma que la varianza de 10s puntajcs verdaderos y la confiabilidad seri 1.0. Si este es el caso, la medici6n ha expresado exactamente el puntaje verdadero de cada individuo, y la varianza error es cero.

La ecuaci6n (5-8) es la base dc la afirmaci6n no probada hecha ante- riormente, de que el coeficiente de correlaci6n, que expresa la relaci6n

Page 7: Magnusson 5

86 CONFlABlLlDAD 5-5 5-6 CONFlABlLlDAD Y LONGITUD DEL TEST 87

entre las mcdiciones de tcsts paralclos y por lo cual es un coeficiente de confiabilidad, pucde tomar solamentc valorcs positivos. Cuando la varianza de error cs mixima, i p a l a la varianza total del test, el coeficiente de confiabilidad cs ccro; esto sucede cuando todo el puntaje obtenido por cada individuo cs un puntaje crror, y entonces el test es completamcnte in- confiable. Sin embargo, clcbcria obscrvarse que cuando las computaciones se basan cn una muestra pcquciia dc individuos, y el cocficiente dc confia- bilidad cs, por ejemplo, cero para la poblacih, se pueden obtencr coefi- cientes ncgativos. (Ver la discusi6n dc 10s errorcs estirglar de 10s coeficientes de correlaci6n en la pigina 64.j

Las dcfiniciones de confiabilidad discutidas en este capitulo puedcn re- sumirse asi. La confiabilidad cs la cxactitud con que el instrumento mide 10s puntajes vcrdaderos, y so esprcsa por la relaci6n entre 10s resultados de las medidas de dos tests paralrlos dcl mismo rasgo y bajo las mismas con- diciones. El coeficientc para csta relaci6n es el coeficiente de confiabilidad de uno de 10s dos tests, y da la proporci6n de la varianza tota! de uno de 10s dos tcsts que est i constituida por la varianza de la distribuci6n de 10s puntajes verdaderos.

5-5 CORRELAC16N ENTRE PUNTAJES VERDADEROS Y PUNTAJES OBTENIDOS

Q u i d tenga valor para el anilisis siguiente presentar la relaci6n entre 10s puntajes verdadcros y 10s observados en forma de ecuaci6n. Si esta relaci6n es denotada por rtr y si T, e , y t a h representan las desviaciones de las medias de las rcspcctivas distribucioncs, obtenemos la siguiente expresi6n:

T ~ T = 2 (T + e ) T/Nstsp. (5-9) Desarrollando cl lado derecho de la ecuaci6n (5-9), tencmos

ZT2,'h'stsr + ~ e T / N s , s ~ . ( 5 1 0 )

Pero ZT2/A; = s l , as; quc el primer tkrmino en la ecuaci6n (5-10) puede escribine sT/sl L a suma de 10s productos e T es cero, asi que el s e p n d o tbrmino tamb1i.11 w r i ccro. Por lo tanto, obienemos

T I T = (T/JI. (5-1 1 )

Pcro de la ccuaci6n ( 5 - 7 )

S; /S~ = T f r . (5-12)

D e las ecuacloncs (5-11) y (5-12) obtencmos finalmcnte

T , T = 6 (5-13)

L a raiz cuadrada del coeficicnte de confiabilidad nos da cntonccs la corre- laci6n entre 10s puntajes observados y 10s puntajes vcrdadcros del test. Este valor es llamado cornGnmcntc indicc dc confiabilidacl clcl tcst.

5-6 CONFlABlLlDAD Y LONGITUD DEL TEST

L a confiabilidad d e 10s puntajcs dc un test es una funci6n dcl n h c r o dc items que componen el test. Esto puede verse ficilmente estudiando la fi- gura 5-1. U n test de cierta longitud d a un crror al azar de cierto tamaiio y direcci6n cuando cs aplicado a un individuo dado. Si varios tests para- lelos (1, 2, 3, . . ., g) son entonccs aplicados ademis, 10s puntajes crror e n 10s varios subtests tendrin difcrentes signos y magnitudes y, si se com- binan 10s tests paralelos en un test total, cuanto mayor es el nrimcro de subtests incluidos en el test total, tanto mayor se r i el nrimero de 10s que se cancelarin entre si. Y gradualmente nos acercaremos al puntaje verda- dero de cada individuo. Pucsto que la confiabilidad puede definirse como la exactitud con que un test estima 10s p u ~ t a j e s verdaderos, la confiabi- lidad se incrementari al aurncntar el nrimero de tests paralelos incluidos en el test total. Afiadiendo un nrirncro infinito de tcsts paralelos, nos acer- cariamos a1 puntaje verdadero de cada individuo y a1 valor 1.0 para la confiabilidad de 10s puntajes del test total.

Examinaremos m i s de cerca la influencia de la longitud del test en la confiabilidad. L a longitud del test se supone que es una funci6n lineal del n6mero de items. El problcma purdc haccrse m6s claro haciendo refe- rencia a lo que se h a dicho acerca de la disposicih de 10s tCrminos en una matriz de varianza-covarianza (phg. 75) . Examinernos cbmo la varianza total, la varianza verdadera y la varianza dc error, son alectadas cuando se cambia la longitud del test.

A. Varianza de l test total

Veremos primer0 lo que sucedc a la varianza dc 10s puntajes observados cuando el test se dobla en longitud, afiadiendo un nrimero igual de nucvos items. Se supone que cstos items son paralelos a 10s del test original. Las varianzas de las dos mitades dcl test son, por consiguientc, i p a l e s :

L a varianza d e la distribution quc obtencmos combinando 10s puntajes dc las distribuciones de 10s dos subtcsts (s i t ) pucde escribirse entonces

Page 8: Magnusson 5

5.6 CONFIABILIDAD Y LONGITUD DEL TEST 89

La varianza de 10s dos tests es la misma y la correlaci6n entre las dos mi- tadcs paralelas del test da el coeficiente de confiabilidad para cualquiera de ellas. Esto nos conduce a la siguiente expresi6n para la varianza de un test despuEs que el nGmero de items es doblado:

La ecuaci6n (5-14) es un caso especial de una ecuaci6n m6s general para el incremento en la varianza de 10s puntajes observados cuando la longitud del test es aumentada de acuerdo con las condiciones anteriores. La ecuaci6n general puede derivarse mis ficilmente de la matriz de va- rianza-covarianza.

Consideremos n tests paralelos, cada uno con una varianza de ST, pon- gamos 10s puntajes crudos en renglones y columnas, donde g y h representan dos tests cualesquiera de la matriz. Para cada rengl6n, es decir, para cada test, obtenemos entonces 10s tkrminos de varianza mostrados en la tabla 5-1. La varianza total tambikn es mostrada para el test compuesto de n subtests paralrlos.

Tabla 5-1. Matriz varianza-covnrianza para 10s puntajes obscrva- das en tcsts paralelos.

La vauapia total de un test compuesto de n tests paralelos (s i t ) cs pues x s : + x x ~ t * ~ ~ , , s t ~ s ~ ~ . Todos 10s tkrminos incluidos en la. rim era suma son de

igual tamaiio, ya que las varianzas son igualcs para tests paralelos. Puesto que tenemos n de estos tkrminos obtenemos

2s; = t1s; . J

La correlaci6n rtYtl,, que figura en todos 10s tkrminos de la segunda suma, es el coeficiente de corrclaci6n para la relaci6n entre tests pararelos (r t t) y es el mismo para cada subtCrmino. Las desviaciones estindar son iguales para tests paralelos (stll = s t , , ) . Puesto que tenemos en la segunda suma n(n - 1) tkrminos, todos 10s cuales son iguales, obtenemos

La varianza del test total para un test compuesto de n tests paralelos (sit) puede escribirse ahora

B. Varianza verdadera :

TanlbiEn examinaremos aqui lo que le sucede a la varianza verdadera cuan- do se dobla el nGmero de items. La varianza de la distribuci6n de 10s puntajes verdaderos, la cual se obticne combinando 10s puntajes verdaderos individuales en las subdistribuciones, puede escribirse

La varianza de 10s puntajes verdaderos es igual para tests paralelos. Los puntajes verdaderos en 10s tests paralelos se supone que son iguales para cada individuo. Asi, ST, seri igual a ST: y TT,T: serri 1.0. La varianza ver- dadera, dcspuks que se ha doblado cl ndmero dc itcms, puede escribirse

Cuando la longitud del test sc dobla, la varianm clc 10s puntajes verdade- ros scri cuatro vcces la dcl tcst original.

La ecuaci6n (5-17) cs un case cspcrial dc una ecuaci6n mis general para el incremento en la varianza dc la distribuci6n de 10s puntajes verda- deros, cuando se aumenta cl ndmcro de itcms del tcst.

Del mismo mod0 que para la varianza total, podemos agrupar en una matriz varianza-covarianza 10s difercntes tknninos de varianza para la va- rianza verdadera de n tests paralelos. La tabla 5-2 muestra la suma de 10s tkrminos de varianza para cada rcng1611, es drcir, para cada test paralelo,

Page 9: Magnusson 5

junto con la varianza total vcrdadera de 10s n tests paralelos. Puesto que la varianza vcrdadcra es la misma para tests paralelos, obtenemos

L a correlaci6n cntre 10s puntajcs verdaderos de tests paralelos es 1.0. Todos 10s tCrminos dc corrclaci6n del tipo rT0Tn tambidn serin 1.0. Como las des- viaciones estAndar de 10s puntajcs vcrdaderos son iguales para tests para- lelos, 10s productos S T ~ S T * serhn constantes y pueden escribirse como s j . Tenemos n ( n - 1 ) tkrminos en la segunda suma que nos d a

9

Tabla 5-2. TCrminos dc varianza-covarianza para 10s puntajes vcr- daderos cn n tests paralelos.

L a suma total cle la varianza verdadera para un test compuesto de n tests paralelos (s:,) pucdc cscribirse s iT = nsZT + n ( n - 1) 5%. y obtenemos

( ~ O ~ I I I I I I I ~ ~ I c In 111nlris

\.n1.in11/n-(.t,\.nria11sa)

En general, la varianza verdadera se incrc~nenta como el cuadrado de n cuando la longitud del test se aumenta n vcces.

Hemos supucsto aqui que 10s tests adicionales han sido paralelos a1 test original, y quc ha habido: a) una correlaci6n de 1.0 para 10s puntajes

Suma tlr 10s t6r1nirws clc varianza

5 - 6 CONFlABlLlDAD Y LONGITUD DEL TEST 91

vcrdaderos, y b ) varianzas iguales de 10s puntajes vcrdaderos en 10s tests paralelos que forman el test total.

C. Varianza de error

Cuando sc dobla el nrimcro dc itcrns del test, el cfccto sobrc la varianza d c crror cs

I Las distribuciones d c error cn tests paralelos ticnen iguales varianzas, y puede suponerse que 10s puntajes dc error no estin correlacionados. Asi, set es igual a sel, re,,, es cero, y el crror de varianza, despuks de duplicar el nhnero de items, puede escribirse

Cuando se duplica el nrimero de itcn~s tambikn se duplica la varianza de la distribuci6n de puntajes de crror.

L a ecuaci6n ( 5 - 2 0 ) es un caso egpecial de la ecuaci6n general para el increment0 en el tarnafio de la varianza de crror cuando se aumenta el nri- mero de items.

De la misma manera que para la varianza total y la varianza verdadera, podemos obtener la varianza total para 10s puntajes de error ( s i c ) de una matriz d c varianza-covarianza dc 10s puntajes de error para n tests pa- ralelos:

J:,, = ZS: + ZZre , , e r .~ r ,~eh . ( 5 - 2 1 )

L a varianza dc 10s puntajcs de error para tests paralelos es la misma, asi que s2 es una constante para n tests paralelos:

2 s : = ns;.

L a correlaci6n entre puntajcs dc error para tests paralelos es cero. Cada correlaci6n dentro de la segunda suma seri, por consiguiente, cero y t d o tdrmino incluido en la suma t a m b i h scrh ccro. Obtencrnos la siguiente expresi6n para el incrcmento cn la varianza de error cuando la longitud dc un tegt se aumenta n vcces:

sic = ns; ( 5 -22 )

El incrcmcnto cn la variama dc crror cuando sc aumenta la longitud del test es, por consiguiente, dircctamcntc proportional a1 nrimero de veces que el test aument6 su longitud. L a rinica suposici6n hecha aqui es que no hay relaci6n sistemitica cntre 10s puntajcs dc crror en test paralelos.

Page 10: Magnusson 5

92 CONFlABlLlDAD 5-6

La confiabilidad ha sido definida previmente como la parte de la varianza total compuesta de la varianza de la distribuci6n de 10s ~wntajes verdaderos. Puede verse en las ecr~aciones (5-19) y (5-22) que, cuando el test es alargado, la varianza verdadera se incrementa con mayor rapidcz que la varianza de error. Mientras que la varianza verdadera sc incrementa como el cuadrado del nlimero de veccs quc el test es aumentado en longitud, el increment0 en la varianza dc error es directamente praporcional a1 in- cremento en la longitud del test. Esto significa que, cuando el test se incre- menta en longitud, la varianza verdadera representa una prc i6n mayor de la varianza total. Esto indica a su vez que el test seri m G confiable.

Un ejemplo aclarara la situaci6n. La confiabilidad esti determinada por la proporci6n de la varianza total que estA compuesta de la varianza de 10s puntajes verdaderos. Si sf se hace igual a 1.0, la varianza de 10s puntajes verdadcros dar i el valor numkrico del cocficiente de confiabilidad directamente. Supongamos que hay un test en el que rtl = 0.50, lo cual significa que tanto la varianza verdadera como la varianza de error son 0.50. Si doblamos la longitud del test, la varianza verdadera ser6 4 x 0.50 = 2.00, la varianza dc error seri 2 x 0.50 = 1.00, y la varianza total 2.00 + 1.00 = 3.00. La raz6n de la varianza verdadera a la varianza total es 2.00/3.00 = 0.67 quc es, por lo tanto, el coeficiente de confiabilidad del test duplicado. Si doblamos la longitud del test otra vez, el resultado seri el siguiente: s; = 4 x 0.67 = 2.68; s: = 2 x 0.33 = 0.66; s: = 2.68 + 0.66 - 3.34. El coeficiente de confiabilidad despuks de esta nueva dupli- caci6n de la longitud del test serj. cntonces 2.6813.34 = 0.80, que es el mismo valor que hubikrarnos obtenido si hubibsemos aumentado la longi- tud del test inicial cuatro veces con r t t = 0.50. De la misma manera, po- demos computar la funci6n para la relaci6n entre la longitud del test y la I

confiabilidad de 10s tests originales dc una confiabilidad dada. La funci6n se da en la figura 5-3 para un deterrninado nGmcro de test con varias con- fiabilidades en el test inicial.

Este procedimiento es torpe en la prictica. Se puede derivar una ecua- ci6n general para computar la confiabilidad de un test cuya longitud se ha incremcntado n vcces (rtt,).

Empczarcmm con la dcfinici6n dc confiabilidad como la relaci6n entre la varianza verdadera y la varianza total. La confiabilidad dc un test cuya longitud se ha incrementado n veces puede escribirse entonces -

rtt* = S&/S;~. De las ecuaciones (5-19) y (5-16) obtenemos

CONFlABlLlDAD Y LONGITUD DEL TEST 93

0.00 , I I I I I I I I I

1 2 3 4 5 6 7 8 9 1 0 N h e r o

Fig. 5-3. La confiabilidad como funci6n del.incremento de longitud del test.

Pero s;/s; = rtt. Luego obtenemos

donde n es el nhmero de veces quc el test se aument6 en longitud, rtt, es la confiabilidad del test a1 aumentar su longitud, n veces y rtt es la con- fiabilidad del test inicial.

Ahora podemos ver que con la ecuaci6n (5-23) se obtienen 10s mismos resultados que 10s computados anteriormente para el coeficiente de confia- bilidad que se obtendria cuando el test inicial, con un coeficiente de con- fiabilidad de 0.50, se incrementase en longitud dos y cuatro veces. A1 aumentar la longitud del test a1 doble (n = 2) , el coeficiente de confiabili- dad seri (2 x 0.50) 1 (1 + 0.50) = 0.67, y a1 incrementar cuatro veces la longitud inicial del test (n = 4 ) , seri ( 4 x 0.50) / ( 1 + 3 x 0.50) = 0.80. En ambos casos, 10s resultados concuerdan con 10s obtenidos previamente.

La ecuaci6n (5-23) es llamada f6rmula de profecia de Spearman-Brown, y puedc usarse para computar cl efccto de un incrcmento en la longitud del test en la confiabilidad. En el caso comcin en que se dobla la longitud del test, es decir, donde n = 2, la f6rmula tiene la siguiente forma:

La derivaci6n de la f6rmula de Spearman-Brown (ecuaci6n 5-23) supo- ne que 10s items aiiadidos a1 test original son similares a 10s items iniciales

Page 11: Magnusson 5

en dificultad, intercorrelaciones y contenido; es decir, las partes adicionales del test pueden considerarse como paralelns a las incluidas en el test ori- ginal. La aplicaci6n de esta ccuaci6n supone, entonces, quc se satisfacen estas condicioncs.

Cuando construimos un test, a lpnas veces deseamos que tenga una con- fiabilidad detcrminada previamentc. Si se tiene una versibn preliminar de un test con confiabilidad conocida, la cuesti6n prictica seria cuintos items habria que aumentar a esta versi6n para obtener la confiabilidad deseada. La figura 5-3 tambien puede usarse en este caso para computar n. Halla- mos la confiabilidad deseada cn el eje vertical, y luego a partir de la fun- ci6n para el test cuya confiabilidad original es conocida, leemos en el eje horizontal el valor que corresponde a la confiabilidad deseada, es decir, el nGmero de vcccs que la longitud del test debe incrementarse.

La ecuaci6n general para computar n se obtiene resolviendo la ecua- ci6n (5-23) para 11:

rtt*(l - rtt)

donde rtl, es la confiabilidad descada despuCs de que el test se aument6 en longitud n vcccs, y r,t es la confiabilidad del test inicial.

Si el coeficicnte de confiabilidad para una versi6n de ensayo de un nuevo test se calcula que sea 0.75 y el diseriador del test no estj. satisfecho con un coeficicntc de confiabilidad menor que 0.90 para el test final, es obvio quc debcria hacer el test 0.99(1 - 0.75) /0.75(1 - 0.90) = 3 veces m k largo.

5-7 EL COEFICIENTE DE CONFlABlLlDAD Y LA HOMOGENElDAD DE LA MUESTRA

Para una \wiahlc cspccifica, la varianza dc 10s puntajcs verdaderos varia de una mucstra dc individuos a otra. La varianza de error, sin embargo, depende de la incapacidad dcl test para medir exactamente 10s puntajes verdaderos de los individuos, y cs cntonces la misma de una muestra a otra, aun si las muestras difieren cn la rnagnitud de la varianla de 10s puntajes verdaderos. Sc siguc dc cstos dos hechos que el tamario del coeficiente de confiabilidad dcpcndc de la heterogencidad de la mucstra de puntajes vcr- daderos.

Empecemos con cl cocficicnte de confiabilidad computado pot la ecua- cibn

rtl = 1 - st/s;

5 -7 E L COEFICIENTE DE CONFlABlLlDAD 95

para una muestra con varianza total conocida. Si ahora examinamos una muestra m b homoghea de individuos, la varianza de la distribucibn de puntajes verdaderos i s menor. La varianza total se habri reducido, mien- tras la varianza de error permaneccri sin cambio. Vemos inmediatamente el efecto de este carnbio en la ecuaci6n (5-8)-el coeficiente de confiabilidad se reduciri. Suponiendo la misma varianza de error en diferentes niveles del test, podemos derivar una ecuaci6n para computar la confiabilidad de un test cuando se usa en una muestra cuya varianza total es diferente a la de la muestra en la que se comput6 el coeficicnte original de confiabilidad. Si representamos por u la muestra en la que se va a estimar la confiabili- dad, obtenemos la siguiente exprcsi6n para la confiabilidad del test en este

Por la ecuaci6n (5-8) la varianza de la distribuci6n de crror puede escri- birse

s' -= ( 1 - r t t) .

Pero la distribuci6n de error tiene la misma varianza en la muestra de dife- rente heterogeneidad. Por consiguiente, podemos reemplazar s: en la ecua- ci6n (5-26) por ST ( 1 - rtt) .

Suponiendo que la varianza total de la muestra u es conocida, obtene- mos la siguiente expresibn, la cual puedc usarse para cstimar la confiabili- dad del test en esta muestra:

donde ru, es la confiabilidad cstimada de la muestra u, s: cs la varianza de la muestra para la cual se ha computado el cocficientc de confiabilidad 'conocido, rtt es la confiabilidad conocida dc la muestra t, y si es la va- rianza de la muestra para la cual cs cstimada la confiabilidad.

La dependencia del cocficicnte de confiabilidad respecto de la dispersi6n total de 10s puntajes obtenidos puede mostrarse en un ejemplo. iCu i l es la confiabilidad de un test en una muestra con s = 10, si el coeficiente de confiabilidad es 0.90 en una mucstra con s = 15? En cste caro, st = 15, rtt = CV3O, y s. = 10. Sustituyendo estos valorcs en la ccuacibn (5-27), obtenemos

Debera notarse que la varianza de crror (s:) tiene un Iimite inferior. La varianza de error y la varianm total scrlin igualcs y la confiabilidad seri

Page 12: Magnusson 5

cero, cuando la homogeneidad de la muestra quc va sujetarse a1 test es perfecta, es decir, cuando todos 10s individuos tienen el mismo puntaje verdadero. La varianza de error nunca puede ser mayor que la varianza total, y la confiabilidad nunca puede ser menor que cero.

Como se indic6 anteriormente, s610 el tamaiio del coeficiente de confia- bilidad es afectado por diferencias en la homogeneidad de la muestra. La cxactitud con que puede estimarse el puntaje verdadero de un individuo en un cierto test es independiente del grupo de individuos en que se in- cluya.

PROBLEM AS

1. ~ C d l cs la confiabilidad dc un test cuando la proporci6n de la varianza total cornpuesta de varianza verdadera es a ) 0.45; b ) 0.71, y c ) 0.66?

2. ;CuAl es la confiabilidad dc un :est cuando la proporcibn de la varianza total

- cornpuesta de varianza de error es a ) 0.42; b ) 0.22, y c ) 0.56?

3. Para un test dado, s; = 3 y s: -- 3. ~ C u a l es su confiabilidad?

4. Para el test del problema 3, computar a ) la varianza verdadera; b ) la varianza de error, y c ) la confiabilidad, cuando su longitud es aurnentada tres veces. Corn- parar con la confiabilidad del problerna 3 antes que la longitud sea incremen- tada.

5. a) Cornputar en cuantas centenas se aurnenta el coeficiente de confiabilidad cuando la longitud es doblada en diferentes niveles. Dibujar la funci6n cuando r se aurnenta dc 0 a -I- 1.

b ) Haga el mismo c6rnputo cuando el test se aurnenta en longitud cuatro veces.

6. U n test con confiabilidad dc 0.34 contiene 80 items.

a ) ~ C u i l ser6 la confiabilidad si el nlirnero de items se reduce a la rnitad?

b ) ;CuAntos de 10s items originales se necesitara consentar si se considera sufi- ciente una confiabilidad d e 0.90?

7. U n test compuesto de 40 itcrns con una confiabilidad de 0.64 h a de agrandar- se hasta que tenga una confiabilidad de 0.80. i C d n t o s nuevos items del misrno tipo quc 10s originales deben a~regarse?

'8 . ~ C u a l sera la confiabilidad de un test con r t t - 0.70 despues que su longitud se incrernenta a ) 2 veces; b ) 3 veccls; c ) 4 veces, y ti) 5 veces?

' 9. ;CuAntas veces debe incrernentarse la longitud de un test con r t t = 0.80 para que d6 una confiabilidad de a ) 0.90, b ) 0.95?

10. En una deterrninada situacibn un grupo de diez evaluadores tienen una confia- bilidad entre si de 0.30. Usando la ecuaci6n de Spearman-Brown, calcular el nbmero dc evaluadores requeridos para obtener una confiabilidad de 0.90. Dis- cuts. la factibilidad de esta acci6n.

11: Compute el indicc de confiabilidad dc un tect que tiene una varianza verdadera s2T = 3 y urla varianza dc error s: = 2.

12. Un test tiene s i t = 0.92. Compute la confiabilidad que tendra cuando se use en un grupo seleccionado cuya desviacibn estandar en la variable es solamente el 71% de la que tiene la poblacibn.

13. U n test r e c i h construido time 10s valores r = 10 y r t t = 0.93 para un grupo normal. Posteriorrnente, se us6 el test con estudiantes de preparatoria y se obtuvo un coeficiente de confiabilidad de 0.82. Encontrar la desviacibn estandar de la distribuci6n de puntajes obtenidos por el grupo de estudiantes.

ANDREAS, B. G. (1960). Experiments! psychology. Nueva York: Wiley. CRONBACH, L. J., N. RAJARATNAM, y G. C. CLESER (1963). Theory of generaliz-

ability: a liberalization of reliability theory. Brit , 1. S t a t . Psychol. , nlirn. 16, pa- ginas 137-163.

GULLIKSEN, H. (1950). T h e o r y o / menta l tests . Nueva York: Wiley. SPEARMAN, C. (1910). Correlation calculated from faulty data. Brit . I . Psychol.,

nlirnero 3, pags. 271-295.

Lecturas sugeridas

GHIS~LLI , E. E. (1964). T h e o r y oj psychological tnearuretnent. Nueva York: McGraw-Hill.

LORD, F. M. (1959). An approach to mental test theory. Prychotnetrika, n6m. 24, paginas 283-302.

(1960). Inferring the examinee's score. En I. H. GULLIKSEN y S. M ~ S S I C K (Eds.) Psychological scaling. Nueva York: Wiley.

THORNDIKE, R. L. (1951). Reliability. En E. F. LINDQUIST (Ed.) Educational measurement . Washington, D. C.: Am. Council on Educ.

WOODBURY, M. A. (1963). The stochastical model of mental testing theory and an application. Psychometr ika , n6m. 28, pigs. 39 1-394.