48
MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN: “GENERALIZACIÓN DE LA FIABILIDAD DE LA ESCALA DE DEPRESIÓN DE HAMILTON (HAM-D). Nº DE EXPEDIENTE: 03109/PHCS/05. Objetivo 1. Estudio de generalización de la fiabilidad de la escala de Depresión de Hamilton (HAM-D). Con respecto al primer objetivo, se completaron todos los pasos diseñados en el tiempo previsto, para realizar el estudio de generalización de la fiabilidad de la escala de depresión de Hamilton. Estos pasos se resumieron en la memoria de seguimiento correspondiente a la primera anualidad (2006), pero los repetiremos en esta memoria final. 1. Búsqueda de la literatura sobre la escala de Hamilton en función de los criterios de selección de estudios. En los estudios meta-analíticos una etapa fundamental es la búsqueda de la literatura relevante. Así, para realizar el estudio de generalización de la fiabilidad de la escala de depresión de Hamilton, se realizó una búsqueda exhaustiva a través de la base de datos PsycINFO con vistas a recopilar la práctica totalidad de la investigación, aplicada o metodológica, que se hubiera realizado sobre el tema de la depresión aplicando esta escala. La búsqueda se realizó acotando el número de referencias en función de palabras clave que permitieron filtrar la información necesaria. Las palabras clave empleadas fueron: Hamilton rating scale depression, reliability, internal consistency y factor analysis. Esperábamos, como así sucedió, que las palabras clave dieran como resultado un conjunto importante de investigaciones experimentales a partir de las cuales se podría obtener un número suficiente de coeficientes de fiabilidad con vistas a realizar el estudio de generalización de la fiabilidad. La búsqueda de la literatura dio como resultado 5668 referencias en artículos de investigación y capítulos de libros publicados, cuyos resúmenes fueron leídos detenidamente por el equipo investigador. Esta lectura dio como resultado la selección de 206 artículos de investigación que podrían reportar algún coeficiente de fiabilidad. Sin embargo, sólo 95 (46.1%) estudios mostraron evidencias de recoger algún tipo de coeficiente de fiabilidad calculado en el grupo donde se realizó el estudio experimental o metodológico. De estos 95 artículos, 75 (78.9%) aplicaron la versión original de la escala en inglés, mientras que los 20 restantes (21.1%) fueron traducciones de la escala a diversos idiomas (español, turco y coreano). En cualquier caso, la búsqueda de la literatura, y también el tratamiento estadístico, se restringió a las investigaciones publicadas en inglés, con la excepción de un artículo que fue publicado en castellano. Por regla general, cada artículo de investigación proporcionó un solo coeficiente de fiabilidad, aunque un 44.2% (42 estudios) de los artículos proporcionaron más de un coeficiente de fiabilidad, en función de los grupos analizados y los propósitos del estudio. No obstante, en los estudios que implicaron diseños pretest-postest con grupo de control, sólo se analizaron aquellos coeficientes del pretest, con vistas a evitar la dependencia entre las puntuaciones en ambas aplicaciones.

MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

  • Upload
    others

  • View
    15

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN: “GENERALIZACIÓN DE LA FIABILIDAD DE LA ESCALA DE DEPRESIÓN DE HAMILTON (HAM-D). Nº DE EXPEDIENTE: 03109/PHCS/05. Objetivo 1. Estudio de generalización de la fiabilidad de la escala de Depresión de Hamilton (HAM-D).

Con respecto al primer objetivo, se completaron todos los pasos diseñados en el tiempo previsto, para realizar el estudio de generalización de la fiabilidad de la escala de depresión de Hamilton. Estos pasos se resumieron en la memoria de seguimiento correspondiente a la primera anualidad (2006), pero los repetiremos en esta memoria final.

1. Búsqueda de la literatura sobre la escala de Hamilton en función de los criterios de selección de estudios. En los estudios meta-analíticos una etapa fundamental es la búsqueda de la literatura relevante. Así, para realizar el estudio de generalización de la fiabilidad de la escala de depresión de Hamilton, se realizó una búsqueda exhaustiva a través de la base de datos PsycINFO con vistas a recopilar la práctica totalidad de la investigación, aplicada o metodológica, que se hubiera realizado sobre el tema de la depresión aplicando esta escala. La búsqueda se realizó acotando el número de referencias en función de palabras clave que permitieron filtrar la información necesaria. Las palabras clave empleadas fueron: Hamilton rating scale depression, reliability, internal consistency y factor analysis. Esperábamos, como así sucedió, que las palabras clave dieran como resultado un conjunto importante de investigaciones experimentales a partir de las cuales se podría obtener un número suficiente de coeficientes de fiabilidad con vistas a realizar el estudio de generalización de la fiabilidad. La búsqueda de la literatura dio como resultado 5668 referencias en artículos de investigación y capítulos de libros publicados, cuyos resúmenes fueron leídos detenidamente por el equipo investigador. Esta lectura dio como resultado la selección de 206 artículos de investigación que podrían reportar algún coeficiente de fiabilidad. Sin embargo, sólo 95 (46.1%) estudios mostraron evidencias de recoger algún tipo de coeficiente de fiabilidad calculado en el grupo donde se realizó el estudio experimental o metodológico. De estos 95 artículos, 75 (78.9%) aplicaron la versión original de la escala en inglés, mientras que los 20 restantes (21.1%) fueron traducciones de la escala a diversos idiomas (español, turco y coreano). En cualquier caso, la búsqueda de la literatura, y también el tratamiento estadístico, se restringió a las investigaciones publicadas en inglés, con la excepción de un artículo que fue publicado en castellano. Por regla general, cada artículo de investigación proporcionó un solo coeficiente de fiabilidad, aunque un 44.2% (42 estudios) de los artículos proporcionaron más de un coeficiente de fiabilidad, en función de los grupos analizados y los propósitos del estudio. No obstante, en los estudios que implicaron diseños pretest-postest con grupo de control, sólo se analizaron aquellos coeficientes del pretest, con vistas a evitar la dependencia entre las puntuaciones en ambas aplicaciones.

Page 2: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

Aunque los 95 estudios seleccionados realizaron estudios de fiabilidad de las puntuaciones, no todos los estudios emplearon el mismo procedimiento. Por regla general, los investigadores suelen utilizan procedimientos similares para evaluar la fiabilidad de las puntuaciones, pero estos procedimientos no tratan de la misma forma el error de medida cuando se aplica el test. Entonces, con vistas a que los diferentes tratamientos de las fuentes de error pudieran introducir cierta variabilidad no controlada entre los procedimientos de evaluación de la fiabilidad recurrimos a realizar un nuevo filtrado de las investigaciones que nos permitiera determinar qué procedimientos se habían empleado para evaluar la fiabilidad en cada investigación y su frecuencia. De los 95 estudios, 43 (45.3%) emplearon el coeficiente alfa como una expresión de la fiabilidad de las puntuaciones desde el punto de vista de la consistencia interna. Otros procedimientos para evaluar la fiabilidad de las puntuaciones como test-retest, coeficiente de Loevinger, correlación intraclase, etc. obtuvieron frecuencias más bajas, por lo que optamos en esta primera fase por estudiar la generalización sólo en aquellos estudios donde se empleo el método generalizado de las dos mitades (coeficiente alfa), también conocido como consistencia interna. Una vez que se determinó que el estudio de generalización de la fiabilidad de la escala de depresión de Hamilton se centraría en los coeficientes alfa, aún se descartaron otros ocho estudios, ya que se habían empleado versiones especiales de la escala en las que se había eliminado o añadido algunos ítems con vistas a analizar clínicamente otros aspectos necesarios para la investigación. La muestra final de estudios estuvo formada por 35 grupos independientes de 23 artículos de investigación, con un total de 7395 personas. 2. Definición y codificación de las variables moderadoras. La fiabilidad es una propiedad de las puntuaciones obtenidas a partir de un test psicométrico. El coeficiente de fiabilidad depende básicamente de la longitud del test y de la heterogeneidad de las puntuaciones de la muestra. Sin embargo, las investigaciones sobre generalización de la fiabilidad han demostrado que existen otras fuentes de error, encuadradas bajo el concepto de error aleatorio, que podrían ser una fuente importante de variación en las puntuaciones, y por tanto, en la calidad de la medida obtenida. Por ello, un estudio de generalización de la fiabilidad supone la selección de un conjunto de variables moderadoras con vistas a determinar si las fuentes de error que se introducen en los estudios deben ser tenidas en cuenta en sucesivas aplicaciones de la escala de medida empleada, en este caso, la escala de depresión de Hamilton. En nuestro estudio hemos seleccionado las siguientes variables moderadoras:

Longitud del test (6, 17 y 21 ítems). Desviación típica de las puntuaciones en cada grupo. Idioma en que se administró la escala (inglés u otros). Edad media del grupo. Desviación típica del grupo. Porcentaje de varones en cada grupo. Tipo de población (clínica vs. normal). Trastorno principal del grupo (depresión vs. otros).

Page 3: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

Instrumento diagnóstico utilizado para seleccionar las personas que se incluyeron en los estudios experimentales (cualquier versión del DSM vs. otros).

Utilización de la escala (medida de severidad de los síntomas vs. otros). Tipo de estudio (clínico vs. metodológico). Enfoque del estudio (acerca de la escala Hamilton vs. otras escalas de

depresión). 3. Aplicación de las técnicas de análisis estadístico. Una vez seleccionados los artículos de investigación que incluyeron un coeficiente alfa calculado sobre la muestra empleada en el estudio, se procedió al análisis estadístico de los coeficientes de fiabilidad (alfa) obtenidos con vistas a determinar si se podrían generalizar estos resultados a futuras investigaciones con la escala de depresión de Hamilton. Aunque no existe acuerdo en la literatura, parece que una transformación z de Fisher de los índices de fiabilidad (el índice de fiabilidad se obtiene a partir de calcular la raíz cuadrada del coeficiente de fiabilidad) proporciona suficiente estabilidad para un adecuado tratamiento meta-analítico. Antes de realizar el análisis estadístico de los coeficientes de fiabilidad, se procedió a ponderar estos coeficientes (sus transformaciones a z de Fisher), con vistas a dar más peso a las estimaciones de la fiabilidad obtenidas a partir de estudios con un tamaño muestral más elevado. Las transformaciones z de Fisher de los coeficientes de fiabilidad también se emplearon para calcular el estadístico Q con vistas a determinar la heterogeneidad de los coeficientes de fiabilidad y el índice I-cuadrado que permite determinar el porcentaje de la varianza total que puede explicarse a partir de la heterogeneidad verdadera entre los coeficientes. Para determinar el influjo de las variables moderadoras en la variabilidad de las estimaciones de la fiabilidad se han empleado el análisis de varianza (ANOVA) y el análisis de regresión ponderado para variables continuas. El análisis de regresión ponderado ha permitido establecer un modelo tentativo explicativo del influjo de las variables moderadoras en la variabilidad de los coeficientes de fiabilidad. 4. Resultados Con respecto a las variables moderadoras, los resultados más destacables se presentan a continuación:

a) La versión más utilizada de la escala de depresión de Hamilton ha sido la de 17 ítems (71.4%), en los estudios analizados en este proyecto.

b) El tamaño muestral de los estudios fue muy heterogéneo, con una media de 211 personas y una desviación típica de 213.8.

c) La edad media de las personas fue de 45.7 años y la desviación típica fue de 12.4.

d) Todas las muestras estuvieron compuestas por varones y mujeres, con la excepción de una muestra que fue sólo de mujeres, aunque en 6 estudios no se reportó esta información.

Page 4: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

e) Un 71.4% de las muestras seleccionadas para las investigaciones provenían de poblaciones con algún trastorno psicológico; en un 62.9% de las muestras, el trastorno principal fue la depresión.

f) El criterio diagnóstico más empleado para la asignación de las personas a los grupos experimental y control fue el DSM en sus diferentes versiones.

g) En un 60% de los estudios, el propósito fue evaluar las propiedades psicométricas de la escala HAM-D, mientras que en el 40% restante el propósito fue la investigación sustantiva.

h) Finalmente, en un 42.9% de los estudios, el objetivo de la investigación fue la escala Hamilton de depresión, mientras que en 57.1% restante, el objetivo del estudio no estuvo relacionado directamente con la escala de depresión de Hamilton.

Los resultados más destacables con respecto a las estimaciones de los coeficientes

de fiabilidad son:

a) La estimación de la fiabilidad, en términos del coeficiente alfa, varió entre 0.41 y 0.897 (desviación típica = 0.146).

b) La prueba Q rechazó estadísticamente la homogeneidad de los coeficientes de fiabilidad en torno a su media, y el índice I-cuadrado reveló que el 95.5% de la variabilidad se debió a la verdadera heterogeneidad entre las estimaciones de la fiabilidad.

c) El coeficiente de fiabilidad de la escala HAM-D aumentó conforme la versión de la escala analiza aumentó su longitud.

d) La variabilidad de las puntuaciones incrementó las estimaciones de la fiabilidad. e) El tipo de trastorno también afectó directamente a las estimaciones de la

fiabilidad en el estudio. En particular, los estudios cuyas muestras están compuestas principalmente por personas con cualquier trastorno de depresión, obtuvieron un coeficiente de fiabilidad más elevado (0.823) que aquellos estudios cuyas muestras están compuestas por personas con otros trastornos (0.601).

f) El coeficiente de fiabilidad promedio fue más elevado cuando el objetivo del estudio fue psicométrico (0.821) que cuando fue sustantivo (0.689).

g) Otras variables moderadoras (edad media de las personas que componen las muestras, el instrumento de diagnóstico utilizado para seleccionar las personas y el propósito del estudio) también llegaron a conseguir la significación estadística, pero la proporción de varianza explicada fue tan pequeña (por debajo del 10%) que prácticamente no se consideró importante su inclusión en un modelo explicativo de generalización de la fiabilidad. El resto de variables moderadoras obtuvieron porcentajes de varianza explicada aún más bajos e incluso no significativos, por lo que no se consideró su inclusión en el modelo explicativo.

Los resultados más importantes con respecto al modelo predictivo fueron:

1. De acuerdo con los resultados anteriores, hemos propuesto un modelo predictivo

que incluye las variables moderadoras más relevantes, desde el punto de vista sustantivo y estadístico, que permiten explicar la variabilidad de los coeficientes de fiabilidad en las aplicaciones empíricas de la escala HAM-D. Estas son:

Page 5: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

a. Número de ítems de las versiones de la escala HAM-D. b. Variabilidad de las puntuaciones en los grupos donde se aplicó la escala. c. Trastorno principal estudiado en las muestras (depresión vs. otros).

2. El modelo predictivo anterior muestra que estas tres variables moderadoras

pueden utilizarse con vistas a pronosticar la fiabilidad de las puntuaciones de la escala HAM-D en contextos aplicados, aunque estas predicciones deben interpretarse con cierta precaución, ya que el modelo de regresión múltiple empleado también muestra que aún queda un porcentaje de varianza por explicar relativamente importante, lo que sugiere que pueden incorporarse a este modelo predictivo otras variables moderadoras no detectadas originalmente.

Objetivo 2. Estudios de simulación sobre los procedimientos de estimación de medias para el coeficiente alfa y su relación con la dimensionalidad de las escalas. El segundo objetivo de este proyecto fue estudiar a través de simulación Monte Carlo, los procedimientos más adecuados para promediar los coeficientes de fiabilidad en un estudio de generalización de la fiabilidad, así como otras características que pueden influir decisivamente en la obtención del coeficiente alfa y de la dimensionalidad de los tests psicológicos. A continuación, presentamos los resultados de dos estudios de simulación que tienen que ver con los objetivos de este proyecto. Primer estudio de simulación Monte Carlo: Evaluación de los métodos para promediar el coeficiente de fiabilidad en los estudios de generalización de la fiabilidad

Un objetivo perseguido en este proyecto de investigación ha sido el estudio de cuál es el mejor método para promediar los coeficientes de fiabilidad (alfa) con vistas ha determinar con claridad la generalización de la fiabilidad de las puntuaciones de la escala de depresión de Hamilton (HAM-D). Aunque este estudio se ha realizado en el contexto de un proyecto de investigación sobre una escala clínica concreta, sus resultados se pueden extender a cualquier test o escala, clínica o no, que empleen el coeficiente alfa como método para evaluar la fiabilidad de las puntuaciones.

Como el estudio de estos procedimientos es independiente de la escala o test

concreto en el que se emplea, hemos preferido realizar un estudio de simulación Monte Carlo, ya que este tipo de estudio permite manipular con anticipación las variables que pueden provocar cambios en el estadístico estudiado. A continuación, describimos el estudio realizado.

El coeficiente de fiabilidad es una expresión de la correlación entre dos aplicaciones

de un test o dos formas paralelas del mismo atributo. En realidad, el concepto de fiabilidad se desarrolla teóricamente a partir de dos formas paralelas, por lo que se puede considerar que el coeficiente de fiabilidad es una variante del coeficiente de correlación producto-momento de Pearson con la particularidad especial de ser equivalente a una razón entre varianzas, antes que a una razón entre la covarianza y el producto de las desviaciones típicas.

Para estudiar la fiabilidad real de las puntuaciones de un test psicométrico se pueden

emplear diferentes procedimientos (test-retest, formas paralelas y dos mitades) en los que se emplean diferentes fórmulas. Así, con los dos primeros métodos se emplea

Page 6: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

básicamente el coeficiente de correlación de Pearson; sin embargo, para el método de las dos mitades se puede emplear una pléyade de fórmulas (Pearson más ecuación Spearman-Brown, Rulon, Flanagan, L2 y L3 de Guttman) entre las que destacan los coeficientes de fiabilidad encuadrados bajo la etiqueta de consistencia interna (alfa, KR20 y KR21), aunque estos dos últimos se presentaron algunos años antes que el coeficiente alfa.

La principal ventaja del método de las dos mitades es que se puede obtener un

coeficiente de fiabilidad con sólo una aplicación del test, así que durante el siglo XX, este método, y el coeficiente alfa, se convirtieron prácticamente en un estándar con el que valorar la fiabilidad de las puntuaciones. El coeficiente alfa (Crocker & Algina, 1986) se expresa como:

2

1

2

11 T

k

jj

kk

donde k es el número de ítems o el número de partes estrictamente paralelas en el que se ha dividido el test, 2

j es la varianza de cada ítem o parte del test, y 2T es la varianza

total de los k ítems, que equivale a la suma de las varianza de los ítems y las covarianzas inter-ítems:

k

k

k

ljl

k

jjT lj

1 11

22

En un estudio de generalización de la fiabilidad, un tópico esencial es cómo

promediar los coeficientes de fiabilidad obtenidos en las distintas muestras. Si el procedimiento empleado es test-retest o formas paralelas, el coeficiente de correlación de Pearson será el elegido, pero si emplea el procedimiento de las dos mitades, generalmente, se empleará el coeficiente alfa. Aunque teóricamente ambas fórmulas expresan la fiabilidad de las puntuaciones, algebraicamente ambos coeficientes no son equivalentes. El coeficiente de correlación de Pearson necesita dos grupos de puntuaciones, mientras que el coeficiente alfa es una expresión de la covarianza promedio entre las puntuaciones en los ítems en una sola aplicación. Ambos, sin embargo, presentan un mismo problema: su distribución empírica en un conjunto de muestras extraídas de la población puede estar fuertemente sesgada. En el caso del coeficiente alfa, ya que el coeficiente varía entre 0 y 1, el problema del sesgo puede ser aún mayor que en el caso del coeficiente de correlación de Pearson.

A la hora de promediar los coeficientes de fiabilidad, derivados por cualquiera de los procedimientos anteriores, una forma de evitar el sesgo de los coeficientes de correlación es utilizar la transformación z de Fisher de cualquiera de los coeficientes de correlación anteriormente presentados. Sólo Dunlap, Silver y Bittner (1986) han estudiado el problema de promediar los coeficientes de fiabilidad a través de las correlaciones interensayo, y más recientemente, Feldt y Charter (2006) han abordado la problemática de cómo promediar los coeficientes de fiabilidad comparando siete

Page 7: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

procedimientos distintos para estimar el coeficiente de fiabilidad promedio. Seis procedimientos fueron propuestos directamente para obtener un promedio del coeficiente alfa, y el procedimiento restante se orientó a obtener el promedio del coeficiente de fiabilidad a través de formas paralelas. Procedimientos para obtener promedios de coeficientes de fiabilidad

Los procedimientos para obtener promedios de los coeficientes de fiabilidad se describen en Feldt y Charter (2006), por lo que en este estudio sólo utilizaremos las fórmulas diseñadas para obtener dichos promedios. Para obtener los promedios de los coeficientes alfa, Henson y Thompson (2002) aconsejan que en los estudios de generalización de la fiabilidad se ponderen en función del tamaño muestral; sin embargo, pocos estudios experimentales de RG han ponderado el coeficiente de fiabilidad para obtener el promedio del coeficiente de fiabilidad, por lo que, a continuación, presentamos los distintos procedimientos tanto cuando se ponderan los coeficientes de fiabilidad como cuando no se ponderan. Procedimiento 1 Supuesto que todos los coeficientes parten del mismo test, este procedimiento asume que el coeficiente promedio duplica la media de las k varianzas de error. Entonces, el coeficiente de fiabilidad promedio ponderado será:

j

jj

nn

W

1

y el promedio no ponderado se obtendrá con la siguiente fórmula:

pj

NW

1

donde p es el número de estudios. Procedimiento 2 Supuesto que todos los coeficientes de fiabilidad parten del mismo test, Feldt y Charter (2006) define el coeficiente promedio como el valor que duplica la media de los errores típicos de medida. Entonces:

22/1

2

)1(1

j

jj

nn

W

y el promedio no ponderado será:

Page 8: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

22/1

2

)1(1

pj

NW

Procedimiento 3 Asumamos que el coeficiente alfa es equivalente al coeficiente de fiabilidad obtenido por formas paralelas, entonces como expresión de la correlación producto-momento de Pearson podemos transformar el coeficiente alfa a z de Fisher, obtener el promedio ponderado y después transformar el promedio en z de Fisher a coeficiente alfa. Para ello, emplearemos las formulas siguientes:

j

jjz

11

log21

El promedio ponderado se obtiene con la fórmula:

)3()3(

j

jjZ n

znW

y el promedio no ponderado se obtiene con la fórmula:

pz j

Z NW

La transformación al coeficiente de fiabilidad se realiza a través de la fórmula:

11

2

2

3

Z

Z

ee

Procedimiento 4

En este procedimiento se emplea la transformación de la raíz cúbica 3/1)1( , ya que este tipo de transformación sigue aproximadamente una distribución normal (Feldt y Charter, 2006). Así, en este procedimiento, el promedio de los coeficientes de fiabilidad se calcula con la formula:

33/1

4

11

j

jj

nn

W

Page 9: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

y el promedio no ponderado será:

33/1

4

11

pj

NW

Procedimiento 5 Este procedimiento emplea la propiedad del coeficiente de fiabilidad de ser transformado en un índice de fiabilidad. El coeficiente de fiabilidad es una razón entre varianzas, pero el índice de fiabilidad se determina a través de la raíz cuadrada del coeficiente, con lo que el índice de fiabilidad se aproxima más a la estructura del coeficiente de correlación producto-momento de Pearson que el coeficiente de fiabilidad. En este caso, la fórmula empleada será:

2

5

j

jj

nn

W

y el procedimiento no ponderado será:

2

5

pj

NW

Procedimiento 6 Este procedimiento es equivalente al procedimiento 3 pero con la diferencia de que el coeficiente de fiabilidad se sustituye por el índice de fiabilidad. En este caso, la fórmula empleada para obtener el promedio del coeficiente de fiabilidad son:

j

jjz

1

1log

21

El promedio ponderado se obtiene con la fórmula:

)3()3(

j

jjZ n

znW

y el promedio no ponderado con la fórmula:

Page 10: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

pz j

Z NW

La transformación de nuevo al coeficiente alfa se obtiene con la fórmula:

2

2

2

6 11

Z

Z

ee

Un ejemplo con los seis procedimientos Supongamos que en la aplicación del test a tres grupos con tamaños muestrales ( )300200,150 321 nynn hemos obtenido los siguientes coeficientes de fiabilidad

)90.85.,80.( 321 y . A continuación presentamos los promedios ponderados y no ponderados del ejemplo para cada procedimiento. Procedimiento 1 Promedio ponderado

862.350200150

90.*30085.*20080.*1501

W

Promedio no ponderado

850.03

90.85.80.1

NW

Procedimiento 2 Promedio ponderado

865.300200150

90.1*30085.1*20080.1*15012

2

W

Promedio no ponderado

853.3

90.185.180.112

2

NW

Procedimiento 3

Page 11: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

En primer lugar, se transforman los coeficientes de fiabilidad a la z de Fisher con las ecuaciones siguientes:

099.180.180.1log

21

1

z

256.185.185.1log

21

2

z

472.190.190.1log

21

3

z

Entonces, la media ponderada será:

329.1)3300()3200()3150(

472.1*)3300(256.1*)3200(099.1*)3150(

WZ

y la media no ponderada será:

276.13

472.1256.1099.1

NWZ

Ahora convertimos el promedio ponderado de z de Fisher al coeficiente original:

869.11

)329.1(2

)329.1(2

3

ee

W

y la conversión del promedio no ponderado será:

855.11

)276.1(2

)276.1(2

3

ee

NW

Procedimiento 4 El promedio ponderado por el tamaño muestral será

865.300200150

)90.1(*300)85.1(*200)80.1(*150133/13/13/1

4

W

y el promedio no ponderado:

Page 12: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

854.3

)90.1()85.1()80.1(133/13/13/1

4

NW

Procedimiento 5

El promedio ponderado por el tamaño muestral será:

861.300200150

90.*30085.*20080.*1502

5

W

y el promedio no ponderado será:

849.3

90.85.80.2

5

NW

Procedimiento 6 En primer lugar, se transforman los índices de fiabilidad a la z de Fisher con las ecuaciones siguientes:

442.180.180.1log

21

1

z

602.185.185.1log

21

2

z

774.190.190.1log

21

3

z

Entonces, el promedio ponderado en función del tamaño muestral será:

645.1)3300()3200()3150(

774.1*)3300(602.1*)3200(442.1*)3150(

WZ

y el promedio no ponderado será:

606.13

774.1602.1442.1

NWZ

Page 13: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

Ahora convertimos el promedio ponderado de z de Fisher al coeficiente original:

862.11

2

)645.1(2

)645.1(2

6

ee

W

y la conversión del promedio no ponderado será:

851.11

2

)606.1(2

)606.1(2

6

ee

NW

Como se aprecia, los promedios de los coeficientes alfa en los seis procedimientos son muy semejantes, obteniéndose el promedio más alto con la transformación z de Fisher del coeficiente de fiabilidad (Procedimiento 3) y los promedios más bajos con el índice de fiabilidad (Procedimiento 5) y su correspondiente transformación z de Fisher (procedimiento 6). Además, los procedimientos no ponderados suelen dar valores más bajos que los promedios ponderados en todos los estudios. Objetivo del estudio Para comparar el rendimiento de estos seis procedimientos, Feldt y Charter (2006) realizaron un estudio de simulación Monte Carlo en el que emplearon distinto número de estudios (4, 10 y 50) y generaron, a partir de una población hipotética de coeficientes de fiabilidad, valores entre .70 y .95. El proceso se repitió 10000 veces para cada grupo de estudios, y se compararon las diferencias entre los 15 pares de coeficientes promedio calculados. Los resultados mostraron que las diferencias entre los seis procedimientos para calcular los promedios de los coeficientes alfa fueron muy pequeñas y apenas tuvieron un sentido práctico. Además, conforme aumentó el número de estudios, las diferencias promedio de los coeficientes de fiabilidad de los seis procedimientos aumentaron ligeramente, mientras que las desviaciones típicas se redujeron sensiblemente. Feldt y Charter (2006) concluyeron que no se puede argumentar concluyentemente que la transformación z de Fisher mejore sustancialmente el cálculo de los promedios del coeficiente alfa, por lo que no parece que haya una aproximación más correcta que otra a la hora de obtener estos promedios. Así, que Feldt y Charter (2006) aconsejaron utilizar el procedimiento 1, cuya comprensión y estructura es más simple. Aunque Feldt y Charter (2006) no encontraron diferencias apreciables entre los seis procedimientos, una limitación de su estudio fue que los coeficientes alfa se simularon a partir de un rango relativamente bajo de valores, concentrándose además en el extremo superior de la distribución, los valores más altos, por otro lado más probables en la investigación experimental. Además, ellos sólo tuvieron en cuenta el número de estudios, pero no que el tamaño muestral pudiera diferir de un estudio a otro.

Page 14: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

En la aplicación experimental de un test psicométrico, el investigador puede encontrarse con un coeficiente alfa bajo, medio o alto. El primer valor es desechable siempre y cuando el test no sea breve (menos de 5 ítems), en cuyo caso la fórmula de la profecía de Spearman-Brown permite determinar al investigador cuál será la fiabilidad si aumenta la longitud del test, supuesto que los ítems sean estrictamente paralelos (Crocker y Algina, 1986). Un coeficiente de fiabilidad alto es deseable siempre y cuando las puntuaciones se puedan interpretar adecuadamente en función de la estructura unidimensional o multidimensional de los ítems que componen el test (McDonald, 1999). Un coeficiente de fiabilidad medio, en función de la longitud del test, es una advertencia sobre la mejora sustancial de la fiabilidad de las puntuaciones si se investiga otras variables que afectan al test como una variabilidad baja y/o una posible multidimensionalidad de los ítems. Dado que la literatura suele comunicar, generalmente, coeficientes de fiabilidad medios o altos, hemos restringido nuestra investigación a estas dos posibilidades. Además, un estudio meta-analítico, incluido los de generalización de la fiabilidad, supone integrar información de un conjunto de estudios, los que a su vez difieren en el tamaño muestral. Por ello, además de manipular el coeficiente de fiabilidad paramétrico, en este estudio de simulación Monte Carlo comparamos los seis procedimientos de estimación de los promedios de los coeficientes de fiabilidad en función del número de estudios incluidos en el meta-análisis y del tamaño muestral promedio de esos estudios. Por último, Henson y Thompson (2002) aconseja que en los estudios de generalización de la fiabilidad, el promedio del coeficiente de fiabilidad se pondere en función del tamaño muestral. No obstante, en este estudio de simulación se comparan los seis procedimientos diseñados por Feldt y Charter (2006), tanto si ponderan los coeficientes de fiabilidad por el tamaño muestral como si se promedian independientemente del tamaño muestral. El tamaño muestral no es el único procedimiento para ponderar el coeficiente de fiabilidad, puede utilizarse también, por ejemplo, el error típico del coeficiente de fiabilidad, pero dado que para calcular el error típico del coeficiente alfa es preciso conocer la matriz de varianza-covarianza (Duhachek y Iacobucci, 2004) entre los ítems, y esta información no se suele aportar en la literatura experimental con tests psicométricos, hemos optado por utilizar el tamaño muestral como ponderación del coeficiente alfa para comparar los seis procedimientos para estimar promedios de la fiabilidad.

Método Generación de los coeficientes de fiabilidad En este estudio se ha optado por obtener un coeficiente alfa paramétrico a partir de una matriz de datos simulada suficientemente grande, antes que obtener los coeficientes alfa de una población de coeficientes de fiabilidad, por lo que la población estuvo formada por 1000000 de personas. Por otra parte, aunque el coeficiente alfa no es un índice que exprese la unidimensionalidad subyacente del test (Cortina, 1993; McDonald, 1999), se optó por emplear el modelo de Rasch unidimensional (Rasch, 1960/1980; Wright y Stone, 1979) con vistas a asegurar que las respuestas de las personas a los ítems no fueron contaminadas por la posible multidimensionalidad del test, ya que sólo está justificado obtener el coeficiente alfa de un conjunto de ítems cuando el test que forman es esencialmente unidimensional (McDonald, 1999).

Page 15: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

Para obtener un coeficiente alfa paramétrico medio se utilizó un test corto (10

ítems) cuyos parámetros de dificultad se distribuyeron uniformemente en el intervalo [-1, +1]. Por otra parte, para obtener un coeficiente alfa paramétrico alto se utilizó un test largo (60 ítems) cuyos parámetros de dificultad se distribuyeron también uniformemente en el intervalo [-1, +1]. La distribución de la habilidad de las personas en ambas poblaciones fue normal en el intervalo [-3, +3]. El primer test produjo un coeficiente alfa paramétrico de .66410607, y el segundo test producto un coeficiente alfa paramétrico de 0.93025883. Estos dos coeficientes de fiabilidad se tomaron como los parámetros que permitieron evaluar el sesgo y el error cuadrático medio de los promedios de los coeficientes de fiabilidad muestrales en las condiciones manipuladas en este estudio de simulación.

Condiciones experimentales

Generalmente, los estudios meta-analíticos pueden diferir en el número de

estudios que integran, y además cada estudio puede tener un tamaño muestral diferente al de otros estudios incluidos en el mismo meta-análisis. Por ello, las condiciones experimentales manipuladas en nuestro estudio de simulación fueron: el tamaño muestral promedio y el número de estudios que se pueden emplear en cada meta-análisis. Así, se emplearon tres tamaños muestrales promedio (50, 100 y 150 personas), y el número de estudios en cada meta-análisis fue de 10, 20, 30 y 40 estudios. Ambas condiciones se cruzaron completamente para cada uno de los dos coeficientes de fiabilidad paramétricos, lo que produjo un total de 2 x 3 x 4 = 24 casillas, cada una de las cuales fue replicada en 10000 ocasiones.

En cada simulación de un estudio meta-analítico, el tamaño muestral de los

estudios varió en función del tamaño muestral promedio diseñado. Así, para la condición de tamaño muestral promedio de 50 personas, se utilizaron los siguientes tamaños muestrales: 32, 36, 38, 40 y 104. En la condición de tamaño muestral promedio de 100 personas, se utilizaron los tamaños muestrales de: 64, 72, 76, 80 y 208, y en la condición de tamaño muestral promedio de 150 personas, se utilizaron los tamaños muestrales de: 96, 108, 114, 120 y 312. Estos tamaños muestrales fueron repetidos sucesivamente en función del número de estudios incluidos en el meta-análisis. Por ejemplo, en la condición de 10 estudios y tamaño muestral promedio de 50 casos, los tamaños muestrales de los estudios fueron: 32, 32, 36, 36, 38, 38, 40, 40, 104 y 104. Estadísticos (Medidas) Para evaluar la calidad de los seis procedimientos para promediar los coeficientes de fiabilidad se emplearon dos medidas. La primera de ellas fue el error cuadrático medio, calculado como:

10000

2

jMSE

donde j es el promedio de los coeficientes de fiabilidad ponderados o no ponderados en cada uno de los seis procedimientos, y es el coeficiente de fiabilidad paramétrico, tanto en el test de 10 ítems como en el de 60 ítems. Esta medida permite evaluar el error, en términos absolutos, que comete cada procedimiento de estimación de

Page 16: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

promedios con respecto al coeficiente alfa paramétrico. La segunda medida fue el sesgo, que se obtuvo a partir de la fórmula:

10000

jBias

donde j y se interpretan como arriba. Este estadístico permite determinar si cada uno de los procedimientos produce promedios por encima (positivos) o por debajo (negativos) del valor paramétrico.

Resultados La tabla 1 presenta los promedios ponderados y no ponderados de los errores cuadráticos medios para los seis procedimientos en función del coeficiente alfa paramétrico. Todos los promedios fueron muy bajos indicando que, en general, no parece que un procedimiento para promediar el coeficiente alfa suponga una mejoría sustancial con respecto a otro a la hora de estimar el coeficiente paramétrico, aunque las estimaciones no ponderadas siempre obtuvieron MSEs mayores que los promedios ponderados. No obstante, se aprecian diferencias relativamente importantes entre ambos coeficientes paramétricos. Así, cuando el coeficiente alfa poblacional fue elevado

)93.0( , las diferencias en el MSE entre los seis procedimientos variaron entre .0000015 y .0000016 cuando no se ponderaron los estudios, mientras que el MSE fue sustancialmente menor cuando se ponderaron los coeficientes de fiabilidad aunque la variación entre los seis procedimientos estuvo entre .0000012 y .0000014. Dado que las diferencias entre los seis procedimientos fueron inapreciables cuando el coeficiente alfa paramétrico fue elevado )93.0( , sugiriendo que los investigadores en meta-análisis pueden utilizar cualquiera de los seis procedimientos presentados en este estudio, ya sea ponderados por el tamaño muestral o sin ponderar, en lo que sigue sólo comentaremos los resultados que tienen que ver con el coeficiente alfa paramétrico medio )66.0( . En este caso, el procedimiento 4 fue el más efectivo, seguido por orden de los procedimientos 3, 2, 6, 1 y 5, ya sea ponderando los coeficientes de fiabilidad o no, aunque cuando no ponderó el coeficiente de fiabilidad, las diferencias entre los procedimientos 3 (.0001128, dt = .0002258) y 4 (.0001123, dt = .0002264) fueron muy bajas. Así, parece que un coeficiente de fiabilidad medio debido quizás a la escasa longitud del test o a una baja variabilidad del grupo, supone para el meta-analista tener que tomar decisiones sobre qué método emplear para promediar los coeficientes de fiabilidad obtenidos a partir de diversos estudios. De acuerdo con los resultados de la tabla 1a, para los promedios ponderados por el tamaño muestral, que resultaron ser más bajos que los promedios no ponderados, el procedimiento basado en 3/1)1( (Barchard & Hakstian, 1997; Hakstian & Walen, 1976) obtuvo un MSE de.0000951 (dt = .0001880), mientras que el procedimiento 3, basado en la transformación z de Fisher del coeficiente de fiabilidad obtuvo un MSE de .0000956 (dt = .0000956), el procedimiento 2 basado en 2/1)1( obtuvo un MSE de .0000957 (dt = .0001908), y el procedimiento 6 basado en la transformación z de Fisher del índice de fiabilidad obtuvo un MSE de .0000958 (.0001890). Sin embargo, el procedimiento 1, basado en el coeficiente de fiabilidad, obtuvo un MSE de .0001004 (dt = .0002045), y el

Page 17: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

procedimiento 5, basado en el índice de fiabilidad, obtuvo un MSE de .0001060 (dt = .0002190). La tabla 2 presenta el MSE de cada procedimiento para obtener promedios, ponderados y no ponderados, del coeficiente alfa en función del tamaño muestral de los estudios que se puede incluir en un estudio de generalización de la fiabilidad. En todos los procedimientos para obtener promedios del coeficiente alfa, el MSE disminuyó con el aumentó del tamaño muestral. Además, la ponderación de los coeficientes de fiabilidad produjo una disminución apreciable del MSE sobre la no ponderación del coeficiente de fiabilidad. Así, cuando el tamaño muestral promedio fue de 50 casos, el orden de los procedimientos de menor a mayor MSE fue el siguiente: P4 < P3 < P6 < P2 < P1 < P5; para el tamaño muestral promedio de 100, el orden de los procedimientos fue: P4 < P2 < P3 < P6 < P1 < P5, y para el tamaño muestral promedio de 150 casos, el orden fue: P2 < P4 < P1/P6 < P3 < P5. Cuando los promedios se calcularon sobre coeficientes de fiabilidad no ponderados, el orden para el tamaño muestral promedio de 50 fue: P4 < P3 < P6 < P2 < P1 < P5; para el tamaño muestral promedio de 100 fue: P6 < P4 < P2 < P3 < P1 < P5, y para el tamaño promedio muestral de 150 fue: P2/P4 < P3/P6 < P1 < P5. Dado que los MSE son muy bajos, se producen ciertas alteraciones en el orden de los procedimientos en los distintos tamaños muestrales, aunque se aprecia claramente que los procedimientos 4 y 2 son los que obtienen menores errores cuadráticos medios en casi todas las condiciones experimentales frente a los procedimientos 1 y 5. Además, se aprecia una reducción considerable de la variabilidad de los promedios indicando que un aumento del tamaño muestral de los estudios supone una reducción en la variabilidad de las estimaciones de los promedios del coeficiente alfa en todos los procedimientos e independientemente de si se ponderan los coeficientes de fiabilidad o no. La tabla 3 presenta el MSE de los seis procedimientos en función del número de estudios. Los MSEs obtenidos dan lugar a ordenaciones de los procedimientos similares a los de tabla 2 cuando se ponderan los coeficientes de fiabilidad por el tamaño muestral. Así, cuando el número de estudios fue 10, el orden de los procedimientos fue: P4 < P3 < P2/P6 < P5 < P1. Cuando el número de estudios fue 20, el orden fue: P4 < P3 < P2 < P6 < P1 < P5; cuando el número de estudios fue 30, el orden fue: P4 < P2 < P3 < P6 < P1 < P5, y cuando el número de estudios incluidos en el estudio RG fue de 40, el orden de los procedimientos fue: P4 < P2 < P6 < P3 < P1 < P5. Si los promedios de los coeficientes de fiabilidad se calculan sin ponderar por el tamaño muestral, el orden de los procedimientos en función del número de estudios ha resultado muy similar. Así, para cuando se emplearon 10 estudios, el orden de los procedimientos fue: P4 < P3 < P2/P6 < P1 < P5. Para 20 estudios, el orden fue: P4 < P3 < P2 < P6 < P1 < P5. Para 30 estudios, el orden fue: P4 < P3 < P2 < P6 < P1 < P5, y cuando se emplearon 40 estudios, el orden fue: P4 < P2/P3 < P6 < P1 < P5. De nuevo, los procedimientos 4 y 2 parecen ser los que obtienen promedios del coeficiente alfa más cercanos al coeficiente alfa paramétrico, y por otra parte son los procedimientos 1 y 5 los que obtienen promedios más alejados del coeficiente de fiabilidad paramétrico.

Con respecto al sesgo, todos los procedimientos dieron coeficientes alfa promedio sesgados negativamente cuando el coeficiente alfa paramétrico fue de .93 (tabla 4). Así, el procedimiento 1 (.0003307, dt = .0010606) basado en el coeficiente de fiabilidad, y el procedimiento 5 (.0003253, dt = .0010606) basado en el índice de fiabilidad, obtuvieron el sesgo promedio más bajo, frente al procedimiento 2 (.004023,

Page 18: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

dt = .0010635) basado en 2/1)1( , el procedimiento 4 (.0004262, dt = .0010649) basado en 3/1)1( , el procedimiento 6 (.0004624, dt = .0010673) basado en la transformación z de Fisher del índice de fiabilidad y al procedimiento 3 (.0004629, dt = .0010673) basado en la transformación z de Fisher del coeficiente de fiabilidad.

Por otra parte, cuando el coeficiente alfa paramétrico fue de 0.66, se apreciaron también algunas diferencias entre los distintos procedimientos para obtener estimaciones ponderadas del coeficiente de fiabilidad, aunque no en el mismo sentido que en el caso anterior. Así, los procedimientos 2, 3, 4 y 6 sobreestimaron el coeficiente alfa paramétrico, mientras que los procedimientos 1 y 5 infraestimaron el coeficiente alfa paramétrico. El procedimiento que obtuvo promedios del coeficiente alfa menos sesgados fue el procedimiento 2 (.0000908, dt = .0097800), seguido por el procedimiento 4 (.0005224, dt = .0097405), el procedimiento 6 (.0007056, dt = .0097641) y el procedimiento 3 (.0008485, dt = .0097399). Muy alejados de estos valores estuvieron el procedimiento 1 (-.0012146, dt = .0099438) y el procedimiento 5 (-.0019245, dt = .0101128) que resultó ser el que presentó una mayor variabilidad en los promedios ponderados del coeficiente de fiabilidad.

Cuando los coeficientes de fiabilidad no se ponderaron para estimar los promedios, el procedimiento menos sesgado fue de nuevo el procedimiento 2 (-.0000570, dt = .0106432), aunque en este caso infraestimó el coeficiente alfa paramétrico. Por orden, el procedimiento 4 (.0004537, dt = .0105882) fue el que menos sesgo obtuvo después del procedimiento 2, siguiendo el procedimiento 6 (.0006692, dt = .0106266), el procedimiento 3 (.0008401, dt = .0105885), el procedimiento 1 (-.0015990, dt = .0108755) y el procedimiento 5 (-.0024434, dt = .0111214).

La tabla 5 presenta el sesgo de los seis procedimientos de estimación de promedios, ponderados y no ponderados, del coeficiente alfa en función del tamaño muestral. Los procedimientos P1 y P5 produjeron infraestimaciones del parámetro del coeficiente de fiabilidad cuando se ponderaron los coeficientes de fiabilidad muestrales, mientras que el procedimiento P2 sólo infraestimó el parámetro cuando el tamaño muestral promedio fue de 50 personas; sin embargo, cuando el tamaño muestral promedio fue de 100 y 150 personas, este procedimiento produjo sobreestimaciones del coeficiente de fiabilidad paramétrico. El resto de procedimientos (P3, P4 y P6) sobreestimaron el coeficiente de fiabilidad paramétrico independientemente del tamaño muestral promedio. Además, tomando el sesgo en términos absolutos, observamos que el sesgo de las estimaciones de los promedios ponderados del coeficiente de fiabilidad se redujo en los procedimientos P1 y P5 en función del tamaño muestral promedio, mientras que en el resto de procedimientos tuvo un comportamiento algo más aleatorio, tanto cuando los promedios se ponderaron por el tamaño muestral, como cuando se obtuvieron promedios no ponderados. En cualquier caso, parece que el orden de los procedimientos de menor a mayor sesgo se mantiene en función del tamaño muestral, excepto en la condición dónde se emplearon muestras de tamaño 150. Así, cuando el tamaño muestral promedio fue de 50 casos, el orden de los procedimientos fue: P4 < P2 < P6 < P3 < P1 < P5; cuando el tamaño muestral promedio fue de 100 casos, el orden fue: P2 < P4 < P6 < P1 < P3 < P5. Sin embargo, cuando el tamaño muestral promedio empleado fue de 150 casos, el orden fue: P1 < P2 < P5 < P4 < P6 < P3. El signo y orden de la cuantía del sesgo para los procedimientos no ponderados fue prácticamente igual.

Page 19: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

En función del número de estudios (tabla 6) encontramos, de nuevo, que el sesgo disminuye, se mantiene o aumenta diferencialmente en cada procedimiento. No obstante, si comparamos los seis procedimientos en función de esta variable encontramos que cuando el número de estudios empleados en el meta-análisis simulado fue de 10, el orden de los procedimientos fue: P2 < P4 < P6 < P3 < P1 < P5. Este mismo orden se repitió en el resto de condiciones experimentales de este estudio, independientemente de que los promedios se ponderaran por el tamaño muestral o no, evidenciando que los procedimientos P4, basado en 3/1)1( , y P2, basado en

2/1)1( , son los que obtienen estimaciones, ponderadas y no ponderadas, promedio menos sesgadas que el resto de procedimientos, entre los que destacan como más sesgados los procedimientos P1 que utiliza el coeficiente de fiabilidad directamente, y el procedimiento P5, que utiliza directamente el índice de fiabilidad. Tabla 1. Media y desviación típica del MSE para los seis procedimientos que promedian el coeficiente alfa.

MSE

66.0 93.0 NP P NP P

Proced. 1 (P1) .0061208 (.0002541)

.0001004 (.0002045)

.0000015 (.0000028)

.0000012 (.0000024)

Proced. 2 (P2) .0001138 (.0002312)

.0000957 (.0001908)

.0000016 (.0000029)

.0000013 (.0000024)

Proced. 3 (P3) .0001128 (.0002258)

.0000956 (.0001875)

.0000016 (.0000031)

.0000014 (.0000025)

Proced. 4 (P4) .0001123 (.0002264)

.0000951 (.0001880)

.0000016 (.0000030)

.0000013 (.0000025)

Proced. 5 (P5) .0001297 (.0002788)

.0001060 (.0002190)

.0000015 (.0000028)

.0000012 (.0000024)

Proced. 6 (P6) .0001134 (.0002285)

.0000958 (.0001890)

.0000016 (.0000031)

.0000014 (.0000025)

NP = No ponderado, P = Ponderado. Tabla 2. Medias y desviaciones típicas de MSE en función del tamaño muestral. Tamaño muestral

66.0 NP P 50 100 150 50 100 150

Proced. 1 (P1)

.0002135 (.0003856)

.0000878 (.0001424)

.0000612 (.0001074)

.0001704 (.0003026)

.0000786 (.0001350)

.0000520 (.0000893)

Proced. 2 (P2)

.0001944 (.0003468)

.0000851 (.0001325)

.0000604 (.0001049)

.0001585 (.0002793)

.0000769 (.0001312)

.0000516 (.0000879)

Proced. 3 (P3)

.0001923 (.003369)

.0000854 (.0001369)

.0000607 (.0001045)

.0001575 (.0002732)

.0000772 (.0001308)

.0000521 (.0000879)

Page 20: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

Proced. 4 (P4)

.0001916 (.0003384)

.0000850 (.0001367)

.0000604 (.0001044)

.0001569 (.0002743)

.0000768 (.0001306)

.0000517 (.0000879)

Proced. 5 (P5)

.0002352 (.0004268)

.0000912 (.0001476)

.0000625 (.0001101)

.0001840 (.0003268)

.0000810 (.0001390)

.0000528 (.0000909)

Proced. 6 (P6)

.0001939 (.0003418)

.0000655 (.0001373)

.0000607 (.0001047)

.0001582 (.0002758)

.0000773 (.0001311)

.0000520 (.0000880)

NP = No ponderado, P = Ponderado. Tabla 3. Medias y desviaciones típicas de MSE en función del número de estudios. Número de Estudios

66.0 NP P 10 20 30 40 10 20 30 40

Proced. 1 (P1)

.0002228 (.0004091)

.0001200 (.0002115)

.0000787 (.0001382)

.0000619 (.0001071)

.0001894 (.0003285)

.0000975 (.0001687)

.0000651 (.0001093)

.0000495 (.0000851)

Proced. 2 (P2)

.0002128 (.0003741)

.0001124 (.0001895)

.0000721 (.0001208)

.0000558 (.0000921)

.0001829 (.0003077)

.0000929 (.0001553)

.0000610 (.0000986)

.0000458 (.0000756)

Proced. 3 (P3)

.0002115 (.0003646)

.0001120 (.0001850)

.0000719 (.0001182)

.0000558 (.0000904)

.0001822 (.0003019)

.0000928 (.0001527)

.0000611 (.0000972)

.0000463 (.0000750)

Proced. 4 (P4)

.0002111 (.0003660)

.0001114 (.0001854)

.0000714 (.0001182)

.0000553 (.0000901)

.0001818 (.0003031)

.0000924 (.0001529)

.0000607 (.0000972)

.0000457 (.0000745)

Proced. 5 (P5)

.0002342 (.0004468)

.0001289 (.0002347)

.0000863 (.0001535)

.0000692 (.0001236)

.0001968 (.0003502)

.0001031 (0001827)

.0000700 (.0001206)

.0000540 (.0000953)

Proced. 6 (P6)

.0002128 (.0003695)

.0001125 (.0001870)

.0000722 (.0001192)

.0000560 (.0000911)

.0001829 (.0003045)

.0000931 (.0001538)

.0000612 (.0000977)

.0000461 (.0000752)

Tabla 4. Medias y desviaciones típicas del sesgo para los seis procedimientos para promediar el coeficiente alfa. SESGO

66.0 93.0 NP P NP P

Proced. 1 (P1) -.0015990 (.0108755)

-.0012146 (.0099438)

.0003865 (.0011506)

.0003307 (.0010606)

Proced. 2 (P2) -.0000570 (.0106432)

.0000908 (.0097800)

.0004709 (.0011549)

.0004023 (.0010635)

Proced. 3 (P3) .0008401 (.0105885)

.0008485 (.0097399)

.0005487 (.0011614)

.0004629 (.0010673)

Page 21: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

Proced. 4 (P4) .0004537 (.0105882)

.0005224 (.0097405)

.0004990 (.0011569)

.0004262 (.0010649)

Proced. 5 (P5) -.0024434 (.0111214)

-.0019245 (.0101128)

.0003802 (.0011505)

.0003253 (.0010606)

Proced. 6 (P6) .0006692 (.0106266)

.0007056 (.0097641)

.0005485 (.0011614)

.0004624 (.0010673)

NP = No ponderado, P = Ponderado. Tabla 5. Medias y desviaciones típicas del sesgo en los seis procedimientos, en función del tamaño muestral. SESGO

66.0 NP P 50 100 150 50 100 150

Proced. 1 (P1)

-.0033283 (.0142260)

-.0010488 (.0093122)

-.0004199 (.0078137)

-.0026077 (.0127902)

-.0007954 (.0088304)

-.0002406 (.0072095)

Proced. 2 (P2)

-.0007174 (.0139228)

.0001675 (.0092242)

.0003790 (.0077610)

-.0004409 (.0125807)

.0002585 (.0087635)

.0004547 (.0071718)

Proced. 3 (P3)

.0007871 (.0138458)

.0008821 (.0091997)

.0008512 (.0077465)

.0008075 (.0125228)

.0008748 (.0087447)

.0008632 (.0071629)

Proced. 4 (P4)

.0001430 (.0138400)

.0005708 (.0091999)

.0006444 (.0077462)

.0002736 (.0125221)

.0006080 (.0087439)

.0006857 (.0071610)

Proced. 5 (P5)

-.0048011 (.0145669)

-.0016934 (.0093989)

-.0008358 (.0078631)

-.0038195 (.0130178)

-.0013522 (.0088994)

-.0006018 (.0072444)

Proced. 6 (P6)

.0004876 (.0139150)

.0007525 (.0092168)

.0007674 (.0077558)

.0005646 (.0125668)

.0007626 (.0087570)

.0007895 (.0071677)

Tabla 6. Medias y desviaciones típicas del sesgo en los seis procedimientos en función del número de estudios. Número de Estudios

66.0 NOT WEIGHTED WEIGHTED 10 20 30 40 10 20 30 40

Proced. 1 (P1)

-.0014948 (.0148512)

-.0015967 (.0108360)

-.0016096 (.0087218)

-.0016950 (.0076844)

-.0011586 (.0137119)

-.0012077 (.0097996)

-.0012636 (.0079692)

-.0012283 (.0069250)

Proced. 2 (P2)

-.0000725 (.0145893)

-.0000226 (.0106012)

-.0000565 (.0084916)

-.0000762 (.0074688)

.0000811 (.0135243)

.0001005 (.0096357)

.0000664 (.0078112)

.0001150 (.0067701)

Proced. 3 (P3)

.0007547 (.0145253)

.0008933 (.0105450)

.0008471 (.0084374)

.0008655 (.0074225)

.0008014 (.0134736)

.0008585 (.0095951)

.0008384 (.0077709)

.0008956 (.0067433)

Page 22: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

Proced. 4 (P4)

.0003980 (.0145231)

.0004977 (.0105451)

.0004566 (.0084401)

.0004586 (.0074221)

.0004914 (.0134760)

.0005331 (.0095963)

.0005062 (.0077749)

.0005590 (.0067362)

Proced. 5 (P5)

-.0022734 (.0151343)

-.0024586 (.0110846)

-.0024600 (.0089584)

-.0025817 (.0079083)

-.0013329 (.0139083)

-.0019195 (.0099697)

-..0019865 (.0081281)

.0019592 (.0070832)

Proced. 6 (P6)

.0005959 (.0145760)

.0007187 (.0105842)

.0006753 (.0084696)

.0006868 (.0074486)

.0006648 (.0135083)

.0007151 (.0096212)

.0006930 (.0077925)

.0007494 (.0067520)

Referencias Cortina, J. M. (1993). What is coefficient alpha? An examination of theory and

applications. Journal of Applied Psychology, 78, 98-104. Crocker, L. y Algina, J. (1986). An introduction to classical and modern test theory.

New York: Holt, Rinehart & Winston. Duhachek, A. y Iacobucci, D. (2004). Alpha's Standard Error (ASE): An Accurate and

Precise Confidence Interval Estimate. Journal of Applied Psychology, 89, 792-808.

Dunlap, W. P., Silver, C. N. y Bittner, C. N. (1986). Estimating reliability with small samples: Increased precision with averaged correlations. Human Factors, 28, 685-690.

Feldt, L. S. y Charter, R. A. (2006). Averaging internal consistency reliability coefficients. Educational and Psychological Measurement, 66, 215-227.

Henson, R. K. y Thompson, B. (2002). Characterizing measurement error in scores across studies: Some recommendations for conducting "reliability generalization" studies. Measurement and Evaluation in Counseling and Development, 35, 113-127.

McDonald, R. (1999). Test theory: A unified treatment. Hillsdale, NJ: LEA. Rasch, G. (1960/1980). Probabilistic models for some intelligence and attainment test.

Chicago: University Chicago Press. Wright, B. D. y Stone, M. (1979). Best test design. Chicago: MESA Press. Segundo estudio de simulación Monte Carlo: Coeficiente alfa y dimensionalidad en los tests psicométricos.

La fiabilidad de las puntuaciones en un tests psicométrico se puede evaluar a través de tres procedimientos: test-retest, formas paralelas y dos mitades (Crocker y Algina, 1986; Gulliksen, 1950; Lord y Novick, 1968). Aunque algunos investigadores emplean el procedimiento test-retest para obtener evidencias de la estabilidad de las puntuaciones, y con mucha menos frecuencia, se construyen formas paralelas para estudiar su equivalencia, el procedimiento de las dos mitades, y su límite, el coeficiente alfa (Cronbach, 1951) se ha convertido en un estándar en cualquier investigación experimental como medio de evaluar la fiabilidad de las puntuaciones. El coeficiente alfa (Cronbach, 1951) es una expresión del promedio de las covarianzas entre los ítems de un test, cuando las varianzas de error de los ítems son iguales, es decir, cuando los ítems son estrictamente paralelos se basa en un modelo de medida esencialmente tau-equivalente (Raykov, 1997). Si las varianzas de error de los ítems difieren, entonces el coeficiente alfa es más bajo que el promedio de todos los coeficientes de fiabilidad para las dos mitades de un test estimados a través de la ecuación de Spearman-Brown (Cortina, 1993; Miller, 1995). La expresión del coeficiente alfa es:

Page 23: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

2

2

11 X

j

nn

donde n es el número de ítems, 2

j es la varianza del ítem j, y 2X es la varianza total.

Cuando los ítems son dicotómicos, el coeficiente alfa equivale a 20KR (Kuder y Richardson, 1937), cuya expresión matemática es:

220 11 X

jjqpn

nKR

donde jp es la proporción de personas que acierta o contesta positivamente el ítem y

jq es la proporción de personas que falla o contesta negativamente el ítem. Unidimensionalidad de las respuestas en un test psicológico El tópico de la undimensionalidad en los tests ha sido una constante en la investigación psicométrica, ya que la regla de escalamiento que vincula las respuestas de las personas con la puntuación observada, obtenida como la suma no ponderada de las respuestas acertadas en ítems dicotómicos o las categorías marcadas en ítems politómicos, en el rasgo psicológico es desconocida. La complejidad de la estructura y formulación de los ítems en un test psicométrico parecen inducir la idea de que difícilmente pueden evaluar una sola propiedad en el mismo sentido que la regleta mide la longitud o la balanza mide el peso. En realidad, la puntuación observada que surge de las respuestas a los ítems puede llegar a ser una mezcla de una dimensión esencial (Stout, 1987) o suficiente (Hambleton y Swaminathan, 1985) que explica la variación de las respuestas, y otras dimensiones necesarias para obtener esas respuestas, o de varias dimensiones suficientemente importantes para que se tengan en cuenta a la hora de evaluar qué atributos determinan las respuestas de las personas. En la investigación psicométrica, la estrategia habitual ha sido emplear el Análisis Factorial Exploratorio (AFE) y en menor cuantía el Análisis Factorial Confirmatorio (AFC) como técnicas capaces de desentrañar/confirmar la dimensionalidad desconocida en los tests a través de estudiar los patrones de covarianzas/correlaciones entre los ítems que los componen. Dado que el coeficiente alfa es una expresión del promedio de las covarianzas entre los ítems cuando son estrictamente paralelos, también ha sido considerado como una medida de la saturación del primer factor (Hattie, 1985), siempre y cuando se calcule a partir de una matriz de correlaciones. En este caso, Kaiser (1968) mostró que si las correlaciones entre los ítems son iguales a la correlación promedio de los ítems, el coeficiente alfa se relaciona directamente con el primer factor no rotado de una solución de componentes principales. En la práctica, sin embargo, las puntuaciones provenientes de las respuestas de las personas a los ítems de un test pueden depender de una o más dimensiones, por lo que las covarianzas entre los ítems pueden ser altas aún proviniendo de más de una dimensión, siempre que estas dimensiones intervengan en el proceso de respuesta. Así,

Page 24: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

el coeficiente alfa será, generalmente, elevado cuando el conjunto de ítems analizado provenga de un factor único, pero también puede ser elevado si el conjunto de ítems obedece a una estructura multidimensional, donde diferentes dimensiones tienen similar importancia en el proceso de respuesta. En un estudio de simulación Monte Carlo, Green, Lissitz y Mulaik (1977) generaron un test de 10 ítems que medían cinco factores. Los cinco factores fueron ortogonales, y cada ítem tuvo la misma carga (.45) en dos de los factores, aunque ninguno de ellos tuvo sus cargas factoriales en el mismo par de dimensiones. La comunalidad de cada ítem fue de .90. El coeficiente alfa resultante para el test completo fue de .81, lo que podría interpretarse como una evidencia fuerte de la undimensionalidad de este conjunto de ítems, aun siendo ese conjunto de ítems multidimensional. Cortina (1993) manipuló la intercorrelación promedio (.30, .50 y .70) entre los ítems de tres tests cuyas longitudes fueron 6, 12 y 18 ítems. Entonces, calculó el coeficiente alfa bajo una estructura que varío desde una única dimensión a tres dimensiones. El resultado fue que el coeficiente alfa presentó una fuerte dependencia de la longitud del test, hecho que no siempre es tenido en cuenta por los investigadores, e incrementó su cuantía conforme aumentó la intercorrelación promedio de los ítems. Cuando la estructura del test tuvo más de una dimensión (dos y tres), el coeficiente alfa fue más bajo que en la estructura unidimensional, pero el patrón de resultados fue semejante al obtenido en la solución unifactorial. Objetivo de la investigación Si un AFE (o AFC) sugiere que un test está formado por varios subtests, donde cada uno responde a una dimensión relevante, entonces se considera que las puntuaciones observadas dependen esencialmente de esta dimensión, y se puede proceder a evaluar su fiabilidad. Sin embargo, cuando se construyen tests que evalúan atributos nuevos o poco conocidos, donde la dimensionalidad es desconocida, existe cierta tendencia a obtener la consistencia interna de las puntuaciones observadas independientemente de la dimensionalidad subyacente. En ambientes clínicos, el problema es aún más grave, ya que se obtiene el coeficiente de fiabilidad (generalmente alfa) tanto para los subtests componentes como para la puntuación total obtenida con el test completo. La unidimensionalidad del test se convierte así en un ideal a alcanzar, que sólo se puede entrever entre ítems, y cuya imprecisión saca a la luz otras dimensiones más o menos relevantes y que introducen variación no deseada en las puntuaciones de los tests. Aunque es un hecho aceptado actualmente en la literatura experimental que el coeficiente alfa no es una evidencia de la unidimensionalidad del test (Cortina, 1993; Hattie, 1985; McDonald, 1999), parece que no está suficientemente estudiado en qué medida la multidimensionalidad puede afectar al coeficiente alfa y a su cuantía. Green et al. (1977) y Cortina (1993) sólo tuvieron en cuenta una estructura ortogonal de los componentes del test. Además, Cortina (1993) demostró la estrecha dependencia del coeficiente alfa de la longitud del test y del aumento de las covarianzas entre los ítems. Para examinar la influencia de la dimensionalidad en el coeficiente alfa hemos optado por utilizar un test de longitud fijada (30 ítems) y simular matrices de respuestas

Page 25: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

con una y dos dimensiones. Las matrices de una dimensión son la línea base, ya que son la verdadera expresión de la fiabilidad de las puntuaciones, con las que se compararán los coeficientes alfa obtenidos a partir de las matrices bidimensionales. Las dos dimensiones pueden ser ortogonales u oblicuas, teniendo en cuenta también la importancia de la dimensión a través del número de cargas significativas en cada uno, aunque respetando que la primera dimensión siempre obtiene más cargas significativas que la segunda.

Método Condiciones experimentales Para cumplir los objetivos arriba señalados, en este estudio de simulación hemos manipulado las siguientes variables experimentales: formato del ítem, amplitud del intervalo de dificultad en los ítems, porcentaje de ítems en la segunda dimensión, correlación entre los factores (ortogonales vs. oblicuos), y grado de centralidad de la distribución de la habilidad. Dos formatos para los ítems se han manipulado, uno para ítems dicotómicos (0/1) (tests de ejecución máxima) y otro para ítems politómicos (p.e. de 1 a 5), más conocidos como ítems tipo Likert (tests de ejecución típica). No obstante, el formato de los ítems politómicos de este estudio es ligeramente diferente al tipo Likert, ya que la categoría más baja se situó en 0 y la más elevada en 4. Los tests, en función de su ámbito de aplicación, también pueden diferir en el intervalo de dificultad de los ítems que los componen. Así, en un test de ejecución máxima, esperamos que la separación de los índices de dificultad de los ítems sea suficientemente elevada para recoger respuestas representativas de todo el intervalo de habilidad en el rasgo evaluado, mientras que en los tests de ejecución típica, la dispersión de las medias de los ítems puede ser algo menor. Tanto en el formato dicotómico como politómico, las máximas discriminaciones entre las personas se producirán cuando las medias de los ítems sean iguales, pero no es deseable que todos los ítems tengan la misma media, ya que esto dará lugar a una partición del grupo en dos, los que saben (conocen) y los que no saben (no conocen) (Crocker y Algina, 1986). Así que es preferible utilizar un rango más o menos amplio para obtener puntuaciones que cubran la mayor parte del rango de habilidad de acuerdo con la distribución normal. Para reproducir ambas situaciones hemos empleado dos variantes. En la primera, las medias de los ítems son aproximadamente iguales, como puede ocurrir en un test de personalidad o actitudes y menos frecuentemente en test de rendimientos o capacidades. En la segunda, las medias varían ampliamente dentro del intervalo especificado por el formato del ítem (0/1, ítems dicotómicos) ó (p. e., 0 a 4, ítems politómicos), tal como suele ocurrir en los test de rendimientos o capacidades y menos frecuentemente en los tests de personalidad y actitudes. El porcentaje de ítems que cargan en cada dimensión también es una característica importante a tener en cuenta, ya que en un AFE, la importancia de los factores siempre viene determinada por su orden, y se plasma en la cuantía de las cargas factoriales. Así, el número de cargas factoriales significativas en el primer factor suele ser mayor que en el segundo y subsiguientes factores. Para simular esta situación, hemos manipulado tres porcentajes: 10%, 30% y 50% de ítems que cargan en la

Page 26: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

segunda dimensión relevante. En un test de 30 ítems, estos porcentajes han producido las siguientes razones de la primera dimensión frente a la segunda: 27:3, 21:9 y 15:15. La cuarta condición experimental también tiene que ver con la dimensionalidad del test. En este caso, se manipuló la relación entre las dos dimensiones: .00 (ortogonal), .10, .40 y .80 (oblicuas), que se corresponden con correlaciones de .32, .63 y .89 respectivamente. La habilidad media del grupo también fue manipulada con el objeto de comprobar si los resultados podían cambiar significativamente en grupos que no se comparan con la dificultad media del test, situación que produce cierta inestabilidad y es indeseable cuando se calibra un test con la teoría de las puntuaciones verdaderas. Así, un grupo tuvo media 0 y desviación típica 1, mientras que otro grupo tuvo su habilidad media una desviación típica por debajo de la media (-1), manteniendo su desviación típica en 1. El cruce de las cinco condiciones experimentales (2 tipos de categorías x 2 intervalos de dificultad x 3 porcentajes de ítems en la segunda dimensión x 4 correlaciones entre dimensiones x 2 habilidades medias) produjo 96 casillas. Cada casilla fue replicada en cinco ocasiones. Para comparar los resultados de las distintas condiciones experimentales se generaron tests unidimensionales en función del tipo de formato, el número de categorías y las dos medias de habilidad. El resultado fueron ocho matrices de respuestas unidimensionales que fueron replicadas en cinco ocasiones, y cuyo coeficiente alfa promedio (en cada condición) se tomó como línea base de comparación de los coeficientes alfa resultantes en las distintas condiciones experimentales. Simulación de las matrices de datos Generalmente, en los estudios que emplean puntuaciones observadas, las respuestas de las personas se han generado a partir de matrices de varianza-covarianza o matrices de correlaciones. En este estudio, sin embargo, hemos preferido utilizar la familia de modelos de Rasch (Rasch, 1980; Wright y Masters, 1982), ya que permiten simular con bastante exactitud tests uni- y bidimensionales de acuerdo con una estructura preestablecida. En la familia de modelos de Rasch, la undimensionalidad es una condición necesaria, por lo que cualquier conjunto de ítems que ajuste este modelo se puede afirmar que es esencialmente unidimensional. Para generar las matrices de respuestas unidimensionales con ítems dicotómicos se utilizó la función logística del modelo de Rasch dicotómico:

)exp(11

inniP

donde niP es la probabilidad de que la persona de habilidad n acierte el ítem i, y i es la dificultad del ítem i. Para generar las matrices de respuestas unidimensionales con ítems politómicos se empleo el modelo de crédito parcial (Wright y Masters, 1982):

imi

k

k

jijn

x

jijn

nix mxparaP ,,2,1)(exp1

)(exp

1 1

1

Page 27: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

donde nixP es la probabilidad de que la persona de habilidad n conteste el ítem de dificultad i en la categoría x, donde x varía entre 1 y im categorías, y el número de parámetros de las categorías (umbrales) a estimar es j-1. Ya que en nuestro estudio los ítems tienen cinco categorías, el modelo de crédito parcial estima cuatro umbrales para cada ítem. Todas las matrices de este estudio fueron simuladas utilizando rutinas de generación de respuestas aleatorias con una versión beta del programa ConQuest (Wu, Adams y Wilson, 1998). Análisis Estadístico En este estudio, el tipo de formato del ítem (dicotómico vs. politómico) fue utilizado como un medio para representar ítems típicos de los tests psicológicos, pero es un hecho reconocido que el coeficiente de fiabilidad, y por ende, el coeficiente alfa mejora sustancialmente conforme el número de categorías aumenta. Así, una comparación de estas dos condiciones resultaría ciertamente engañosa y podría enmascarar la verdadera tendencia que se pueda observar en los resultados de las condiciones experimentales aquí empleadas. Por ello, hemos optado por analizar los resultados de este estudio de simulación en cada uno de los formatos empleados, independientemente uno de otro utilizando el paquete estadístico SPSS 15.0. Por otra parte, un estudio inferencial de los resultados obtenidos con el coeficiente alfa en las distintas condiciones experimentales implica que al menos se cumpla aproximadamente el supuesto de distribución normal de la variable dependiente. Es un hecho patente que el coeficiente alfa, que varía entre 0 y 1, no sigue una distribución normal, por lo que hemos optado por una transformación de raíz cúbica (Barchard y Hakstian, 1997, Hakstian y Whalen, 1976) que sigue una distribución aproximadamente normal con media cero y desviación típica uno (Feldt y Charter, 2006), y cuya forma es: 3/1)1( t . Los límites de esta transformación se encuentran entre t = 1, para un coeficiente alfa de .001, y t = .100 para un coeficiente alfa de .999.

Resultados La tabla 1 presenta los promedios (y desviaciones típicas) de las transformaciones del coeficiente alfa para la línea base y en las distintas condiciones experimentales manipuladas en este estudio en tests con ítem dicotómicos. Como se aprecia en la tabla, la transformación t del coeficiente alfa para la línea base (tests unidimensional) siempre estuvo por debajo (recuérdese que la transformación t debe interpretarse en sentido inverso al del coeficiente alfa) de la transformación t del coeficiente alfa en las distintas condiciones experimentales. Cuando las dimensiones son ortogonales (r = .00) además, se aprecia cómo la transformación t del coeficiente alfa aumenta conforme se incrementa el porcentaje de ítems de la segunda dimensión;

Page 28: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

es decir, conforme se hace más importante la presencia de esa segunda dimensión en términos del número de ítems que la explica. El mismo efecto se produce cuando las dimensiones están relacionadas, pero además, se observa que conforme aumenta la correlación entre las dimensiones, la transformación t del coeficiente alfa se acerca más a la transformación t del coeficiente alfa de la línea base. Por ejemplo, cuando el intervalo de dificultad de los ítems es estrecho [-.5, .5], la transformación t del coeficiente alfa para un test unidimensional formado por 30 ítems dicotómicos es .517 (.0107). Cuando aparece una segunda dimensión ortogonal, la transformación t del coeficiente alfa se eleva hasta .556 (.0139), y si la segunda dimensión está relacionada con la primera, la transformación t del coeficiente alfa se reduce hasta .548 (r = .10), .529 (r = .40) y .524 (r = .80). Si el porcentaje de ítems en la segunda dimensión se eleva hasta un 30%, entonces la transformación t del coeficiente alfa, cuando los dos componentes son ortogonales, se aleja aún más de la línea base (.609), y cuando ambas dimensiones están relacionadas, la transformación t del coeficiente alfa se acerca más a la línea base en función del aumento de la correlación entre ambas dimensiones. El mismo patrón interpretativo se produce cuando el intervalo de dificultad de los ítems es [-2, 2], aunque en todas las condiciones experimentales, la transformación t del coeficiente alfa ha resultado ligeramente por debajo que cuando el intervalo de dificultad fue más estrecho.

Tabla 1. Coeficientes alfa obtenidos en test con ítems dicotómicos N(0,1) N(-1,1) B1 B2 B1 B2 Base .517 (.0107) .538 (.0150) .539 (.0145) .548 (.0432) 10%

.00 .556 (.0139) .591 (.0159) .565 (.0146) .598 (.0112)

.10 .548 (.0197) .578 (.0152) .565 (.0175) .587 (.0168)

.40 .529 (.0159) .559 (.0147) .547 (.0143) .574 (.0204)

.80 .524 (.0153) .555 (.0173) .535 (.0105) .552 (.0231) 30%

.00 .609 (.0194) .642 (.0097) .635 (.0136) .656 (.0111)

.10 .602 (.0144) .643 (.0205) .618 (.0226) .647 (.0266)

.40 .568 (.0147) .602 (.0247) .583 (.0177) .610 (.0100)

.80 .533 (.0065) .551 (.0066) .544 (.0195) .573 (.0153) 50%

.00 .640 (.0072) .665 (.0145) .652 (.0293) .683 (.0216)

.10 .629 (.0196) .656 (.0248) .630 (.0254) .659 (.0254)

.40 .583 (.0155) .602 (.0172) .603 (.0164) .619 (.0214)

.80 .538 (.0155) .567 (.0140) .541 (.0252) .586 (.0073) Un ANOVA en cuatro sentidos (sesgo de la distribución, amplitud del intervalo de dificultad, porcentaje de ítems en la segunda dimensión y correlación entre las dimensiones) dio como resultado que todos los efectos principales fueron altamente significativos, pero sólo la interacción de porcentaje de ítems en la segunda dimensión con el grado de correlación entre los dos factores fue significativa y tuvo un tamaño del efecto elevado (F (6, 240) = 17.951, p = .000, 2 = .359). Así, conforme aumenta el porcentaje de ítems de la segunda dimensión del 10% al 50%, la transformación t del coeficiente alfa aumenta, pero también dentro de cada porcentaje, si las dos dimensiones están relacionadas, se observa como un aumento de la correlación entre ambas dimensiones produce un aumento también de la transformación t del coeficiente alfa. En términos del coeficiente alfa, esta interacción quiere decir que conforme aumenta la

Page 29: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

importancia de la segunda dimensión, el coeficiente alfa promedio se reduce, pero si las dimensiones son oblicuas, esta reducción del coeficiente alfa se ve suavizada en función del aumento de la correlación entre las dos dimensiones. La tabla 2 presenta las transformaciones t del coeficiente alfa (y desviaciones típicas) para la línea base y las distintas condiciones experimentales manipuladas en este estudio en tests con ítems que siguen un formato politómico. En este caso, dado que el formato de los ítems varía entre 0 y 4, hemos obtenido coeficientes alfa más elevados que en el caso dicotómico. Esto se produce no porque los tests con ítems dicotómicos sean menos fiables, sino porque los ítems politómicos incrementan artificialmente la variabilidad muestral, lo que produce que las violaciones del orden de las personas en la muestra se pueda producir con menos frecuencia que con ítems dicotómicos. Así que, por regla general, el mismo test aplicado a una muestra de personas obtendrá un coeficiente de fiabilidad más elevado con ítems politómicos que con ítems dicotómicos, por lo que los coeficientes de fiabilidad no son comparables con los de test formados con ítems dicotómicos.

Tabla 2. Coeficientes alfa obtenidos en tests con ítems politómicos N(0,1) N(-1,1) B1 B2 B1 B2 Base .301 (.0061) .358 (.0078) .320 (.0084) .378 (.0026) 10%

.00 .345 (.0089) .388 (.0064) .364 (.0081) .425 (.1036)

.10 .341 (.0081) .402 (.0172) .356 (.0120) .413 (.0133)

.40 .329 (.0093) .382 (.0181) .343 (.0101) .392 (.0217)

.80 .308 (.0081) .366 (.0085) .326 (0114) .378 (.0161) 30%

.00 .416 (.0073) .470 (.0165) .428 (.0055) .482 (.0108)

.10 .397 (.0131) .448 (.0097) .412 (.0108) .464 (.0135)

.40 .364 (.0089) .407 (.0131) .381 (.0106) .432 (.0159)

.80 .320 (.0071) .377 (.0150) .340 (.0140) .398 (.0106) 50%

.00 .439 (.0125) .491 (.0104) .457 (.0109) .507 (.0166)

.10 .421 (.0098) .473 (.0201) .440 (.0127) .488 (.0093)

.40 .377 (.0092) .428 (.0105) .398 (.0119) .441 (.0141)

.80 .327 (.0094) .380 (.0105) .341 (.0119) .401 (.0227) De nuevo, pero con diferencias mucho menos apreciables, un incremento del porcentaje de ítems en la segunda dimensión (dimensiones ortogonales) produce un incremento de la transformación t del coeficiente alfa. Así, si la línea base para el test de 30 ítems con cinco categorías es de .301 (.0061); cuando el porcentaje de ítems en la segunda dimensión es del 10%, la transformación t del coeficiente alfa se eleva hasta .345 (.0089), con un 30% hasta .416 (.0073) y con un 50% hasta .439 (.0125). Si las dos dimensiones son oblicuas, entonces el alejamiento de la transformación t del coeficiente alfa también aumenta con el incremento de la importancia de la segunda dimensión desde un 10% de ítems hasta un 50%, pero la transformación t del coeficiente alfa cada vez se acerca más a la transformación t del coeficiente alfa de la línea base dentro de cada uno de los porcentajes conforme aumenta la correlación entre las dos dimensiones. Por ejemplo, en un test formado por un grupo de 30 ítems unidimensionales en un intervalo amplio de dificultad [-2, 2], la transformación t del coeficiente alfa (línea base) es .358 (.0078), pero si en el test aparece una segunda dimensión ortogonal (r = .00) con

Page 30: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

la primera (10%), la transformación t del coeficiente alfa aumenta hasta .402 (.0172), y disminuye paulatinamente a 382 (.0181) cuando la correlación entre ambas dimensiones es .40, y a .366 (.0085) cuando la correlación entre ambas dimensiones es de .80. Un ANOVA en cuatro sentidos dio como resultado que todos los efectos principales fueron altamente significativos, pero sólo la interacción de porcentaje de ítems en la segunda dimensión con el grado de correlación entre las dos dimensiones tuvo un tamaño del efecto elevado (F (6, 240) = 36.705, p = .000, 2 = .534). Así, conforme aumenta el porcentaje de ítems de la segunda dimensión del 10% al 50%, la transformación t del coeficiente alfa aumenta, pero también dentro de cada porcentaje, si las dos dimensiones están relacionadas, se observa como un aumento de la correlación entre ambas dimensiones produce un aumento también de la transformación t del coeficiente alfa. Referencias Barchard, K. A. & Hakstian, A. R. (1997). The robustness of confidence intervals for

coefficient alpha under violation of the assumption of essential parallelism. Multivariate Behavioral Research, 32, 169-191.

Cohen, J. (1988). Statistical power analysis for the behavioural sciences (2nd. ed.).

New York: Academic Press. Cortina, J. M. (1993). What is coefficient alpha? An examination of theory and

applications. Journal of Applied Psychology, 78, 98-104. Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests.

Psychometrika, 15, 297-334. Crocker, L., & Algina, J. (1986). An introduction to classical and modern test theory.

New York: Holt, Rinehart & Winston. Feldt, L. S. & Charter, R. A. (2006). Averaging internal consistency reliability

coefficients. Educational and Psychological Measurement, 66, 215-227. Green, S. B., Lissitz, R. W., & Mulaik, S. A. (1977). Limitations of coefficient alpha as

an index of test unidimensionality. Educational and Psychological Measurement, 37, 827-838.

Gorsuch, R. L. (1983). Factor analysis, 2nd. ed. Hillsdale, New Jersey: LEA. Graham, J. M. (2006). Congeneric and (essentially) tau-equivalent estimates of score

reliability: What they are and how to use them. Educational and Psychological Measurement, 66, 930-944.

Gulliksen, H. (1950). Theory of mental tests. New York: John Wiley. Hambleton, R. K. & Swaminathan, H. (1985). Item response theory: Principles and

applications. Boston: Kluwer-Nijhoff.

Page 31: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

Hakstian, A. R. & Whalen, T. E. (1976). A k-sample significance test for independent alpha coefficients. Psychometrika, 41, 219-231.

Hattie, J. A. (1985). Methodological review: Assessing unidimensionality of test and

items. Applied Psychological Measurement, 9, 139-164. Kaiser, H. (1968). A measure of the average intercorrelation. Educational and

Psychological Measurement, 28, 245-247. Kuder, G. F. & Richardson, M. W. (1937). The theory of the estimation of test

reliability. Psychometrika, 2, 151-160. Lord, F. M. & Novick, M. R. (1968). Statistical theories of mental test scores. Reading

Mass.: Addison-Wesley. McDonald, R. (1999). Test theory: A unified treatment. Hillsdale, NJ: LEA. Miller, M. B. (1995). Coefficient alpha: A basic introduction from the perspectives of

classical test theory and structural equation modeling. Structural Equation Modeling, 2, 255-273.

Rasch, G. (1980). Probabilistic models for some intelligence and attainment test.

Chicago: University Chicago Press. Suen, H. K. (1990). Principles of test theories. Hillsdale, NJ: LEA. Stout, W. (1987). A nonparametric approach for assessing latent trait unidimensionality.

Psychometrika, 52, 589-617. Wright, B. D. & Masters, G. N. (1982). Rating scale analysis. Chicago: MESA Press. Wu, M. L., Adams, R. J., & Wilson, M. R. (1998). Acer ConQuest: Generalised item

response modelling software. Australian Council for Educational Research. Tercer estudio de simulación Monte Carlo: El Análisis paralelo de Horn: un estudio Monte Carlo de las ecuaciones de regresión para la selección de componentes

El análisis factorial exploratorio (AFE) es una de las técnicas multivariantes más utilizadas en la investigación psicológica para explorar la estructura dimensional de un conjunto de variables psicológicas o de ítems que forman un test. Dentro de este nombre se encuadra tanto el análisis de componentes principales (ACP) como el análisis factorial común (AFC), aunque existen importantes divergencias entre ambos (Gorsuch, 1983; McDonald, 1985; Tabachnick y Fidell, 1983). El ACP persigue la reducción de un conjunto de variables relacionadas en otro conjunto de variables que sean ortogonales entre sí. Por otra parte, el AFC persigue la justificación de uno o más rasgos o atributos sustantivos, creados a partir de la experiencia práctica y la observación de los investigadores. Ambas técnicas formulan un modelo lineal cuya diferencia

Page 32: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

fundamental está en el tratamiento de la varianza común y de la varianza específica de las variables sometidas a análisis (Gorsuch, 1983). En el AFC, los elementos de la diagonal principal son las comunalidades de cada variable con el resto de variables del estudio, por lo que el objetivo de esta técnica es determinar el mejor conjunto de factores interpretativos que explican la varianza común o comunalidad entre las variables, eliminando la varianza específica. En el ACP, los elementos de la diagonal principal son 1’s, por lo que el conjunto de componentes resultantes contiene tanto la varianza común entre las variables como la varianza específica. La incorporación o no de la varianza específica en el modelo de regresión provoca que el tratamiento de la matriz de correlaciones o covarianza para extraer la varianza asociada a cada factor o componente sea distinto en ambos procedimientos. Sin embargo, con bastante frecuencia, la matriz de componentes, resultante de un ACP, es muy semejante a la matriz factorial resultante de un AFC. De ahí, que elegir el número de componentes o factores en un análisis factorial exploratorio, ya sea producto de un ACP o de un AFC se convierte en una de las tareas más importantes del investigador que utiliza estas técnicas. Dada la similitud entre la matriz de componentes de un ACP y la matriz de factores de un AFC, el tópico de si se emplea uno u otro método para extraer los componentes o factores parece que no es tan importante como el tópico de determinar el conjunto de componentes o factores interpretativos de la matriz de componentes o matriz factorial resultante (Glorfeld, 1995; Velicer y Jackson, 1990). Se han ideado diversas reglas para la selección de componentes o factores, unas más comúnmente utilizadas que otras. Entre las comunes destacan: la regla de Kaiser-Guttman (Guttman, 1954; Kaiser, 1960), la prueba de Bartlett (1950, 1951), el scree-plot de Cattell (1966), y el porcentaje de varianza explicado (Tabachnick y Fidell, 1983). Entre las menos comunes, por requerir software especializado o alguna programación especial dentro de esos paquetes estadísticos, destacan: el análisis paralelo (AP) de Horn (1965) y el método MAP (Velicer, 1976; Zwick y Velicer, 1986). Sin embargo, son precisamente estas dos últimas, el método MAP y el análisis paralelo (AP), las que suelen ofrecer mejores resultados a la hora de obtener componentes o factores con entidad sustantiva de una matriz de correlaciones. La regla de Kaiser-Guttman consiste en seleccionar los componentes o factores cuyo eigenvalor sea mayor que 1. Kaiser (1960) justificó este procedimiento en función de la idea de que un factor tendría una fiabilidad no negativa cuando su eigenvalor fuera mayor 1. El resultado es que esta técnica se ha convertido para muchos investigadores en el estándar de selección de componentes o factores interpretativos en un AFE. Gorsuch (1983) revisó algunos estudios que examinaban la exactitud de este criterio, y sugirió que, en general, este criterio es más exacto cuando se analizan menos de 40 variables, el tamaño muestral es elevado y el número de factores esperado se encuentra entre p/5 y p/3, donde p es el número de variables. En la prueba de Bartlett (1950, 1951) cada eigenvalor es excluido secuencialmente hasta que se rechaza la hipótesis nula de igualdad de los eigenvalores. Entonces, los k componentes excluidos forman la dimensionalidad esperada. Un problema de esta prueba es que se basa en una distribución chi-cuadrado y, por tanto, es sensible al tamaño muestral. Conforme aumenta el tamaño muestral, la prueba tiende a sobreextraer componentes o factores interpretativos (Gorsuch, 1973), situación que

Page 33: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

puede controlarse cambiando el nivel alfa de significación en función del tamaño muestral (Horn y Engstrom, 1979).

El scree-plot (Cattell, 1966) consiste en examinar la pendiente resultante de graficar cada eigenvalor contra su posición ordinal en la solución factorial. El número de factores o componentes interpretativos resultante se corresponde con el eigenvalor menos uno en el que la pendiente prácticamente se hace paralela al eje donde se representa la posición ordinal de los eigenvalores de la matriz de correlaciones. Esta técnica suele ser bastante más exacta que la regla de Kaiser-Guttman, pero su dependencia del juicio del investigador la hace difícil de manejar en algunas situaciones, donde el número de variables es muy elevado y la discontinuidad en la pendiente no está muy clara o puede haber más de una discontinuidad (Gorsuch 1983).

El porcentaje de varianza explicado se utiliza generalmente como complemento

a los procedimientos anteriores. Como regla general se considera que en el ACP se deben interpretar tantos componentes como sea necesario hasta conseguir un 60% (Pett, Lackey y Sullivan, 2003) de la varianza explicada de la matriz de correlaciones. En el AFC, el uso de las comunalidades en la diagonal principal permite utilizar un criterio menos estricto, que viene a ser aproximadamente seleccionar factores hasta conseguir entre un 30% y un 40% de la varianza explicada de la matriz de correlaciones.

El método MAP (Zwick y Velicer, 1986) se basa en la matriz de correlaciones

parciales. Para implementar el método se selecciona un componente o factor (k) y se estima el promedio de coeficientes de correlación parcial al cuadrado. Una vez que el componente se ha parcializado, se selecciona el componente o factor k + 1, y se vuelve a calcular el promedio de los coeficientes cuadráticos de correlación parcial. La extracción de componentes finaliza cuando este promedio alcanza un mínimo. Zwick y Velicer (1986) mostraron que el método MAP es bastante exacto a la hora de determinar el número de componentes interpretativos bajo diversas condiciones experimentales de tamaño muestral, número de variables y saturación de los componentes. El AP (Horn, 1965) ha merecido la atención durante muchos años por parte de los investigadores ya que es una técnica relativamente simple de implementar con buenos resultados a la hora de determinar la estructura factorial de una matriz de correlaciones. Horn (1965) ideó originalmente esta técnica para el AFC, aunque la popularidad del ACP entre los investigadores ha hecho que el AP se estudie extensivamente en el ámbito de esta técnica factorial exploratoria. Nosotros centraremos precisamente nuestra investigación en el funcionamiento de esta técnica en el ACP. La idea del AP es relativamente simple. Si asumimos una matriz de correlaciones con 1’s en la diagonal principal y 0’s en el resto de elementos de la matriz (matriz identidad), la aplicación del ACP producirá el mismo número de componentes que de variables cuyo eigenvalor, en todos los componentes, será igual a 1. Sin embargo, cuando el ACP se realiza sobre un conjunto p de variables de tamaño N, es esperable que las correlaciones entre los variables sean distintas de 0, por lo que los eigenvalores de los primeros componentes serán algo mayores que 1, mientras que los eigenvalores de los componentes finales sean algo menores que 1. Si generamos m matrices aleatorias de igual tamaño a la matriz original y promediamos los eigenvalores de esas m matrices aleatorias, tendremos un criterio ordinal para cada componente contra el que juzgar la cuantía del eigenvalor obtenido en la matriz de correlaciones

Page 34: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

obtenida para datos reales. El AP, entonces, consiste en comparar ordinalmente cada eigenvalor de la matriz muestral contra el eigenvalor obtenido a partir de las m réplicas de las matrices generadas aleatoriamente. Si el eigenvalor de la matriz muestral es mayor que el eigenvalor promedio correspondiente obtenido a partir de muestras aleatorias, entonces, podemos retener el componente o factor. El proceso finaliza cuando el eigenvalor muestral es menor que el correspondiente eigenvalor promedio generado a partir de muestras aleatorias. Aunque Horn (1965) propuso como criterio utilizar la media de los eigenvalores de las m réplicas, otros investigadores (Longman, Cota, Holden y Fekken, 1989a) han propuesto utilizar como criterio el percentil 95. Zwick y Velicer (1986) compararon la regla de Kaiser-Guttman, la prueba de Bartlett, el scree-test de Cattell, el método MAP de Velicer y el análisis paralelo de Horn combinando el número de factores conocidos (6 y 12), la saturación de las cargas factoriales en los dos niveles (.5 y .8), el tamaño muestral (72, 144) y (180, 360) y seis diferentes niveles de complejidad factorial, que varió desde un factor puro simple a factores que incluían variables únicas y complejas formadas por cargas que se cruzan. Zwick y Velicer (1986) encontraron que la regla Kaiser-Guttman indicó el número de factores sólo en un 22% de las ocasiones. Además, donde la regla se mostró incorrecta, siempre sobreestimó el número de factores verdaderos. La prueba de Bartlett fue correcta alrededor de un 30% de las ocasiones, tendiendo a sobreestimar el número de factores conforme se incrementó el tamaño muestral. El scree-test de Cattell mostró una exactitud del 57%, sobreestimando el número de factores en el 90% de las ocasiones en que resultó incorrecto. El método más exacto fue el MAP de Velicer con un 84% de aciertos, tendiendo a extraer menos factores en el 90% de las ocasiones en que resultó incorrecto. El AP de Horn fue el procedimiento más exacto, indicando el número correcto de factores en un 92% de las ocasiones en que resultó correcto. Cuando el AP resultó en una decisión incorrecta, en un 66% de las ocasiones mostró una tendencia a sobreestimar el número verdadero de factores. Sin embargo, el AP presentó cierta tendencia a extraer más factores o a extraer factores pobremente definidos, comparado con la tendencia a extraer menos factores de los esperados (Zwick & Velicer, 1986). Por otra parte, Hubbard y Allen (1987) sugirieron que el AP obtendrá normalmente menos componentes principales que el criterio de Kaiser-Guttman y que los componentes retenidos por el AP son generalmente interpretables. A pesar de su demostrada superioridad sobre otros procedimientos de selección de factores o componentes, el AP no es una estrategia que los investigadores hayan incorporado a su repertorio usual para determinar la estructura factorial o de componentes de una matriz de correlaciones, ya sea entre variables continuas o entre ítems de un test, quizás porque no se puede encontrar en los paquetes estadísticos más comúnmente empleados, como por ejemplo SPSS. Así que si el investigador desea emplear la técnica del AP debe recurrir a alguno de los programas específicos que han sido diseñados para tal fin (Hays, 1987; Kaufman y Dunlap, 2000; Lautenschlager, 1989; Longman, Cota, Holden y Fekken, 1989b; O’Connor, 2000). También, con vistas a hacer más popular el AP, algunos investigadores (Allen y Hubbard, 1986; Lautenschlager, Lance y Flaherty, 1989; Longman, Cota, Holden y Fekken, 1989a; Keeling, 2000) desarrollaron ecuaciones de regresión para pronosticar los eigenvalores de una matriz de correlaciones provenientes de datos generados aleatoriamente para distintos tamaños muestrales y número de variables, sin tener que recurrir a los procedimientos intensivos de computador requeridos para realizar el AP. Un inconveniente, sin embargo, de emplear las ecuaciones de regresión reside en que para

Page 35: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

cada eigenvalor existe una ecuación de regresión diferente que permite obtener el eigenvalor promedio que habríamos obtenido si se hubiera empleado el AP simulando m réplicas de tamaño N x p. Aunque las primeras ecuaciones de regresión propuestas (Humphreys y Montanelli, 1975; Montanelli y Humphreys, 1976) se desarrollaron para el AFC, en este trabajo nos centraremos en las ecuaciones de regresión desarrolladas para el ACP. Procedimientos de regresión

Allen y Hubbard (1986), basándose en el trabajo previo de Montanelli y Humphreys (1976; Humphreys y Montanelli, 1975) sobre el AFC, derivaron la siguiente ecuación de regresión para pronosticar los eigenvalores de una matriz de correlaciones de datos aleatorios en un ACP, menos los dos últimos:

)log(2/)2)(1(log)1log()log( 1 kkkkkl dkpkpcNba (1) donde log es logaritmo natural, N es el tamaño muestral, p es el número de variables, k corresponde al eigenvalor k , y ka , kb , kc y kd son los estimadores del modelo de regresión. Allen y Hubbard (1986) seleccionaron variables entre 5 y 50 en pasos de 5, y tamaños muestrales de 30, 60, 90, 120, 240, 500 y 1000. Ambas condiciones fueron cruzadas bajo la restricción de que 2/3pN . Cuando el tamaño muestral fue igual o menor que 120 generaron 50 réplicas, mientras que si fue 240 o mayor generaron 30 réplicas para realizar la simulación Monte Carlo. La incorporación de kd supuso una mejora sustancial en la capacidad predictiva de la ecuación de regresión, consiguiendo que el coeficiente de determinación múltiple fuera superior a .998. Sin embargo, Cota, Longman, Holden y Fekken (1991) notaron algunas anomalías en esta ecuación. Lautenschlager et al. (1989) mejoraron la ecuación de Allen y Hubbard (1986) basándose en la idea de que la estimación de los eigenvalores es contingente de la estimación del eigenvalor del primer componente. Una mala estimación de este primer eigenvalor puede producir un efecto de arrastre sobre todos los demás. Para mejorar esta estimación, Launtenschlager et al. (1989) se basaron en las afirmaciones de otros investigadores (Mulaik, 1972; Nunnally, 1978) sobre la pertinencia de incorporar alguna función que implicara a p y N para mejorar la estimación del primer eigenvalor. Así, la ecuación de regresión propuesta por estos investigadores fue:

NpedkpkpcNba kkkkkkl /)log(2/)2)(1(log)1log()log( 1 (2) que equivale a la ecuación de Allen y Hubbard (1986) excepto en el último término, donde p es el número de variables, N es el tamaño muestral y ke es el peso correspondiente a la razón p/N. Para comprobar la exactitud predictiva de esta ecuación de regresión, Lautenschlager et al. (1989) seleccionaron variables entre 5 y 50 en pasos de 5, y los tamaños muestrales de 50, 75, 100, 150, 200, 300, 400, 500, 750 y 1000. Las dos condiciones fueron cruzadas excepto cuando 2/3pN . Si el número de variables fue mayor de 10, generaron 100 réplicas, mientras que para valores menores o iguales a 10 generaron 200 réplicas. Los resultados mostraron que esta ecuación de regresión, excepto para el primer eigenvalor, obtuvo un coeficiente de correlación múltiple de .999 ó superior. Una característica común a ambas ecuaciones reside en que restringe la

Page 36: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

exactitud de las estimaciones de los eigenvalores que siguen en función de la exactitud de los eigenvalores previos (Launtenschlager et al., 1989). Una característica común a las dos ecuaciones de regresión anteriores es que utilizan como criterio el eigenvalor promedio de las m réplicas. Sin embargo, Harshman y Reddon (1983) mostraron que por azar, en un 50% de las ocasiones, los eigenvalores observados son mayores que el eigenvalor criterio, independientemente del número de matrices aleatorias generadas para calcular la media del eigenvalor criterio. Por otra parte, Skinner (1979) sugirió retener sólo aquellos componentes con eigenvalores significativamente mayores que los correspondientes eigenvalores obtenidos en el percentil 95 después de 100 réplicas aleatorias. Teniendo en cuenta estos resultados, Longman et al. (1989a) propusieron una ecuación de regresión donde se pueden manejar ambos criterios, la media y el percentil 95 de las matrices aleatorias. Esta ecuación tiene la forma:

kkkkkkkkk dpNcpbNa )log()log()log()log()log( (3) donde N es el tamaño muestral y p el número de variables, y ka , kb , kc y kd son los estimadores del modelo de regresión. Para comprobar la exactitud predictiva de esta ecuación tanto cuando se utiliza la media como el percentil 95 como el criterio para seleccionar los componentes interpretativos, Longman et al. (1989a) realizaron un estudio de simulación Monte Carlo donde los tamaños muestrales utilizados fueron 50, 75, 100, 125, 150, 175, 200, 300, 400 y 500. El número de variables estuvo entre 5 y 50 en pasos de 5. Las dos condiciones experimentales fueron completamente cruzadas, ya que los tamaños muestrales y el número de variables se seleccionaron de acuerdo con que la razón de N a p se mantuviera en un amplio rango desde 1 a 100. La ecuación propuesta por Longman et al. (1989a) es más sencilla que las dos anteriores, pero su exactitud tanto cuando se utilizó la media como el percentil 95 como criterios para seleccionar los componentes fue algo menor. En concreto, varió entre .902 y .998. Además, Longman et al. (1989a) sugirieron que su ecuación de utilizarse cuando el número de variables sea 33k , y tampoco puede estimar los dos últimos eigenvalores. Las ecuaciones de regresión propuestas arriba tienen la ventaja de permitir obtener el eigenvalor criterio según el AP para cada uno de los p eigenvalores del estudio, pero tiene el inconveniente de que para cada eigenvalor existe una ecuación de regresión distinta. Keeling (2000) propuso una ecuación de regresión válida para cualquier eigenvalor, independientemente de su posición ordinal, que tiene la forma:

)log(059901.)log(639462.008497.444853.130827.)log( 2 Nlpkkk )log(001576.)log(095875.)log(001488.)log()log(078631. 22 pkpkNkpN )log()log(000278.)log()log(013331. 2 pNkpNk

donde N es el tamaño muestral, p es el número de variables y k es la posición ordinal del eigenvalor que se quiere calcular. Keeling (2000) calculó los eigenvalores pronosticados a través de varias combinaciones de N (50, 75, 100, 150, 200, 300, 400 y 500) y p (5, 10, 15, 20, 25, 35 y 50). El coeficiente de determinación para las combinaciones de estas dos condiciones, con la restricción de que no se calcularon los eigenvalores en aquellas condiciones donde 2/3pN y 33k , varió entre 0.9598 para estimar el

Page 37: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

eigenvalor 24 hasta .9959 del tercer eigenvalor, mostrando una clara superioridad a las ecuaciones de regresión propuestas por Lautenschlager et al. (1989) y Longman et al. (1989a). Weng, Lee y Wu (2003) compararon las ecuaciones de regresión de Allen y Hubbard (1986), Lautenschlager et al. (1989), Longman et al. (1989) y Keeling (2000), combinando 9 tamaños muestrales y entre 5 y 50 variables en incrementos de 5, excepto en aquellas combinaciones en las que N ≤ 3p/2. Para evaluar la exactitud de estas ecuaciones de regresión, promediaron 1000 réplicas de matrices de correlaciones aleatorias de igual tamaño y número de variables que fueron el criterio de comparación. Entonces, calcularon la media de las diferencias absolutas entre los eigenvalores estimados y los eigenvalores criterio para cada combinación de tamaño muestral y número de variables. Weng et al. (2003) encontraron que la media de las diferencias absolutas en la ecuación de Allen y Hubbard (1986) y en la ecuación de Lautenschlager et al. (1989) se incrementó conforme aumentó el número de variables y el tamaño muestral; además, este incremento fue muy elevado cuando el tamaño muestral estuvo por debajo de 100 sujetos o por encima de 300 sujetos y el número de variables fue de 40. Sin embargo, las ecuaciones de Longman et al. (1989) y Keeling (2000) apenas si se vieron afectadas por el tamaño muestral y el número de variables. Sólo cuando el tamaño muestral fue de 1000, las medias de las diferencias absolutas de estas ecuaciones de regresión se incrementaron con el tamaño muestral. Aunque las condiciones experimentales utilizadas en los distintos estudios son semejantes, existen ciertas divergencias que hace difícil comparar la exactitud de estas ecuaciones de regresión. Además, la técnica del AP y las ecuaciones de regresión no han sido probadas extensivamente en el ámbito de los tests psicológicos, donde los ítems tienen un número de categorías limitadas. Así, los objetivos de este estudio son, por una parte, ofrecer más resultados sobre la superioridad del AP sin regresión cuando se compara con la técnica de Kaiser-Guttman, y, por otra parte, comparar la exactitud de las ecuaciones de regresión arriba propuestas, en distintas condiciones experimentales donde se controla la existencia de dos componentes interpretativos relacionados (oblicuos) entre sí o no (ortogonales) en un test psicológico de p ítems tipo Likert (5 categorías). Además, se compara cada una de estas ecuaciones de regresión con la técnica del AP generada a través de un proceso intensivo de computador, utilizando como criterios la media y el percentil 95 de los eigenvalores de las m réplicas.

Método Condiciones experimentales Todas las ecuaciones de regresión utilizaron valores de p entre 5 y 50, y aunque difirieron en los tamaños muestrales empleados, todas utilizaron valores de N entre 50 y 500. Así que restringiremos este estudio a probar el AP y los procedimientos de regresión con valores de p y N que se encuentren en el rango especificado. Para el tamaño muestral N hemos seleccionado tres valores: 100, 200 y 300. Para la longitud del test p emplearemos también tres valores: 10, 20 y 30 ítems. Todos los

Page 38: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

ítems fueron tipo Likert, con 5 categorías. Además, en cada una de las longitudes de los tests se manipuló el porcentaje de ítems que cargan en el segundo componente, con el objetivo observar si su importancia, determinada por el número de ítems que contiene, influye en la detección correcta de la estructura factorial. Así, se han empleado tres porcentajes (20%, 30% y 40%), lo que supone que en un test de 10 ítems, el segundo componente tiene 2, 3 ó 4 ítems, respectivamente. En un test de 20 ítems, estos porcentajes suponen 4, 6 y 8 ítems, y en un test de 30 ítems, 6, 9 y 12 ítems. Por último, se ha manipulado también la correlación entre los componentes, desde no correlación (.00), correlación media (.30) y correlación alta (.60) entre los componentes. Los tres tamaños muestrales, las tres longitudes de tests, los tres porcentajes de ítems que cargan en el segundo componente, y las tres correlaciones entre componentes produjeron un total de 81 combinaciones, cada una de las cuales fue replicada en 50 ocasiones. Para obtener las tasas de acierto de cada una de las ecuaciones de regresión, y del AP, se escribió un programa informático que permitió calcular los eigenvalores de las 4050 matrices generadas a partir de las condiciones experimentales arriba señaladas. Este programa informático también incluyó un algoritmo para calcular los dos eigenvalores criterio (media y percentil 95) del AP sin emplear las ecuaciones de regresión. Para determinar los eigenvalores criterio, en cada una de las 81 condiciones experimentales se emplearon 50 réplicas de igual tamaño y longitud del test. Generación de las matrices de datos La generación de los datos se ha realizado bajo un modelo logit multinominal de coeficientes aleatorios multidimensional (Adams, Wilson y Wang, 1997). Este modelo está implementado en ConQuest y tiene la siguiente forma:

)exp(

)exp()|,,;1(

''

''

ikik

ijijij

ab

abBAXP

donde ' es un vector de p parámetros de los ítems en cada test; ika es un conjunto de vectores de una matriz de diseño; 'b es un vector de parámetros que permite obtener el nivel de rendimiento de una respuesta observada en la categoría j en el ítem i, y es un espacio latente D-dimensional, en nuestro caso bidimensional, de habilidades. ConQuest permite simular matrices de datos para tests de longitud y tamaño muestral determinados; además, permite manipular el porcentaje de ítems que cargan en cada componente así como el grado de relación entre los componentes. El intervalo del parámetro de dificultad en cada test se estableció entre –1 y +1, que viene a reflejar, aproximadamente, el intervalo del índice de dificultad del modelo clásico de tests. Por otra parte, ConQuest genera una distribución muestral multivariante para la habilidad en cada componente. La distribución empleada en este estudio fue normal multivariante con media 0 y desviación típica 1. Por último, cada una de las 50 réplicas para obtener los criterios (media y percentil 95) del AP, en cada condición experimental, se generaron a partir de parámetros de ítems y de habilidad distintos. Estadísticos

Page 39: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

Para determinar la tasa de aciertos de cada procedimiento de regresión y el AP sin regresión, se calculó el porcentaje de réplicas que obtuvo la dimensionalidad correcta en cada condición experimental. Además, se obtuvieron las medias de los eigenvalores que superaron los valores criterio en cada uno de los procedimientos utilizados en esta investigación. Si un procedimiento obtiene la dimensionalidad correcta, el porcentaje de aciertos será del 100%, y la media de los eigenvalores será igual a 2.00. Sin embargo, si el procedimiento de regresión no obtiene la dimensionalidad correcta, el porcentaje de aciertos será menor que el 100%, y la media puede ser mayor o menor que 2.00. Si la media es mayor que 2.00, entonces el procedimiento tiende a sobredimensionar la estructura factorial de la matriz de correlaciones, es decir tiende a extraer más componentes de los esperados, generando factores espurios de difícil interpretación. Sin embargo, si la media es menor que 2.00, entonces el procedimiento tiende a infradimensionar la estructura factorial de la matriz de correlaciones, lo que puede suponer que componentes importantes no sean tenidos en cuenta por los investigadores en sus interpretaciones. Fava y Velicer (1996) establecieron que una sobreextracción tiene efectos negativos y estos efectos se acentúan si la saturación del componente es baja y/o el tamaño muestral es bajo. Así, el estudio de Fava y Velicer (1996) considera que extraer menos componentes interpretativos es peor que una sobreextracción de componentes.

Resultados La tabla 1 presenta la tasa de aciertos de cada procedimiento y el número de eigenvalores promedio obtenidos en cada condición experimental cuando el número de ítems del test fue 10. Como se aprecia en la misma, el porcentaje de éxito de la regla Kaiser-Guttman (eigenvalor > 1) es relativamente elevada, entre un 90% y un 100% independientemente del tamaño muestral, el porcentaje de ítems en el segundo componente, y la correlación entre los componentes; el porcentaje de aciertos más bajo (90%) se obtuvo cuando el tamaño muestral es de 200 casos, el número de ítems que cargan en el segundo componente es sólo del 20% y la correlación entre los componentes es de .60. Además, la regla de Kaiser-Guttman tendió a obtener la dimensionalidad correcta (2.0) en la mayor parte de las condiciones, aunque la mayor inestabilidad se obtuvo cuando el tamaño muestral fue bajo (100 casos), donde esta regla tendió a extraer más componentes de los esperados, ya que la media de eigenvalores estuvo por encima de 2 (entre 2.02 y 2.06). Sólo cuando el porcentaje de ítems en el segundo factor fue bajo (20%) y la correlación entre los componentes fue elevada (.60), la regla de Kaiser-Guttman tendió a obtener menos componentes de los esperados (1.92). Tabla 1. Porcentaje de éxito y medias de eigenvalores extraídos (10 ítems). Procedimientos directos Ecuaciones de regresión

N %2D IIIr , (1) (2) (3) (4) (5) (6) (7) (8)

100

20%

.00

96 100 78 86 98 96 70 96 2.04 2.00 1.78 1.86 1.98 1.96 1.70 1.96

.30

94 76 44 44 68 66 34 66 2.06 1.76 1.44 1.44 1.68 1.66 1.34 1.66

.60

92 4 0 0 4 4 0 4 1.92 1.04 1.00 1.00 1.04 1.04 1.00 1.04

30%

.00

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

100 100 100 100 100 100 100 100

Page 40: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

.30 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00 .60

98 56 34 36 59 48 26 48 2.02 1.56 1.34 1.36 1.50 1.48 1.26 1.48

40%

.00

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

98 100 100 100 100 100 100 100 2.02 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

98 80 64 68 76 74 56 74 2.02 1.80 1.64 1.68 1.76 1.74 1.56 1.74

200

20%

.00

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

100 94 92 92 94 94 90 94 2.00 1.94 1.92 1.92 1.94 1.94 1.90 1.94

.60

90 16 0 6 14 8 0 8 1.90 1.16 1.00 1.06 1.14 1.08 1.00 1.08

30%

.00

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

98 66 38 42 64 64 32 64 2.02 1.66 1.38 1.42 1.64 1.64 1.32 1.64

40%

.00

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

100 98 90 94 96 94 88 94 2.00 1.98 1.90 1.94 1.96 1.94 1.88 1.94

300

20%

.00

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

100 100 100 100 100 100 98 100 2.00 2.00 2.00 2.00 2.00 2.00 1.98 2.00

.60

94 14 2 14 14 14 2 14 1.94 1.14 1.02 1.14 1.14 1.14 1.02 1.14

30%

.00

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

100 92 80 92 90 88 80 90 2.00 1.92 1.80 1.92 1.90 1.88 1.80 1.90

40%

.00

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

100 100 100 100 100 100 100 100 2.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

(1) Regla de Kaiser-Guttman, (2) Procedimiento de Horn (media), (3) Procedimiento de Horn (percentil 95), (4) Procedimiento de Allen y Hubbard, (5) Procedimiento de Lautenschlager et al., (6) Procedimiento de Longman et al. (media), (7) Procedimiento de Longman et al. (percentil 95), (8) Procedimiento de Keeling. Con respecto al AP, podemos destacar que tanto el criterio media de los eigenvalores como el criterio del percentil 95 funcionaron relativamente bien a través de las condiciones experimentales simuladas, aunque ambos criterios no produjeron iguales resultados. Así, la tasa de éxito del AP fue del 100% cuando los componentes son ortogonales, e independientemente del tamaño muestral y el porcentaje de ítems que cargan en el segundo factor. Sin embargo, el criterio del percentil 95 tuvo una tasa de acierto más baja de la esperada (78%) cuando el número de ítems del segundo factor fue bajo (20%), y el tamaño muestral también fue bajo (N = 100). Si el porcentaje de ítems del segundo factor fue del 30%, entonces ambos criterios consiguieron iguales tasas de éxito (100%) en todos los tamaños muestrales y cuando la correlación entre los componentes fue de .00 y .30, pero cuando la correlación fue de .60, entonces, de nuevo ambos criterios produjeron tasas de éxito menores de lo esperado. Estas tasas fueron

Page 41: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

mejorando conforme aumentó el tamaño muestral y el porcentaje de ítems del segundo factor, llegando hasta un 100% cuando el porcentaje de ítems del segundo factor fue del 40%, independientemente de la correlación entre los componentes. No obstante, cuando N = 300, los porcentajes de éxito de la media de los eigenvalores fue tan baja como del 14%, y un 2% para el percentil 95, cuando el porcentaje de ítems del segundo factor fue del 20% y la correlación entre los componentes fue elevada (.60). Además, ambos criterios tendieron a extraer menos componentes de los esperados en todas las condiciones experimentales donde su tasa de éxito estuvo por debajo del 100%. La comparación entre las ecuaciones de regresión produce un esquema interpretativo semejante al procedimiento de AP realizado sin regresión. En principio, las ecuaciones de regresión pueden ser una buena alternativa al AP cuando el tamaño muestral es mayor de 200 casos y la correlación entre los componentes es de .00 y de .30, independientemente del porcentaje de ítems que cargó en el segundo factor (20%, 30% ó 40%). Las mayores diferencias con el AP sin regresión se encuentran precisamente en las condiciones experimentales donde el tamaño muestral fue bajo (N = 100), el porcentaje de ítems del segundo componente fue bajo (20%) y la correlación entre los componentes fue de .30 y .60. En este caso, las ecuaciones de regresión ofrecen porcentajes de éxito por debajo de las que produce el propio AP sin regresión. Así, cuando el número de casos fue 100, el porcentaje de ítems del segundo componente fue del 20% y los componentes fueron ortogonales, la ecuación de Lautenschlager et al. (1989) fue la que produjo el mayor porcentaje de éxito (98%), seguida por la ecuación Longman et al. (1989a) con un 96% cuando utilizó como criterio la media de los eigenvalores, y la ecuación de Keeling (2000) con un 96% también de éxito. La ecuación de Allen y Hubbard (1989) y el criterio del percentil 95 de Longman et al. (1989a) obtuvieron los porcentajes de éxito más bajos, 86% y 70% respectivamente. La superioridad de las ecuaciones de regresión de Lautenschlager et al. (1989), Longman et al. (1989a) (criterio de media) y Keeling (2000) sobre el resto de ecuaciones de regresión se mantuvo en todas las condiciones experimentales, aunque las diferencias desaparecen conforme aumenta el tamaño muestral y el porcentaje de ítems de la segunda dimensión es mayor. Conviene resaltar también que aun con un tamaño muestral relativamente elevado (N = 300), cuando el porcentaje de ítems del segundo factor fue bajo, y la correlación entre los componentes fue elevada (.60), las ecuaciones de regresión presentaron tasas de éxito del 14% en la detección de la bidimensionalidad correcta, tendiendo a extraer menos componentes de los esperados. La tabla 2 presenta los porcentajes de éxito y la media de eigenvalores encontrados en cada condición experimental a través de las 50 réplicas cuando la longitud del test fue de 20 ítems. En primer lugar, observamos que las tasas de éxito de la regla Kaiser-Guttman cayeron drásticamente con respecto a la longitud de 10 ítems, llegando a ser tan baja como del 14% cuando el tamaño muestral fue de 100 casos, el porcentaje de ítems del segundo factor es del 30% y la correlación entre los componentes es alta (.60). Los porcentajes de éxito mejoraron, sin embargo, conforme aumentó el tamaño muestral y conforme el porcentaje de ítems del segundo componente fue más alto, llegando hasta un 86% cuando el tamaño muestral fue de 200 casos, el porcentaje de ítems en el segundo componente fue del 40% y la correlación entre los componentes fue .30. Sin embargo, la regla de Kaiser-Guttman tendió a sobreextraer más componentes de lo esperado, ya que las medias en todas las condiciones experimentales fueron mayores que 2.00, variando entre 2.14 (N = 200, porcentaje de ítems en el segundo componente del 30% y correlación entre componentes de .30) y

Page 42: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

2.88 (N = 100, 20% de ítems en el segundo componente y correlación entre componentes de .30). Estas medias suponen que si el número de componentes esperado en cada condición experimental en las 50 réplicas fue de 100, en el primer caso donde la media fue 2.14, el número de componentes extraídos en las 50 réplicas fue 107, 7 más de los esperados, mientras que cuando la media fue de 2.88, el número de componentes extraídos en las 50 réplicas fue de 144, 44 más de los esperados. Tabla 2. Porcentaje de éxito y medias de eigenvalores extraídos (20 ítems). Procedimientos directos Ecuaciones de regresión

N %2D IIIr , (1) (2) (3) (4) (5) (6) (7) (8)

100

20%

.00

22 100 100 100 100 100 100 100 2.82 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

14 100 98 100 100 98 94 100 2.88 2.00 1.98 2.00 2.00 1.98 1.94 2.00

.60

24 74 54 70 80 68 41 70 2.78 1.74 1.54 1.70 1.80 1.68 1.41 1.70

30%

.00

30 100 100 100 100 100 100 100 2.74 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

28 100 100 100 100 100 100 100 2.76 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

14 98 94 96 98 96 88 96 2.88 1.98 1.94 1.96 1.98 1.96 1.88 1.96

40%

.00

38 100 100 100 100 100 100 100 2.70 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

28 100 100 100 100 100 100 100 2.76 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

26 100 98 100 100 100 98 100 2.74 2.00 1.98 2.00 2.00 2.00 1.98 2.00

200

20%

.00

40 100 100 100 100 100 100 100 2.60 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

30 98 98 98 98 98 98 98 2.62 2.02 2.02 2.02 2.02 2.02 2.02 2.02

.60

22 96 84 88 96 94 82 94 2.78 2.04 1.88 1.96 2.04 2.02 1.82 2.02

30%

.00

56 100 100 100 100 100 100 100 2.44 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

52 100 100 100 100 100 100 100 2.48 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

32 100 100 100 100 100 100 100 2.68 2.00 2.00 2.00 2.00 2.00 2.00 2.00

40%

.00

60 100 100 100 100 100 100 100 2.40 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

86 100 100 100 100 100 100 100 2.14 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

50 100 100 100 100 100 100 100 2.50 2.00 2.00 2.00 2.00 2.00 2.00 2.00

300

20%

.00

56 100 100 100 100 100 100 100 2.44 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

40 100 100 100 100 100 100 100 2.60 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

50 98 96 96 98 98 96 98 2.50 1.98 1.96 1.96 1.98 1.98 1.96 1.98

30%

.00

72 100 100 100 100 100 100 100 2.28 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

38 98 100 100 98 98 100 100 2.62 2.02 2.00 2.00 2.02 2.02 2.00 2.00

.60

56 100 100 100 100 100 100 100 2.44 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.00

76 100 100 100 100 100 100 100 2.24 2.00 2.00 2.00 2.00 2.00 2.00 2.00

Page 43: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

40% .30

80 100 100 100 100 100 100 100 2.20 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

70 98 100 100 98 100 100 100 2.30 2.02 2.00 2.00 2.02 2.00 2.00 2.00

(1) Regla de Kaiser-Guttman, (2) Procedimiento de Horn (media), (3) Procedimiento de Horn (percentil 95), (4) Procedimiento de Allen y Hubbard, (5) Procedimiento de Lautenschlager et al., (6) Procedimiento de Longman et al. (media), (7) Procedimiento de Longman et al. (percentil 95), (8) Procedimiento de Keeling. En segundo lugar, la tasa de acierto del AP (sin regresión) en ambos criterios, media y percentil 95, fue más elevada que la regla de Kaiser-Guttman en todas las condiciones experimentales. No obstante, se aprecian ciertas disfunciones del AP cuando la correlación entre los componentes es elevada (.60), independientemente del tamaño muestral y del porcentaje de ítems en el segundo componente. Así, la tasa de éxito del AP fue del 74% (media) y 54% (percentil 95) cuando N = 100, el porcentaje de ítems del segundo componente es bajo (20%) y la correlación entre los componentes fue de .60, aunque aumentó ampliamente (98% y 94% respectivamente) cuando el porcentaje de ítems del segundo componente aumentó al 30%, manteniendo la misma correlación entre los ítems. En general, en estos casos, ambos criterios del AP tendieron a infraestimar el número de componentes extraídos, ya que las medias estuvieron siempre por debajo de 2.00. Solamente cuando N = 200, el porcentaje de ítems del segundo componente fue del 20% y la correlación entre los componentes fue de .30 y .60, el AP con el criterio de la media tendió a sobreextraer el número de componentes, ya que las medias fueron 2.02 (101 componentes en las 50 réplicas, 1 componente más de los esperados) y 2.04 (102, 2 componentes más de los esperados). Con respecto a los procedimientos de regresión, todos obtuvieron altas tasas de acierto, por encima del 90% prácticamente en todas las condiciones experimentales, destacando la ecuación de Lautenschlager et al. (1989), con tasas de acierto entre el 98% y el 100%, la ecuación de Longman et al (1989a) (criterio media) con tasas de acierto entre el 94% y el 100% y la ecuación de Keeling (2000) con tasas de acierto entre el 96% y el 100%, excepto cuando el tamaño muestral fue de 100, el porcentaje de ítems del segundo componente fue del 20% y la correlación entre los componentes fue elevada (.60). En ese caso, la ecuación de regresión de Luatenschlager et al. (1989) obtuvo la mayor tasa de éxito (80%) seguida por la ecuación de Allen y Hubbard (1989) con un 70% y la ecuación de Keeling (2000) con un 70% de aciertos también. Cerca quedaron las ecuaciones de Longman et al. (1989a) donde la tasa de éxito fue del 68% cuando se utilizó el criterio de la media, y del 41% cuando se utilizó el criterio del percentil 95. El aumento del tamaño muestral y del porcentaje de ítems en el segundo componente provocó un aumento paulatino de las tasas de éxito que parecen hacer indiferente la utilización de una u otra ecuación de regresión para determinar la dimensionalidad correcta en una matriz de correlaciones. Por otra parte, todas las ecuaciones tendieron a obtener el número de componentes correcto, excepto en aquellas condiciones donde la tasa de aciertos estuvo por debajo del 100%. En ese caso, las ecuaciones de regresión tendieron a obtener menos componentes de los esperados sobre todo cuando la correlación entre los componentes fue de .60. Por ejemplo, cuando N = 100, el porcentaje de ítems del segundo componente es del 20% y la correlación entre los componentes fue de .60, la media de componentes extraídos por la ecuación de Longman et al. (1989a) utilizado como criterio la media de los eigenvalores, fue de 1.68, lo que supone que en las 50 réplicas se obtuvieron 84 componentes interpretativos, 16 menos de los esperados. En esa misma condición experimental, la ecuación de Lautenschlager et al. (1989) obtuvo una media de 1.80, lo que supone 90 componentes extraídos como correctos, 10 menos de los esperados en la simulación.

Page 44: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

La tabla 3 presenta las tasas de acierto y medias de eigenvalores interpretativos obtenidos cuando la longitud del test fue de 30 ítems. En este caso, destaca que la tasa de acierto de la regla de Kaiser-Guttman se encuentra entre el 0% (en muchas condiciones experimentales) y el 8% cuando N = 300, el porcentaje de ítems del segundo componente es del 40% y la correlación entre los componentes fue nula (.00). Las medias de eigenvalores obtenidos en cada condición experimental complementan los resultados anteriores. Así, la media más alta fue de 4.12 y se obtuvo cuando el tamaño muestral fue de 100 casos, el porcentaje de ítems del segundo componente fue del 40% y la correlación entre los componentes fue .00. Eso supone que sobre los 100 componentes esperados en las 50 réplicas, se obtuvieron 206, es decir, 106 más de los esperados que supone que cada réplica obtuvo entre 4 y 5 factores interpretativos con la regla de Kaiser-Guttman cuando la dimensionalidad correcta fue sólo de 2 componentes. Por otro lado, la media más baja fue 2.98, que se obtuvo en varias condiciones experimentales cuando el tamaño muestral fue 200 ó mayor. Esta media supone que en esas condiciones se obtuvieron 149 componentes, 49 componentes más de los esperados, lo que implica que en las réplicas se obtuvieron entre 3 y 4 componentes interpretativos cuando la dimensionalidad correcta fue de 2 componentes. Tabla 3. Porcentaje de éxito y medias de eigenvalores extraídos (30 ítems). Procedimientos directos Ecuaciones de regresión

N %2D IIIr , (1) (2) (3) (4) (5) (6) (7) (8)

100

20%

.00

0 96 100 96 96 98 100 98 3.90 2.04 2.00 2.04 2.04 2.02 2.00 2.02

.30

0 100 100 100 100 100 100 100 3.80 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

0 92 94 92 92 92 88 94 3.76 2.04 1.94 2.04 2.04 2.00 1.88 2.02

30%

.00

0 100 100 100 98 100 100 100 3.94 2.00 2.00 2.00 2.02 2.00 2.00 2.00

.30

0 100 100 100 100 100 100 100 3.82 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

0 100 100 100 100 100 100 100 3.82 2.00 2.00 2.00 2.00 2.00 2.00 2.00

40%

.00

0 100 100 100 100 100 100 100 4.12 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

0 100 100 100 100 100 100 100 4.04 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.60

0 100 100 100 100 100 100 100 4.00 2.00 2.00 2.00 2.00 2.00 2.00 2.00

200

20%

.00

2 90 94 94 88 94 94 94 3.02 2.10 2.06 2.06 2.12 2.06 2.06 2.06

.30

0 100 100 100 96 100 100 100 3.00 2.00 2.00 2.00 2.04 2.00 2.00 2.00

.60

2 96 98 98 88 96 98 98 2.98 2.04 2.02 2.02 2.12 2.04 2.02 2.02

30%

.00

4 100 100 100 98 100 100 100 2.98 2.00 2.00 2.00 2.02 2.00 2.00 2.00

.30

2 98 98 98 96 98 98 98 3.06 2.02 2.02 2.02 2.04 2.02 2.02 2.02

.60

0 94 96 94 94 94 96 94 3.04 2.06 2.04 2.06 2.06 2.06 2.04 2.06

40%

.00

2 100 100 100 100 100 100 100 3.26 2.00 2.00 2.00 2.00 2.00 2.00 2.00

.30

0 98 100 100 98 100 100 100 3.20 2.02 2.00 2.00 2.02 2.00 2.00 2.00

Page 45: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

.60

4 98 98 98 96 98 98 98 3.16 2.02 2.02 2.02 2.04 2.02 2.02 2.02

300

20%

.00

0 88 94 96 84 88 96 90 3.00 2.12 2.06 2.04 2.16 2.12 2.04 2.10

.30

0 96 88 90 94 80 90 82 3.00 2.24 2.12 2.10 2.26 2.20 2.10 2.18

.60

0 74 82 84 68 76 84 76 3.00 2.26 2.18 2.16 2.32 2.24 2.16 2.24

30%

.00

4 94 98 98 98 94 98 96 2.98 2.06 2.02 2.02 2.10 2.06 2.02 2.04

.30

2 98 98 98 96 98 98 98 3.00 2.02 2.02 2.02 2.04 2.02 2.02 2.02

.60

2 94 98 98 92 96 98 98 2.98 2.06 2.02 2.02 2.08 2.04 2.02 2.02

40%

.00

8 98 98 98 96 98 98 98 3.06 2.02 2.02 2.02 2.04 2.02 2.02 2.02

.30

6 100 100 100 96 100 100 100 2.98 2.00 2.00 2.00 2.04 2.00 2.00 2.00

.60

4 100 100 100 100 100 100 100 2.98 2.00 2.00 2.00 2.00 2.00 2.00 2.00

(1) Regla de Kaiser-Guttman, (2) Procedimiento de Horn (media), (3) Procedimiento de Horn (percentil 95), (4) Procedimiento de Allen y Hubbard, (5) Procedimiento de Lautenschlager et al., (6) Procedimiento de Longman et al. (media), (7) Procedimiento de Longman et al. (percentil 95), (8) Procedimiento de Keeling. Con respecto al AP sin regresión, el procedimiento funcionó relativamente bien con ambos criterios (media y percentil 95), aun en las condiciones más extremas como bajo tamaño muestral (N = 100), porcentaje de ítems del segundo componente del 20% y ortogonalidad de los componentes (.00), donde la tasa de éxito con el criterio media fue del 96% y con el criterio percentil 95 fue del 100%. En este caso, sin embargo, se observó un empeoramiento de las tasas de éxito cuando el tamaño muestral fue elevado. Así, cuando N = 300, el porcentaje de ítems del segundo componente fue bajo (20%) y la correlación entre los componentes fue nula (.00), la tasa de acierto fue del 88% con el criterio de la media y del 94% con el criterio del percentil 95. Estas tasas empeoraron, cuando en la misma condición experimental pero cuando la correlación entre los componentes fue de .60, pasaron a un 74% para el criterio de la media y el 82% para el criterio del percentil 95. Las tasas de éxito se elevaron drásticamente cuando para el mismo tamaño muestral (N = 300), el porcentaje de ítems en el segundo componente fue del 30% ó mayor. Por otra parte, las medias del número de componentes extraídos variaron entre 1.94 (N = 100, porcentaje de ítems en el segundo componente del 20% y correlación entre componentes de .60) del AP con el criterio del percentil 95, y 2.26 (N = 300, porcentaje de ítems del segundo componente del 20% y correlación entre componentes de .60). En el primer caso, una media de 1.94 supone la extracción de 97 componentes, 3 menos de los 100 esperados, mientras que en el segundo, la media de 2.26 supone 113 componentes, 13 más de los esperados en la simulación. No obstante, en la tabla se aprecia que cuando la longitud del test es relativamente elevada (30 ítems), si el AP no extrae la dimensionalidad correcta, entonces tiende a sobreextraer factores antes que a extraer menos factores de los necesarios. Este problema se produce sobre todo cuando el segundo componente no tiene el suficiente número de ítems con respecto al primer componente, independientemente del tamaño muestral y se agudiza con el aumento de la correlación entre los componentes interpretativos extraíbles. Las ecuaciones de regresión prácticamente mimetizan los resultados obtenidos con el AP sin regresión, presentando las tasas de éxito más bajas cuando el porcentaje de ítems del segundo componente fue bajo (20%) y la correlación entre los componentes fue elevada (.60). Curiosamente, las tasas de éxito de las ecuaciones de

Page 46: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

regresión fueron altas (100%) cuando el tamaño muestral fue bajo (N = 100) y el porcentaje de ítems del segundo componente fue del 30% ó del 40%. Sin embargo, el aumento del tamaño muestral (N = 200 y N = 300) supuso un empeoramiento de estas tasas de éxito aunque no excesivamente importantes ya que casi todas fueron superiores al 90%. Como ocurre con el AP sin regresión, las ecuaciones de regresión tienden a sobreextraer componentes, siendo precisamente la ecuación de Lautenschlager et al. (1989) la que presentó las medias más altas: 2.32 (N = 300, porcentaje de ítems del segundo componente del 20% y correlación entre componentes de .60) y 2.26 en la misma condición experimental pero cuando la correlación entre componentes fue de .30. Estas medias suponen, en el primer caso, 116 componentes, 16 componentes más de los esperables, y en el segundo caso, 113, 13 componentes más de los esperables según la simulación. Referencias Adams, R. J., Wilson, M. R. y Wang, W. C. (1997). The multidimensional random coefficients multinomial logit. Applied Psychological Measurement, 21, 1-24. Allen, S. J. y Hubbard, R. (1986). Regressions equations for the latent roots of random data correlation matrices with unities on the diagonal. Multivariate Behavioral Research, 21, 393-398. Bartlett, M. S. (1950). Tests of significance in factor analysis. British Journal of Psychology, 3, 77-85. Bartlett, M. S. (1951). A further note on tests of significance in factor analysis. British Journal of Psychology, 4, 1-2. Cattell, R. B. (1966). The scree test for the number of factors. Multivariate Behavioral Research, 1, 245-276. Cota, A. A., Longman, R. S., Holden, R. R. y Fekken, G. C. (1991). Anomalies in the Allen and Hubbard parallel analysis procedure. Applied and Psychological Measurement, 15, 95-97. Fava, J. L. y Velicer, W. F. (1992). The effects of overextraction on factor component análisis. Multivariate Behavioral Research, 27, 387-415. Glorfeld, L. W. (1995). An improvement of Horn’s parallel analysis methodology for selecting the correct number of factors to retain. Educational and Psychological Measurement, 55, 377-393. Gorsuch, R. L. (1973). Using Bartlett’s significance test to determine the number of factors to extract. Educational and Psychological Measurement, 33, 361-364. Gorsuch, R. L. (1983). Factor analysis (2nd. ed.). Hillsdale, NJ: Lawrence Erlbaum Associates, Inc. Guttman, L. (1954). Some necessary conditions for common factor analysis. Psychometrika, 19, 149-162.

Page 47: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

Harshman, R. A. y Reddon, J. R. (1983, May). Determining the number of factors by comparing real with random data: A serious flaw and some possible corrections. Paper presented at the annual meeting of the Classification Society of North America, Philadelphia. Hays, R. D. (1987). Parallel.exe. Applied Psychological Measurement, 11, 58. Horn, J. L. (1965). A rationale and test for the number of factors in factor analysis Psychometrika, 30, 179-185. Horn, J. L. y Engstrom (1979). Cattell’s scree test in relation to Bartlett’s chi-square test and other observations on the number of factors problem. Multivariate Behavioral Research, 14, 283-300. Hubbard, R. y Allen, S. J. (1987). An empirical comparison of alternative methods for principal component extraction. Journal of Business Research, 15, 173-190. Humphreys, L. G. y Montanelli, R. G. (1975). An investigation of the parallel analysis criterion for determining the number of common factors. Multivariate Behavioral Research, 10, 193-205. Kaiser, H. F. (1960). The aaplication of electronic computers to factor analysis. Educational and Psychological Measurement, 20, 141-151. Kaufman, J. D. y Dunlap, W. P. (2000). Determining the number of factor to retain: A Windows-based FROTRAN-IMSL program for parallel analysis. Behavior Research Methods, Instrument, & Computers, 32, 389-395. Keeling, K. B. (2000). A regression equation for determining the dimensionality of data. Multivariate Behavioral Research, 35(4), 457-468. Lautenschlager, G. J. (1989). A comparison of alternatives to conducting Monte Carlo analyses for determining parallel analysis criteria. Multivariate Behavioral Research, 24, 365-395. Lautenschlager, G. J., Lance, Ch. E. y Flaherty, V. L. (1989). Parallel analysis criteria: Revised equations for estimating the latent roots of random data correlation matrices. Educational and Psychological Measurement, 49, 339-345. Longman, R. S., Cota, A. A., Holden, R. R. y Fekken, G. C. (1989a). A regression equation for the parallel analysis criterion in principal component analysis: Mean and 95th percentile eigenvalues. Multivariate Behavioral Research, 24(1), 59-69. Longman, R. S., Cota, A. A., Holden, R. R. y Fekken, G. C. (1989b). PAM: A double-precision FORTRAN routine for the parallel analysis method in principal components analysis. Behavior Research Methods, Instruments, & Computers, 21, 477-480. McDonald, R. P. (1985). Factor analysis and related methods. Hillsdale, NJ: Lawrence Erlbaum Associates.

Page 48: MEMORIA FINAL DEL PROYECTO DE INVESTIGACIÓN ...fseneca.es/cms/sites/default/files/resultados/03109_PHCS_05.pdf · Objetivo 1. Estudio de generalización de la fiabilidad de la escala

Montanelli, R. G. y Humphreys, L. G. (1976). Latent roots of random data correlation matrices with squared multiple correlations on the diagonal: A Monte Carlo study. Psychometrika, 41, 341-348. Mulaik, S. A. (1972). The foundations of factor analysis. New York: McGraw Hill. Nunnally, J. C. (1978). Psychometric theory. New York: McGraw Hill. O’Connor, B. P. (2000). SPSS and SAS programs for determining the number of components using parallel analysis and Velicer’s MAP test. Behavior Research Methods, Instruments, & Computers, 32, 396-402. Pett, M. A., Lackey, N. R. y Sullivan, J. J. (2003). Making sense of factor analysis: The use of factor analysis for instrument development in Health Care Research. Thousand Oaks, CA: Sage. Skinner, H. A. (1979). Dimensions and clusters: A hybrid approach to classification. Applied Psychological Measurement, 3, 327-341. Tabachnick, B. G. y Fidell, L. S. (1983). Using multivariate statistics. New York: Harper & Row. Velicer, W. F. (1976). Determining the number of components from the matrix of partial correlations. Psychometrika, 41, 321-327. Velicer, W. F. y Jackson, D. N. (1990). Component analysis versus common factor analysis: Some issues in selecting and appropriate procedure. Multivariate Behavioral Research, 25, 1-28. Weng, L., Lee, Ch. y Wu, P. (2003). A comparison of regression equations for estimation of eigenvalues or random data correlation matrices in parallel analysis. Chinese Journal of Psychology, 45, 323-335. Wu, M. L., Adams, R. J., & Wilson, M. R. (1998). Acer ConQuest: Generalised item response modelling software. Melbourne, Australia: Australian Council for Educational Research. Zwick, W. R. y Velicer, W. F. (1986). Comparison of five rules for determining the number of components to retain. Psychological Bulletin, 99, 432-442.