Upload
others
View
27
Download
0
Embed Size (px)
Citation preview
VALIDEZ
CONFIABILIDAD
Validez
Teórica:
• Constructo
• Contenido
• Diseño
Empírica:
• Predictiva
• Concurrente
Confiabilidad
Consistencia intra-
jueces
Consistencia inter-
jueces
Consistencia interna
Consistencia entre
mediciones
Ju
icio
de
exp
ert
os
Análisis psicométrico
Análisis Psicométrico
Dificultad de las pruebas, tareas
e ítems
Homogeneidad
Confiabilidad como
consistencia interna y entre
mediciones.
Ajuste
Análisis Diferencial en los Niveles del
MCER
Análisis Diferencial en
variables demográficas
Índices de la adecuación de los modelos de examen:
Los índices estadísticos obtenidos en el análisis respaldan la adecuación del examen.
Los índices de confiabilidad como consistencia interna y entre mediciones fueron adecuados.
El examen SIELE es confiable.
Existe una correlación entre el nivel de los participantes y su desempeño en el examen
Existe coincidencia entre los puntos de corte establecidos por los expertos y el desempeño de los candidatos.
Evidencia de Validez Concurrente.
Modelo Psicométrico Descripción Prueba
Teoría Clásica de los Tests (TCT)
Supone que la puntuación de un candidato en un examen es determinada por: • El “valor verdadero” de la habilidad del candidato • Un error de medida (para explicar la variabilidad en el desempeño) Los índices estimados son dependientes de la muestra.
CL y CA
Modelo de Rasch (Teoría de Respuesta al Ítem de un solo parámetro)
TRI: Considera que el patrón de respuestas de un candidato en un examen es determinado de forma probabilística, por la interacción entre una variable latente y entre uno y tres parámetros. Modelo de Rasch: TRI de un parámetro. Permite estimar la habilidad de las personas y la dificultad de los ítems en una misma escala.
CL y CA
Modelo de Crédito Parcial
Extensión del modelo de Rasch para ítems politómicos, cada uno en su propia escala. Se utiliza para analizar tareas completas; por ejemplo una tarea con 5 reactivos se asume como un ítem con 6 niveles de calificación (0 a 5). Tiene las mismas propiedades y estadísticos del modelo de Rasch.
CL y CA
Juicio de Expertos Procedimiento en el que profesores expertos en la enseñanza del español evalúan las pruebas de comprensión para validar su contenido y su adecuación al MCER.
CL y CA
Método de Angoff Modificado
Procedimiento para calcular puntos de corte. Expertos valoran cada ítem de la prueba y estiman la proporción de alumnos “mínimamente aceptables” de cada nivel del MCER que lo resolverían correctamente. El punto de corte para cada nivel es la suma de las proporciones asignadas a los ítems.
CL y CA
Many Facets Rasch Meauserment (MFRM)
Extensión del modelo de Rasch para pruebas que en lugar de ser dicotómicas (acierto y error), utilizan escalas de calificación en un conjunto de categorías. Supone que las evaluaciones emitidas son el resultado de la interacción de “facetas” que se suman para explicar los datos observados.
EIE y EIO
Los índices obtenidos son
dependientes de la muestra de candidatos.
Define la dificultad de las pruebas
como la proporción de
acertantes.
Permite detectar ítems muy fáciles o
muy difíciles (respondidos por casi todos o casi ninguno de los
candidatos)
Con este modelo no se puede comparar la
dificultad de las tareas que miden el mismo nivel del
Marco
Considera que el patrón de respuestas de un candidato en
un examen es determinado de
forma probabilística, por la interacción entre una variable
latente y entre uno y tres parámetros.
Modelo de Rasch: TRI de un parámetro. Permite estimar la
habilidad de las personas y la
dificultad de los ítems en una misma escala.
Extensión del modelo de Rasch
Permite conceptualizar a las tareas como la unidad mínima de
medida (en lugar de los ítems)
Se utiliza para analizar tareas completas; por
ejemplo una tarea con 5 reactivos se asume como un ítem con 6 niveles de
calificación (0 a 5)
Extensión del modelo de Rasch para pruebas que en lugar de ser
dicotómicas (acierto y error), utilizan escalas de calificación en
un conjunto de categorías.
Supone que las evaluaciones emitidas son el resultado de la interacción de “facetas” que se suman para explicar los datos
observados.
La habilidad de los candidatos
La dificultad de las tareas (se espera que haya diferencias y ordenamiento adecuados)
La dificultad de las categorías de calificación (no se tienen supuestos sobre su dificultad)
La severidad de los calificadores (se espera que no haya diferencias)
Modelo que asume que los datos observados provienen de la interacción de facetas que son:
Tiene una
dificultad
aceptable
0.10 – 0.90
Expertos ajenos
a su creación lo
consideran
adecuado para el
nivel
Un ítem es
adecuado cuando:
Tiene un
desajuste por
debajo de 1.50
Muestra una
correlación mayor
a 0.15
GRACIAS