Validez del SIELE - USP

VALIDEZ

CONFIABILIDAD

Validez

Teórica:

• Constructo

• Contenido

• Diseño

Empírica:

• Predictiva

• Concurrente

Confiabilidad

Consistencia intra-

jueces

Consistencia inter-

jueces

Consistencia interna

Consistencia entre

mediciones

Ju

icio

de

exp

ert

os

Análisis psicométrico

Análisis Psicométrico

Dificultad de las pruebas, tareas

e ítems

Homogeneidad

Confiabilidad como

consistencia interna y entre

mediciones.

Ajuste

Análisis Diferencial en los Niveles del

MCER

Análisis Diferencial en

variables demográficas

Índices de la adecuación de los modelos de examen:

Los índices estadísticos obtenidos en el análisis respaldan la adecuación del examen.

Los índices de confiabilidad como consistencia interna y entre mediciones fueron adecuados.

El examen SIELE es confiable.

Existe una correlación entre el nivel de los participantes y su desempeño en el examen

Existe coincidencia entre los puntos de corte establecidos por los expertos y el desempeño de los candidatos.

Evidencia de Validez Concurrente.

Modelo Psicométrico Descripción Prueba

Teoría Clásica de los Tests (TCT)

Supone que la puntuación de un candidato en un examen es determinada por: • El “valor verdadero” de la habilidad del candidato • Un error de medida (para explicar la variabilidad en el desempeño) Los índices estimados son dependientes de la muestra.

CL y CA

Modelo de Rasch (Teoría de Respuesta al Ítem de un solo parámetro)

TRI: Considera que el patrón de respuestas de un candidato en un examen es determinado de forma probabilística, por la interacción entre una variable latente y entre uno y tres parámetros. Modelo de Rasch: TRI de un parámetro. Permite estimar la habilidad de las personas y la dificultad de los ítems en una misma escala.

CL y CA

Modelo de Crédito Parcial

Extensión del modelo de Rasch para ítems politómicos, cada uno en su propia escala. Se utiliza para analizar tareas completas; por ejemplo una tarea con 5 reactivos se asume como un ítem con 6 niveles de calificación (0 a 5). Tiene las mismas propiedades y estadísticos del modelo de Rasch.

CL y CA

Juicio de Expertos Procedimiento en el que profesores expertos en la enseñanza del español evalúan las pruebas de comprensión para validar su contenido y su adecuación al MCER.

CL y CA

Método de Angoff Modificado

Procedimiento para calcular puntos de corte. Expertos valoran cada ítem de la prueba y estiman la proporción de alumnos “mínimamente aceptables” de cada nivel del MCER que lo resolverían correctamente. El punto de corte para cada nivel es la suma de las proporciones asignadas a los ítems.

CL y CA

Many Facets Rasch Meauserment (MFRM)

Extensión del modelo de Rasch para pruebas que en lugar de ser dicotómicas (acierto y error), utilizan escalas de calificación en un conjunto de categorías. Supone que las evaluaciones emitidas son el resultado de la interacción de “facetas” que se suman para explicar los datos observados.

EIE y EIO

Los índices obtenidos son

dependientes de la muestra de candidatos.

Define la dificultad de las pruebas

como la proporción de

acertantes.

Permite detectar ítems muy fáciles o

muy difíciles (respondidos por casi todos o casi ninguno de los

candidatos)

Con este modelo no se puede comparar la

dificultad de las tareas que miden el mismo nivel del

Marco

Considera que el patrón de respuestas de un candidato en

un examen es determinado de

forma probabilística, por la interacción entre una variable

latente y entre uno y tres parámetros.

Modelo de Rasch: TRI de un parámetro. Permite estimar la

habilidad de las personas y la

dificultad de los ítems en una misma escala.

Extensión del modelo de Rasch

Permite conceptualizar a las tareas como la unidad mínima de

medida (en lugar de los ítems)

Se utiliza para analizar tareas completas; por

ejemplo una tarea con 5 reactivos se asume como un ítem con 6 niveles de

calificación (0 a 5)

Extensión del modelo de Rasch para pruebas que en lugar de ser

dicotómicas (acierto y error), utilizan escalas de calificación en

un conjunto de categorías.

Supone que las evaluaciones emitidas son el resultado de la interacción de “facetas” que se suman para explicar los datos

observados.

La habilidad de los candidatos

La dificultad de las tareas (se espera que haya diferencias y ordenamiento adecuados)

La dificultad de las categorías de calificación (no se tienen supuestos sobre su dificultad)

La severidad de los calificadores (se espera que no haya diferencias)

Modelo que asume que los datos observados provienen de la interacción de facetas que son:

Tiene una

dificultad

aceptable

0.10 – 0.90

Expertos ajenos

a su creación lo

consideran

adecuado para el

nivel

Un ítem es

adecuado cuando:

Tiene un

desajuste por

debajo de 1.50

Muestra una

correlación mayor

a 0.15

GRACIAS

[email protected]

Documents

Validez del SIELE - USP