files.pucp.edu.pefiles.pucp.edu.pe/departamento/economia/INF2008_Informe-sistem… · ÍNDICE . Presentación

Balance y Perspectivas de Desarrollo para la

Unidad de Medición de la Calidad Educativa

del Ministerio de Educación de Perú

Patricia Arregui , Santiago Cueto y José Rodríguez

Diciembre del 2008

ÍNDICE

Presentación .............................................................................................................................. 4 Capítulo 1 .................................................................................................................................. 5 Tendencias internacionales de las evaluaciones de los aprendizajes escolares ................... 5 1.1. Sobre los fines y opciones críticas que determinan las características principales de los sistemas de evaluación estandarizada de los logros de aprendizaje escolar ................. 5 1.2. Altas o bajas consecuencias ............................................................................................. 7

1.2.1. Evaluaciones de bajas (o ninguna) consecuencias ............................................. 8 1.2.2. Evaluaciones de altas consecuencias ................................................................ 10 1.2.3. Ejemplos de sistemas nacionales de evaluación ............................................... 13

1.3. Elementos comunes necesarios para evaluaciones nacionales de altas y bajas consecuencias .......................................................................................................................... 17 1.4. Evaluaciones internacionales de rendimiento escolar................................................. 20 1.5. Algunas conclusiones sobre las experiencias de evaluaciones nacionales e internacionales del rendimiento escolar ............................................................................... 23 Anexo del capítulo 1. .............................................................................................................. 25 Capítulo 2 ................................................................................................................................ 26 El desarrollo de la UMC ........................................................................................................ 26 2.1. Breve recuento del desarrollo de la Unidad de Medición de la Calidad Educativa .. 26

2.1.1. Los inicios .......................................................................................................... 26 2.1.2. La transición: el cambio de modelo de evaluación ............................................ 29 2.1.3. Consolidación institucional................................................................................ 31

2.2. La difusión de resultados ................................................................................................ 33 2.2.1. La difusión de resultados en los inicios (1994-98) ............................................ 33 2.2.2. La difusión de resultados durante la Transición y el cambio de modelo de evaluación (1998-2004) ............................................................................................... 35 2.2.3. La difusión de resultados durante la consolidación institucional (2004 en adelante) ....................................................................................................................... 37

2.3. Temas polémicos transversales a los tres períodos ...................................................... 38 2.4. Balance preliminar del desarrollo de actividades realizadas por la UMC ................ 40 Anexo 1 del capítulo 2. ........................................................................................................... 42 Anexo 2 del capítulo 2 ............................................................................................................ 47 Difusión de resultados – UMC .............................................................................................. 47 Capítulo 3 ................................................................................................................................ 52 Rediseño del Sistema de Evaluación del Rendimiento Estudiantil Preliminar ................ 52 3.1. Introducción: El Proyecto Educativo Nacional y la evaluación educativa ............... 52 3.2. Finalidad y objetivos, estrategia y principios de la UMC ........................................... 55 3.3. Principios para el trabajo de la UMC ........................................................................... 56 3.4. Estrategia general para el corto y mediano plazos ....................................................... 57 3.5. Mediciones: diseño y programación de las evaluaciones del rendimiento escolar .... 58

3.5.1. Modelos propuestos ............................................................................................ 59 3.5.1.1. Modelo A ......................................................................................................... 59 3.5.1.2. Modelo B ......................................................................................................... 64

3.6. Participación de la UMC en evaluaciones internacionales .......................................... 71

2

3.7. Estrategias de comunicación e involucramiento de la UMC en el desarrollo de políticas educativas ................................................................................................................. 72 3.8. Organización .................................................................................................................... 76 Capítulo 4 ................................................................................................................................ 77 Balance y perspectivas ........................................................................................................... 77 Referencias .............................................................................................................................. 80

3

Balance y Perspectivas de Desarrollo para la Unidad de Medición de la Calidad

Educativa del Ministerio de Educación de Perú1

Patricia Arregui2, Santiago Cueto3 y José Rodríguez4 Diciembre del 2008

Presentación Desde 1996 la Unidad de Medición de la Calidad Educativa (UMC) del Ministerio de Educación ha venido administrando periódicamente evaluaciones nacionales de logros de aprendizaje en varias áreas curriculares a estudiantes de diversos grados de primaria y secundaria. También ha participado en tres evaluaciones internacionales de rendimiento5. Ha publicado reportes y difundido resultados de esas evaluaciones y guías para facilitar su utilización por parte de las escuelas como insumo para el planeamiento de actividades pedagógicas y de gestión escolar. Transcurrida más de una década de intensa, productiva y reconocida actividad, y en el marco de nuevas demandas y nuevos contextos para su accionar, la UMC ha considerado necesario y conveniente desarrollar un plan de desarrollo institucional de mediano plazo. Ha solicitado para ello la realización de una consultoría que le sirva de insumo para un proceso de reflexión al respecto. El propósito principal de esta consultoría es presentar alternativas a la UMC para su trabajo futuro desde el Ministerio y/o con otras instancias. Para ello, en este primer capítulo se hace un balance de las tendencias o alternativas de orientación de las evaluaciones nacionales e internacionales de logros de aprendizaje escolar en que están involucrados los países del continente. El segundo capítulo revisa de manera crítica las evaluaciones y el uso que diversos actores han dado a la información generada en el Perú por la misma UMC. El tercer capítulo contiene una propuesta, emergente de lo visto en los 2 primeros capítulos, para el desarrollo de la UMC. El cuarto capítulo contiene un breve resumen del presente informe. Es conveniente destacar que si bien inicialmente el trabajo de la UMC se planificó alrededor de las evaluaciones estandarizadas nacionales e internacionales del rendimiento escolar administradas a estudiantes matriculados en educación básica, a lo largo del tiempo se han ido adicionando algunas otras responsabilidades y pedidos. Estos han incluido la asesoría a diversas oficinas dentro del Ministerio de Educación, otros organismos del Estado y oficinas regionales de educación, pero también en algunos casos se ha asumido responsabilidades en áreas de evaluación como por ejemplo el concurso de selección de docentes. En el segundo y tercer capítulos se comenta más sobre el rango de actividades posibles para la UMC pero advertimos aquí nuestra postura respecto de que es importante acotarlo y no extenderlo más allá de lo que es posible hacer de manera adecuada dados los recursos disponibles y los plazos disponibles en cada caso.

1 Este documento fue elaborado por encargo de la UMC. 2 Investigadora Principal de GRADE. 3 Investigador Principal de GRADE. 4 Profesor Principal de la PUCP. 5 En este documento se utilizarán indistintamente los términos “rendimiento escolar”, “rendimiento estudiantil” y “logros de aprendizaje escolar”.

4

Capítulo 1 Tendencias internacionales de las evaluaciones de los aprendizajes escolares 1.1. Sobre los fines y opciones críticas que determinan las características principales de los sistemas de evaluación estandarizada de los logros de aprendizaje escolar Las características principales de los sistemas de evaluación estandarizada de los logros de aprendizaje escolar están – o deberían ser – definidas en función de las finalidades y los mecanismos a través de los cuales se busca alcanzar dichas finalidades. Es claro que todos los sistemas de evaluación tienen como objetivo general, de una u otra forma, contribuir con la mejora de los sistemas educativos, en particular en lo que se refiere a los aprendizajes de los estudiantes. En lo que suelen diferenciarse los sistemas de evaluación es en la manera como buscan contribuir con la mejora educativa, en particular, los mecanismos que usan para ello. Resulta muy ilustrativo observar que las diferentes finalidades de los sistemas de evaluación identificadas en por Ravela et al. (2001, p. 7) y luego ampliadas en Arregui (2001). Son 19 posibles finalidades de los sistemas de evaluación identificadas en las experiencias nacionales en los países de la región (ver Cuadro Nº 1). Aún cuando las anteriores fueron planteadas a inicios de la década, siguen teniendo vigencia cuando se analiza lo que efectivamente hacen los sistemas nacionales de evaluación. Nuestro propósito al incluirlos no es discutir cada uno en profundidad sino solo sugerir al lector un abanico de posibilidades para los sistemas de evaluación, enfatizando además que no se trata necesariamente de objetivos excluyentes. Más adelante se presenta una clasificación posible de estos sistemas, retomando algunos de los puntos mencionados arriba para discutirlos. Diversas publicaciones del Grupo de Trabajo sobre Estándares y Evaluación (GTEE) del PREAL6 han sostenido que en muchos países de la región que crearon sus sistemas de evaluación durante los años noventa fue insuficiente la reflexión inicial acerca de los fines específicos que se esperaba persiguieran dichos sistemas de evaluación y sobre las características técnicas que deberían tener los instrumentos para adecuarse a esos fines:

Muchos países han trabajado a partir de un propósito general de informar sobre los resultados del sistema educativo para contribuir a su mejoramiento, pero sin diseñar una estrategia más específica. Por otra parte, es bastante común que las autoridades ministeriales comiencen a demandar, sobre la marcha, que las evaluaciones sirvan para nuevos propósitos o que aporten información para fines para los que no fueron diseñadas. (Ravela et al, 2001: 8)

No llama mucho la atención, por lo tanto, que tras una primera etapa de instalación de capacidades y experiencia, casi todos los sistemas de evaluación hayan revisado sus objetivos y estrategias y considerado orientaciones alternativas para guiar su quehacer. Más adelante se presentan ejemplos de sistemas nacionales que muestran la diversidad y coincidencia en fines y procedimientos de los sistemas nacionales.

6 Ver http://www.preal.cl/Grupo2.asp?Id_Grupo=3.

5

http://www.preal.cl/Grupo2.asp?Id_Grupo=3

Cuadro 1.1.

Finalidades diversas que pueden perseguir los sistemas de evaluación de logros de aprendizaje escolar (Arregui, 2001, pp. 7-8)

1. Informar a la opinión pública y generar una cultura social de la evaluación. 2. Contribuir a la generación de conocimiento, proporcionando insumos para la investigación

aplicada sobre el funcionamiento de los sistemas educativos, las prácticas de enseñanza, el impacto de las variables sociales sobre el aprendizaje de los niños (también identificar los factores determinantes del logro) y los tipos de intervenciones más efectivos para mejorar los aprendizajes.

3. Construir un “mapa de situación” del sistema educativo con el fin de identificar áreas o unidades prioritarias de intervención y tipos de intervenciones necesarias, de manera de garantizar igualdad de oportunidades de aprendizaje y focalizar consecuentemente los recursos.

4. Comunicar valores y expectativas de logros. 5. Motivar mejoras y logros vía la comparación, competencia o emulación. 6. Alertar a la opinión pública sobre deficiencias en los resultados de los sistemas educativos y

la necesidad de que se apoye intervenciones para su mejoramiento. 7. Identificar metas claras, mensurables y comunicables, centradas en los aprendizajes, para los

esfuerzos de mejoramiento del sistema educativo, que faciliten la movilización y apoyo de la opinión pública y otros responsables.

8. Devolver información a las escuelas y maestros para que éstos examinen en detalle los resultados de su trabajo y mejoren sus prácticas pedagógicas.

9. Brindar a los padres de familia información que les permita evaluar y controlar la calidad de las escuelas.

10. Contribuir a establecer (o monitorear logro de) estándares de calidad para el sistema educativo.

11. Certificar el dominio de un núcleo de conocimientos y capacidades o competencias por parte de los alumnos que finalizan un determinado nivel de enseñanza.

12. Seleccionar u ordenar a los estudiantes (o a escuelas o jurisdicciones) para acreditar su elegibilidad para ciertos privilegios, acceso a programas o, incluso, sanciones.

13. Evaluar el impacto de políticas, innovaciones o programas específicos. 14. Retroalimentar el currículo y los planes de estudio. 15. Realizar estudios de tipo costo-beneficio, que orienten las decisiones para una distribución

más eficiente y efectiva de recursos siempre escasos. 16. Contar con argumentos persuasivos para obtener mayores recursos del presupuesto público o

proponer cambios en orientaciones generales del sistema educativo. 17. Demostrar el peso del factor docente en los aprendizajes e influir en la formación,

capacitación y desempeño de los maestros. 18. Evaluar la productividad de los maestros a los efectos de establecer un sistema adecuado de

incentivos. 19. Promover una responsabilización efectiva de todos o algunos de los actores involucrados en

los procesos educativos, incluyendo a los propios alumnos. El Perú no es una excepción a lo anterior. Como se verá en el segundo capítulo, en el cual se analizará la trayectoria de la UMC desde su creación, su desarrollo ha requerido la confrontación de diversos dilemas que fueron apareciendo a lo largo de los años. Lo que se busca aquí es contribuir a la formulación de un plan de desarrollo de mediano plazo que conteste cuestiones tales como:

¿Qué áreas del currículo han de ser evaluadas, con qué frecuencia y en qué grados? ¿Qué y cuánto espacio debe darse a las evaluaciones internacionales en el quehacer de la Unidad de Medición de la Calidad?

6

¿Cuáles son los pros, contras y viabilidad de las evaluaciones censales y las muestrales? ¿Cuál es mejor forma de hacer llegar los resultados a diversos públicos objetivo, buscando maximizar su impacto en la mejora de la educación peruana? ¿Es posible para la UMC contar con la autonomía necesaria si está instalada dentro del Ministerio de Educación? ¿Conviene atar los resultados a algún tipo de consecuencia para autoridades, especialistas, docentes, alumnos? ¿Qué papel debe cumplir la UMC en la asesoría de otras unidades, dentro y fuera del Ministerio de Educación, con interés en la evaluación del rendimiento escolar?

Varias de estas preguntas pueden quizás enmarcarse en una cuestión anterior, que es el lugar en que se pretende colocar al sistema de evaluación en una suerte de continuo que se mueve entre la responsabilización (accountability), o altas consecuencias, y el apoyo formativo al mejoramiento, o bajas consecuencias. En el primer modelo se usan los resultados de las evaluaciones para tomar decisiones que afectan a los individuos, instituciones y/o sistemas evaluados de maneras predefinidas; en el segundo se usa la información de las evaluaciones para mejorar la calidad de insumos y procesos educativos, esperando que estos tengan un impacto en los resultados, pero sin tomar decisiones de altas consecuencias en base a los resultados. Si bien ambos modelos podrían ser vistos como complementarios, paralelos y atendibles con un mismo sistema, en la práctica (y desde la teoría educativa), a menudo han sido percibidos como antagónicos e incompatibles, aunque ciertamente en ambos se busca la mejora de los rendimientos de los estudiantes. Se podría afirmar sin embargo que en la actualidad en varios países de la región se está dando consideración al grado en que los sistemas de evaluación pueden y deben servirse de ambos modelos. Más adelante se discute con mayor detalle este tema. Si bien en el Perú el enfoque adoptado hasta el momento ha sido de bajas consecuencias, no se puede soslayar el hecho de que efectivamente – y como se verá más adelante – existen actualmente propuestas, presiones de diversos actores y medidas concretas que inducen a moverse hacia un sistema de altas consecuencias. En la siguiente sección se describen algunas de las características principales de cada uno de estos dos modelos y presentan ejemplos de algunos sistemas de evaluación de otros países7. 1.2. Altas o bajas consecuencias Todos los sistemas de evaluación buscan, de una u otra forma, generar información para mejorar los sistemas educativos. Sin embargo, la manera como buscan contribuir con la mejora no es la misma. Los sistemas usan diferentes diseños y una forma de diferenciarlos es de acuerdo a los mecanismos que utilizan para inducir ciertos comportamientos entre los distintos actores del sistema educativo que contribuyan a mejorar los sistemas educativos. Los sistemas de altas consecuencias usan un sistema de incentivos a través del cual se busca inducir el mejor desempeño de los actores directamente vinculados a los procesos educativos y sus resultados. Para ello en el sistema de incentivos se señalan metas de rendimiento específicas y se anuncian consecuencias positivas por lograrlos o negativas en caso contrario. Por oposición, los sistemas de bajas consecuencias no cuentan con un sistema de incentivos que penalice o premie a los agentes pero buscan que diversos actores usen la información para

7 La presentación de ejemplos es bastante corta; para una discusión en mayor profundidad de diferentes modelos ver por ejemplo Arregui y McLauchlan (2005) y Ferrer (2006b).

7

mejorar la calidad de los insumos y procesos educativos, anticipando que estos tendrán consecuencias positivas sobre el rendimiento escolar. A continuación una breve descripción de ambos modelos, empezando por el segundo. 1.2.1. Evaluaciones de bajas (o ninguna) consecuencias Entre los sistemas con bajas consecuencias hay una familia de diseños distintos. Todos miden los logros de aprendizaje, pero no todos evalúan con la misma profundidad ni cobertura los aprendizajes, ni evalúan el contexto y las condiciones en las que se dan los aprendizajes de la misma forma. Tampoco son homogéneos en cuanto a la información que brindan ni en el público al que se dirigen. Estos sistemas buscan principalmente conocer los logros de aprendizaje de los estudiantes. Para ello suelen hacer mediciones detalladas de los logros que los estudiantes deberían haber logrado en un momento determinado de su escolaridad (por lo general al final de determinados grados o años de estudios que representen hitos de transición, como podrían serlo los distintos ciclos de la educación básica). La base de estos análisis es a menudo el currículo. Muchos de los sistemas de evaluación de este tipo hacen las mediciones en muestras de escuelas y de estudiantes, aunque algunos sistemas de bajas consecuencias han realizado evaluaciones censales. El uso que se da a estas evaluaciones es principalmente formativo, es decir, se busca retroalimentar los procesos de gestión pedagógica escolar de manera de inducir respuestas orientadas a obtener mejores resultados. Así, por ejemplo, los resultados son presentados a escala nacional y regional y se reportan resultados globales en un área (por ejemplo matemática, lenguaje, ciencias naturales y ciencias sociales) y desagregados por algunas de las principales unidades del currículo (por ejemplo competencias del currículo de matemática). El propósito de estos reportes es que algunos actores utilicen la información y la incorporen en sus planes de trabajo. Entre los principales actores, que aquí llamaremos clave por su importancia para modificar las prácticas y resultados educativos desde su gestión inmediata, están miembros del Gobierno, como por ejemplo congresistas, diversas autoridades del Ministerio de Educación y del Ministerio de Economía y Finanzas, especialistas a cargo de capacitación o formación de docentes y directores, y autores de textos escolares y editoriales a cargo de su publicación. Adicionalmente, estos resultados se reportan a la prensa, de modo que se movilice a la opinión pública en la búsqueda de mejores resultados8. Otro grupo de interés son los investigadores, que a menudo analizan los logros de aprendizaje de los estudiantes cruzándolo con características individuales, familiares y de sus centros educativos, con el propósito principal de estimar asociaciones para acumular conocimiento, además que luego sus resultados pudieran ser considerados para el desarrollo de políticas. Finalmente se encuentran representantes de organismos nacionales e internacionales que procuran estos resultados para reportar la situación del país y en ocasiones sugerir o planificar acciones o programas (por ejemplo diseño de programas con poblaciones específicas o seguimiento de las metas de algún programa internacional, como por ejemplo Educación para Todos). Estas evaluaciones, cuando son de gran detalle, requieren alta sofisticación técnica en la elaboración de instrumentos. Así por ejemplo, para capturar los logros de aprendizaje no solo

8 La prensa, sin embargo, suele requerir información sobre resultados globales que sean “noticia” (por ejemplo porcentaje que logra un nivel satisfactorio en determinada competencia) y no el detalle de resultados que podría ser de utilidad para otras audiencias.

8

en un área (p. e. matemática) sino en las diferentes competencias al interior de matemática, se requiere un gran número de ítems que den validez de contenido al instrumento. Dado que es imposible administrar demasiados ítems a cada estudiante se recurre a procedimientos técnicos, como por ejemplo la rotación de ítems entre estudiantes. Así, cada estudiante resuelve solo algunos de los ítems necesarios para evaluar una competencia, pero todos los estudiantes en su conjunto resuelven todos los ítems de manera que hay ítems que son compartidos por subgrupos de estudiantes. Con esta información es posible estimar la probabilidad de cada estudiante de contestar todos los ítems aún cuando en la práctica no lo haya hecho. Ello se hace estimando la habilidad de los estudiantes en los ítems que efectivamente respondió, para extrapolarla a los que no respondió. Usualmente no se considera necesario administrar estas pruebas de manera censal sino que se administran a una muestra de estudiantes que permita luego tener representatividad para los estratos de interés (por ejemplo, el país y las regiones políticas, realizando luego otras desagregaciones como urbano-rurales, hombres-mujeres y escuelas públicas-privadas). Se podría argumentar que las mediciones que se obtienen de cada estudiante (e incluso de cada escuela) son imprecisas, debido a que se le evalúa con solo algunos de los ítems (y a la escuela con sólo la población de estudiantes de un aula de cada grado y rara vez en más de un aula). Ya que, por definición, mientras más evaluaciones válidas y confiables estén disponibles para cada individuo y cada escuela, mayor será la precisión de la medición, el contar con mediciones de solo algunos estudiantes en una sola ocasión hace en primera instancia objetable el “devolver” resultados a nivel de individuo y escuela. Sin embargo, visto que las personas que participan en una evaluación tienen derecho a la información, en muchos países se devuelve información de la evaluación. En estos reportes a menudo se presentan los resultados de la escuela, e inclusive de los estudiantes, y de escuelas similares (de hecho se ha empezado a hacer esto en el Perú recientemente). Cuando se devuelven resultados es importante hacer explícitas las limitaciones de la evaluación. En otras palabras, una medición de un individuo (o escuela) con un instrumento en una oportunidad siempre puede tener errores (por ejemplo ese día el estudiante se sintió mal por algún motivo o la escuela tuvo una asistencia por debajo de lo normal). Estos errores de estudiantes o escuelas individuales no son tan relevantes a nivel de la muestra pues el conjunto de instrumentos administrados se anulan, permitiendo estimar promedios para un grupo que representa a una población dentro de márgenes de error muestral conocidos y tolerables. Las evaluaciones de bajas consecuencias, sumadas a análisis de los factores asociados al rendimiento y estudios cualitativos sobre la relación entre ciertos procesos pedagógicos o de gestión institucional y los resultados, pueden generar no sólo ricos y estimulantes informes sobre lo que los alumnos han aprendido, sino valiosas pistas para la acción de mejoramiento. De hecho hay sistemas educativos, como el brasileño (ver más abajo), que tienen una larga tradición en este sentido. Las críticas principales de los sistemas de bajas consecuencias aluden al escaso uso que varios de los actores clave dan a la información. El supuesto fundamental del modelo de bajas consecuencias es que si se genera información interesante, los actores clave la buscarán y utilizarán de diversas formas para mejorar su labor. Tal hecho no suele ocurrir, ni en el Perú ni en otros países. La responsabilidad podría estar en los que producen la información, que por lo general han encontrado difícil presentar los resultados en formas relevantes para las diversas audiencias, exagerando tal vez en la presentación de información técnica que no

9

debería constituir el fin sino solo el medio9. El poco uso de la información también podría ser explicado por la formación de muchos de estos actores, que a menudo no están acostumbrados a revisar informes con información estadística como la que suelen contener los reportes de resultados. Pero no se puede descartar que sin importar lo que se haga los actores clave que se quiere influenciar –por ejemplo, las autoridades, los especialistas, los formadores de docentes y los editores de textos- no usen información a menos que sea de utilidad inmediata para ellos. En este contexto, los modelos de accountability sí acarrean consecuencias que casi hacen obligatoria la consulta de resultados a los actores interesados, como se verá a continuación. 1.2.2. Evaluaciones de altas consecuencias En las evaluaciones de altas consecuencias, al igual que las de bajas consecuencias, lo que se evalúa es el dominio por parte de los estudiantes de un cierto cuerpo de conocimientos. En lo que se diferencian fundamentalmente es en el uso de los resultados. En altas consecuencias los resultados de las pruebas son empleados para definir consecuencias individualizadas para los docentes, directivos, estudiantes o incluso autoridades educativas. Por lo general los sistemas de altas consecuencias no buscan tener resultados muy detallados por competencias, como los que se procuran en las evaluaciones de bajas consecuencias, sino solo saber si los estudiantes han logrado un cierto nivel de aprendizajes. Por tanto, en el diseño de las pruebas de este tipo de evaluación, no se suelen emplear complejidades técnicas mayores, como por ejemplo el uso de formas rotadas mencionado antes para evaluaciones de bajas consecuencias.10 Las decisiones que se toman en base a estas pruebas pueden involucrar a uno o varios de los actores: estudiantes, docentes (individualmente o como grupo en una escuela), directivos de escuela y/o el centro educativo en su conjunto, llegando incluso a consecuencias para autoridades educativas regionales11. En cuanto a los estudiantes, los principales usos con altas consecuencias son de 3 tipos. Primero, determinar a partir de los resultados si los estudiantes se pueden graduar de un cierto nivel educativo. Segundo, usar los resultados de las pruebas para calificar al estudiante interesado en ingresar a la universidad u otro centro de estudios superiores. En este caso los resultados de las pruebas pueden ser el único factor o uno entre varios usados en la evaluación para el ingreso. Tercero, usar los resultados de la evaluación para identificar instituciones o estudiantes y proporcionarles ayuda adicional (por ejemplo apoyo en los temas fallidos) o premiar a los estudiantes de mejor rendimiento (con premios que pueden ser reconocimientos públicos o incluso dinero). En cualquiera de estos casos, es posible también que se envíe los resultados a los padres de los estudiantes. Con relación a los docentes, los principales usos con consecuencias son tres. Primero, usar los puntajes para decidir si los estudiantes a cargo del docente han aprendido el material en evaluación y a partir de esto premiar a los docentes con estudiantes con mejores logros (en

9 Hay que reconocer sin embargo que los informes más recientes de evaluación en muchos casos han dejado de lado la sofisticación técnica, que aparece en informes especializados, para focalizarse en la transmisión de los principales mensajes con base en los resultados. 10 Los motivos para no tener evaluaciones demasiado complejas en sistemas de altas consecuencias tendrían que ver principalmente con la alta demanda de energía y tiempo por parte del personal en planificar censos estudiantiles, versus las evaluaciones muestrales que se suelen hacer en evaluaciones de bajas consecuencias. En todo caso, en principio sí se podrían hacer evaluaciones complejas de rendimiento escolar en sistemas de altas consecuencias si se contara con recursos, humanos, económicos y de tiempo, suficientes. 11 Para una revisión de la experiencia en América Latina ver Mizala y Romaguera (2004).

10

este caso el premio puede ser al docente individualmente, por ejemplo en dinero o promoción en el escalafón magisterial, y/o al grupo de docentes en una escuela). Segundo, identificar los docentes que deben ser puestos en observación debido a los bajos logros de sus estudiantes (y eventualmente, de repetirse la situación, incluso retirarlos del sistema). Tercero, usar los resultados de los estudiantes para forzar a algunos docentes a pasar por sesiones de capacitación en las áreas de bajos resultados, evaluando luego si los estudiantes mejoran sus resultados (en caso negativo se les podría dejar ir del sistema). En cuanto a los directivos y las escuelas en su conjunto, los usos con consecuencias principalmente son dos. Primero, reconocer públicamente y/o premiar a las escuelas cuyos estudiantes han obtenido mejores logros. Esto se puede hacer publicando los resultados en medios de comunicación masiva (buscando de esta forma que los padres de familia pongan presión sobre las escuelas de bajos logros o eviten matricular a sus hijos en ellas, buscando así que eventualmente las de más bajos logros mejoren o cierren por falta de matrícula). Segundo, declarar en emergencia a las escuelas con bajos resultados, cerrándolas o renovando a su personal directivo y/o docente. Esto a menudo se hace luego de reiteradas mediciones que arrojan bajos logros. Los principales interesados en un sistema de altas consecuencias son evidentemente los que pueden beneficiarse o perjudicarse a partir de los resultados: estudiantes (y sus padres y madres), docentes y directivos escolares. También tienen interés en el sistema los funcionarios del Ministerio de Educación a cargo de políticas de aprendizaje, capacitación y formación docente y desarrollo de textos escolares, que en principio se espera busquen adecuar sus prácticas para promover el logro de los incentivos trazados. Estos resultados también son de interés para la prensa, pero al igual que en bajas consecuencias a menudo lo que se busca es el titular de periódico (por ejemplo qué porcentaje de estudiantes, docentes o escuelas lograron el incentivo previsto o cómo se compara con años anteriores). Finalmente los investigadores educacionales tienen interés en la data que se genera, para por ejemplo analizar patrones de conducta de los estudiantes y los docentes que se relacionan con el logro de los incentivos. Un sistema de altas consecuencias se basa en general en la idea de accountability (políticas de rendición de cuentas o responsabilización). La idea principal es que, en el caso de los docentes y directivos escolares, ellos deben sentirse responsables y dar prioridad al aprendizaje de los estudiantes. Si no se logran los resultados previstos con los estudiantes, que deben estar claramente definidos, se deben tomar decisiones que prioricen su logro (por ejemplo dejar ir a los docentes con estudiantes con bajos rendimiento y reemplazarlos por otros que logren mejores resultados). El nivel de apoyo profesional a los docentes que participen en el sistema, para ayudarlos a que logren consecuencias positivas, debería ser parte del modelo aunque no siempre lo es. El modelo de altas consecuencias es el dominante en la actualidad en varios países desarrollados, como por ejemplo los Estados Unidos. Pero es importante considerar que en estos países muchos de los requerimientos para su funcionamiento (por ejemplo infraestructura y materiales en las escuelas, apoyo nutricional y de salud para los estudiantes) están bastante logrados, sino totalmente cubiertos. Los docentes en las escuelas en los países desarrollados usualmente han pasado por centros de formación acreditados, han aprobado exámenes de certificación profesional y tienen oportunidades de participar frecuentemente en programas de actualización. Para su aplicación en países en desarrollo como el Perú se debe considerar que el Estado debería ser el primero en asumir la responsabilidad de proveer

11

condiciones adecuadas tanto a los estudiantes como a los docentes, directores y escuelas para que se puedan gestar procesos educativos de calidad que contribuyan a garantizar la consecución de los logros esperados. Así, estudiantes que viven en pobreza (con carencias nutricionales y de salud, que deben trabajar, etc.), que asisten a instituciones educativas con infraestructura y materiales precarios (sin baños ni electricidad, sin suficientes textos ni laboratorios, etc.) y con docentes que aún cuando han terminado toda su educación en instituciones del Estado no logran demostrar competencia en los temas que deben enseñar, difícilmente lograrán las metas planteadas. El esquema de accountability en países desarrollados se basa en algunos supuestos que en países en desarrollo difícilmente se cumplen: los docentes son profesionales competentes (y si no lo son tienen recursos personales y financieros para desarrollarse) y lo que necesitan es que se les diga con claridad qué metas deben lograr, se les ofrezcan incentivos suficientemente atractivos por lograrlas, y que sus organizaciones participen en la definición de las mismas. Dado esto se espera que los docentes y directivos reorienten sus esfuerzos al logro de las metas planteadas. Estos supuestos seguramente se cumplen con algunos profesores del sistema educativo peruano, pero en la mayoría de casos no pareciera ser el caso. El sistema de altas consecuencias ha sido criticado por diversos motivos. Por un lado, por la baja confiabilidad y validez de algunas mediciones y, por otro lado, por generar consecuencias negativas no anticipadas. En cuanto a problemas de confiabilidad y validez, la crítica principal ha sido que para efectivamente poder medir el progreso de los estudiantes y atribuírselo a la escuela es necesario contar con varias mediciones (v. gr. pruebas) de los mismos estudiantes a lo largo del tiempo. La medición y comparación de resultados de pruebas aplicadas en el mismo grado en diferentes años, es decir con diferentes estudiantes, podría reflejar cambios en la composición social, cultural y económica del grupo de estudiantes12, y no solo un resultado atribuible a la escuela. Informes como el de McCaffrey et al. (2003) han concluido, en base a la investigación existente, que actualmente no se justifica el uso de pruebas para decisiones de altas consecuencias, dadas las limitaciones técnicas mencionadas antes. Además se ha observado a menudo que la velocidad de aprendizaje de los estudiantes es mayor en estudiantes de alto nivel socioeconómico, lo cual llevaría a atribuir a la escuela logros que están más vinculados a los estudiantes. La mejor alternativa sería mediciones repetidas de los mismos estudiantes a través del tiempo comparando los logros de estudiantes de contextos socioeconómicos y tipos de escuelas similares y dando incentivos dentro de grupos comparables13. En las evaluaciones de altas consecuencias se deben aplicar las pruebas a todos los estudiantes de todos los grados y en todas las áreas currciculares, pues las consecuencias deben ser uniformes. Es inaplicable el uso de muestras que sí es posible emplear en un sistema de bajas consecuencias. En la práctica, sin embargo, las evaluaciones repetidas de los mismos estudiantes en años sucesivos de manera censal son poco comunes pues son costosas y difíciles de planificar y se recurre a menudo a evaluaciones censales de estudiantes en el mismo grado, diferentes promociones de estudiantes, en años sucesivos.

12 Algo que observan con frecuencia los docentes respecto a diferentes “promociones” de alumnos. 13 Con esta discusión no se quiere sugerir que en modelos de bajas consecuencias las pruebas no están exentas de problemas de validez y confiabilidad. En todo caso hay una diferencia importante pues en los modelos de bajas consecuencias se busca reportar resultados principalmente a nivel de grupos de escuelas. En ese sentido, los errores de medición pueden ser tolerados pues en el resultado agregado los errores positivos y negativos tienden a cancelarse. En cambio, en pruebas de altas consecuencias es de la mayor importancia tener estimaciones precisas a nivel individual (del estudiante o la escuela) pues en base a ello se van a tomar decisiones que les competen.

12

Hay un segundo grupo de críticas al modelo, en el sentido que el ofrecimiento de incentivos a corto o mediano plazo genera consecuencias negativas. Esto por que el incentivo debe ser atractivo para que funcione, motivando en los docentes conductas diferentes para maximizar las probabilidades de lograrlo. Así, por ejemplo, dado que por consideraciones prácticas las evaluaciones de altas consecuencias a menudo se hacen solamente en lenguaje y matemática, los docentes priorizan estas áreas, descuidando otras previstas en el currículo (como arte, educación física, ciencias o ciencias sociales), llevando en alguna medida a una visión degradada de la educación en un sentido pleno. La alternativa sería incluir todos estos componentes en evaluaciones de altas consecuencias, pero construir instrumentos válidos y confiables en un área es una tarea compleja que se multiplicaría con el número de áreas a evaluar. Otro posible problema es que los incentivos por logros de aprendizaje podrían llevar a prácticas selectivas y hasta discriminatorias en las escuelas. Así, los docentes harían todo lo posible por incorporar en la evaluación a estudiantes que ayuden al logro de metas y dejarían de lado a los que se prevé tendrían bajos rendimientos (por ejemplo con lengua materna indígena, relativamente pobres o con alguna discapacidad). Uno podría anticipar estas situaciones y tomar solamente datos de valor agregado (es decir de los mismos estudiantes en años diferentes), pero de hecho siempre van a haber estudiantes que falten a las evaluaciones y es difícil determinar en qué medida esto es una práctica selectiva de los docentes. Otra consecuencia negativa relacionada a la anterior es que los docentes podrían concentrar sus esfuerzos de enseñanza en los estudiantes que en el aula rinden mejor, buscando mejorar el promedio pero aumentando la dispersión de puntajes dentro del aula, dejando de lado a algunos que por sus bajos logros no “justificarían” la inversión de tiempo del docente. Todavía hay poca investigación empírica sobre estos temas, pero parecerían haber indicios en el sentido indicado14. 1.2.3. Ejemplos de sistemas nacionales de evaluación A continuación se presentan algunos ejemplos de sistemas nacionales de evaluación. Los primeros podrían ser clasificados como de bajas consecuencias, mientras que los siguientes mixtos y de altas consecuencias (las clasificaciones son solo referenciales y han sido hechas por los autores).

Uruguay (bajas consecuencias)

El Observatorio de la Educación, que es parte de la Administración Nacional de Educación Pública (ANEP15), presenta datos sobre el sistema, como por ejemplo cobertura, recursos y resultados de los estudiantes en pruebas de logros. Las pruebas se han administrado en varios niveles, desde inicial hasta secundaria. Uno de los aspectos importantes del sistema uruguayo es que han publicado los promedios de los resultados de los estudiantes indicando el tipo de establecimiento al que asisten y el contexto sociocultural promedio. Esto se hace para evitar comparaciones “injustas” o inadecuadas, que atribuyan a la escuela éxitos o fracasos (v. gr. no es lo mismo educar a estudiantes de alto y bajo nivel socioeconómico). La mayor parte de las pruebas han sido administradas a muestras de escuelas y estudiantes, aunque más

14 Por ejemplo en el sistema de altas consecuencias del estado de Florida, concentrado en lenguaje y matemática, los docentes parecerían haber descuidado la enseñanza de ciencias, hasta que se incluyeron evaluaciones de estas con altas consecuencias (Walter Secada, profesor de la Universidad de Miami, comunicación personal). 15 Ver http://www.anep.edu.uy/observatorio/.

13

http://www.anep.edu.uy/observatorio/

recientemente se han hecho evaluaciones censales. Luego de administrar las pruebas –i.e. los cuadernillos con los ítems-, estas son distribuidas entre los docentes y directivos de todos los centros educativos (aun los que no participaron en la evaluación) de modo que puedan utilizar los instrumentos y analizar los resultados para mejorar las prácticas educativas locales. También se reparte de manera confidencial los resultados de cada centro al director, presentando los promedios de centros educativos comparables. El propósito es que los directivos utilicen la información para generar mejoras locales, pero sin presión de los padres, la prensa u otros actores (visto que es un sistema de bajas consecuencias). El Observatorio se encarga de coordinar la participación de Uruguay en evaluaciones internacionales (como SERCE y PISA, ver abajo). Es interesante que de manera específica hayan realizado análisis adicionales de los resultados de Uruguay y países de similares características en PISA, de modo que se exploren implicancias de políticas adicionales y adecuadas al país (cosa que han hecho también otros países de la región, como México y Brasil).

Brasil (mixto)

En este país las evaluaciones están a cargo del Instituto Nacional de Investigaciones Educativas (INEP16 por sus siglas en portugués), que es un organismo público autónomo vinculado al Ministerio de Educación. El INEP se encarga del recojo de datos educativos de diverso tipo para producir informes que pudieran servir para el desarrollo de políticas públicas. Sus actividades incluyen el Censo Escolar (realizado anualmente), el Censo de Educación Superior (también anual), el Sistema Nacional de Evaluación de la Educación Superior (incluyendo instituciones, carreras y estudiantes), el Examen Nacional para Certificación de Competencias de Jóvenes y Adultos (ENCCEJA), la Provinha Brasil, el Examen Nacional de Enseñanza Media (ENEM) y el Sistema Nacional de Evaluación de Educación Básica (SAEB). La Provinha Brasil mide alfabetización luego de un año de escolaridad. El ENEM es una prueba individual en la que participan voluntariamente los estudiantes al finalizar la enseñanza media. Su objetivo es dar información sobre las competencias y habilidades adquiridas, de modo que el estudiante pueda utilizarla con fines de postular a trabajos o estudios superiores. Para la educación básica existen dos pruebas: el SAEB y la Prova Brasil. La primera es muestral y se aplica desde 1990 cada dos años para medir los logros en matemática y lengua portuguesa en 4º y 8º grados de básica y 3º de enseñanza media. La Prova Brasil empezó a aplicarse recién en el 2005 y el 2007 de manera censal a los estudiantes de cuarto y octavo grados de educación básica y el tercer año de educación media de las escuelas públicas en áreas urbanas que tienen más de 20 estudiantes en esos grados. Se usa para un seguimiento más individualizado de escuelas y estudiantes y es relativamente nueva. Si bien algunos resultados de las pruebas de Brasil se pueden usar para altas consecuencias (como por ejemplo los resultados de las pruebas ENEM, para postular a universidades o trabajos), como también algunas pruebas subnacionales que se están aplicando en Minas Gerais o, más recientemente, en Sao Paulo, las hemos clasificado como de orientación mixta porque también se da prioridad a presentar resultados que luego pudieran utilizar diversos actores de forma diversa. La cantidad de información técnica y publicaciones disponibles en el portal del INEP es probablemente la más completa de América Latina, constituyéndose sin duda en un referente para lo que se podría hacer en el Perú. Lo anterior no quita una tendencia reciente en varios estados de Brasil por usar resultados de pruebas para definir políticas de

16 Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira; ver http://www.inep.gov.br/.

14

http://www.inep.gov.br/

responsabilización o accountability (vinculadas principalmente a estímulos o castigos a centros educativos o maestros; por ejemplo en Minas Gerais, Sao Paulo y Río de Janeiro).

México (mixto)

El sistema mexicano también podría ser descrito como mixto, pues combina evaluaciones de altas y bajas consecuencias. En México están, por un lado, las pruebas que administra la Dirección General de Evaluación de Políticas de la Secretaría de Educación Pública17. Estas pruebas, denominadas ENLACE (Evaluación Nacional del Logro Académico de Centros Escolares), se usan como parte del puntaje para la promoción de los docentes de los alumnos evaluados en el Programa Nacional de Carrera Magisterial. La carrera está orientada a docentes de preescolar, primaria y secundaria. El objetivo de las pruebas es llegar a diagnósticos de estudiantes y centros educativos. Es interesante destacar también que los padres o estudiantes pueden consultar sus resultados en el portal de ENLACE. En segundo lugar están las pruebas que administra el CENEVAL (Centro Nacional de Evaluación para la Educación Superior18). Estas pruebas se orientan principalmente a la admisión a centros de educación superior y certificación para egreso de la licenciatura (estos en diversas áreas especializadas). Finalmente están las pruebas y actividades del Instituto Nacional para la Evaluación de la Educación (INEE19). Este instituto fue creado el 2002 y al igual que el INEP de Brasil es un organismo público autónomo. Las evaluaciones que organiza, la principal es EXCALE (Exámenes para la Calidad y el Logro Educativo), se hacen en base a muestras de estudiantes de primaria y secundaria en español, matemática, ciencias sociales y ciencias naturales. Recientemente también presentaron un reporte de una evaluación con estudiantes de educación inicial. Anualmente producen un informe de la calidad de la educación básica en México. El INEE se encarga también de coordinar la participación de México en estudios internacionales. El portal del INEE contiene información técnica y publicaciones así como bases de datos de las evaluaciones realizadas que constituyen un importante referente a considerar para el desarrollo de actividades en el Perú; por ejemplo tiene un explorador que permite ver resultados en lenguaje y matemática20. En México varios estados tienen su propio sistema de evaluación; el caso más notable posiblemente sea Nuevo León, que participó autónomamente en la evaluación SERCE.

Al revisar las diversas instituciones y evaluaciones organizadas en el marco del sistema educativo mexicano se tiene por un lado una impresión positiva de lo mucho que se ha avanzado y por otro una de cierta descoordinación entre instancias que, como la SEP, CENEVAL y el INEE, tal vez debieran fusionarse en una sola o coordinar actividades más estrechamente de lo que parecería ocurrir al leer sus respectivos portales.

Estados Unidos (altas consecuencias)

En los EEUU hay una tendencia creciente a usar evaluaciones con altas consecuencias. Estas se inspiraron en una convicción de muchos funcionarios de que el logro de los estudiantes norteamericanos era muy bajo y la solución eran políticas y programas de accountability (US Department of Education, 2008). Estos se organizaron alrededor de la legislación de No Child

17 Ver http://www.snee.sep.gob.mx/. 18 Ver http://www.ceneval.org.mx/portalceneval/index.php. 19 Ver http://www.inee.edu.mx/. 20 Ver http://www.inee.edu.mx/explorador/.

15

http://www.snee.sep.gob.mx/

http://www.ceneval.org.mx/portalceneval/index.php

http://www.inee.edu.mx/

http://www.inee.edu.mx/explorador/

Left Behind21 (NCLB), aprobada por el presidente Bush el 2002. Los cuatro principios de la ley son: responsabilización (accountability) por resultados, brindar posibilidades para que los padres puedan transferir a sus hijos de escuelas con bajos resultados, más control local y flexibilidad por parte de los estados y distritos escolares para asignar recursos, y un énfasis en implementar lo que funcione bien de acuerdo a investigaciones científicas. La ley exige que los estados que esperan recibir financiamiento federal para sus programas educativos apliquen evaluaciones de aprendizajes fundamentales a todos los estudiantes en ciertos grados y reporten públicamente los resultados (en la actualidad 32 de los 50 estados han recibido aprobación completa de sus planes de NCLB). No establece estándares nacionales, ya que el marco legal norteamericano favorece el control local y descentralizado de las escuelas. Así, los estados, en el uso de su autonomía, han empleado diversos mecanismos para implementar esta legislación. En algunos casos, como Tennessee, se han usado mediciones repetidas de los estudiantes; otros, como el sistema de Dallas, recogen datos socioeconómicos y culturales sobre los estudiantes y sus familias y ajustan los puntajes antes de hacer comparaciones entre distintos grupos. Las consecuencias de los bajos logros estudiantiles son diversas en diferentes estados, llegando incluso al despido de docentes y directivos y cierre de centros educativos. La determinación de progreso se hace a veces con evaluaciones diseñadas por el estado o el sistema educativo en una ciudad. Los Estados Unidos cuentan además con una evaluación estandarizada nacional (National Assessment of Educational Progress, NAEP22) que permite hacer comparaciones en el tiempo.

Actualmente hay una gran discusión en los EEUU, pues muchos consideran que las evaluaciones repetidas de los estudiantes en unas cuantas materias, promovida por NCLB, han llevado a efectos perversos para la educación en un sentido pleno, mientras que otros consideran que han llevado a cambios positivos, como por ejemplo búsqueda de mayor capacitación por parte de los docentes. Seguramente hay algo de verdad en ambas afirmaciones. Hay abundante información que sugiere la dificultad de establecer modelos de altas consecuencias válidos; Brown (2008) por ejemplo ha reportado que el modelo para asignar premios a escuelas en Carolina del Norte tenía muy poca validez pues no era explicativo del rendimiento de los estudiantes. A partir de esto sugirió incorporar en el modelo variables como nivel socioeconómico de los padres, pero aún con estas inclusiones el modelo de incentivos sugerido tuvo un pobre poder explicativo del rendimiento estudiantil. La definición operacional de modelos de altas consecuencias es sin duda un tema complejo que se seguirá investigando en años próximos.

Chile (altas consecuencias)

Existen evaluaciones de rendimiento escolar en este país desde inicios de los años 80. El sistema, denominado Sistema de Medición de la Calidad de la Educación (SIMCE)23, tiene varios propósitos. Por un lado se busca reportar los resultados de las escuelas a los padres de familia, que de esta forma podrían elegir a las mejores para matricular a sus hijos. Este mecanismo de competencia ha sido fuertemente criticado pues aparentemente no habría llevado a mejoras globales en el rendimiento de los estudiantes sino solo a una mayor segmentación, al darse cierta migración de los estudiantes de mayor nivel socioeconómico a

21 Se podría traducir como Qué ningún niño se quede atrás; ver http://www.ed.gov/nclb/landing.jhtml o http://www.ecs.org/html/issue.asp?issueid=195. 22 NAEP es conocida como “la libreta de notas del país” e incluye evaluaciones de matemática, lectura, ciencias, escritura, arte, cívica, economía, geografía e historia de los EE. UU. Ver http://nces.ed.gov/nationsreportcard/. 23 Ver www.simce.cl.

16

http://www.ed.gov/nclb/landing.jhtml

http://www.ecs.org/html/issue.asp?issueid=195

http://nces.ed.gov/nationsreportcard/

http://www.simce.cl/

las escuelas con reportes de mejor rendimiento24 y al haberse documentado que serían más bien las escuelas las que están seleccionando a sus estudiantes, de manera de poder usufructuar de los incentivos que brinda el sistema25. Por otro lado, los resultados de las evaluaciones, junto con otros indicadores de la escuela, son usados para otorgar incentivos a todos los docentes (SNED26); de esta forma se busca evitar la competencia entre docentes individuales y en cambio favorecer el trabajo en equipo. Finalmente se usan los resultados para identificar las escuelas con menor rendimiento y programar ayudas especiales. Recientemente también han empezado a enfatizar el trabajo con docentes, discutiendo los resultados pedagógicamente (v. gr. explicando lo que los estudiantes saben y pueden hacer). Esta acción va en línea con las recomendaciones del informe OCDE mencionado antes.

1.3. Elementos comunes necesarios para evaluaciones nacionales de altas y bajas consecuencias Como se señaló al inicio de este capítulo, y al margen de las características de “altas” o “bajas” consecuencias por las que pueda haber optado un sistema, existen otros elementos sobre los cuales deben posicionarse todos ellos. En la literatura y descripción de procedimientos técnicos a menudo se encuentran los siguientes temas como relevantes para el desarrollo de evaluaciones.

Estándares educativos El tema de estándares es amplio y no pretendemos agotarlo aquí27. Los estándares se refieren en general a ciertas características deseables. En educación a menudo se distinguen 3 tipos de estándares: de contenido, de desempeño y de procesos educativos. Los estándares de contenido se utilizan, principalmente, para especificar los contenidos o competencias que se deberían enseñar en determinados niveles de escolaridad. En el Perú, lo más cercano a ello es el currículo nacional vigente y sus indicadores de logro, aunque se podría argumentar que ni los procedimientos seguidos para su construcción, ni la rigurosidad de las expectativas que encierra, ni su grado de alineamiento con otros instrumentos de política educativa, justifica que se les pueda considerar como verdaderos estándares de contenido. Los estándares de desempeño, por su parte, definen dominios sobre los contenidos introduciendo operacionalizaciones más precisas sobre cuán bien deberían los estudiantes poder hacer aquello que se espera pueden hacer con lo que aprenden. En el Perú lo más cercano a estos estándares son los desempeños clasificados como “satisfactorios” en las evaluaciones nacionales realizadas por la UMC. Finalmente, los estándares de procesos educativos establecen ciertos criterios generales acerca de cómo deberían promoverse los aprendizajes de los estudiantes. El currículo nacional tiene pautas respecto de cómo debería darse la interacción de estudiantes y docentes en el aula, con participación activa de los primeros. De hecho la literatura y experiencia internacional sugieren que es conveniente que los estándares se desarrollen en un proceso compartido por múltiples actores, de modo que luego estos sean aceptados. Los elementos mencionados arriba – los contenidos del currículo

24 Ver, por ejemplo, el informe de OCDE sobre el sistema educativo chileno (www.mineduc.cl/biblio/documento/texto_libro_ocde1.pdf) o estudio de Elacqua y Fábrega (2004). 25 Esta sería una de las razones por las cuales se intenta estimar el grado de “selectividad“ de las escuelas antes de asignar algunos incentivos, o se procurará incentivar la diversificación de alumnados vía los subsidios preferenciales actualmente en debate en el Congreso chileno. 26 Sistema Nacional de Evaluación del Desempeño; ver http://www.sned.cl/. 27 Para mayores detalles sugerimos Ferrer (2006a).

17

http://www.mineduc.cl/biblio/documento/texto_libro_ocde1.pdf

http://www.sned.cl/

nacional, los niveles de desempeño de las pruebas nacionales y las orientaciones pedagógicas del currículo – podrían servir como puntos de partida para el desarrollo de estándares. Este es sin duda un tema pendiente en la agenda educativa del Perú que tiene importantes consecuencias sobre el trabajo de la UMC.

Normas versus criterios Los primeros modelos de evaluación educativa en América Latina, incluyendo el Perú, se basaron en la definición de normas. Esta tradición de evaluación proviene de la psicología, donde a menudo muchos atributos no tienen un criterio de dominio absoluto sino que definen si un sujeto tiene mayores o menores niveles en el objeto de evaluación que sus pares. Así, muchas evaluaciones iniciales en educación en América Latina fueron normativas, buscando que los estudiantes tuvieran una distribución de puntajes más o menos normal alrededor de un promedio de 50% del puntaje total posible. Rápidamente los educadores se dieron cuenta que tal modelo era limitado pues en evaluación educativa se requiere poder definir si los estudiantes se ubican por encima o debajo de puntajes de corte definidos de manera absoluta y no relativa (por ejemplo satisfactorio o no satisfactorio). Así, en la actualidad el modelo dominante en evaluación educativa es de criterios, que requiere definiciones detalladas del objeto de conocimiento (contenidas en documentos técnicos como el marco de evaluación y especificaciones de prueba), alineadas con un cierto cuerpo de conocimientos (por ejemplo el currículo) e incluye puntos de corte para diferentes niveles de rendimiento28.

Comparaciones de desempeño a lo largo del tiempo: Esta es una práctica fundamental para entender cómo el sistema educativo puede o no estar promoviendo mejoras en los aprendizajes y brechas entre grupos de estudiantes. Lamentablemente en el Perú, como en muchos otros países, todavía no se ha podido implementar medidas técnicas que garanticen la posibilidad de hacer comparaciones intertemporales de los resultados de aprendizaje. Los motivos por los que no se cuenta con comparaciones temporales posiblemente tengan que ver con una todavía incipiente capacidad técnica de los equipos nacionales. Otros sistemas educativos en los cuales la evaluación es ya parte de su cultura institucional, tienen una larga tradición de comparaciones de rendimiento a través del tiempo (como por ejemplo NAEP en los Estados Unidos ha hecho comparaciones de rendimiento por más de 30 años).

Áreas de rendimiento evaluadas Si bien potencialmente se podrían planificar evaluaciones en un mayor número de áreas del currículo, usualmente los sistemas nacionales priorizan lenguaje (principalmente comprensión de lectura) y matemática, al considerárseles pilares del currículo y claves para comprender otras áreas y progresar entre grados. En las evaluaciones de bajas consecuencias suele haber una mayor tendencia a incluir otros temas, como ciencias sociales y ciencias naturales. Otras áreas relevantes para un desarrollo integral de una persona o grupo, como educación física, artes, música e historia, suelen tener menos evaluaciones, por razones de costos (financieros y de tiempo necesario tanto para desarrollarlas, aplicarlas, analizarlas y utilizarlas) tanto como por la convicción de que la comprensión lectora y el dominio del lenguaje y del razonamiento matemático y científico son capacidades fundamentales sin las cuales otros aprendizajes no pueden lograrse.

28 Para una mayor discusión sobre el tema ver Esquivel (2001).

18

Tipos de ítems en la evaluación

Crecientemente la teoría educativa ha enfatizado la importancia de evaluar a los estudiantes de diversas maneras, de modo que se refleje que los estudiantes tienen habilidades que no dependen de un tipo único de ítem. Así, las evaluaciones tradicionales, que usualmente usaban solo ítems de opción múltiple, han sido dejadas de lado para incluir junto a este tipo de ítem otros como respuestas cortas, respuestas largas (con o sin justificación), evaluación de escritura y expresión oral, evaluación del desempeño del estudiante en grupos para la solución de problemas concretos y otros en una tendencia hacia la “evaluación auténtica” (es decir vinculada estrechamente a situaciones que el estudiante podría encontrar cotidianamente). El costo y complejidad logística de formas variadas de ítems de hecho las hacen menos probables en evaluaciones censales (típicas de altas consecuencias) que en evaluaciones muestrales (típicas de sistemas de bajas consecuencias y evaluaciones internacionales). Evaluaciones en lengua materna indígena Tendencias pedagógicas contemporáneas sugieren la importancia de aprender a leer y escribir en lengua materna. En países como el Perú, con una lengua dominante pero muchas lenguas indígenas, esto ha llevado a evaluaciones en lengua indígena y en lengua dominante como segunda lengua. Los ejemplos de este tipo de evaluaciones son escasos en la región pero comunes en Europa, ahí donde convivan varias etnias y lenguas. En muchos países de América Latina, incluyendo el Perú, hay dificultades para llevar adelante evaluaciones bilingües como por ejemplo la falta de estandarización escrita de las lenguas indígenas y la variación de una misma lengua entre regiones.

Marcos Institucionales para las unidades de evaluación Como se vio antes, diferentes modelos institucionales para asumir las evaluaciones, pero siempre con presencia o representación del Estado. Así por ejemplo, hay modelos basados en el Ministerio de Educación, donde existe una oficina especializada en a medición de los rendimientos o de la calidad educativa (por ejemplo Chile). Otros modelos delegan o contratan, desde los ministerios de educación, la responsabilidad de la evaluación a una oficina externa (por ejemplo Guatemala29), que se encarga del diseño de la evaluación y reporte de resultados, pero siempre en coordinación con el Ministerio. Este último modelo parece ser cada vez menos frecuente en la región. Finalmente, más recientemente se han empezado a crear oficinas públicas autónomas especializadas en evaluación; es el caso de por ejemplo Brasil y México. Cada sistema tiene pros y contras. Las oficinas dentro del Ministerio podrían facilitar la comunicación con otras unidades de la misma dependencia, que de hecho deberían ser algunos de los principales interesados. Un punto en contra de este arreglo es que mantener la oficina dentro del Ministerio la puede hacer más proclive a la influencia de presiones políticas, que en algunos casos se pueden oponer a la transparencia de la información. Las oficinas públicas autónomas deberían tener relativa mayor autonomía política pero justamente por esto sus resultados podrían tener menor impacto en el desarrollo de políticas educativas. También es interesante mencionar que más allá de las oficinas

29 Entre 1997 y 2001 el Programa Nacional de Evaluación del Rendimiento Escolar (PRONERE) estuvo a cargo de la Universidad del Valle de Guatemala; sin embargo desde el 2005 el Ministerio de Educación volvió a asumir la tarea, creando el Sistema Nacional de Evaluación e Investigación Educativa (SINEIE; ver www.mineduc.gob.gt/sineie/index.asp). De hecho el sistema chileno inicialmente estuvo asociado a una institución externa y luego pasó al Ministerio.

19

http://www.mineduc.gob.gt/sineie/index.asp

nacionales, en muchos países (sobre todo con sistemas descentralizados) se encuentran oficinas regionales que conducen sus propias evaluaciones para fines distintos que los de la oficina nacional; es el caso por ejemplo de varios estados en Brasil con evaluaciones de altas consecuencias y México con estados que deciden participar autónomamente en evaluaciones internacionales (como PISA y LLECE; ver más adelante).

Factores asociados al rendimiento escolar: el controvertido tema de la causalidad

Una de las preocupaciones centrales en la investigación aplicada en ciencias sociales y en particular en las aplicaciones a los temas educativos, es la identificación de variables y mecanismos que contribuyan a explicar los resultados educativos y, en particular, los aprendizajes de los estudiantes. Estas variables y mecanismos pueden, eventualmente, ser empleados en el diseño de programas y políticas para mejorar los resultados de los procesos educativos. En las ciencias sociales, al menos desde un enfoque cuantitativo, los diseños experimentales han sido los preferidos para establecer relaciones de causalidad. En estos diseños experimentales un grupo de estudiantes (o escuelas) son asignados aleatoriamente a la condición de tratamiento (cualquiera que esta sea, por ejemplo introducir un nuevo método de enseñanza), y otro grupo funciona como control (que seguiría con la condición regular de aprendizaje). La asignación aleatoria cumpliría la función de equiparar a los grupos en las características de entrada (siempre y cuando el número de unidades asignado a cada grupo sea grande, por ejemplo 30 por grupo o más). Hay otros diseños para explorar relaciones de causalidad, como por ejemplo las mediciones repetidas de estudiantes que han pasado por diversas experiencias escolares. Sin embargo, los análisis multivariados30 que se suelen hacer en los sistemas de evaluación estandarizados del rendimiento escolar no usan un diseño experimental, longitudinal ni otros más afines a modelos causales explicativos. Lo que se suele hacer es analizar asociaciones entre el rendimiento, medido en un solo momento, con características del estudiante, su familia y su centro educativo. Pensamos que en general estos análisis de una sola evaluación deberían ser considerados principalmente como asociaciones que lleven a nuevos estudios y no estrictas asociaciones de causalidad. El problema principal para asignar causalidad en estos estudios es cómo aislar el efecto de la escuela del efecto de los estudiantes y sus familias, que podrían haber elegido ciertas escuelas y por tanto ellos ser las variables explicativas. Esto se denomina en la literatura “autoselección”31. 1.4. Evaluaciones internacionales de rendimiento escolar Desde los años 60, instituciones como la IEA32 han realizado evaluaciones de rendimiento de los escolares. Si bien lo que se quiere saber y el uso que se ha dado a los resultados ha ido

30 Casi todos, sino todos los sistemas de evaluación, incluyen en alguna de sus evaluaciones estandarizadas la recolección de un amplio conjunto de información de insumos, procesos y contexto. Se suele administrar cuestionarios a diferentes actores (v. gr. estudiantes y sus padres, docentes y directores) y fichas de observación escolar para analizar la relación entre estas características y el rendimiento. 31 Si bien es cierto que en las últimas dos décadas han aparecido diversos métodos estadísticos para intentar solucionar el problema de autoselección, como por ejemplo apareamiento (matching) o uso de variables instrumentales, desde una perspectiva más rigurosa sugerimos tomar incluso estos resultados como asociaciones, aunque ciertamente más cercanas de dar una explicación causal que una correlación. Por otro lado, los análisis jerárquico multinivel (HLM), tan populares recientemente en educación, no solucionan el problema de autoselección aunque sí contribuyen a mejorar las estimaciones de error estándar al dividirlo en diferentes niveles (típicamente del estudiante y su familia, del aula, de la escuela y la comunidad). 32 International Association for the Evaluation of Educational Achievement; ver http://www.iea.nl/.

20

http://www.iea.nl/

cambiando con el tiempo, bien se podría decir que el propósito principal de estas evaluaciones es el conocimiento detallado de lo que los estudiantes en diferentes países saben y pueden hacer y el uso ha sido en todos los casos de bajas consecuencia para los países participantes (aún cuando sus repercusiones, sobre todo a través de la difusión que da la prensa a resultados, a menudo considerados catastróficos, pudieran ser grandes para el sistema, por ejemplo desprestigiando la profesión docente). Más allá de las intenciones con que se han realizado estas evaluaciones, es claro que las repercusiones que han tenido han sido principalmente para ubicar el rendimiento de los estudiantes de cada país en un cierto lugar del ranking internacional (lo que a menudo se ha denominado “carrera de caballos”). Si bien los especialistas a menudo han criticado este uso, los medios se han encargado de resaltarlos y al hacerlo se ha logrado mucha repercusión en la opinión pública. En el siguiente cuadro se presentan algunas de las principales evaluaciones internacionales vigentes actualmente y la participación del Perú en ellas. Los informes internacionales contienen información bastante detallada del rendimiento de los estudiantes en áreas específicas. Para manejar la variedad de contenidos resultante es necesario tener un número y variedad de ítems considerable, por lo que en general recurren a formatos de formas rotadas (tal como fueron descritos antes). Más allá de los valiosos informes pedagógicos, existen también informes de variables asociadas al rendimiento, que provienen de cuestionarios y fichas administradas a estudiantes, sus docentes y directores y las características del centro educativo (son pocas las que incluyen también encuestas a padres de familia; las de LLECE son una excepción). Además de la red de LLECE para América Latina, existe una para países del sur y este de África que ha completado dos evaluaciones del rendimiento escolar33.

33 Southern and Eastern Africa Consortium for Monitoring Eucational Quality (ver http://www.sacmeq.org/.)

21

http://www.sacmeq.org/

Cuadro 1.2.

Características de las principales evaluaciones internacionales del rendimiento escolar Nombre Institución

que la organiza

Objeto de evaluación Años en que se ha

administrado

Participación del Perú

Laboratorio Latinoamericano de Evaluación de la Calidad Educativa (LLECE)34

UNESCO Rendimiento en comprensión de lectura, matemática y ciencias en estudiantes de varios grados de primaria

1997 y 2006 En las dos

Progress in International Reading Literacy Study (PIRLS)

IEA Comprensión de lectura en estudiantes de cuarto grado

1997 y 2006 Nunca

Trends in International Mathematics and Sciences Study (TIMSS)

IEA Matemática y ciencias en varios grados de primaria y secundaria

1995, 1999, 2003 y 2007

Nunca

Programme for International Student Assessment (PISA)35

OCDE Habilidades en comprensión de lectura, matemática y ciencias en estudiantes de 15 años matriculados en educación secundaria.

2000, 2003 y 2006 (2009)

En 2001(PISA Plus) y se prevé nuevamente en el 2009

International Civic and Citizenship Education Study (ICCS)

IEA Conocimientos y habilidades en educación cívica y ciudadana en estudiantes de 8º grado

1999 (2009) Nunca

Al igual que con las evaluaciones nacionales de bajas consecuencias, las evaluaciones internacionales, al menos en el caso peruano, han tenido poco uso. Así, en nuestro país las evaluaciones internacionales han tenido repercusión en tanto la prensa ha resaltado el bajo rendimiento de nuestros estudiantes. Incluso algunos lectores poco precavidos han dicho y repetido información falsa36. Los informes de resultados y de factores asociados contienen información detallada relevante que podría llevar a repensar instrumentos pedagógicos fundamentales como la formación y capacitación docente, los materiales educativos (principalmente los textos) y el currículo mismo, así como usar los estándares de desempeño internacionales para comunicar a diferentes audiencias en el Perú qué nivel de exigencia es requerido para considerar que un estudiante tiene un rendimiento satisfactorio. Por otro lado, participar en evaluaciones de alto nivel técnico como PISA ha tenido un importante efecto en la especialización del personal técnico de la UMC, que ha logrado incorporar algunos de los procedimientos considerados “estados del arte” en evaluación a las pruebas y procedimientos en el Perú.

34 Ver http://llece.unesco.cl/esp/. 35 Ver http://www.pisa.oecd.org/pages/0,2987,en_32252351_32235731_1_1_1_1_1,00.html. 36 Por ejemplo algunos analistas han dicho y repetido que en la primera evaluación LLECE solo resultamos por encima de Haití, cuando este país no participó en la evaluación; otros que nuestros estudiantes son los de más bajo rendimiento mundial cuando en realidad la evaluación PISA incluyó principalmente a estudiantes de países industrializados. Nada de esto es para negar los bajos resultados de los estudiantes peruanos, confirmados en cuanta evaluación nacional e internacional se ha hecho, sino para sugerir que los interesantes datos producidos por la UMC deben ser interpretados con rigurosidad.

22

http://llece.unesco.cl/esp/

http://www.pisa.oecd.org/pages/0,2987,en_32252351_32235731_1_1_1_1_1,00.html

A pesar de que no está dirigida a estudiantes, es interesante resaltar el estudio de la IEA sobre Profesores de Matemática37. Se trata de un estudio dirigido a entender cómo se preparan los docentes de matemática para enseñar en primaria y los primeros grados de primaria en diversos países. Este estudio está actualmente en curso y por tanto no podríamos participar, pero puede estar anunciando una tendencia hacia analizar de manera comparativa un factor fundamental en el aprendizaje de los estudiantes, como es el docente y sus prácticas en el aula. Estudios como el mencionado pueden aportar a comprender cómo aprenden los estudiantes en el aula, llevando así a sugerencias de política para la formulación de textos escolares, la formación y capacitación docente y la supervisión de docentes en las escuelas, por mencionar algunas posibles aplicaciones. Es importante notar que varios de los anteriores estudios tienen previstas nuevas rondas de evaluación para los próximos años, en las que el Perú podría participar, siempre y cuando esta participación fuera coherente con sus planes de desarrollo educativo38. 1.5. Algunas conclusiones sobre las experiencias de evaluaciones nacionales e internacionales del rendimiento escolar Se ha convertido casi en un lugar común decir que los indicadores tradicionales de cantidad en educación, vinculados principalmente a matrícula, repetición y deserción, se han convertido en insuficientes para describir las características de los sistemas educativos latinoamericanos, ahora que la cobertura (al menos en primaria) es bastante alta. La preocupación internacional de países y organismos internacionales (ver por ejemplo Vegas y Petrow, 2008) es por la calidad educativa, reflejada principalmente en puntajes en pruebas estandarizadas de rendimiento administradas a los estudiantes. Así, las pruebas se han convertido de manera creciente en un indicador necesario para describir muchos sistemas; cómo se deberían utilizar los resultados para mejorar la calidad educativa es un tema en debate. Como se ha intentado reflejar en el presente informe, no hay respuestas unívocas y los temas en discusión han ido enfocados de diferente manera entre países, e incluso hay grandes variaciones en algunos casos al interior de un mismo país39. Como se ha sugerido arriba, muchos países han intentado, con mayor o menor consistencia, integrar diferentes componentes en sistemas de evaluación que respondan a algunos de los principales retos en cada país, pero al leer las experiencias internacionales uno queda con la sensación de que no se trata de modelos acabados sino en constante revisión. En un contexto de generalización de la presencia de evaluaciones estandarizadas de rendimiento escolar en toda la región, se nota el inicio de una suerte de confluencia entre los sistemas más orientados hacia la “responsabilización” y las altas consecuencias y aquéllos más orientados hacia el diagnóstico y el apoyo al mejoramiento escolar. Sistemas muy claros respecto a sus intenciones de generar altas consecuencias, como el chileno, han ido reorientándose para incluir también informes diagnósticos y formativos que pudieran ser útiles a diversos actores clave del proceso pedagógico, como docentes y directivos escolares. Por otro lado, existe una presión creciente en varios países con sistemas de bajas consecuencias para incluir alguna forma de accountability asociada a sus informes, que en

37 Teacher Education and Development Study in Mathematics; ver http://www.iea.nl/teds-m.html. 38 Para una mayor discusión de la participación de Latino América en evaluaciones internacionales ver Ferrer y Arregui (2003). 39 De todos modos es importante notar que algunos países, como Venezuela y Bolivia, si bien han tenido evaluaciones nacionales, no cuentan en la actualidad con evaluaciones estandarizadas del rendimiento escolar.

23

http://www.iea.nl/teds-m.html

general han sido percibidos muchas veces como interesantes pero de poco impacto global en las políticas educativas. Esta confluencia encierra algunas promesas, pero también algunos riesgos y exigencias, ya que no será posible cumplir ambos roles con los mismos instrumentos y quizás con los mismos marcos institucionales. Respecto de las evaluaciones internacionales, también hay una tendencia clara de más países a incorporarse, sometiéndose así a calibrar sus resultados principalmente con los de países de similar o mayor nivel de desarrollo (que podrían servir de alguna forma como referentes). Las más populares en la región han sido la evaluación de la UNESCO (LLECE) y PISA, aunque mayor número de países se prepara para participar en estudios de la IEA. De nuevo, la pregunta a hacerse es cómo esta participación podría luego redundar en la mejora de los sistemas educativos nacionales. El Grupo de Trabajo sobre Estándares y Evaluación de PREAL ha estado discutiendo los anteriores temas por varios años, y un grupo de expertos del mismo ha formulado recientemente recomendaciones sobre las evaluaciones que América Latina necesita. La primera es “La evaluación debe concebirse como un elemento articulado en un conjunto más amplio de acciones y políticas educativas.” (Ravela et al, p. 22, 200340). En otras palabras, la recomendación es pensar la evaluación estandarizada no solo desde sus procedimientos técnicos o rutina en la práctica de reporte de resultados, sino en su articulación coherente con otros componentes del sistema educativo. En el siguiente capítulo se presentan las principales características de la evaluación del rendimiento escolar en el Perú, que ha existido por poco más de una década. Para ello se usan varios de los conceptos definidos y discutidos, aunque brevemente, en este primer capítulo. También se esboza un análisis de cómo los informes de resultados y otras actividades de la UMC podrían haber sido un elemento articulado de política educativa tal cual sugerido por el GTEE.

40 En el Anexo de esta capítulo se re cogen todas las recomendaciones del GTEE.

24

Anexo del capítulo 1. Recomendaciones del Grupo de Trabajo sobre Estándares y Evaluación de PREAL sobre las evaluaciones que América Latina necesita (Ravela et al, p. 22-23, 2008). 1. La evaluación debe concebirse como un elemento articulado en un conjunto más amplio

de acciones y políticas educativas. 2. La evaluación debe contemplar un proceso de reflexión colectiva sobre el estado de la

educación y los caminos para mejorarla. 3. La evaluación debe estar al servicio del desarrollo de un sentido de responsabilidad

compartida por la educación como bien público. 4. Los sistemas de evaluación de la región necesitan ampliar progresivamente el abanico de

fines educativos que son objeto de evaluación. 5. Los sistemas de evaluación de la región deberían progresivamente diseñar evaluaciones de

progreso (valor agregado) de los estudiantes. 6. Un sistema de evaluación es un proyecto de largo plazo, por lo que requiere de un

compromiso del Estado y de una planificación cuidadosa del diseño del sistema. 7. Un buen sistema de evaluación requiere inversión. 8. El sistema de evaluación debe sustentarse en una actitud firme de transparencia. 9. Los ministerios de educación deben asumir un compromiso serio y consistente con los

resultados de la evaluación. 10. Los sistemas de evaluación deben ser objeto de evaluación periódica.

25

Capítulo 2 El desarrollo de la UMC En el primer capítulo se presentó un breve balance de las corrientes predominantes a nivel internacional en cuanto a evaluaciones estandarizadas del rendimiento estudiantil. En el presente capítulo se presenta cómo el trabajo realizado por la Unidad de Medición de la Calidad Educativa (UMC) del Ministerio de Educación se relaciona con las anteriores tendencias. Para ello se presenta un breve recuento de las principales actividades realizadas por la UMC desde su fundación, a mediados de la década pasada. En el primer capítulo se presentaron varios enfoques y opciones en cuanto a evaluaciones estandarizadas. Entre ellas la principal dicotomía planteada fue respecto de los usos de las evaluaciones, que podrían orientarse a bajas o altas consecuencias. Pensamos que las actividades de la UMC claramente se alinean dentro de los modelos de bajas consecuencias, aunque recientes actividades (como las evaluaciones censales del 2006 y 2007) podrían propiciar el uso de altas consecuencias en los próximos años. Adelantando nuestras conclusiones, y de acuerdo a lo descrito en el capítulo anterior para modelos de bajas consecuencias, pensamos que los productos elaborados por la UMC han tenido relativamente poco impacto en algunos actores clave que se buscaba usen la información. Estos incluyen a docentes, directivos, padres de familia, capacitadores y formadores de docentes, autores y editoriales a cargo de textos escolares y autoridades en otras oficinas del Ministerio de Educación. En el presente capítulo se describe y evalúa críticamente el trabajo realizado en más de una década para sentar las bases de una propuesta, que se desarrollará en el tercer capítulo. Es importante destacar también al inicio del presente documento que los autores estiman que calidad del nivel técnico de los procedimientos y publicaciones ejecutados por la UMC durante la presente década es de muy alto nivel, comparable al de instituciones de avanzada similares en otros países de la región. 2.1. Breve recuento del desarrollo de la Unidad de Medición de la Calidad Educativa A continuación un breve recuento de las principales etapas en el desarrollo de la UMC desde su fundación. Este recuento no pretende ser exhaustivo; el lector interesado puede consultar otros documentos como Ferrer (2005) y Cueto (2007). También se puede consultar directamente el portal de la UMC41. Una forma de entender la evolución es presentándola en tres grandes etapas de desarrollo, resumidas en el Cuadro 2.142. A continuación se discute brevemente cada una de las etapas mencionadas antes. 2.1.1. Los inicios Como muchos países en la región, a mediados de la década pasada el Perú creó una unidad para medir el rendimiento de los estudiantes. También como otros países hubo instituciones internacionales vinculadas a su fundación y desarrollo inicial, principalmente el Banco Mundial y luego el Banco Interamericano de Desarrollo. La UMC fue creada como parte de la oficina de planificación del Ministerio de Educación en donde continúa estando (salvo por un periodo corto que fue puesta directamente bajo el Viceministerio de Gestión Pedagógica en la administración del Ministro Ayzanoa en el 2002). Como parte de un órgano de apoyo a la

41 Ver http://www2.minedu.gob.pe/umc/index2.php?v_codigo=34&v_plantilla=2. 42 En el anexo se incluye una descripción más detallada de cada una de las evaluaciones mencionadas arriba.

26

http://www2.minedu.gob.pe/umc/index2.php?v_codigo=34&v_plantilla=2

Alta Dirección de Ministerio, como es la oficina de planificación, la UMC debía brindar información relevante para las políticas educativas.

Cuadro 2.1. Etapas en el desarrollo institucional de la UMC Descripción Etapa 1: Los inicios

(1994-1998) Etapa 2: Transición: cambio de modelo de evaluación (1998-2004)

Etapa 3: Consolidación institucional (2004 en adelante)

Evaluaciones nacionales realizadas

1996 y 1998 2001 y 2004 2006, 2007 y 2008

Modelo de evaluación

Normas Criterios Criterios

Selección de muestra

Muestreo (principalmente urbano, con representatividad por departamentos y otras desagregaciones)

Muestreo con pequeñas exclusiones en zonas rurales (con representatividad por regiones y otros desagregados)

Censo, aunque con poca cobertura el 2006 y mayor cobertura el 2007.

Propósitos de la evaluación y niveles evaluados

Poco definido, pero se buscaba conocer el rendimiento relativo de grupos de estudiantes (primaria y secundaria)

Conocer el rendimiento de los estudiantes en detalle en varios grados y áreas (primaria y secundaria)

Conocer el rendimiento de todos los estudiantes de 2º grado (y algunos de 4º) de primaria

Usos de la información

Reporte de resultados en las pruebas y cuadernillos de capacitación para docentes; también algunos informes de factores asociados.

Informes de resultados de las pruebas, informes pedagógicos para docentes e informes de factores asociados.

Informes con resultados en las pruebas de escuelas para docentes y directivos y de resultados de estudiantes para los anteriores y padres de familia.

Áreas, ítems y encuestas

Áreas: comunicación y matemática, ciencias sociales y ciencias naturales; ítems de opción múltiple y comunicación oral y escrita. Encuestas de factores asociados.

Áreas: comunicación, matemática y formación ciudadana; ítems de opción múltiple, comunicación oral y escrita, solución de problemas concretos. Encuestas de actitudes y factores asociados.

Áreas: comunicación y matemática. Ítems de opción múltiple y otros formatos objetivos. Breves encuestas de factores asociados.

Lenguas Castellano Castellano, quechua del sur y aymara

Castellano, quechua Cusco Collao, aimara, shipibo konibo y awajun

Evaluaciones internacionales

LLECE (1997) PISA (2001) LLECE (2006) y preparación para PISA (2009)

A lo largo de los años la UMC ha mantenido vínculos con diversas instituciones internacionales, generándose un interesante e importante intercambio internacional. El principal problema de la UMC al momento de su fundación fue que no se tuvo claros todos los propósitos ni los usos que se le debía dar a las evaluaciones estandarizadas (o peor, hubo

27

errores en cuanto a entender lo que el modelo de evaluación permitía conocer). Así en su nacimiento y con la ayuda de consultores internacionales se estableció un modelo de normas que claramente resultaba inadecuado, pues no permitía una definición clara de lo que se evaluaba43 ni permitía tener puntos de corte señalando rendimientos aceptables44. El modelo inicialmente adoptado apuntaba más bien a generar puntajes para estudiantes que se distribuyeran de acuerdo a una curva normal, con relativa mayor agrupación de rendimientos hacia la mitad del puntaje posible. Esto, que se hizo relativamente bien, resultó, como era de de esperar, en rendimientos promedios de alrededor del 50% del puntaje máximo posible; parte del personal del Ministerio de Educación de la época interpretó esto como un puntaje de 10 en una escala vigesimal, y por tanto desaprobatorio e inaceptable. En base a esta interpretación errónea (la prueba se diseñó para obtener resultados de alrededor del 50% y estos no son por tanto interpretables en una escala vigesimal) se decidió no distribuir el informe con estos resultados (este, errado técnicamente en sus interpretaciones, fue luego distribuido durante el gobierno de transición de Paniagua en el 2001; ver Ministerio de Educación, 1998).45 Lo anterior marca una tendencia en esta primera etapa que es importante: si bien se creó la UMC para evaluar y difundir los resultados, luego no hubo compromiso político para que sucediera. Esto se vio nuevamente más adelante cuando los resultados de Perú de la primera evaluación del Laboratorio Latinoamericano de Evaluación de la Calidad de la Educación (LLECE) de UNESCO no tuvieron autorización de ser difundidos por el Ministerio (más adelante, se difundieron los resultados de LLECE en un boletín especialmente elaborado para ese propósito; ver UMC y GRADE, 2001). Así, algunos funcionarios del gobierno peruano vieron en los resultados de las pruebas una posible falla del gobierno, sin pensar que estos eran producto de muchas décadas y no de un gobierno en particular ni ver en los resultados un instrumento para mejorar la calidad educativa ni una línea de base a partir de la cual medir avances. Dado lo anterior, y vista la presión del Banco Mundial para que se publique algo46, la UMC preparó en su momento cuadernillos de capacitación en lógico-matemática y comunicación integral orientados a docentes. Si bien los cuadernillos estaban aparentemente basados en las evaluaciones nacionales (denominadas CRECER 1996 y CRECER 1998), no se presentaron allí ejemplos de los ítems evaluados ni los resultados de las pruebas. En base a estos se planificaron decenas de capacitaciones, lo cual generó cierto malestar en otras unidades dentro del Ministerio de Educación que veían el terreno de la capacitación como propio. También de esta época se debe destacar un informe del Banco Mundial (1999) analizando factores asociados del rendimiento escolar y sugiriendo que el Perú se encontraba frente a

43 Los contenidos evaluados estaban relacionados al currículo nacional, pero no se elaboraron especificaciones de prueba como las que se hicieron a partir de la EN 2001, aunque sí hubo un cuadro de doble entrada con contenidos y niveles cognoscitivos de acuerdo a la taxonomía de Bloom 44 Las diferencias entre los modelos de normas y criterios fueron discutidas en el primer capítulo. 45 Si bien durante el gobierno de transición se empezaron a difundir resultados y publicar informes, durante la gestión de la viceministra Mellado (de la última gestión ministerial del gobierno de Fujimori), la UMC tuvo “luz verde” para publicar sin tantas restricciones. Era muy común, por ejemplo, que cada publicación pasara por la aprobación primero del jefe de la oficina de planificación y luego la encargada del Viceministerio de Gestión Institucional. Este afán de control, vinculado sin dudas a presiones políticas, se relaja paulatinamente desde aproximadamente la segunda mitad del año 2000. 46 Pues parte de los fondos que financiaban la UMC provenían del Banco Mundial y entre los compromisos estaban las publicaciones; es interesante que el Ministerio se comprometiera con el Banco a hacer algo que después no cumpliría, sugiriendo que al momento de firmar el compromiso no había claridad respecto de lo que eventualmente la UMC iba a producir como resultado de las evaluaciones.

28

varias encrucijadas para mejorar la calidad de la educación, luego de que la cobertura (al menos en educación primaria) era casi universal. Esta primera etapa fue una en la que el principal riesgo era que se viera la UMC como una instancia poco útil pues no difundió resultados sino hasta el año 2000 (poco más de 5 años después de su creación), a pesar de que ya se habían hecho 2 evaluaciones nacionales (en 1996 y 1998) y una internacional (en 1997). El origen de esta situación fue claramente una combinación de elementos técnicos (insuficiente manejo de los temas de evaluación por un equipo sin experiencia previa, reflejo de la falta de experiencia y conocimientos técnicos en el país) y políticos (pues se vio en los resultados una potencial amenaza a la popularidad del régimen). En 1998 un equipo de GRADE fue contratado para proveer de colaboración técnica a la UMC. Dada la falta de experiencia en el tema en el país, la consultoría consistió en gran medida en buscar y traer por períodos cortos a consultores que hubieran participado en evaluaciones internacionales (diferentes del grupo de asesores originales), buscando que los aportes de estos fueran luego aprendidos y traducidos en prácticas por el equipo local. En base a estas consultorías, y en trabajo conjunto con la UMC, se decidió cambiar el modelo de evaluación de normas a criterios, que es el que se sigue utilizando (con una serie de procedimientos técnicos coherentes con el modelo que no es el caso describir aquí, aunque algunas características se mencionaron en el primer capítulo). También se inició una serie de publicaciones de los resultados de la evaluación de 1998 y los factores asociados a ellas (provenientes principalmente de encuestas a padres, docentes y directivos). Pensamos que estas decisiones supusieron un quiebre importante que permite hablar de una segunda etapa de la UMC. 2.1.2. La transición: el cambio de modelo de evaluación En el período entre el 1999 y el 2004 se sentaron las bases del importante desarrollo técnico que se ha logrado en la UMC en la actualidad. Durante estos años, con la ayuda de consultores extranjeros y aún con el co-financiamiento del Banco Mundial y el BID, el equipo de la UMC logró diseñar, administrar y analizar pruebas en áreas y grados diversos, siguiendo un modelo de criterios. Las evaluaciones nacionales realizadas en esta época partieron de objetivos claros (se elaboraron sendos documentos de fundamentación como punto de partida de la preparación de las evaluaciones; ver por ejemplo Rodríguez y Cueto, 2001). Además, se tuvo como marco de referencia la población estudiantil de todo el país (lo que implicaba ampliar la cobertura de las muestras de manera que se incorporaran los diversos tipos de escuelas y poblaciones que conforman el universo estudiantil del Perú. Fue en esta etapa que las escuelas en áreas rurales, en especial las multigrado y bilingües, fueron incorporadas en la evaluación del rendimiento escolar. Si bien se sacrificó áreas curriculares que en 1998 se habían incorporado, fue la primera vez que se elaboraron pruebas en lengua vernácula (quechua del sur y aymara) y se exploró con una variedad de formatos de evaluación (por ejemplo comunicación oral y solución de problemas matemáticos concretos). En base a la información acopiada y los resultados de las pruebas se elaboraron cuatro tipos de informes:

a) De resultados generales: conteniendo información del porcentaje de estudiantes que lograban rendimientos satisfactorios (dado el currículo). Estos resultados, que en general mostraron pobres rendimientos estudiantiles y altas desigualdades entre grupos, son los

29

que han tenido mayor difusión, gracias tal vez al interés de la prensa. Así, poco a poco se ha ido generando una cierta cultura de la evaluación pero limitada exclusivamente al dato del porcentaje de estudiantes con logros satisfactorios, sin profundizar en otra información resultante. b) Pedagógicos: en varios informes se han presentado ejemplos de ítems, porcentajes de respuestas y análisis de los bajos rendimientos, sugiriendo qué podrían haber pensado los estudiantes que erraron y cómo un docente podría trabajar cada tema en el aula. c) De factores asociados: orientados a diversos temas como oportunidades de aprendizaje y peso de la escuela y los factores socioeconómicos en el rendimiento escolar. d) Técnicos: describiendo características de la muestra, especificaciones de pruebas y similares.

También se participó en PISA (por sus siglas en inglés; Programa Internacional de Evaluación Estudiantil) de la OCDE. Las pruebas de PISA incluyen 3 áreas de: comprensión de lectura, matemática y ciencias. PISA ha sido diseñado en 3 rondas consecutivas cada 3 años, siendo que cada ronda se concentra una de las 3 áreas, aunque no excluye otras. El Perú se incorporó a PISA 2000 cuando la primera ronda ya había empezado y pudo, con un conjunto adicional de países que no son miembros de la OCDE, participar en PISA Plus (como se denominó a la aplicación de PISA 2000 en el 2001). En esta primera ronda, el área central fue compresión de lectura. A pesar de haberse incorporado tarde, el equipo de la UMC tuvo la oportunidad de aprender del modelo que también es basado en criterios, emplea formas rotadas y puntuación con créditos parciales (procedimientos que fueron usados luego en las EN 2001 y 2004). Los resultados de PISA mostraron muy pobre performance de los estudiantes peruanos. La prensa destacó este rendimiento sobre todo porque Perú tuvo el más bajo rendimiento internacional (se debe notar, sin embargo, que los países participantes provenían principalmente del bloque de países industrializados de la OCDE). De nuevo, el punto principal es que de todas las evaluaciones lo único que parece haber tenido un impacto permanente es el hecho que nuestros estudiantes tienen un rendimiento promedio bastante por debajo de lo que se podría esperar dado el currículo nacional o el rendimiento de sus pares en otros países47. Estos bajos resultados, que reforzaron los bajos resultados de la EN 2001, llevaron a que durante este período se declarara la educación en emergencia, pero lamentablemente el programa resultante, de focalización en algunas escuelas relativamente pobres, no se basó en un análisis detallado de lo que los estudiantes peruanos podían hacer en las pruebas ni se planificó una evaluación del impacto de la estrategia adoptada en el rendimiento estudiantil. Durante esta etapa también se presentaron situaciones que pusieron en riesgo o al menos se ejerció mucha presión externa para cambiar las formas de trabajo de la UMC. Primero, bajo la influencia del Banco Mundial y con la acogida del Ministro Lynch, se ejerció mucha presión

47 No es cierto, sin embargo, lo que se afirma en la cultura popular respecto de que la mayoría de estudiantes peruanos no comprenden lo que leen y no saben las cuatro operaciones básicas. Lo que las evaluaciones miden es si el nivel de habilidades está por encima de lo esperado dado el grado de estudios o edad del estudiante; así por ejemplo, se requiere demostrar mayor nivel de comprensión de lectura en secundaria que en primaria. Decir de manera absoluta que los estudiantes no saben leer o similares afirmaciones desvirtúa la complejidad y riqueza de los resultados de las evaluaciones.

30

para empezar a aplicar pruebas “censales”, es decir no a muestras de estudiantes como se venía haciendo sino a la totalidad de la población estudiantil48. Más adelante, luego del cambio de Ministro, surgieron nuevos e inesperados riesgos. La nueva gestión ministerial primero decidió que la UMC debería estar bajo el viceministerio de gestión pedagógica, dejándola durante un tiempo en el limbo pues no se hicieron los cambios normativos necesarios. Mas adelante, y con el completo desconocimiento del propio viceministro de quien dependía la UMC, el ministro mandó despedir al equipo en pleno de la UMC y cerrar la unidad. Esto afortunadamente no se concretó y el eventual cambio de Ministro trajo nuevos aires y planes para la UMC. Aquí cabe preguntarse por qué algunos Ministros han objetado el trabajo de la UMC o sus publicaciones. Una fuerte razón, sugerida antes, es política, por la que se ha percibido a la UMC como una eventual fuente de problemas por los bajos resultados estudiantiles que se han encontrado sistemáticamente. Una segunda causa es discrepancias con el modelo de evaluación adoptado, que algunos han pensado inadecuado para el Perú (por diversos motivos que no es el caso describir aquí). Lo interesante es que en las dos primeras etapas reseñadas parecería que la institucionalidad de la UMC era frágil y hubiera bastado la determinación de cualquier Ministro para cerrarla. Esto pareciera no ser posible durante la tercera etapa de la UMC, la actual. Para esta consolidación institucional puede haber contribuido la aprobación el 2003 de la Ley General de Educación, que entre otros aspectos creaba el Sistema Nacional de Evaluación, Acreditación y Certificación de la Calidad Educativa (SINEACE). Entre 2006 y 2008 se ha reglamentado el SINEACE y creado sus instituciones operadoras, para las que el trabajo de la UMC es vital. Esto, junto a las continuas actividades de la UMC, han dado una legitimidad a las actividades de evaluación que harían difícil que actualmente se desactive la evaluación estandarizada y periódica de estudiantes. Sin embargo, las presiones y tensiones vinculadas al trabajo de la UMC no han desaparecido como se verá a continuación. 2.1.3. Consolidación institucional Dos cosas marcan o definen esta etapa que hemos denominado de consolidación. Por un lado, el convencimiento sino absoluto bastante amplio de que la UMC hace un trabajo serio y útil. Por ejemplo instituciones como Foro Educativo, el Consejo Nacional de Educación y la UNESCO han reportado los resultados producidos por la UMC. Por otro lado, la creciente demanda por evaluaciones (especialmente con pruebas) que de una u otra manera solicitan asesoría técnica de la UMC. Ambos fenómenos sugieren que la UMC es el referente fundamental en los temas de evaluación en el país. Vista la influencia creciente de actividades de evaluación del rendimiento escolar, en este tercer período se han ampliado las actividades de la UMC en varios sentidos. Por un lado, principalmente desde el 2006 se dio inicio a las evaluaciones censales de estudiantes en segundo grado. El propósito general de dichos censos ha sido tener datos de cada estudiante y escuela, de modo que se puedan monitorear avances en el rendimiento. Esto se logró de manera muy limitada el 2006 pues el escaso tiempo de planificación resultó en una cobertura relativamente baja (v. gr. bastante distante de ser un censo) pero se mejoraron procedimientos el 2007, llegando a una cobertura de escuelas por encima del 90%. De manera consecuente con los propósitos, por primera vez se produjeron informes de estudiantes y escuelas que han

48 Como quedó claro a lo largo del debate en aquel entonces sobre esta propuesta, cuando fue hecha no se tuvo en cuenta que evaluaciones censales tienen varias formas de ser entendidas, por ejemplo censo de escuelas, censo de estudiantes de un grado, de un ciclo o de un nivel o censo de las áreas curriculares.

31

sido distribuidos a docentes, directivos y padres de familia. Sin embargo, no se han producido otros tipos de informes (por ejemplo de factores asociados o técnicos) como sí se hizo con las evaluaciones muestrales del segundo período. Esto en realidad es esperable dado el cambio de enfoque, pues la realización de censos anuales ha terminado consumiendo gran parte de las energías y tiempo del personal de la UMC. Así, pareciera que es imposible mantener al mismo tiempo evaluaciones detalladas, con gran número de ítems por prueba y varias publicaciones técnicas (como se hizo con las EN 2001 y 2004) al mismo tiempo que se hace un censo, dada la demanda de este último tipo de evaluación, a menos que se incremente el personal de la UMC, especializándolos en diversos tipos de evaluaciones e informes. Una crítica que se podría hacer a estas evaluaciones censales es que no parece haber proporcionalidad entre el gran esfuerzo y costo de hacer censos y el relativo escaso uso que se da a la información. Así, en las evaluaciones censales se busca producir los informes individualizados por escuela y estudiante mencionados antes y hacerlos llegar a las escuelas y autoridades regionales (cosa que no siempre ocurre, dadas las dificultades logísticas inherentes a llegar con información individualizada a cerca de 30.000 escuelas primaria). De hecho la UMC con el MEF está impulsando evaluaciones para estudiar cómo, si es que en algo, son utilizados estos informes. Esto seguramente será un resultado útil pero deja toda la iniciativa del cambio en manos de actores locales. A nivel central el Ministerio podría considerar otros usos de la evaluación como por ejemplo definir centros educativos con relativo peor rendimiento y proponer estrategias de intervención (que deberían empezar con una mayor inversión en estas escuelas) específicas a cada escuela y monitoreo de logros a través del tiempo. Este tipo de iniciativas atacaría el corazón de una de las grandes conclusiones de las evaluaciones de la UMC: los resultados de estudiantes en escuelas privadas, urbanas, de mayor nivel socioeconómico, con lengua materna castellano son bastante superiores al de sus pares en escuelas públicas, rurales, con mayor pobreza y lengua materna indígena. En esta etapa la UMC ha emprendido además estudios especiales. Entre estos cabe destacar un análisis cualitativo de oportunidades de aprendizaje en el aula, un seguimiento longitudinal a los mismos estudiantes y una evaluación de estudiantes de educación inicial. Estos estudios están en diferentes momentos, con algunas publicaciones ya finalizadas, pero el punto principal aquí es mostrar la diversidad de actividades y productos realizados. Como se dijo antes, en esta etapa se han incrementado los pedidos de asistencia técnica que en estricto no caen dentro de su ámbito de acción. Entre estos se cuenta la asesoría para la evaluación del impacto de algunos programas del Ministerio de Educación, la asistencia para el desarrollo de pruebas de docentes y la asesoría técnica para el desarrollo de sistemas de evaluación del rendimiento en las regiones; estos pedidos han sido atendidos en mayor o menor medida por el personal de la UMC. Esto es en alguna medida saludable pues el personal de la UMC ha acumulado considerable conocimiento técnico y experiencia relevante para estos temas, pero dado el limitado personal permanente y el ritmo alto de actividades de evaluación (sobre todo recientemente, cuando se ha planteado el censo anual), habría que pensar en limitar los pedidos externos que puede responder la UMC o ampliar el personal, incorporando especialistas en los temas referidos. En ese sentido, la presión que se está ejerciendo sobre la UMC la realización de censos de rendimiento escolar junto con la gran demanda para apoyar todo -o casi todo- lo que sea “evaluación” en el Ministerio, representan una fuente de riesgo si se quiere mantener el alto nivel técnico de los productos elaborados por la UMC.

32

Un segundo tema importante de presión sobre la UMC proviene de la intención de ciertos actores, principalmente dentro del mismo Estado, para usar los resultados de la evaluación censal para definir incentivos monetarios para docentes. La idea principalmente sería recompensar a los docentes cuyos estudiantes logren mejores rendimientos. Las objeciones a este tipo de modelos de altas consecuencias fueron presentadas en el primer capítulo y no serán repetidas aquí. En todo caso el uso de evaluaciones con altas consecuencias es un tema que podría ser experimentado y discutido gradualmente, aprendiendo de experiencias internacionales sobre el tema. Sin embargo, como se ha sugerido antes, no se pueden ampliar las responsabilidades de la UMC sin aumentar proporcionalmente sus recursos. En cuanto a evaluaciones internacionales, durante esta etapa se participó en la segunda evaluación del Laboratorio Latinoamericano de Evaluación de la Calidad de la Educación de la UNESCO y se está realizando el piloto para participar en PISA 2009 (que, como el 2001, se concentrará en comprensión de lectura, permitiendo evaluar el progreso de los estudiantes en el Perú en 8 años). 2.2. La difusión de resultados Como se ha sugerido antes, pensamos que el modelo de bajas consecuencias de la UMC ha carecido de impactos significativos en las prácticas y políticas de muchos de los actores a los que se buscaba influenciar. Esto se podría explicar porque no se ha contado con un modelo de comunicaciones e impacto en políticas adecuado, ni personal especializado para llevarlo a cabo. Dada la importancia de este componente en nuestro análisis, a continuación se presenta una breve discusión de la difusión de resultados de la UMC en cada una de las tres etapas mencionadas, ampliando y discutiendo la información ya presentada y sugiriendo nuevas pistas para el trabajo futuro. Nada de esto es para sugerir que no se han hecho actividades de difusión; en el Anexo 2 de este capítulo la relación de las actividades de difusión realizadas desde 1998 (información provista por el personal de la UMC). Lo que se sugiere aquí es que no se ha contado con un plan estratégico de comunicaciones. Este tema se retoma en el capítulo 3, pero antes se describen brevemente las actividades de difusión durante las tres etapas de la UMC. 2.2.1. La difusión de resultados en los inicios (1994-98) La mayoría de los sistemas nacionales de evaluación desarrollados en América Latina durante los 90 enfatizaron sus finalidades de carácter formativo y sin consecuencias directas sobre las escuelas. El Perú no ha sido una excepción en ese sentido. El principal rol de la UMC, por lo tanto, fue constituirse en un sistema de información al público sobre el estado de la educación nacional y, especialmente, constituirse en proveedor de información para la toma de decisiones por parte de las autoridades y actores del sector educativo. En ese marco, los documentos que sustentaron su conformación enfatizaban sus propósitos de difundir y utilizar la información recogida para rediseñar o ajustar políticas, planes, programas y prácticas pedagógicas y de gestión escolar. La concreción de esas intenciones, como se ha mencionado, parecería haber sido en esta etapa – aunque también en las posteriores - bastante más limitada que lo deseable, debido a una serie de debilidades observadas en la forma en que se concibió, organizó y ejecutó la tarea de divulgación.

33

En primer lugar, no existía realmente una visión estratégica sobre el rol de la evaluación. No se tenía muy en claro, ni siquiera entre los conductores mismos del proceso, la manera en que se esperaba que la evaluación impactara sobre el sistema educativo. Dada esta situación, especialmente en los primeros años de actividad de la UMC hasta aproximadamente 1997, no hubo una definición clara de cuáles eran las audiencias a las que se quería llegar, no se trabajó institucionalmente cuáles eran los contenidos y mensajes que se quería hacer llegar a cada una de ellas y cuáles podrían haber sido los vehículos o tipos de productos de difusión apropiados en cada caso. Esta definición previa podría haber generado un enfoque metodológico distinto incluso en la construcción de los instrumentos de medición, cosa que no ocurrió en la práctica. Quizás por la precariedad institucional y política de aquel entonces, ni siquiera era claro que finalmente los resultados se hicieran públicos – intuición correcta, como se comprobó posteriormente – por lo cual las energías estuvieron focalizadas en el desarrollo “psicométricamente correcto” de los instrumentos, en el complejo aprendizaje de los procesos logísticos necesarios para su aplicación, y en procesamiento y análisis estadístico de los datos, tareas por cierto suficientemente desafiantes para la débil estructura y organización en la cual se apoyaban. Recordemos que el Ministerio empezaba recién a recuperarse de la crisis económica de fines de los ochenta y de la debacle de todo el aparato público que la acompañó y sucedió. Los pocos documentos generados en torno a la primera evaluación nacional (CRECER 1996) se hicieron pensando más desde la perspectiva de los especialistas de la unidad de evaluación que de las demandas y preocupaciones de las audiencias, no incluyendo siquiera las de las audiencias internas del sector educativo, obviando también a las familias, la opinión pública, el sistema político, el mundo académico, las organizaciones sociales y hasta la prensa. Un ejemplo de la falta de reflexión previa respecto a los mensajes a ser emitidos y de las demandas reales de información por parte del público es la confusión generada en torno a pruebas que eran de tipo normativo, descriptivo y diagnóstico, pero que eran interpretadas por algunas autoridades del Ministerio, la prensa y el público en términos de aprobación y reprobación de alumnos. La demanda pública parecía ir en un sentido – y quizás tendría que haber sido previamente educada para que asuma otra orientación -, pero las pruebas fueron diseñadas desde otra perspectiva (de normas, como se mencionó antes), lo cual no permitía satisfacer esa demanda. Poco se hizo entonces para aclarar ese desencuentro. Más gravemente, tras el primer operativo nacional de CRECER 1996, esta falta de claridad respecto a los mensajes que se querían transmitir a las audiencias y la percepción de que tras 6 años de gobierno sería difícil achacar la responsabilidad por los bajos resultados a administraciones previas, generó que el informe, ya impreso y listo para distribuir, fuera embargado por la Alta Dirección del Ministerio49. Si bien la UMC produjo unos materiales para docentes con recomendaciones técnico-pedagógicas supuestamente basadas en los resultados de la evaluación, la vinculación de éstos con los contenidos era en realidad bastante tenue, contra lo que afirman las introducciones a los textos50. Algo similar ocurrió con los resultados de la primera incursión del Perú en pruebas del LLECE de la UNESCO/OREALC de 1997. La posición bajísima en el ranking de países llevó a que se desautorizara la inclusión del Perú en el reporte final, argumentando

49 No fue hasta el 2001, durante la administración del Gobierno de Transición de Alberto Paniagua, que fueron finalmente liberados los ejemplares y distribuidos a las principales bibliotecas del Perú. 50 La difusión y uso de estos materiales, por lo demás, condujo a otros problemas institucionales que se describen más adelante.

34

debilidades técnicas en el procesamiento y análisis de los datos, con reacciones similares en México. Claramente hubo, más allá de las objeciones técnicas, que eran atendibles, motivaciones políticas para no difundir los resultados (algo que hoy, afortunadamente, resultaría casi impensable). Esto es una manifestación de un problema que, en mayor o menor grado, afectó a todas las unidades de evaluación de América Latina en sus inicios: el uso (u ocultamiento, en nuestro caso) o de los resultados por los propios Ministerios. En parte debido a una suerte de visión ingenua que han tenido algunas altas direcciones de esas instituciones respecto a que los resultados pueden mejorar rápidamente, ellas no han estado muchas veces preparadas para manejar con cierta solvencia los malos resultados ante la prensa. Al respecto se han observado diversas reacciones: (a) las autoridades simplemente deciden no publicar los resultados o, lo que es más común en años recientes, los publican casi “subrepticiamente”, sin una estrategia integral de difusión, (b) al no dominar el tema transmiten mensajes que incluyen errores de interpretación importantes, (c) utilizan los malos resultados para desprestigiar a la administración anterior (normalmente al inicio de un mandato) o para presionar sobre el cuerpo docente, aunque luego se esperará que los mismos mejoren rápidamente antes del término de su gestión. Como dice Ravela: “Normalmente los funcionarios políticos esperan buenos resultados que les sirvan como propaganda o aval a su gestión, y los malos resultados, que suelen ser los más comunes, se tornan una “papa caliente” que no saben cómo manejar”51. 2.2.2. La difusión de resultados durante la Transición y el cambio de modelo de evaluación (1998-2004) Los resultados de las pruebas de la segunda ronda de evaluaciones (CRECER 1998) no fueron hechos públicos hasta las postrimerías del gobierno de Fujimori en el 2000. Desde 1999, sin embargo, se empezó a publicar los boletines Crecer, en los cuales se reportaban datos descriptivos sobre docentes, expectativas educacionales paternas, actitudes de los estudiantes hacia las materias evaluadas y cumplimiento de tareas escolares extraídos de los cuestionarios aplicados a padres, docentes y alumnos al momento de aplicación de las pruebas, y se especulaba sobre su posible influencia en los logros de aprendizaje de los estudiantes peruanos – cuya publicación continuaba implícitamente vetada hasta el 200052– en base a los hallazgos de investigaciones realizadas en otros países. Esto, con el objetivo de estimular el apetito de posibles consumidores respecto a los datos embargados. La divulgación de los resultados de las pruebas recién se hizo, además de vía la conferencia – a la cual asistieron poquísimas autoridades y funcionarios del Ministerio - a fines del 2000, en sucesivos números del Boletín Crecer. El Boletín 5/6 incluyó los resultados obtenidos en las pruebas de Lenguaje y Matemática; el 7, en Ciencias Sociales y Naturales. Los números 10 al 20 – del entonces ya denominado Boletín UMC—ofrecían ejemplos de los ítems de las diferentes pruebas y grados y sus resultados, a partir de los cuales se discutían implicancias pedagógicas. En este período se publicaron además dos números de la Revista Crecer,

51 Ravela 2004 p. 3. 52 Es interesante mencionar como se generó e internalizó una cultura de la autocensura asociada a las experiencias de vetos sobre los resultados de CRECER 1996 y LLECE 1997. La unidad y en general la oficina de planificación del MINEDU no se animaba a elaborar reportes con los resultados de las pruebas pues la experiencia anterior había enseñado que no se publicarían. Esta cultura empieza a romperse en las gestiones de las 2 últimas viceministras de gestión institucional de la administración de Fujimori: las viceministras Seto y Mellado. Una primero, más tímidamente que la segunda, empezaron a dar luz verde a las publicaciones sin tanto control. En los últimos años afortunadamente ha empezado a prevalecer una cultura de transparencia de los organismos públicos que a futuro facilitan la publicación de resultados.

35

conteniendo artículos de reflexión sobre el tema de la evaluación y algunos referidos a las experiencias iniciales de la UMC con pruebas nacionales y con el LLECE escritos por especialistas de la misma Unidad, de GRADE y de otras instituciones nacionales y extranjeras. También se empezó a difundir lo que luego se convertirían en los documentos de fundamentación de los cambios de enfoque evaluativo criterial a introducirse a partir de la evaluación que se hizo en el 2001. De otro lado, en este período también se realizó un cierto número de estudios y documentos técnicos especializados con los datos de las evaluaciones de 1996 y 1998, que recién fueron publicados por el Ministerio en el 2001 y 2002. También hubo algunas presentaciones públicas de resultados (incluyendo algunas con docentes en provincias; ver Anexo 2 de este capítulo). Si bien esto representa un progreso considerable, hay que tomar en cuenta que la diseminación era relativamente pequeña, llegando a autoridades del Ministerio, regionales, la prensa y representantes de organismos públicos y privados con interés en el tema, aunque, de nuevo, pero sin una estrategia de comunicaciones e impacto en políticas que garantizara tener consecuencias. Algo distinta, en cierta medida, fue la difusión de las evaluaciones del 2001 y del 2004, algunos de cuyos resultados fueron objeto de valiosos análisis que fueron publicados en una serie de documentos que también estuvieron disponibles en la página web del Ministerio (cosa que también se hizo con los informes de CRECER 1998). Los informes descriptivos de los resultados generales y los de factores asociados probablemente continuaban quedando alejados del alcance de la comprensión de la mayoría de sus deseables audiencias, pero se publicó también una serie de informes pedagógicos que explicaban y ejemplificaban con ítems representativos los distintos niveles de logro observados en producción de textos, comprensión de lectura y matemáticas entre los estudiantes de la muestra de cuarto de primaria y cuarto de secundaria (como también se hizo con CRECER 1998 pero de manera más limitada por la naturaleza de las pruebas). Incluían además reflexiones sobre las principales dificultades observadas en el desempeño de los estudiantes y ofrecían algunas sugerencias para la práctica docente. Los tirajes de estos informes se incrementaron ligeramente y su disponibilidad en la web por cierto los hacía más asequibles a equipos muy motivados, pero era claro que no había una pretensión real de llegar con ellos a un número significativo de docentes, la mayoría de los cuales continuó hasta muy recientemente no habiendo visto nunca un reporte de resultados. Pero algunas de las autoridades y los responsables de la unidad durante este período inicial y el subsiguiente parecían continuar creyendo (o actuando) como si el mero hecho de evaluar produciría mejoras o confiando en que todos los actores comprenderían y emplearían los resultados que se divulgaran. De otro lado, las primeras divulgaciones de resultados de las evaluaciones del 2001, vía conferencia de prensa del Ministro, entrevistas al mismo y a otras autoridades y expertos en muchos medios de opinión generaron una mayor cobertura periodística y reacción de la opinión pública. No siempre, sin embargo, fue esta trabajada adecuadamente. Se recuerda un error editorial que invirtió los resultados de las escuelas públicas y privadas, sin suscitar ninguna aclaración por parte del Ministerio ni de los lectores, ¡pese a lo sensible del tema! Si bien los resultados de las evaluaciones empezaron a usarse en la argumentación sobre políticas, para justificar (más que para iluminar) la necesidad de aprobación de nueva legislación educativa y un nuevo modelo de carrera magisterial, por ejemplo. Decía entonces una de las integrantes del equipo de esta consultoría, en un artículo del Diario El Comercio del 18 de julio del 2002:

36

Lo que sí resulta sorprendente, y tanto o más preocupante que los datos revelados, es el relativo silencio que ha seguido a su publicación. Salvo una que otra columna editorial que especula en términos generales sobre las causas de esta situación, no han aparecido demandas de mayores o más detalladas explicaciones sobre los resultados de la medición o sobre los factores que han incidido sobre ellos. Tampoco se han escuchado hasta ahora llamados a una movilización de esfuerzos confluyentes desde el Estado y desde otros sectores sociales para atender lo que aparece como una verdadera emergencia nacional. Durante años, lamentamos la falta de transparencia y el deliberado ocultamiento de información por parte del Gobierno. Ahora, la información está disponible, solo esperando a ser usada por quienes formulan o evalúan políticas y programas, por los maestros y directores de escuela que tienen que formular sus proyectos pedagógicos, por quienes forman o capacitan a los docentes, por los padres que deben exigir una educación efectiva y de calidad para sus hijos, por los mismos estudiantes que necesitan saber qué se espera que ellos aprendan, por los votantes que se aprestan a elegir a sus gobiernos regionales, por los periodistas que interpelan a líderes sociales cada día en los medios de comunicación, por los empresarios que contratan a los egresados del sistema educativo, por los líderes gremiales que tienen que reflexionar sobre la efectividad actual del magisterio y sobre las condiciones que ellos requieren para enseñar de manera que sus estudiantes aprendan.”

Algo más de impacto en la opinión pública tuvo la publicación de los resultados de la prueba de PISA, aunque, como fue el caso con la prueba del LLECE 1997, también entonces lo que más magnificó la prensa fue el lugar en el ranking de países, sin resaltar el hecho de que la gran mayoría de los países participantes eran del mundo desarrollado. Nuevamente, en esta oportunidad, también hubo un uso político desafortunado de los resultados, pues su publicación coincidió con un cambio de gabinete y de políticas reales hacia el magisterio desde el Ministerio de Educación. El Acuerdo Nacional y el Consejo Nacional de Educación, sin embargo, convocaron a un “Pacto Social de Compromisos Recíprocos” que, si bien fue eventualmente letra muerta, preconfiguró algunos elementos presentes en el Proyecto Educativo Nacional “aprobado” oficialmente en enero del 2007. Un “plan de emergencia” focalizado en el mejoramiento de capacidades lectoras, si bien implementado de manera vertical y sin el debido sustento técnico y económico, tuvo también repercusiones curriculares reales, al habérsele dado mucha más atención que en el pasado al desarrollo de la comprensión de la lectura. 2.2.3. La difusión de resultados durante la consolidación institucional (2004 en adelante) Existe en la actualidad una clara conciencia de que la UMC tiene que asumir tareas de diseminación. Por ejemplo se encuentra en el portal de la UMC la misión de contribuir a “fomentar el uso de la información de las evaluaciones nacionales e internacionales por parte de distintos usuarios”, “desarrollar capacidades locales para el análisis y uso de información generada por el Sistema Nacional de Evaluación” y “asesorar y apoyar a las direcciones nacionales y oficinas del Ministerio para emprender actividades de análisis e investigación en forma sistemática y articulada a los procesos de planificación de política educativa”53. La UMC recientemente ha dedicado más recursos y energías a experimentar con modelos de devolución de resultados a las escuelas que participaron en las evaluaciones muestrales de años anteriores, aunque los resultados de esa experimentación no han sido sistematizados o, al

53 http://www2.minedu.gob.pe/umc/index2.php?v_codigo=35&v_plantilla=3

37

menos estos no son conocidos fuera de la unidad. No se sabe en qué medida esas experiencias ayudaron a diseñar las estrategias de devolución de resultados de las más recientes pruebas censales. Ciertamente, las pruebas censales en segundo grado, aplicadas con grandes dificultades y mucha improvisación en el 2006 y en bastante mejores condiciones en el 2007 y 2008, y la devolución de resultados a los organismos intermedios, las escuelas, y los padres de familia, así como de guías de análisis de resultados para los docentes han abierto oportunidades inéditas en lo que se refiere a difusión y uso de resultados de las evaluaciones. Sin embargo, simultáneamente, se ha tenido muchísima menor repercusión en la prensa, opacados por las tensiones generadas por la simultánea racha de evaluaciones docentes impulsadas por el actual gobierno. Es imperioso hacer un monitoreo cuidadoso del impacto que está teniendo esta nueva línea de actividad, que promete mucho pero también encierra riesgos importantes, descritos en términos genéricos en el primer capítulo de esta consultoría y a discutirse en el tercer y último capítulo de la misma. El impulso de las pruebas censales estuvo centrado principalmente en la política de presupuesto por resultados impulsada desde el Ministerio de Economía y Finanzas, que es quizás el mayor interesado en ese monitoreo y a quien es menester convertir en un importante e informado aliado para el logro de los objetivos finales de mejorar los aprendizajes, otra tarea en la que deberá invertir considerables recursos y capacidades la UMC. Habría que estudiar también la posibilidad de haberse saturado la capacidad de la opinión pública de absorber las malas noticias de las evaluaciones. El caso de una cierta indiferencia hacia los recientemente publicados resultados del Segundo Estudio del Laboratorio Latinoamericano de la UNESCO podría resultar aleccionador en ese sentido. De otro lado, no ha habido intento alguno desde la UMC o desde el MED de promover la difusión o el análisis de esos resultados. 2.3. Temas polémicos transversales a los tres períodos Durante el desarrollo de la UMC han surgido algunos temas comunes que se podría decir continúan siendo retos para el desarrollo institucional:

1. Difusión de resultados e impacto de la UMC en políticas públicas: como se sugirió en las secciones anteriores, la UMC ha producido y diseminado importante y valiosa información dirigida a diferentes usuarios. Las publicaciones han tenido en varios casos recomendaciones para su uso y en algunos han sido acompañadas por eventos de difusión y explicación de resultados. Sin embargo, en líneas generales es la opinión de este grupo de consultores que el impacto que tal información ha tenido en el desarrollo de políticas en el Perú ha sido limitado. Esto no significa que la información no haya sido utilizada; es difícil pensar en un informe de diagnóstico de la educación peruana, hecho en el Perú o internacionalmente, que no cite los datos de la UMC. Sin embargo, uno querría que los datos fueran usados más sustantivamente, por ejemplo para análisis de carencias de aprendizaje concretas. Este tipo de uso parece limitado, incluso por otras oficinas dentro del mismo Ministerio de Educación. Esta desarticulación entre oficinas del Ministerio se puede deber al perfil bastante diferenciado de la UMC con respecto a otras direcciones o unidades del MED. A futuro pensamos que es importante pensar en desarrollar una estrategia de comunicaciones e impacto en políticas que tome en consideración las características de diversas audiencias.

38

2. Evaluaciones en lengua indígena: desde el 2001 se han realizado algunas evaluaciones

en lengua materna indígena y castellano como segunda lengua, principalmente en comunicación. Estas evaluaciones se han realizado en varias lenguas, incluyendo variedades del quechua, aimara y shipibo. En principio estas deberían realizarse allí donde hay programas de EBI (Educación Bilingüe Intercultural) pero esto resulta complicado pues no es claro en qué escuelas ocurre el programa y más allá de lo nominal a menudo los docentes EBI no son realmente bilingües y se concentran en la enseñanza en castellano, mientras que en algunos casos de escuelas no EBI los docentes sí hacen esfuerzos por llevar adelante un modelo pedagógico bilingüe intercultural. Adicionalmente está el tema de la preparación de pruebas, que requiere especialistas en cada lengua y cultura para las adaptaciones. El problema es que a menudo no hay estándares lingüísticos aceptados universalmente a los que recurrir en cada lengua, visto que estas son principalmente orales y que a menudo las variaciones lingüísticas se dan entre regiones, pueblos y valles, y las pruebas resultantes por tanto podrían tener problemas serios de validez. En pocas palabras, las evaluaciones en lengua indígena realizadas por la UMC enfrentan los mismos retos que la EBI en general en el Perú y constituyen un serio problema a analizar para el futuro. Nada de esto niega la importancia de la EBI en el Perú, pero sí resalta que la relativa poca prioridad que el área parece tener para el Estado54 limita seriamente las posibilidades de la UMC por hacer pruebas confiables y válidas en diversas lenguas.

3. Evolución de puntajes en el tiempo: la comparabilidad de puntajes entre evaluaciones

es un reto que no siempre se ha conquistado. Por ejemplo la segunda evaluación de la UNESCO publicada recientemente menciona que sus puntajes no son comparables a los de la primera evaluación. Esto mismo ha ocurrido con casi todas las evaluaciones realizadas por la UMC en el Perú, de modo que a menudo resulta imposible decir si el porcentaje de estudiantes con nivel satisfactorio un año es comparable con el del año precedente. Pensamos que uno de los retos importantes a asumir a futuro es asegurar que se puedan comparar puntajes entre evaluaciones realizadas en diferentes años al mismo grado en la misma área, pues esta información es la que permitirá analizar si la evolución de aprendizajes es positiva.

4. Definición de estándares: de acuerdo a lo definido en el primer capítulo, hay varios

tipos de estándares. En el caso del Perú la UMC ha usado el currículo (que podría ser considerado un estándar genérico de contenido) para definir sus evaluaciones, pero al no tener este suficiente precisión en cuanto a lo que los estudiantes deberían aprender, ha recurrido a interpretaciones concretas del currículo para definir especificaciones de prueba y luego a definir puntos de corte (que podrían ser considerados estándares de desempeño) para rendimientos satisfactorios. Sin embargo estas especificaciones de prueba y puntos de corte para desempeño satisfactorio no constituyen en estricto estándares pues la literatura sobre el tema en general sugiere un proceso de consulta amplio para definir estos. Así, pensamos que uno de los retos a futuro consiste en desarrollar estándares educativos, que podrían ser trabajados eventualmente en base al trabajo de evaluación ya realizado. Este trabajo no necesariamente tendría que ser realizado por la UMC pero sin duda la experiencia institucional sería de gran ayuda para su concreción.

54 Este problema no es exclusivo del presente gobierno pues la desatención de EBI se ha arrastrado durante décadas.

39

5. Institucionalidad de la UMC: si bien pensamos que en la actualidad la posición de la UMC es sólida dada la relevancia que han adquirido las evaluaciones de rendimiento escolar en el Perú, hay algunos retos sobre la institucionalidad que estas actividades podrían tener a futuro. Como se mencionó antes, el SINEACE se creó hace pocos años. Dentro del SINEACE se crearon tres instituciones, una de ellas vinculada a la evaluación del rendimiento escolar en educación básica: el IPEBA (Instituto Peruano de Evaluación, Acreditación y Certificación de la Calidad de la Educación Básica). La directora de la UMC participa en el directorio del IPEBA en representación del Ministerio de Educación y como tal pareciera que los canales de comunicación entre instituciones deberían ser fluidos, pero queda de todos modos la pregunta sobre si la UMC debería ser una oficina dentro del Ministerio de Educación, como es ahora, o convertirse en una instancia pública pero autónoma (por ejemplo ligada al IPEBA). Se podría argumentar que estar dentro del Ministerio ayudaría a la fluida comunicación con otras instancias usuarias de información, pero de hecho como se mencionó antes esto no ha ocurrido. Además, estar dentro del Ministerio siempre supone el riesgo de algún grado de presión política por los resultados (como se vio ocurrió en el primer período de la UMC). Tener una oficina autónoma podría darle una cierta independencia a las actividades que podría ser importante para reforzar su rol como interlocutor en el campo educativo; de hecho este es el modelo que se ha usado en países como Brasil y México.

6. Uso de la información por la comunidad académica: si bien desde la evaluación del

2001 las bases de datos han estado disponibles para investigadores, en general el uso ha sido escaso. Esto puede tener que ver con escasas capacidades de la comunidad académica local y/o con pocos incentivos de la UMC para su utilización en estudios. Un área a pensar para el desarrollo futuro es fomentar el uso de las bases disponibles, fortaleciendo al mismo tiempo las capacidades de la comunidad académica local en este tipo de análisis. Contar con más y mejores interlocutores de la comunidad académica, que puede ser nacional e internacional, solo puede ayudar a mejorar la calidad de la evaluación.

Los anteriores retos serán discutidos en el tercer capítulo para plantear posibilidades a futuro. 2.4. Balance preliminar del desarrollo de actividades realizadas por la UMC El desarrollo y fortalecimiento logrado por la UMC debe ser entendido como un proceso que se explica por la alta calidad y dedicación de sus profesionales durante más de una década, pero también como una tendencia internacional, presente en la mayoría de países de la región aunque no en todos, por implementar oficinas que produzcan información relevante para medir el rendimiento de los estudiantes. En este contexto, lo hecho por la UMC es de una alta calidad técnica. El modelo de utilización de resultados ha sido durante todo este tiempo de bajas consecuencias, pero el uso de evaluaciones censales abre la posibilidad de contar con algunos usos de altas consecuencias, que habrá que evaluar con mucha cautela pues en general los autores de este informe opinan que el modelo actual de bajas consecuencias debe ser mantenido pero corregido para lograr mayor impacto de la información en algunos actores clave. No se puede dejar de reconocer que, como se ha mencionado antes, diversas publicaciones, orientadas a docentes, directivos, padres de familia, autoridades del gobierno y otros, han tenido escaso o nulo impacto, con excepciones importantes; por ejemplo los resultados globales han sido difundidos ampliamente en la prensa. Los resultados también han sido citados en documentos fundamentales para el desarrollo del país, como por ejemplo el

40

Proyecto Educativo Nacional elaborado por el Consejo Nacional de Educación, y reportes internacionales como Educación para Todos de la UNESCO. Sin embargo el potencial de la información generada por la UMC va bastante más allá de este tipo de usos. El tercer capítulo analizará posibles acciones para el desarrollo de la UMC a futuro, centrado principalmente en el mantenimiento y profundización del alto nivel técnico logrado pero enfatizando un mayor uso informado y eficaz de los productos elaborados, de modo que se eleve el impacto de los mismos en el desarrollo de políticas educativas orientadas a la calidad y equidad.

41

Anexo 1 del capítulo 2. Descripción de las Evaluaciones Nacionales del Rendimiento Escolar realizadas por la UMC (inicios hasta el 2007)

Año ¿Qué se evaluó y con qué modelo de evaluación? Cobertura poblacional Pruebas de rendimiento escolar

1996

Áreas Lenguaje y matemática Factores asociados Características de los directores de las escuelas, de los profesores de los alumnos que participaron en la evaluación, y de los padres de familia de los alumnos que participaron en la evaluación. Modelo de evaluación: Normas

Población

Muestra a escala nacional en áreas urbanas y peri-urbanas.

Primaria

1,525 centros educativos polidocentes completos y 50,479 alumnos de 4° grado. Esto representaba el

70% aproximadamente de la población escolar nacional en ese grado.

Estratificación

Nacional, departamentos, regiones naturales (i.e. costa, sierra y selva), áreas (i.e. urbana y rural),

tipo de gestión de la escuela (i.e. pública y privada).

Lenguaje: 30 ítemes de opción múltiple en un solo

cuadernillo (45’), más una prueba de expresión escrita (producción de textos) (15’).

Matemática: 35 ítemes en un solo cuadernillo

(60’).

42


1998

Áreas Lenguaje, matemática, ciencias sociales y ciencias naturales Factores asociados Características de los directores de las escuelas, de los profesores de los alumnos que participaron en la evaluación, y de los padres de familia de los alumnos que participaron en la evaluación. Modelo de evaluación: Normas

Población

Muestra a escala nacional en áreas urbanas.

Primaria 576 centros educativos polidocentes completos,

16.997 alumnos de 4° grado y 16,883 alumnos de 6° grado.

Secundaria

566 centros educativos, 16,939 alumnos de 4° año y 16,710 alumnos de 5° año.

Estratificación

Nacional, departamentos, Lima Metropolitana, regiones naturales (i.e. costa, sierra y selva), tipo

de gestión (estatal y no estatal).

Primaria

Lenguaje: 30 ítemes para 4° grado y 32 para 6° grado (60’). Un cuadernillo por prueba de opción

múltiple. Además una prueba de producción escrita.

Matemática: 32 ítemes tanto para 4° como 6°

(75’). Un cuadernillo por prueba de opción múltiple.

Ciencias sociales: 27 ítemes para 4° grado (60’) y 30 ítemes para 6° grado (60’). Un cuadernillo por

prueba de opción múltiple.

Ciencias naturales: 30 ítemes tanto para 4° como para 6° grado (60’). Un cuadernillo por prueba de

opción múltiple.

Secundaria Lenguaje: 40 ítemes tanto para 4° como 5° año

(60’). Un cuadernillo de opción múltiple. Además una prueba de producción escrita.

Matemática: 45 ítemes para 4° y 48 ítemes para 5° (120´). Dos cuadernillos, en cada caso, una parte

de opción múltiple y otra de desarrollo de problemas.

43


2001

Áreas Comunicación y matemática. Se incluyó pruebas elaboradas en 2 lenguas vernáculas: quechua del sur y aymara. En comunicación para los estudiantes de áreas vernáculo-hablantes se incluyó una prueba en castellano y otra en lengua vernácula. En matemática también se prepararon pruebas en castellano y las 2 lenguas vernáculas. En este caso los estudiantes eligieron en qué lengua desarrollar la prueba. Actitudes Escala de Likert para medir actitudes hacia la matemática, lectura, escritura y respeto por las lenguas nativas. Factores asociados Características de los directores de las escuelas, de los profesores de la escuela, y de los padres de familia de los alumnos que participaron en la evaluación. Peso y talla. Evolución temporal: aplicación de las pruebas de 1998. Comparaciones entre grados: aplicación de las pruebas de 4° grado de primaria a una submuestras de alumnos del 6° grado. Validación de ítemes con los docentes (selección de los ítemes con mayor grado de dificultad fueron aplicados a los docentes) Oportunidades de aprendizaje a los docentes Modelo de evaluación Criterios.

Población

Muestra a escala nacional. Se excluyó centros educativos que tenían 15 o menos estudiantes.

Primaria

4° grado: 632 centros educativos y 10, 657 alumnos; y 9,798 alumnos de 6° grado.

Secundaria

4° año: 579 centros educativos y 13,782 alumnos.

Estratificación En primaria, además del total nacional permite 5 estratificaciones: (i) estatal y no-estatal, (ii) Lima Metropolitana, grandes ciudades y resto de ciudades, (iii) polidocentes no-estatales, estatales, y multigrado, (iv) dentro del estrato de los multigrado: hispano y vernáculo hablantes, y (v) dentro del estrato de los polidocentes: Lima Metropolitana y resto de ciudades. En secundaria, nacional, por tipo de gestión estatal y no-estatal y para algunos departamentos.

Primaria

Comunicación: 52 ítemes para 4° grado y 91 para 6° grado (120’ en 2 sesiones para cada grado). En

4° grado fueron 7 cuadernillos: 3 en lengua materna y 4 en la segunda lengua. En 6° grado

fueron 8 cuadernillos en castellano. Una prueba de producción escrita (60’ en una sola

sesión).

Matemática: 130 ítemes para 4° y 160 para 6° (120’ en 2 sesiones para cada grado). En 4° grado fueron 7 cuadernillos y en 6° grado 8 cuadernillos. Las pruebas de matemática podían ser en lengua vernácula o castellano, a elección del estudiante.

También se emplearon pruebas de material concreto.

Secundaria

Lenguaje: 86 ítemes en 8 cuadernillos (120’ en 2 sesiones). Para producción escrita se usó 4

cuadernillos (30’ en una sesión).

Matemática: 110 ítemes en 8 cuadernillos (120’ en 2 sesiones). Resolución de problemas: 15 cuadernillos (15’ adicionales en una de las

sesiones largas).

44


2004

Áreas Comunicación y Matemática. Además se incluyó Formación Ciudadana (solo en 6° de primaria y 5° de secundaria) pero no con la misma finalidad de evaluación que las otras 2 áreas. En el caso de Comunicación solamente, se incluyó pruebas para estudiantes de 6° grado de primaria en el sur andino (Cuzco, Puno y Apurimac) en quechua y aimara. Factores asociados Características de las escuelas, de los directores, de los profesores, de los estudiantes y sus familias Fichas de observación de aula Comparaciones intertemporales con 1998 y 2001, empleando preguntas de pruebas anteriores. Oportunidades de aprendizaje a los docentes Validaciones

Población

Muestra a escala nacional.

Primaria 2° grado: 706 centros educativos y 14,291

alumnos; 6° grado: 697 centros educativos y 13,471 alumnos.

Secundaria

3° año: 634 centros educativos y 15,830 alumnos; 5° año: 629 centros educativos y 14,617 alumnos.

Estratificación

La muestra permite reportar resultados para los siguientes estratos (i) nacional, (ii) estatal y no-

estatal, (iii) estatal urbano y estatal rural, (iv) para primaria estatal polidocente y estatal multigrado, y

(v) no-estatal

Primaria

Comprensión de textos: 153 ítemes para 2° y 128 para 6°. Número de cuadernillos: 15 para 2° y 16

para 6°. Una sesión de 60’ para cada grado.

Producción de textos: 29 y 26 textos para 2° y 6°, respectivamente. Número de cuadernillos: 3 en 2° y 6

en 6°. Una sesión de 60’ para cada grado.

Matemática: 128 y 180 ítemes en 2° y 6°, respectivamente. Número de cuadernillos: 12 y 17

para 2° y 6° respectivamente. Una sesión de 60’ para cada grado.

Personal social: solo en 6°. Número de cuadernillos:

9. Una sesión de 60’.

Secundaria Comprensión de textos: 125 ítemes para 3° y 136

para 5°. Número de cuadernillos: 12 y 16 para 3° y 5°, respectivamente. Una sesión de 60’ para cada

grado. Producción de textos: 23 y 27 textos para 3° y 5°,

respectivamente. Número de cuadernillos: 6 en cada grado. Una sesión de 60’ para cada grado.

Matemática: 117 y 189 ítemes en 3° y 5°,

respectivamente. Número de cuadernillos: 11 y 19 para 3° y 5° grados respectivamente. Una sesión de

60’ para cada grado.

Desarrollo social: solo en 5°. Número de cuadernillos: 10. Una sola sesión de 60’

Poblaciones vernáculas

La prueba de comprensión de textos fue en castellano como segunda lengua y en su lengua materna. Para la primera la prueba tuvo 92 ítemes mientras que para

la segunda 68.

45


2006

Áreas Comunicación: comprensión de textos. Factores asociados Características de las escuelas, de los directores y de los profesores.

Población

Censal, sin embargo, la cobertura de IE oscila entre 25% en Huancavelica y 97% en Moquegua.

Considerando el universo poblacional de estudiantes la menor cobertura estuvo también en

Huancavelica con 13% y la mayor con 80% en Tacna.

A escala nacional, poco más de la mitad de las IE fueron incluidas (56%) y menos de la mitad de los estudiantes (44%)

Un cuadernillo con 19 ítemes de opción múltiple.

2007

Áreas Comunicación (comprensión de lectura) y matemática. Factores asociados Características de las escuelas, de los directores y de los profesores.

Población

Censal, sin embargo, la cobertura de IE oscila entre 71% en Huancavelica y 100% en varias

Regiones. Considerando el universo poblacional de estudiantes la menor cobertura fue entre 50%

en Huancavelica y 90% en Arequipa. A escala nacional, poco más de 90% de las IE fueron incluidas y poco menos 80% de los estudiantes (44%)

Un cuadernillo para cada área. La prueba se comunicación tuvo 2 partes, en un se usó la

técnica de emparejamiento y en la segunda de opción múltiple. La de matemática fue de opción múltiple. Para cada prueba se asignó 45 minutos

Fuentes: 1996: Torreblanca, Alberto, Arturo Calderón y Cholly Farro (2000) 1998: Calderón, Arturo, Cholly Farro y Jorge Bazán (2002 2001: Torreblanca, Alberto y Daniela Zacharías (2002, Torreblanca, Alberto y Daniela Zacharías (2002), Montané, Angelica et al (2004) y UMC (2001) 2004: Burga, Andrés, Liliana Miranda y Tania Pacheco (2005), UMC (2005a) y UMC (2005b) 2006: UMC (2007) 2007: UMC (2008

46

Anexo 2 del capítulo 255 Difusión de resultados – UMC

1998: En diversas provincias se llevaron a cabo 17 talleres de difusión de los resultados de CRECER 96 con docentes y se distribuyeron los módulos técnico-pedagógicos de Lógico Matemática y Comunicación Integral 2000: Entre los meses de noviembre y diciembre de 2000 se realizaron 5 eventos de difusión de los resultados de CRECER 98 con docentes, capacitadores y diversos agentes educativos (4 en Lima y 1 en Tacna), con un total de 310 participantes. 2001: En febrero de 2001 se realizaron 4 talleres de difusión de los resultados de CRECER 98 en Piura, Cajamarca (San Ignacio), Iquitos y Puno con un total de 300 profesores participantes. En marzo de 2001 se realizaron 5 talleres de difusión de los resultados de CRECER 98 en Tumbes, Tacna, Madre de Dios (2) y Ucayali con un total de 400 profesores participantes para la difusión de resultados de CRECER 98 a través de talleres de capacitación de profesores de fronteras. En junio y julio de 2001 se realizaron 4 talleres de difusión de los resultados de CRECER 98 con docentes convocados por el Consorcio de Colegios Católicos en coordinación con la UMC, para tratar sobre los boletines UMC, con un total de 90 participantes. Asimismo, durante agosto y setiembre de 2001 se realizaron 2 talleres de difusión de los resultados de CRECER 98 en Lima con participación de 100 docentes. A fines de 2001 se realizaron 10 mesas de trabajo con equipos técnicos del MED sobre los resultados de factores asociados al rendimiento de la EN 2001. 2002: Durante el 2002 se realizaron 3 talleres de difusión de los resultados de la EN 2001 en las provincias de: Arequipa, Piura y Huancavelica, con docentes, representantes de órganos intermedios y de diversas instituciones del sector. Además de numerosas presentaciones de los resultados al interior y fuera del MED en congresos, seminarios, y otros eventos. 2003: En el 2003 se continuó con la realización de talleres de difusión de los resultados de la EN 2001 en las provincias de Tacna, Ayacucho y Pucallpa, con docentes, representantes de órganos intermedios y de diversas instituciones del sector. El total de docentes capacitados para hacer una réplica del taller realizado fueron: 340 personas y el total de la audiencia fue de 1000 personas. El público objetivo fue docentes de aula, directores de centros educativos, representantes de órganos intermedios, de institutos superiores pedagógicos ONG’s del sector, etc.

55 Este anexo fue preparado por Rosa Alegría de la UMC.

47

Adicionalmente los resultados de PISA fueron presentados en la provincia de Ayacucho a docentes y representantes de órganos intermedios, en Lima al personal del Ministerio de Educación y al Consejo Nacional de Educación. Este año también se realizó 1 taller al interior del Ministerio de Educación con los equipos técnicos del ViceMinisterio de Gestión Pedagógica cuyo propósito central consistió en trasmitir el modelo de evaluación de la comprensión de textos del Programa Internacional de Evaluación de Estudiantes (PISA). En febrero de 2003 se realizaron 5 mesas de trabajo con equipos técnicos del MED sobre los resultados de la EN 2001. 2004: Durante el 2004 se realizaron talleres al interior del Ministerio de Educación con los equipos técnicos del Viceministerio de Gestión Pedagógica, cuyo propósito central consistió en trasmitir el modelo de evaluación de la comprensión de textos de PISA 2001. 2005: Devolución de resultados de la EN 2004 a las IE: En de noviembre de 2005, la Unidad de Medición de la Calidad Educativa (UMC) presentó los resultados de la cuarta evaluación nacional del rendimiento estudiantil, llevada a cabo del 15 al 19 de noviembre de 2004. Se realizaron en el transcurso del año talleres con las UGELS de 5 regiones sobre difusión de resultados. Se realizaron mesas de trabajo con las direcciones de EBR, formación y capacitación docente y ONG que trabajaban el tema educativo para la presentación de resultados de la EN 2004 En ese mismo mes, la UMC, por primera vez, hizo llegar un reporte de sus resultados a cada institución educativa (IE) evaluada. Este reporte incluyó información del rendimiento de los estudiantes evaluados en la institución y mostró la cantidad de estudiantes que se encuentran en cada nivel de desempeño. Asimismo, se incluyó información de IE con características similares a la misma a fin que estas puedan compararse de manera equitativa y puedan establecer mejoras de corto y mediano plazo. El objetivo de este informe fue nutrir la planificación y reflexión del equipo docente y directivo de la IE sobre el nivel de aprendizajes de sus estudiantes, así como hacer una devolución de resultados en el marco de la política de rendición de cuentas que viene implementando el Sector. 2006 Monitoreo del uso de reportes por IE y de los reportes pedagógicos de la EN 2004: Durante el 2006 se realizó visitas a una submuestra de las IE evaluadas con el fin de monitorear el uso que los actores educativos de la IE le estaban dando a la información de dicho reporte, así como para identificar iniciativas y experiencias interesantes llevadas a cabo a partir de la información brindada en el reporte por IE con la finalidad de difundirlas.

48

Adicionalmente, se aprovechó dichas visitas para explicar los reportes pedagógicos56 y explicar cómo estos se complementan con los reportes por I E. Talleres de uso de resultados dirigido a los docentes: Como parte de las actividades de difusión de los resultados de la EN 2004 se realizaron durante le 2006 10 talleres a 350 docentes de una submuestra de IE evaluadas en 4 regiones: Ayacucho, Pucallpa, Chiclayo, Lima y Puno. El objetivo de estos talleres fue: i) capacitar a los docentes en el uso de los resultados de la EN 2004 correspondiente a sexto grado de primaria y en la elaboración de alternativas de solución que estén dirigidas a revertir las deficiencias encontradas en sus estudiantes para las áreas de comunicación (comprensión de textos) y matemática; y ii) difundir los resultados generales de la EN 2004 y generar compromisos entre los docentes participantes para la mejora de la calidad de los aprendizajes en sus estudiantes. En noviembre se realizó en Lima 1 taller para el desarrollo de las capacidades matemáticas dirigido a 80 docentes de la especialidad de matemática de las IE estatales a nivel nacional que participaron del Concurso para el Mejoramiento de las Capacidades Matemáticas. Concursos: Durante el 2006 se llevaron a cabo 2 concursos:

Concurso para el mejoramiento de las capacidades matemáticas de los docentes de las IE que participaron en la EN 2004, cuyos objetivos fueron: i) Reforzar las capacidades matemáticas de los docentes de las instituciones educativas estatales de primaria que participaron en la EN 2004, promoviendo así la puesta en marcha de acciones que conduzcan a mejorar el aprendizaje de sus estudiantes en el área de matemática y ii) fomentar el trabajo en equipo de los docentes de las instituciones educativas estatales de primaria que participaron en la EN 2004, a través del trabajo cooperativo en la resolución de problemas matemáticos. Las IE ganadoras de este Concurso fueron las siguientes:

INSTITUCIÓN EDUCATIVA PROVINCIA N° 11027 Divino Niño del Milagro Chiclayo Mariscal Toribio Luzuriaga Huaraz N° 6151 San Luis Gonzaga Lima

Concurso de investigaciones para fomentar el uso de la información de la EN 2004 en los estudiantes de Universidades e ISP, cuyos objetivos fueron: i) promover el uso de la información producida por la Unidad de Medición de la Calidad Educativa del Ministerio de Educación, en el contexto de la Evaluación Nacional 2004 y ii) fomentar el desarrollo de una cultura de investigación sobre el rendimiento académico y sus factores asociados, orientada a dar recomendaciones para política educativa.

Este concurso fue declarado desierto porque ninguno de los proyectos presentados cumplió con el puntaje mínimo dispuesto en las bases.

56 En noviembre de 2006 se le hizo llegar también a las IE los reportes pedagógicos, los cuales contienen una descripción más detallada sobre las capacidades que han desarrollado los estudiantes, algunos ejemplos de preguntas y respuestas de los estudiantes, así como recomendaciones para mejorar el trabajo de estas capacidades en el aula.

49

2007: Devolución de resultados de la ECE 2006 a las IE: Se hizo llegar un reporte de resultados a cada IE evaluada. Asimismo, se incluyó un reporte individual de resultados por cada estudiante evaluado y una Guía de lectura y análisis para el docente. Talleres de uso de resultados dirigido a los docentes: Durante el 2007 se realizaron 8 talleres de difusión de resultados en Lima, Amazonas, Cusco, Puno, Ucayali, Arequipa y Piura, dirigido a 370 docentes, especialistas de gestión pedagógica de las direcciones regionales y UGEL, capacitadores de ONG, docentes formadores de profesores tanto de ISP's como de Universidades, entre otros. Talleres para el desarrollo de capacidades locales: En el marco del proceso de descentralización educativa, la UMC busca responder a las demandas de las regiones de desarrollar una cultura evaluativa, compartiendo su experiencia en la construcción de los procesos de evaluación del rendimiento estudiantil. Ello permitirá a las diferentes personas involucradas en el quehacer educativo de la región, comprender la complejidad que esto conlleva y apropiarse de información relevante y conceptos claves. En tal sentido, la UMC consideró pertinente contribuir al desarrollo de capacidades locales en la evaluación del rendimiento estudiantil en 2 regiones del país a través del asesoramiento técnico que realizó a lo largo del 2006 y 2007 por medio de talleres de capacitación y comunicaciones virtuales dirigidos a un equipo técnico conformado por diversos actores educativos de la región. Se trabajó con las regiones de Tacna y Apurímac, las cuales fueron elegidas por diferentes motivos, entre las que destacan: su alta motivación por trabajar este tema incorporándolo en las actividades de la región, el interés y solicitud de sus autoridades educativas y regionales y el nivel de avance en la elaboración del Proyecto Educativo Regional (PER). 2008 Presentación en el MED de los resultados de la ECE 2007. Devolución de resultados de la ECE 2007 a las IE: Se hizo llegar un reporte de resultados a cada IE evaluada, dirigido al director. Asimismo, se incluyó un reporte individual de resultados por cada estudiante evaluado, dirigido a los padres de familia y una Guía de análisis para el docente de cada área evaluada (Comprensión de Textos y Lógico Matemática). Esta distribución se realizó directamente a las IE de Lima Metropolitana y Callao y a todas las DRE y UGEL a nivel regional, para que ellos a su vez distribuyan los reportes a las IE y éstas entreguen los reportes individuales de resultados a los PPFF de los estudiantes evaluados. Talleres de uso de resultados dirigido a especialistas de DRE y UGEL: A fines de abril se realizó en Lima el taller de difusión de resultados de la ECE2007 con la participación de 400 especialistas de las 26 DRE y 208 UGEL de todo el país. Monitoreo de la distribución de reportes por de la ECE 2007

50

Durante el 2008 se han realizado visitas a una submuestra de UGELs e IE evaluadas con el fin de monitorear el uso que los actores educativos de la IE le estaban dando a la información de dicho reporte. Los resultados recién estarán listos a fines de este año.

51

Capítulo 3 Rediseño del Sistema de Evaluación del Rendimiento Estudiantil Preliminar 3.1. Introducción: El Proyecto Educativo Nacional y la evaluación educativa En enero del 2007, el Presidente de la República, Dr. Alan García, y el Ministro de Educación, José Antonio Chang, rubricaron la Resolución Suprema que aprobó el Proyecto Educativo Nacional al 2021: La Educación que queremos para el Perú, elaborado por el Consejo Nacional de Educación mediante amplias reflexiones y consultas en todo el país. El PEN fue antes también aprobado por el Foro del Acuerdo Nacional, que lo consideró una ampliación de su 12ª política de Estado. Una revisión somera del PEN revela la fuerte creencia de sus autores y suscriptores en el potencial de la evaluación como herramienta para el desarrollo educativo – creencia que se fue generando y fortaleciendo a lo largo de los casi 3 años de trabajo que llevó el elaborar la propuesta. Así, tanto el diagnóstico que sustentó el Proyecto, como cada uno de los seis objetivos estratégicos en los cuales se resumen los cambios demandados, incluyen múltiples referencias al uso de la evaluación como instrumento clave. Para el logro del primer objetivo estratégico, vinculado a la generación de oportunidades y resultados educativos de igual calidad para todos se incluye entre sus medidas la realización de evaluaciones externas periódicas y apropiadas a la edad de las competencias sociales, cognitivas y comunicacionales de los niños de 5 años, así como de sus capacidades de movimiento y dominio corporal, así como la evaluación en aula que permita identificar oportunamente a los niños y niñas en riesgo de fracaso escolar. Para que los logros de aprendizaje de los estudiantes y de las instituciones que los cobijan sean cada vez más pertinentes y de calidad, el segundo objetivo estratégico del PEN propone la formulación de estándares o expectativas claras de logros de aprendizaje en áreas prioritarias, que faciliten tanto la priorización en la enseñanza como la realización de mejores evaluaciones en aula y externas. Se reclama la puesta en marcha del Sistema Nacional de Evaluación, Acreditación y Certificación de la Calidad Educativa – SINEACE – con responsabilidad de la promoción y regulación de los procesos de evaluación conducentes al mejoramiento de la calidad en todos los niveles del sistema educativo y se demanda la ampliación, mejora e institucionalización de la medición de logros de aprendizaje, que debería cubrir más áreas curriculares y servir de insumo crítico para un Programa de Apoyo y Acompañamiento Pedagógico a las escuelas y equipos docentes, para la acción pedagógica en las mismas aulas y para guiar la gestión pedagógica y administrativa de las escuelas. Se propone también una evaluación nacional de salida de la secundaria. El tercer objetivo estratégico del PEN apunta a asegurar el desarrollo profesional docente e incluye entre sus medidas de política la acreditación de las instituciones de formación y desarrollo profesional docente – que debería convertirse en requisito para el otorgamiento de títulos profesionales a sus egresados y que requiere la evaluación periódica de sus programas y resultados --, la formulación de estándares de la buena enseñanza, la evaluación de los programas de los programas de capacitación en servicio y, principalmente, la implementación de una nueva carrera pública magisterial que se vale de la evaluación como instrumento para

52

el ingreso, permanencia y ascenso en la carrera, lo que también determina el nivel remunerativo del que gozarían los docentes. El logro de una gestión descentralizada, democrática y eficiente – cuarto objetivo del PEN – requiere a su vez de procesos de monitoreo y evaluación de políticas y programas, el fortalecimiento de las capacidades sectoriales en gestión por resultados y el incremento de la participación social y de la vigilancia, que requieren ambas de información evaluativa. Demanda también una distribución de recursos en función de criterios de equidad y eficiencia que incidan sobre aquellos factores que las evaluaciones demuestren están asociados o incluso determinan el éxito o el fracaso escolar. También para alcanzar su quinto objetivo, una educación superior de calidad que contribuye no solo al desarrollo de las personas sino al desarrollo social, económico y cultural del país, el PEN demanda medidas estrechamente vinculadas con la evaluación, como son el funcionamiento del SINEACE, la acreditación de instituciones y programas, el financiamiento condicionado a la acreditación y demostración de buenos resultados, la evaluación del desempeño académico de los profesores universitarios y de institutos superiores, la realización de prácticas pre-profesionales evaluadas y el desarrollo de capacidades de investigación evaluativa aplicada al desarrollo de políticas, planes y programas. Por último, para que la sociedad se convierta en un eficaz formador de ciudadanos comprometidos con el desarrollo y bienestar de sus comunidades, el sexto objetivo estratégico del PEN, éste demanda, entre otros, que los estudiantes participen en evaluaciones de sus centros educativos, que las empresas participen en la formulación y evaluación de los Proyectos Educativos Regionales y Locales, así como en la evaluación de las prácticas pre-profesionales. Por su parte, en la Agenda de Políticas Educativas y Metas Prioritarias para el Quinquenio 2006-2011, también formulada por el Consejo Nacional de Educación, también se dio amplio espacio a la evaluación educativa en las 20 políticas con las cuales se propone iniciar “la gran transformación”. Se propone continuar y ampliar las evaluaciones nacionales que ya viene realizando la Unidad de Medición de la Calidad del Ministerio de Educación, “generando mecanismos que aseguren su aprovechamiento para promover el mejoramiento de la enseñanza y la gestión de la educación básica pública y privada”. Ello demanda la implementación del SINEACE y la creación de sus institutos especializados técnicos y autónomos correspondientes, como lo manda la Ley General de Educación, “responsable de evaluar aprendizajes en educación básica, avanzando hacia evaluaciones con representatividad regional, con la frecuencia necesaria, partiendo de las capacidades instaladas en la UMC del MED”, así como “ establecer mecanismos regulares de definición, entrega y aprovechamiento eficaz de los resultados a los centros educativos y a todos los niveles de responsabilidad pedagógica, institucional y política regional y local. La meta, para el año 2011, es que el país cuente con un instituto nacional especializado, técnico y autónomo (IPEBA) que funcione eficazmente, que la ciudadanía reciba información amplia, clara y oportuna sobre los resultados de las evaluaciones efectuadas y que las instituciones educativas planifiquen la enseñanza en base a ellos. Además, la agenda prioritaria reclama el “ establecimiento concertado de expectativas nacionales y regionales de aprendizaje (estándares) para la educación básica pública y privada, en una perspectiva intercultural y en el marco tanto del PEN como de los PERs”, lo que supone “Enfatizar como áreas prioritarias de aprendizaje la comunicación que incluye la

53

lectura comprensiva y la escritura creativa, las matemáticas que incluye el pensar lógicamente, las ciencias que incluye la relación con el ambiente, la ciudadanía que incluye la identidad nacional, la convivencia, la integración social, el respeto por las diferencias, y el desarrollo personal que incluye la autonomía, la autoestima, la expresión estética, el cuidado y desarrollo del cuerpo, la psicomotricidad y la conducta moral, para niños de 6 a 12 años, así como el desarrollo de las capacidades sociales, cognitivas, corporales y comunicacionales para niños de 4 a 5 años”. La meta para el 2011 es contar con estándares nacionales y regionales de aprendizaje, concertados, validados y aprobados, para toda la educación inicial y primaria. Claramente, se propone en este documento (i.e. la Agenda de Políticas Educativas) que en estos años la UMC debería pasar a ser parte del IPEBA, que las muestras poblacionales de estudiantes evaluados se ampliaran para tener real representatividad regional – no se mencionaba siquiera la posibilidad de aplicaciones de tipo censal --, que no se hicieran más evaluaciones que las que se pudieran realmente aprovechar bien, especialmente a nivel de las instituciones educativas y se enfatizaba la oportunidad de la devolución de resultados. En el proceso legislador y reglamentador del SINEACE y del IPEBA, se decidió proteger los avances de la UMC de posibles vaivenes políticos y técnicos que pudieran generarse durante la infancia de esas instituciones, así como promover una más fácil interacción con otras instancias normativas del sector, manteniéndola, al menos por el momento, dentro de la estructura de la Secretaría de Planificación Estratégica del Ministerio de Educación. También se incluía entre las prioridades quinquenales la acreditación de la calidad de la formación inicial docente, mecanismos transparentes y equitativos de evaluación del desempeño y de promoción docente, responsabilidad de las instituciones educativas por los resultados de aprendizaje – y apoyo a las mismas --, así como la acreditación de programas y carreras en educación superior en base a estándares internacionales. Indudablemente, esta fortísima presencia de la evaluación como instrumento de política, tanto en el PEN como en su agenda de prioridades para el quinquenio, se debe en buena parte a la legitimidad que penosa y estoicamente se ha ido ganando la Unidad de Medición de la Calidad desde su creación en 1995, incluso en círculos de expertos nacionales que desconfiaban inicialmente de su potencial y/o de su mal uso, y entre la comunidad de expertos regionales que conocen algunos de sus productos. Transcurridos los primeros años en que el oscurantismo e ignorancia de algunas autoridades llevó al ocultamiento de resultados, no han vuelto a aparecer cuestionamientos sobre el profesionalismo de sus cuadros y a la autonomía con que producen sus reportes, aún entre aquéllos que también señalan varios aspectos en que es perentorio mejorar varios de los procesos involucrados. No faltan también quienes, percibiéndola como una isla de eficiencia, modernidad y compromiso dentro del Ministerio, y constatando todos los espacios de gestión en que se requiere la realización de evaluaciones, querrían ver expandir su campo de actividad, hasta ahora restringida al de realización de evaluaciones estandarizadas de logros de aprendizaje a gran escala, tanto nacionales como internacionales. Se le demanda intervenir de manera más activa en la investigación evaluativa de políticas y programas, en el desarrollo de los procesos requeridos para la implementación de la nueva carrera magisterial – especialmente en el diseño de mecanismos de evaluación del desempeño docente en el aula --, en la producción de investigaciones académicas sobre factores que inciden en los logros de aprendizaje y en parte de los procesos de acreditación de instituciones y de certificación de competencias profesionales. Indudablemente, la escasez en el país de recursos humanos calificados para estos menesteres y la experiencia ganada por la Unidad en la medición de aprendizajes explican estas demandas y un buen número de

54

tensiones respecto al futuro de esta oficina, las que deberán resolverse en el futuro próximo con un plan estratégico de desarrollo institucional en el mediano plazo, al cual este documento pretende aportar. Algunas tendencias internacionales apuntan hacia instituciones especializadas en evaluaciones cada vez más integrales e integradas que se ocupan simultáneamente – ya sea total o parcialmente – de todos los tipos de evaluaciones que requerirían las propuestas arriba detalladas – y de otras más –. Es claro que las evaluaciones estandarizadas aportan información fundamental e indispensable sobre la calidad educativa pero no son indicadores completos de la misma, como lo es el que se requieren otros tipos de evaluación que complementen y a la vez se nutran de las evaluaciones a gran escala. Resulta tentador tender la mano hacia las capacidades instaladas en la UMC, como también el demandar que se responsabilice por esos otros procesos. Sin embargo, el balance realizado por el equipo de consultores de las capacidades disponibles y de la coyuntura institucional y política del país ha llevado a aconsejar prudencia y mucha gradualidad al respecto y a recomendar que, por ahora al menos, se mantenga el foco en la evaluación de aprendizajes escolares y se apoye, en la medida de lo posible, a nuevas o viejas instancias responsables de las otras actividades evaluativas mencionadas. En lo que sigue, partiendo de esta posición inicial, se propone lo que, en opinión de los consultores, deberían ser la finalidad y objetivos de la UMC, su estrategia general para el corto y mediano plazos y los principios que deben guiar su accionar. 3.2. Finalidad y objetivos, estrategia y principios de la UMC La finalidad de la UMC es contribuir al mejoramiento de los logros de aprendizaje escolar, para lo cual deberá cumplir los siguientes objetivos:

a) generar información confiable, válida y relevante sobre el rendimiento de los estudiantes que sea útil para actores clave para el mejoramiento de la educación;

b) promover la mejor diseminación posible de la información que genera entre los

distintos actores; c) promover la utilización apropiada de la información resultante de las evaluaciones

para el diseño y evaluación de políticas y programas educativos y para sustentar prácticas escolares que mejoren la calidad educativa, y contribuir a una cultura generalizada de la evaluación en el sector;

d) asesorar y coordinar con diferentes agencias nacionales, regionales y locales, públicas

y privadas, que realicen tareas complementarias y/o afines al trabajo de la UMC.

55

3.3. Principios para el trabajo de la UMC

Alto nivel técnico En ningún caso será aceptable el incumplir los estándares de calidad que se ha autoimpuesto la UMC. Sólo una evaluación técnicamente buena y cuyos resultados sean conocidos y utilizados de manera apropiada, puede tener algún impacto en la mejora de los aprendizajes. Evaluaciones poco sólidas y ampliamente difundidas pueden tener, por el contrario, efectos dañinos sobre el sistema educativo, particularmente si se las pretende usar para procesos de responsabilización o rendición de cuentas

Transparencia

Se publicarán los resultados de las evaluaciones siempre, así como se proveerá información sobre los procesos técnicos seguidos para su producción, de manera de permitir a otros usuarios estimar los alcances y la confiabilidad de los datos producidos y elaborar interpretaciones válidas de los mismos. También se pondrán los datos a disposición del público para diversos tipos de uso.

Promoción de la calidad sin fomentar mayor inequidad La finalidad de contribuir al mejoramiento de la calidad de los aprendizajes se hará con debida consideración a los contextos desiguales en los que se da el proceso educativo en nuestro país, resaltando las desigualdades de oportunidades que llevan a logros diferenciados y que deben ser compensados por políticas o programas sociales y educativos y sin estimular una competencia equívoca que lleve al ensanchamiento de las brechas o a la responsabilización de solo algunos grupos de actores, sino más bien un espíritu de responsabilidad compartida por el mejoramiento del conjunto.

Independencia La UMC debe preservar celosamente los grados de autonomía – basados en su legitimidad técnica – hasta ahora alcanzados, y buscar maneras de aumentarla, sin desconectarse de los procesos institucionales necesarios para que su trabajo tenga el impacto buscado.

Proactividad La idea de una UMC que simplemente produce cifras para ser utilizadas por otros actores – por demás inexistentes en la actualidad – debe dar paso a una visión de una institución que muy activamente estimula, recoge y atiende demandas de otras dependencias del sector y de la ciudadanía, que promueve el desarrollo de capacidades de comprensión de los resultados que publica por parte de una diversidad de interlocutores y estimula su utilización en muy diversos espacios.

Oportunidad La UMC debe medir aprendizajes en grados y en espacios en los que resulte especialmente pertinente y necesario hacerlo, y debe publicar y difundir resultados en plazos crecientemente razonables como para ser utilizados oportunamente en la planificación pedagógica e institucional.

56

3.4. Estrategia general para el corto y mediano plazos Partiendo de los supuestos comprobados de que:

• muchos de los actores carecen de competencias técnicas mínimas para interpretar correctamente la información producida como resultado de las evaluaciones y de que incluso pueden carecer de motivación suficiente para desarrollarlas;

• que la prensa ha sido hasta el momento una inadecuada caja de resonancia para la difusión de resultados de las evaluaciones;

• que la UMC tiene todavía terreno en el cual avanzar en lo que respecta a la calidad técnica de sus mediciones como en sus capacidades de comunicación de sus resultados.

La tarea de la UMC en los próximos años debe focalizarse en:

1) difundir – en alianza con otros actores clave del MED y de otros sectores y usando diferentes canales y modalidades de comunicación -- los mensajes principales que se considera conveniente transmitir, además de la información que produce;

2) modelar interpretaciones correctas y útiles (mesuradas y contextualizadas) de los datos

que produce;

3) estimular la utilización de los resultados de las evaluaciones en las instituciones educativas, incluyendo muy especialmente a las instancias de formación y desarrollo magisterial, entre los productores de currículo y textos;

4) facilitar y estimular a analistas a que usen sus resultados para analizar políticas,

programas y prácticas educacionales;

5) hacer un seguimiento del grado en que la información está siendo bien interpretada y resulta útil a los stakeholders, recogiendo demandas de información que pudieran ser mejor atendidas vía sus actividades de medición y análisis y redefiniendo su propia estrategia;

6) liderar informalmente un proceso participativo de elaboración de estándares, ya que

solo se puede evaluar significativamente (y enseñar eficazmente) si se dispone de referentes claros sobre los objetivos de aprendizaje. La evidencia de que se dispone (prácticas de evaluación en las aulas, tareas asignadas a los estudiantes, observación de la enseñanza y opiniones de los mismos maestros) sugiere que esos objetivos, pese a sucesivos esfuerzos de clarificación vía reformas o ajustes curriculares, distan de tener la claridad necesaria. El “Manual para Padres” recientemente producido en el Ministerio representa un esfuerzo muy interesante, pero que no parece estar fuertemente “alineado” con el currículo ni con las actuales evaluaciones, pero que podría servir de base para un desarrollo mayor. La revisión curricular en curso también puede ser una ocasión propicia para lanzar un proceso de formulación de estándares de contenidos y de desempeño escolar que use, entre otros insumos, los resultados y procesos de las pruebas nacionales e internacionales que ha realizado la UMC. La introducción reciente de evaluaciones censales y su posible continuidad puede ser aprovechada también como mecanismo de comunicación de estándares o expectativas; y

57

7) Continuar, por supuesto, realizando los operativos de evaluación nacional e

internacional en que está involucrada, mejorando la calidad de sus procesos, instrumentos y recursos humanos de manera de hacer más eficiente su labor y devolver más oportuna y adecuadamente sus resultados a los actores relevantes.

En las siguientes secciones se presentan algunas consideraciones adicionales a todo lo anterior que han orientado la formulación de dos propuestas también consignadas más adelante sobre el diseño y programación de las evaluaciones de rendimiento escolar entre las cuales podría optar la UMC, con los debidos reajustes basados en su experiencia, y que procurarán ser recogidos por los consultores tras una consulta a realizarse al respecto. Se presenta también un esquema de estrategia comunicacional y unas ideas preliminares sobre las medidas que tendría que tomar la UMC para adaptar su organización a los objetivos y actividades aquí propuestas. 3.5. Mediciones: diseño y programación de las evaluaciones del rendimiento escolar De acuerdo a lo mencionado en el capítulo 1 del presente informe, la UMC ha realizado evaluaciones muestrales (1996, 1998, 2001 y 2004) y censales (2006, 2007 y 2008). Los propósitos y modelos de estas evaluaciones fueron descritos en el mencionado capítulo, pero en términos generales se podría decir que el modelo de normas ha sido dejado de lado por insuficiente para adoptar uno de criterios que es el que pensamos se debería mantener. Las evaluaciones muestrales, especialmente las dos últimas que se basaron en el modelo de criterios, proporcionaron abundante información sobre el conocimiento de los estudiantes de diversos grados en varias áreas curriculares. En cambio las censales se han limitado a segundo grado (y el 2008 a cuarto pero solo en cuanto a evaluación de comunicación en segunda lengua) en comunicación integral y matemática. Si bien el número de ítems por área curricular en la evaluación 2008 se ha aumentado en comparación al 2006 y 2007, es bastante menor que el número de ítems usados en las evaluaciones muestrales de 2001 y 2004 (esto por lo demás es una típica diferencia entre evaluaciones muestrales y censales, como se explicó en el capítulo 1). Las evaluaciones censales han sido vistas como una oportunidad para monitorear el rendimiento estudiantil anualmente, pero también para poder enviar información individualizada a cada escuela. Así, como se verá, lo que se ganó en profundidad en cuanto a conocimientos de rendimientos en diversas áreas y aspectos del currículo con las evaluaciones muestrales de 2001 y 2004 se ha visto restringido en las censales, pero en cambio se ha ganado en cuanto a un monitoreo más individualizado y permanente del rendimiento escolar, tanto a nivel de instituciones educativas como de cada estudiante dentro de ellas. Algunas premisas tomadas en cuenta en la elaboración de los 2 modelos que se proponen en esta sección son las siguientes: (i) Todos los actores deben estar bien informados de lo que se busca lograr con el sistema

educativo escolar y de lo que se logra. Sin embargo no todos los actores participan de la misma manera en el sistema. Por ello y dependiendo del tipo de decisión que los distintos actores puedan tomar, será importante identificar qué información les es útil para su ámbito de decisión. Luego, es importante brindar información a los actores de acuerdo a los roles que cumplen, sin que esto signifique necesariamente “ocultar” información.57

57 Salvo casos o situaciones muy claras, como por ejemplo, información de cada estudiante.

58

(ii) La UMC ha desarrollado una tecnología que permite medir a profundidad contenidos curriculares en las denominadas Evaluaciones Nacionales (EN, en adelante) que se hacen en base a muestras de escuelas y estudiantes. Para ello la UMC ha debido definir expectativas de aprendizaje o logro a partir del currículo oficial. Sin embargo, el uso de esta tecnología (i) no se ha extendido a todas las áreas del currículo, (ii) tampoco se ha extendido a todos los grados ni ciclos de la primaria ni secundaria.

(iii) Si bien desde la EN2001 se ha venido desarrollando esfuerzos para evaluar en lenguas

vernáculas, la medición en poblaciones vernáculo-hablantes continúa siendo un desafío importante y que requiere mucho más trabajo exploratorio antes de consolidarse.

(iv) La UMC viene realizando evaluaciones masivas desde el 2006. Estas evaluaciones,

denominadas “censales” (ECE, en adelante), cubren la totalidad de la población de un grado a escala nacional (2° grado)58 y en cuanto a los contenidos curriculares, han cubierto las áreas de matemática y comunicación pero sin la profundidad que las EN sí hacen. En cualquier caso, la ECE son solo censales en un aspecto: cubertura de estudiantes de un grado.

(v) La UMC ha venido implementado diferentes estrategias de difusión de los resultados de

las distintas evaluaciones. Dichas estrategias incluyen elaboración y publicación de documentos, y presentaciones con diferentes niveles de interacción con el público. Las presentaciones incluyen desde charlas o conferencias hasta talleres de mayor duración y mayor grado de interacción con los participantes. La sensación que queda después de realizar estas actividades es que estas estrategias no son suficientes o adecuadas para motivar a todos los actores de manera de inducir una movilización importante en los distintos niveles del sistema educativo.

3.5.1. Modelos propuestos Los 2 modelos que se desarrollan a continuación tienen algunos rasgos o características semejantes y también diferencias. Se diferencian, entre otras cosas, en los objetivos que persiguen las denominadas evaluaciones “censales”, también en la periodicidad y la cobertura, así como en la complementariedad o no entre ellas. Por otro lado, tienen en común que ninguno de los 2 modelos asume un uso de los resultados con altas consecuencias, no al menos, en una primera etapa de consolidación de cualquiera de los modelos. 3.5.1.1. Modelo A En consideración a lo mencionado arriba el plan de desarrollo de las evaluaciones que se propone en este modelo tiene por principal objetivo brindar información útil para mejorar el sistema educativo, con un conjunto de estrategias que (i) buscan consolidar la valoración de la información que produce la UMC, (ii) desarrollar y consolidar una cultura de la evaluación, y (iii) inducir el uso de la información para la rendición de cuentas y toma decisiones mejor informadas. La valoración de la información y la cultura de la evaluación son parte de una estrategia formativa, dimensión que aún falta desarrollar en los diferentes actores del sistema educativo; mientras que el uso de la información para la rendición de cuentas y para la toma de

58 En el 2008 la población bilingüe fue evaluada en 4° grado.

59

decisiones corresponde con una estrategia informativa. En ese sentido, las evaluaciones pueden tener una dimensión formativa y una dimensión informativa, dimensiones que, para el estado de desarrollo del sistema de evaluación de los rendimientos escolares actual es muy importante distinguir. Mientras se enfatice la dimensión formativa, no nos parece conveniente que el uso de la información (e.g. los resultados de las evaluaciones del rendimiento escolar) sea para o tenga altas consecuencias. Solo cuando se alcance plenamente o se desarrolle totalmente la dimensión informativa, se podría hacer un uso con altas consecuencias. Sin embargo, el uso con altas consecuencias no solo depende de haber logrado la dimensión formativa. Los complejos procesos y contextos en donde se realizan los aprendizajes son aún materia de análisis y es difícil atribuir con exactitud cuáles son las responsabilidades de los distintos actores en el sistema educativo. Respecto a la dimensión formativa, continuar con las evaluaciones masivas (“censales”) podría constituir una oportunidad de transmitir expectativas más claras respecto a los aprendizajes tomando como referencia el currículo escolar. Siendo masivas y con una cobertura curricular mayor (i.e. cubriendo más grados y más áreas curriculares) los propios estudiantes y sus familias, los profesores y los directores de las escuelas, podrán tener mayor claridad de lo que se espera se logre en la escuela. Sin embargo, en las ECE realizadas hasta el momento la cobertura curricular ha sido menor que en las EN tanto por las áreas que se incluyen como por los aspectos o dimensiones dentro de cada una de ellas. Habrá que diseñar el desarrollo de las evaluaciones masivas de manera que se vayan incluyendo paulatinamente más áreas y que cada una sea completamente cubierta. Como esto difícilmente se podrá hacer de manera inmediata, el plan de desarrollo debe contemplar un horizonte de tiempo razonable para cubrir sino todo, la mayor parte del currículo. La dimensión formativa no solo requiere una mayor cobertura curricular en las pruebas. También implica que las expectativas de aprendizajes sean aprendidas por parte de los actores más directamente vinculados con estos procesos. En particular por parte de los docentes y los directores. Para ello aquí podemos imaginar 2 alternativas. Una opción es hacer que los docentes sean los que se encarguen de la implementar las evaluaciones (i.e. aplicar las pruebas, corregirlas y hacer la evaluación propiamente dicha). Esta primera opción requiere que la UMC prepare todos los materiales que hagan viable esta evaluación autoaplicada. Probablemente habrá que monitorear con grupo pequeño la efectividad de los materiales de la autoevaluación. La segunda opción es, como hasta ahora, que sean terceros quienes aplican las pruebas y la UMC las corrige y prepara los informes que devuelve a la escuela, el/la profesor/a y los/las estudiantes. El riesgo más importante de la primera opción es que las escuelas y/o los docentes no quieran y de hecho no usen las pruebas con lo cual la posibilidad de usar la evaluación con fines formativos desaparece. Por su parte la segunda opción tiene como principal riesgo que su forma de aplicación no sea confiable y los resultados no reflejen la realidad. Si las pruebas son vistas como una posibilidad de evaluar indirectamente a los maestros y/o las escuelas, es posible que esto haga que los resultados no sean confiables en la medida que haya intromisiones por parte de los maestros y/o directores. En cualquiera de las 2 opciones lo que debe quedar claro al menos durante la etapa formativa de estas evaluaciones, es que los

60

resultados no serán empelados por ninguna instancia de la administración del sector para implementar medidas de altas consecuencias a nivele de escuela o maestro. Con relación a la dimensión informativa, las evaluaciones en base a muestras continuarán siendo la fuente de información más amplia y profunda respecto al currículo, más no respecto a la población. Debe ser además la evaluación que brinde información sobre la evolución en el tiempo de los rendimientos escolares y para ello debe “anclar” las áreas del currículo en al menos un grado en primaria y un grado en secundaria. Por otra parte, las evaluaciones informativas deben cubrir lo antes posible la mayor parte de las áreas cognitivas: matemática, comunicación, ciencias y sociales59. Por la profundidad que se diseñan estas evaluaciones de ellas podrían salir sino totalmente, parte importante de las pruebas masivas. Finalmente, estas evaluaciones deben cubrir también los aspectos escolares y no escolares que condicionan o favorecen, o al menos están asociados, con los rendimientos escolares. De estas evaluaciones depende la mayor capacidad de analizar y entender los principales resultados agregados respecto a los aprendizajes.60 Finalmente respecto a los ítemes, las evaluaciones muestrales deben utilizar una variedad amplia de tipos de ítemes en la medida que estos sean más convenientes para medir diferentes capacidades o competencias. Es más, si se trata de experimentar formas o ítemes los pilotos de las muestrales y hasta las propias evaluaciones muestrales pueden ser una suerte de espacio de experimentación. En cambio, las evaluaciones masivas, si van a ser aplicadas por terceros y corregidas por la UMC, deberían ser de opción múltiple, pero si se optara que los propios maestros corrijan las pruebas censales al contrario, sería mejor manejar una variedad amplia de ítemes. Por otra parte, respecto a los factores asociados, las muestrales deberían continuar levantando información amplia sobre ellos y, es más, ampliar ese conjunto de información de manera de poder entender cada vez más y mejor los resultados. En cambio, las evaluaciones masivas en caso sean administradas centralmente deben manejar un conjunto mínimo de información sobre factores asociados pero sin necesidad de usar encuestas y menos a los padres de familia (por la complejidad de dicho proceso). Sí debe incluirse información que se pueda obtener de los registros administrativos (e.g. de la Unidad de Estadística Educativa, de la planilla y del escalafón). La implementación del modelo A Las evaluaciones masivas y las basadas en muestras correrán de manera paralela aunque los procesos de levantamiento de información en campo se harán en años diferentes. Es más el año que hay campo de la muestral, no habrá campo de las masivas. Esto requerirá que haya equipos técnicos especializados en cada uno de los tipos de evaluación. Estamos considerando que las evaluaciones profundas se realizan cada 3 años, mientras que las masivas sucede todos los años, excepto en los años en los que hay evaluación muestral.

59 No están aquí consideradas 3 áreas: arte, educación física y educación religiosa. 60 Es importante mencionar que a pesar de la profundidad de estas evaluaciones pueden haber ciertos aspectos del fenómeno educativo que requieren una mirada distinta a la que usualmente se considera en evaluaciones grandes como las que hacemos referencias. En ese sentido será importante identificar otras estrategias de evaluación para problemas específicos que requieren de otras aproximaciones. Por ejemplo, los estudios de seguimiento longitudinal a la misma población, estudios sobre aprendizajes en poblaciones vernáculo hablantes, estudios sobre las prácticas pedagógicas en el aula, por mencionar algunos.

61

El proceso de producción de ítemes se hace en el contexto de las evaluaciones muestrales para ambas evaluaciones. De este proceso se deberían obtener suficientes ítemes para una evaluación muestral y 2 masivas. Para las muestrales estamos asumiendo que se evaluarán 2°, 4° y 6° grados de primaria y 1°, 3° y 5° grados de secundaria. En toda evaluación se incluirá matemática (MAT) y comunicación (COM). Las ciencias (CIE) se incorporan en la segunda ronda (a partir de t+3 asumiendo que el 2009 es t), mientras que sociales en t+6 cuando se estará evaluando simultáneamente las 4 áreas. De ahí en adelante las 4 áreas se evaluarán simultánea y periódicamente. Lo que cambiará en cada ronda es uno de los grados manteniendo siembre presente el 4° en primaria y el 3° en secundaria. Estos grados permitirán construir la evolución temporal del rendimiento con intervalos de longitud de 3 años. En el caso de las evaluaciones masivas se asume que para evaluar totalmente un área se requiere de 2 evaluaciones en años consecutivos (Parte I y Parte II).61 Lo ideal sería que el diseño de las pruebas se hiciera de manera que en la primera parte se evalúan aspectos básicos y en la segunda aspectos complejos (que requieren lo básico) o, en su defecto, que se evalúen algunos aspectos en una parte y los restantes en la siguiente. De esa manera se cubrirían las expectativas sobre la mayor parte sino todo el contenido curricular de cada área. Una vez cubierta así un área de un grado, en la siguiente evaluación, y hasta en 2 oportunidades, se evalúa diferentes aspectos de esa área.62 En toda evaluación masiva, excepto en las 2 primeras (i.e. t+1 y t+2), se evalúa 2 grados de primaria y 2 grados de secundaria. Dejando un año se vuelve a evaluar el mismo grado en 2 oportunidades (t+4 y t+5) y paralelamente se incorpora un nuevo grado que repite la secuencia del anterior. Así, un grado se evalúa en 4 oportunidades (4 años) y cada sale un grado y entra otro. Matemática y comunicación serán siempre evaluados mientras que ciencias (CIE) y sociales (SOC) se incorporan en t+4 y t+13, respectivamente. Notar que estas áreas solo entran a las evaluaciones masivas después de que ya lo fueron en las muestrales. Las evaluaciones masivas se concentran en la aplicación de pruebas más alguna otra información complementaria que no esté en el sistema de información del MINEDU.63 Las muestrales, en cambio, harán además un levantamiento de información adicional grande que permita hacer análisis mucho más comprensivos de la realidad educativa.

61 Esto deviene del hecho que (i) en cada EN cada área se ha evaluado con más de 100 ítemes, (ii) en las ECE se han usado hasta el 2007 aproximadamente 30 ítemes, y (iii) en el 2008 se ha salido en la ECE con 2 cuadernillos. Especulamos, entonces, que en 2 ECE se podría cubrir sino todo gran parte de las contenidos de un área. 62 Se podría armar estas 2 siguientes pruebas de manera que se insista en aquellas habilidades en donde se identificaron mayores deficiencias, por ejemplo, en las 2 primeras evaluaciones. 63 Entre el ESCALE, el escalafón y las planillas debería ser posible un conjunto de información complementaria de las escuelas, sus directores y sus docentes.

62

Cuadro 3.1. Modelo A: Implementación de las evaluaciones muestrales y “masivas”

Periodo Año

Muestra [Función: informativa para quienes

deciden políticas y lideran programas en todos los niveles gubernamentales, i.e.

nacional, regional y municipal, y opinión pública en general]

“Censo” [Función: formativa para docentes,

directores y padres de familia; también puede ser para la opinión pública]

Áreas del Currículo

Primaria Secundaria Primaria Secundaria t 2010 2° y 4° 3° y 5° MAT y COM

t+1 2011 4° Parte I 3° Parte I MAT y COM t+2 2012 4° Parte II 3° Parte II MAT y COM t+3 2013 4° y 6° 1° y 3° MAT, COM, CIE t+4 2014 2° Parte I,

4° Todo, Parte I 5° Parte I 3° Todo, Parte I

MAT y COM MAT y COM, CIE

t+5 2015 2° Parte II 4° Todo, Parte II

5° Parte II 3° Todo, Parte II


t+6 2016 2° y 4° 3° y 5° MAT, COM, CIE, SOC t+7 2017 6° Parte I














MAT y COM MAT y COM, SOC



MAT y COM MAT y COM, SOC

t+15 2025 4° y 6° 1° y 3° MAT, COM, CIE, SOC t+16 2026 …. ….

63

3.5.1.2. Modelo B Lo que aquí se propone es aprovechar lo mejor de las evaluaciones censales y muestrales organizadas por la UMC, manteniéndolas y alternándolas, de tal forma que se puedan producir diversos tipos de documentos orientados a audiencias específicas. A continuación se describe qué caracterizaría a estas evaluaciones: Evaluaciones muestrales El objetivo principal de estas evaluaciones sería generar información que permita conocer en profundidad los aprendizajes de los estudiantes en las principales áreas y competencias del currículo, de modo que se pudiera pasar esta información a diversos usuarios. Luego se esperaría que estos usuarios entiendan la información y la encuentren relevante, de modo que la incluyan en su trabajo en la elaboración de insumos y diseño y mejoramiento de procesos educativos. De hecho, como se menciona en la sección de comunicaciones más adelante, no se trataría solamente de producir la información y esperar que los usuarios la lean, sino de orientar la información a audiencias específicas y promover activamente su uso. Estas evaluaciones se realizarían en ciclos de cuatro años de duración, de modo que se tendría tiempo suficiente para el diseño de la prueba y administración piloto, administración de la prueba final y análisis de resultados y publicación y trabajo de comunicaciones. Las evaluaciones se realizarían en diversas áreas del currículo (con menor énfasis en comunicación en castellano y matemática, que serían el objetivo principal de las evaluaciones censales; ver más abajo). Las áreas curriculares a evaluar en un ciclo determinado serían más o menos afines en primaria y secundaria, de modo que los equipos evaluadores y de análisis pudieran de alguna forma colaborar. Las evaluaciones se realizarían en dos grados: 4to de primaria y 3ro de secundaria. Esto debido a que las evaluaciones censales se realizarían en los dos últimos grados de primaria y secundaria (ver más abajo), y se buscaría que las evaluaciones se distribuyan en diversos grados, fomentando una mayor conciencia de la evaluación. Las pruebas deberían incluir diferentes tipos de ítems, para reflejar un gran rango de situaciones a las que los estudiantes deberían poder contestar. A continuación un calendario de la forma en que se podrían llevar adelante estas evaluaciones:

Cuadro 3.2. Modelo B: Evaluaciones muestrales propuestas Año Primaria (4to grado) Secundaria (3er grado) 09 Diseño de evaluación y piloto Diseño de evaluación y piloto 10 Diseño de evaluación y piloto Diseño de evaluación y piloto 11 Diseño de evaluación y piloto Diseño de evaluación y piloto 12 Evaluación en lengua indígena y en

castellano como segunda lengua (quechua y aimara*) y ciencia y ambiente

Evaluación de inglés y ciencia, tecnología y ambiente

13 Análisis de evaluación nacional y trabajo de comunicaciones a partir de la evaluación del año 2012

Análisis de evaluación nacional y trabajo de comunicaciones a partir de la evaluación del año 2012

14 Diseño de evaluación y piloto y trabajo de comunicaciones de la evaluación del año 2012

Diseño de evaluación y piloto y trabajo de comunicaciones de la evaluación del año 2012

64

15 Evaluación de personal social y profundizar en temas de comunicación integral (en castellano) y matemática

Evaluación de ciencias sociales y persona, familia y relaciones humanas y profundizar en temas de comunicación y matemática

16 Análisis de evaluación nacional Análisis de evaluación nacional 17 Análisis de evaluación nacional y

trabajo de comunicaciones a partir de la evaluación del año 2015


18 Evaluación en lengua indígena y en castellano como segunda lengua (quechua y aimara*) y ciencia y ambiente

Evaluación de inglés y ciencia, tecnología y ambiente

19 Análisis de evaluación nacional Análisis de evaluación nacional 20 Análisis de evaluación nacional y

trabajo de comunicaciones a partir de la evaluación del año 2018


21 Repetir el ciclo de evaluaciones año 1 Repetir el ciclo de evaluaciones año 1 * Habría que precisar las variedades del quechua a evaluar; se ha priorizado aquí estas lenguas por ser las de mayor frecuencia en el Perú. La UMC podría sin embargo asesorar a otras la DINEBI para la evaluación en lengua nativa en otros grupos étnicos. Estas publicaciones64 serían principalmente: 1) Descripción de resultados generales, incluyendo promedios nacionales y porcentaje de estudiantes con rendimientos suficientes, por regiones y otra desagregaciones (por ejemplo urbano-rural, público-privado), enfatizando en las brechas de inequidad en el rendimiento y en la evolución del rendimiento en el tiempo; 2) Descripción de resultados por cada área curricular, enfatizando resultados detallados de lo que pueden hacer los estudiantes en cada aspecto curricular (incluyendo ejemplos específicos de ítems); 3) Análisis de factores asociados al rendimiento, orientados principalmente a sugerir opciones de política pero tomando en cuenta las dificultades de hacer atribuciones causales en base a evaluaciones transversales (ver discusión al respecto en capítulo 1 del presente documento). Evaluaciones censales65 El objetivo principal de estas evaluaciones sería generar información que permitiera conocer el nivel de logro de los estudiantes, y de estos agrupados en instituciones educativas, a fines de la primaria y secundaria en dos materias clave para el logro escolar: comunicación en castellano y matemática66. Lo que se buscaría con esta información es, de manera similar a las evaluaciones muestrales, su uso en la planificación de mejoras educativas que permitan elevar el rendimiento de los estudiantes, pero dado el carácter censal la información será relevante específicamente a cada institución y estudiante (ver más abajo). La evaluación muestral incluiría un análisis genérico

64 Varios de los tipos de publicaciones que se sugieren para evaluaciones muestrales y censales son producidas actualmente por la UMC, pero se presentan aquí como parte de los dos tipos de evaluación sugeridos. 65 Las evaluaciones censales en este caso se refieren a la inclusión de todos los estudiantes, más no a la evaluación de todos los aspectos del currículo. 66 No se ha incluido en estas evaluaciones censales el aprendizaje de lectura y escritura en lengua nativa pues esta evaluación es relevante solo para un sector de la población y el censo por definición busca evaluar a todos los estudiantes en áreas comunes de aprendizaje; por tanto las evaluaciones en lengua nativa serían incluidas en las evaluaciones muestrales mencionadas antes.

65

de lo que pueden hacer los estudiantes, detallado para diversos aspectos del currículo, mientras que la evaluación censal tendría menos profundidad en aspectos pedagógicos pero mayor información individualizada de la institución y estudiantes para que al interior de esta se tomen medidas específicas. La información también será relevante para funcionarios del Ministerio de Educación y oficinas descentralizadas, que podrían querer tomar medidas en ciertos centros con relativo menor rendimiento e incremento a través del tiempo (enfatizando por lo tanto aspectos de equidad). Los grados que se evaluarían serían alternativamente 5º y 6º de primaria y 4º y 5º de secundaria. Esto por varios motivos: se trata de los grados finales en los dos niveles y por tanto permitirán dar una mirada retrospectiva a lo aprendido por los estudiantes luego de varios años de escolaridad; ir a los últimos grados de primaria permitirá evaluar a los estudiantes solamente en castellano (como se discute en otras secciones del presente documento, la evaluación en lengua materna indígena supone complejidades que es mejor enfrentar en estudios muestrales); y la evaluación en grados y años sucesivos permitirá ir aproximando una idea del valor agregado que dan las escuelas al rendimiento. Esto último puede ser fundamental si eventualmente se quisiera montar un sistema de altas consecuencias, aunque por ahora esto no es aconsejable de acuerdo al equipo de consultores, principalmente por las objeciones presentadas en el capítulo 1 del presente documento. Sí en cambio sería importante enfatizar a cada director las diferencias en logros de sus estudiantes de un año a otro para que pudieran tomar medidas pedagógicas basadas en los resultados. Las evaluaciones se realizarían en ciclos de 4 años, de acuerdo al esquema descrito en el cuadro 2:

Cuadro 3.3. Modelo B: Evaluaciones censales propuestas Año Primaria Secundaria 2009 Diseño de evaluación y piloto Diseño de evaluación y piloto 2010 Evaluación censal de comunicación

integral en castellano y lógico-matemática en 5to grado

Evaluación censal de comunicación y matemática en 4to grado

2011 Evaluación censal de comunicación integral en castellano y lógico-matemática en 6to grado y comunicación de resultados de año 2011

Evaluación censal de comunicación y matemática en 5to grado y comunicación de resultados de año 2011

2012 Análisis de evaluación, diseño de siguiente evaluación y trabajo de comunicaciones a partir de la evaluación de años 2010 y 2011

Análisis de evaluación, diseño de siguiente evaluación y trabajo de comunicaciones a partir de la evaluación de años 2010 y 2011

2013 Evaluación censal de comunicación integral en castellano y lógico-matemática en 5to grado y trabajo de comunicaciones a partir de la evaluación de años 2010

Evaluación censal de comunicación y matemática en 4to grado y trabajo de comunicaciones a partir de la evaluación de años 2010

2014 Evaluación censal de comunicación integral en castellano y lógico-matemática en 6to grado y trabajo de comunicaciones a partir de la evaluación de años 2011 y 2013

Evaluación censal de comunicación y matemática en 5to grado y trabajo de comunicaciones a partir de la evaluación de años 2012 y 2013

2015 Repetir el ciclo de evaluaciones Repetir el ciclo de evaluaciones De este modo se lograría tener información comparable para el mismo grado y área cada tres años, pero de valor agregado de la escuela en años sucesivos. Así, para el valor agregado habrá que diseñar mecanismos para poder poner a los estudiantes de grados sucesivos en el mismo nivel en una sola escala de rendimiento (posiblemente con ítems de anclaje comunes entre grados).

66

Las publicaciones que se generarían serían principalmente: 1) Descripción de resultados generales, similares a las mencionadas para las evaluaciones muestrales. Estos se podrían hacer a escala nacional, regional, y para las oficinas regionales de educación; 2) Informes de resultados por institución educativa, orientados al director y plana docente. En estos informes se destacaría el resultado de los estudiantes de la institución de manera absoluta y relativa a estudiantes en similares centros educativos. 3) Informes a padres de familia: orientados a reportar la situación de cada estudiante de manera absoluta y comparada con estudiantes de instituciones educativas similares; 4) Informes pedagógicos, con resultados de los estudiantes en diversos componentes del currículo (estos informes serán relativamente difíciles de hacer inicialmente dado el escaso número de ítems que suelen tener las evaluaciones censales, pero a lo largo del tiempo se debería ir acumulando suficiente conocimiento para elaborar informes pedagógicos); 5) Análisis de factores asociados al rendimiento escolar, en este caso con bastante mayor poder explicativo del impacto de la escuela que las evaluaciones muestrales, al incorporar evaluaciones repetidas de los mismos estudiantes en grados y años sucesivos (siempre y cuando las tasas de repetición, abandono y traslado intraescuela sean pequeñas o 0). Ya que este modelo requiere una tasa de retorno relativamente rápida de resultados, buscando por ejemplo que los directores conozcan los resultados de su centro y estudiantes antes del inicio del siguiente año escolar para que puedan hacer planificaciones pedagógicas, sugerimos concentrarse principal o exclusivamente en ítems que se puedan corregir de manera rápida y confiable, principalmente de opción múltiple. Esto limitará la validez externa o curricular del instrumento pero pensamos que se debe priorizar la rapidez en devolución de resultados. No se ha previsto aquí contar con evaluaciones de altas consecuencias pero de hecho el modelo propuesto para la evaluación censal permitiría acumular conocimiento sobre el valor agregado de la escuela para poder ir definiendo modelos de este tipo si se los considerara apropiados eventualmente. Por ahora pensamos que es más importante identificar rápidamente las instituciones educativas con relativo poco valor agregado y promover que estas diseñen planes propios de mejoras, dotándolos de recursos para ellos y/o implementar externamente programas de mejoramiento de la calidad; esta política buscaría tanto mejorar el rendimiento promedio nacional como actuar a favor de la equidad, uno de los principios de la UMC de acuerdo a lo descrito antes. Elementos comunes a ambos tipos de evaluación en el Modelo B Si bien se ha presentado los dos tipos de evaluación con características propias, hay algunos principios comunes que habría que observar:

- Sería fundamental en cada caso tomar las precauciones para que se puedan hacer comparaciones de rendimiento en las mismas áreas curriculares a través del tiempo. Esto supone, entre otros procedimientos, no liberar todos los ítems para conocimiento público, de modo que se pueda usar estos ítems como ancla.

- No tiene sentido hacer evaluaciones anuales sin dedicar suficiente tiempo al análisis y diseminación de los mismos, como pensamos ocurre actualmente con evaluaciones censales anuales. Se sabe por experiencia internacional que el rendimiento cambia con relativa lentitud, por lo que los ciclos de 4 años propuestos deberían permitir

67

suficiente tiempo para el diseño y análisis de evaluaciones y trabajo de publicación y comunicaciones sin perder la medición de posibles cambios en el rendimiento.

- En ambos tipos de evaluación se debería transmitir a diversas audiencias, pero principalmente a docentes y directivos, nociones específicas de lo que resulta u un rendimiento satisfactorio para que ellos los incorporen en sus prácticas pedagógicas; así, será importante continuar desarrollando materiales, como los que hace desde hace algún tiempo la UMC aunque con poca distribución y promoción, que incluyan ejemplos de ítems con rendimientos considerados suficientes o insuficientes en cada área y grado evaluado.

- En ambos tipos de evaluación se debería contar con datos de contexto de los estudiantes. Estos podrían incluir al estudiante, su familia, su centro educativo y comunidad. Los instrumentos para recolección de datos podrían incluir guías de observación, encuestas y entrevistas. Es probable que los instrumentos de datos de contexto, al igual que las pruebas, sean de menor extensión en el caso de las evaluaciones censales, vistas las dificultades de montar un aparato logístico sincronizado para todo el país.

- Las bases de datos de rendimiento de los estudiantes y datos de contexto se deberían poner a disponibilidad de investigadores del país y extranjeros, posiblemente vía un protocolo en el que se indique qué se piensa hacer con la información y luego se comprometan a entregar copias de los informes que resulten. Sería posible incluso proponer una agenda de intereses académicos y de política y organizar concursos para seleccionar investigadores que pudieran analizar las bases y generar reportes. Por razones éticas, antes de publicar las bases es importante eliminar información que permita identificar a estudiantes o centros educativos individualmente.

- Es necesario documentar y publicar los procedimientos técnicos utilizados para elaborar las pruebas y realizar los análisis. Así, luego de cada evaluación se debería poner a disposición del público la documentación referida al diseño de las pruebas y otros instrumentos (incluyendo las especificaciones de pruebas), establecimiento de puntos de corte, procedimientos ligados a la selección de la muestra y/o la administración de instrumentos y otros procedimientos técnicos y logísticos necesarios para entender la aplicación.

El siguiente cuadro presenta la secuencia de ambos tipos de evaluación a lo largo de los próximos años, para ilustrar la carga y secuencia de trabajo que se asumiría en este modelo:

68

Cuadro 3.4. Modelo B: Evaluaciones muestrales y censales a lo largo del tiempo Año 09 10 11 12 13 14 15 16 17 18 19 20 Diseño de evaluaciones

X X X X X X X X X X X X

Evaluación muestral

X X X

Evaluación censal (comunicación y matemática)

5ºP, 4ºS

6ºP, 5ºS

5ºP, 4ºS

6ºP, 5ºS

5ºP, 4ºS

6ºP, 5ºS

5ºP, 4ºS

6ºP, 5ºS

Análisis de datos X X X X X X X X X X Trabajo de comunicación de resultados

X X X X X X X X X X

Análisis y publicación de resultados de evaluaciones 2004, 06, 07 y 08

X X

Nota 1: En las evaluaciones muestrales siempre se evaluaría a estudiantes de 4º de primaria y 3º de secundaria. Las áreas que se evaluarían en cada caso aparecen en el cuadro 1. Nota 2: En las evaluaciones censales P se refiere a Primaria y S a Secundaria. Como se puede apreciar en el cuadro anterior, se está sugiriendo un período inicial de procesamiento y análisis de la información recolectada en los últimos años y al menos un año de preparación de la prueba muestral y dos para la primera censal. También se intercalarían los años de evaluación censal y muestral de modo que no se sobrecargue el trabajo logístico de la UMC en un año determinado. Sobre la inconveniencia de realizar evaluaciones censales en 2º grado de primaria

Desde el 2006 la UMC ha realizado evaluaciones censales anualmente de los

estudiantes. Estas han tenido varios inconvenientes que a nuestro juicio las hacen poco aconsejables:

1. Es difícil generar instrumentos anualmente de alta confiabilidad y validez, además

que el corto ciclo entre una evaluación y otra limita las posibilidades de analizar y difundir la información. Sin mayor análisis la información es inútil.

2. Para una evaluación censal, que requiere rápido procesamiento para devolución a los principales públicos objetivo (por ejemplo directores, docentes y padres de familia), es necesario contar con formatos que los estudiantes de ese grado tienen poca costumbre de ver en salones (p. e. opción múltiple). Este tipo de ítems podría restar validez al instrumento. Para estas edades serían aconsejables ítems de tipos variados, que requerirían mayor tiempo para ser procesados.

3. En 2º grado a menudo se recomienda administraciones individuales o en pequeños grupos de instrumentos estandarizados como los usados por la UMC. En el marco de una evaluación censal esto es claramente imposible por los recursos que demandaría y podría ser una fuente de baja confiabilidad y validez.

4. En 2º grado muchos estudiantes con lengua materna indígena no dominan el español, por lo que sería necesario evaluarlos en su propia lengua y en castellano como segunda lengua. Hacer esto presenta serias dificultades en la construcción de instrumentos bilingües, como se ha mencionado en otros capítulos del presente

69

documento, y también hace difícil la comparación entre rendimientos de estudiantes con diversas lenguas maternas.

Por motivos como los reseñados, ni los sistemas nacionales de evaluación ni las evaluaciones internacionales suelen incluir evaluaciones estandarizadas de rendimiento a escala nacional antes del 4º grado de primaria. En algunos casos se han hecho estudios con grados previos pero esto casi siempre con muestras pequeñas, que permiten atender las complejidades que plantean retos como los anteriores. A favor de las evaluaciones censales en 2º grado en el Perú existen dos argumentos principales: 1) Permitirían detectar tempranamente logros y dificultades en el rendimiento de los estudiantes, de modo que se pudieran corregir. Este argumento se ve limitado en tanto, como se sugiere arriba, las evaluaciones censales en 2º grado tendrían limitada confiabilidad y validez. 2) La evaluación en 2º grado es parte del presupuesto por resultados. Sugerimos trabajar con el Ministerio de Economía y Finanzas, que propone este enfoque, para resaltar la conveniencia de mantener el enfoque de presupuesto por resultados pero cambiar los indicadores de rendimiento de 2º de primaria a 5º y 6º de primaria y a 4º y 5º de secundaria.

Potenciales consecuencias negativas del esquema de evaluación propuesto Como se vio en el capítulo 1, las evaluaciones, sobre todo las de altas consecuencias,

pueden tener consecuencias negativas que es importante tratar de prever. En este caso se mencionan algunas posibles y formas de combatirlas, aunque este es un tema que se debe tener siempre presente para evaluarlo:

1. Las áreas del currículo que no son evaluadas tenderán a ser devaluadas por el sistema

educativo. Las evaluaciones propuestas arriba no incluyen: educación artística, religión, educación para el trabajo y educación física. Tampoco incluyen evaluación en todas las lenguas originarias. El motivo de no incluir todas las áreas curriculares se debe a que se busca aquí proponer un plan que sea manejable dados los limitados recursos humanos y de dinero disponibles en el Perú. Sin embargo de contarse con los recursos eventualmente sería importante evaluar estas áreas igual que las otras (probablemente en un esquema muestral y no censal). Por otro lado, queda claro que la presente propuesta pone el énfasis principal en comunicación y matemática, que internacionalmente son consideradas las bases del aprendizaje en las otras áreas curriculares. Habría que evaluar periódicamente si un esquema de evaluación como el propuesto aquí orienta a los

2. Los estudiantes de los grados evaluados recibirán atención preferencial de parte de los docentes. Si bien el riesgo de que esto pase se podría considerar menor pues no habrá consecuencias negativas para las instituciones educativas, docentes ni estudiantes, pudiera que algunos docentes se concentren principalmente en estos grados para mejorar el resultado de la escuela. Esto es algo que habrá que observar y de ser el caso controlar con mensajes enfatizando el modelo de evaluación.

3. Los docentes podrían incurrir en prácticas discriminatorias para mejorar el promedio de la institución educativa. Estas prácticas podrían ser no aceptar a estudiantes que se anticipa bajarían el promedio, hacer faltar el día de la evaluación a estudiantes con bajo rendimiento o concentrar la ayuda pedagógica durante el año en los estudiantes más cercas del nivel de suficiencia, ignorando a los que están muy por debajo. Esto es algo que podría ocurrir solo en el caso de las evaluaciones censales y de nuevo tendrá que ser observado y de ser el caso controlado con mensajes enfatizando que la evaluación es de bajas consecuencias

70

(aunque el reporte de estudiantes pasando el límite de suficiencia en la prueba censal orientado a padres será sin duda algo que interesará mucho a los directores escolares).

Los anteriores son solo ejemplos de posibles consecuencias negativas; para poder

controlar estos u otros es importante organizar un sistema de recolección de información de monitoreo del impacto de las evaluaciones, publicaciones y otras actividades de la UMC.

3.6. Participación de la UMC en evaluaciones internacionales Como se vio en los capítulos 1 y 2 del presente informe, existen una serie de evaluaciones de rendimiento escolar estandarizadas y la UMC ha participado en ellas. Pensamos que es importante seguir participando en estas por dos motivos principalmente:

1. La evaluación con estándares internacionales permite calibrar el rendimiento de los estudiantes usando parámetros reconocidos internacionalmente. Esto es importante pues supone tener referentes internacionales para poder revisar no solo el rendimiento de los estudiantes sino los factores asociados al mismo, principalmente el currículo y los niveles de rendimiento considerados satisfactorios.

2. La participación en evaluaciones internacionales permite renovar los conocimientos técnicos del personal de la UMC. Este es un aspecto importante pues la renovación permite a su vez mejorar la calidad de las evaluaciones peruanas y ajustarlas al estado del arte de las evaluaciones internacionales (esto supone participar solamente en evaluaciones de alto nivel técnico).

La participación en evaluaciones generales, al igual que la organización de evaluaciones nacionales, solo tiene sentido si es que hay un plan de comunicaciones para la utilización de los resultados que involucre a diversas audiencias. Como se dijo en los anteriores capítulos, a menudo lo principal que se ha generado de las evaluaciones internacionales en que ha participado el Perú son grandes titulares negativos (a menudo incluso exagerados). Este uso es claramente limitado y no justifica la participación en evaluaciones internacionales. Considerando lo anterior, la UMC podría sugerir la participación en las siguientes evaluaciones (para más detalles ver la descripción de estas evaluaciones en los capítulos anteriores):

LLECE El Laboratorio Latinoamericano de Evaluación de la Calidad Educativa de la UNESCO ha organizado dos evaluaciones y el Perú ha participado en ambas. Actualmente lo que correspondería sería utilizar los resultados de la más reciente para la mejora en calidad educativa, pero de organizarse un tercer ciclo seguramente sería conveniente que Perú participe dado que se trata de países que tienen mucho en común con el Perú y por tanto pueden haber muchas lecciones comunes. PISA Se trata de una evaluación de la OECD, que se organiza cada tres años desde el 2000. Perú participó en el primer ciclo y tiene previsto participar nuevamente el 2009. Se trata de una evaluación de habilidades de comprensión de lectura, matemática y ciencias para

71

estudiantes de 15 años matriculados en el sistema escolar. Pensamos que es conveniente participar en PISA pues cubre aspectos relevantes del nivel secundario. TIMSS El estudio de tendencias internacionales en matemática y ciencias se organiza periódicamente para estudiantes de 4º, 8º y 12º (o último) grados. Pensamos que ya que se participaría en PISA podría ser conveniente participar solamente en la evaluación de 4º de primaria (además que este mismo grado sería evaluado con pruebas nacionales, dando un referente local). 4. PIRLS: El programa internacional de lectura se organiza para estudiantes de 4º grado de primaria. Si bien la comparación de niveles de lectura entre lenguas y culturas supone retos técnicos mayores, pensamos que sería importante considerar la participación de Perú pues se darían referentes internacionales para una habilidad fundamental durante la primaria.

Hay otras evaluaciones esporádicas (por ejemplo de educación cívica) en las que el Perú podría participar de haber una convocatoria, pero las anteriores darían una visión global del rendimiento de los estudiantes peruanos que complementaría la información local recogida. 3.7. Estrategias de comunicación e involucramiento de la UMC en el desarrollo de políticas educativas Como se ha dicho repetidamente en el presente documento, la UMC ha tenido éxito en cuanto a generar y publicar información valiosa y oportuna sobre el rendimiento de los estudiantes peruanos, pero ha sido menos exitosa en cuanto a la diseminación y promoción para su uso en profundidad por diversos actores. Pensamos que este es el mayor reto de la UMC a futuro. Eventualmente la UMC debería desarrollar un plan comprehensivo de comunicaciones y contar con personal especializado en este tema en su plantel. Aquí se incluyen algunos lineamientos de lo que podría caracterizar este plan. Es importante definir el perfil que en cuanto a comunicaciones debería buscar la UMC. Así, pensamos que lo que correspondería dado su carácter técnico es por un lado difundir la información a diferentes audiencias objetivo y por otro lado promover su activa utilización en base a interpretaciones técnicamente correctas. No vemos que el rol de la UMC sea de promover (hacer lobby por) programas o prácticas educativas específicas. El contenido de estas políticas deberá ser definido por las oficinas con las que la UMC interactúe; en otras palabras la UMC debe actuar como generador de insumos para la información y dejar la toma de decisiones de política a oficinas que tengan este rol. Todo esto con el objetivo general de promover la difusión y utilización técnicamente apropiada de los resultados de las evaluaciones de rendimiento, con miras a promover mayor calidad y equidad educativa en el rendimiento de los estudiantes peruanos. A continuación se presenta una lista tentativa de actividades de comunicación que podrían ser consideradas en el desarrollo de un plan estratégico en esta línea por la UMC. Para cada una se pone un objetivo, la audiencia a la que se dirigiría la actividad, el estatus actual de la actividad y cómo se podría evaluar si la actividad está teniendo éxito.

72

Cuadro 3.5. Actividades de comunicación propuestas para la UMC Actividad Objetivo Público

objetivo* Estatus actual Evaluación de

actividad Publicaciones diversas en versión completa67

Informar de resultados a diversas audiencias

Dependiendo de la publicación

La UMC publica diversos tipos de documentos y los pone disponibles en su portal sin mayor promoción de su utilización

Vía grupos focales con usuarios.

Resúmenes ejecutivos de publicaciones

Informar de resultados a audiencias no especializadas o con limitaciones de tiempo

Dependiendo de la publicación

Se han publicado algunos documentos de divulgación, como por ejemplo una cartilla en el diario, pero no hay tradición de publicación de resúmenes ejecutivos.

Vía grupos focales con usuarios.

Portal de la UMC

Diseminación de publicaciones de la UMC

Todos Activo pero relativamente poco usado. Se podría rediseñar tomando como referentes los de Brasil y México, reseñados en el capítulo 1 del presente documento.

Número de ingresos mensuales y evaluación periódica en base a consultas vía encuestas y grupos focales.

Talleres de análisis de resultados y sus implicancias

Profundizar en la comprensión de resultados y en la utilización de los mismos

Dependiendo de la población objetivo (principalmente 1, 2, 3, 6 y 7)

Se han hecho varios talleres en Lima y provincias, orientados a diversas audiencias en el pasado, por lo que se podría aprender de esta experiencia y asignársela a un equipo especial de comunicaciones. Más que organizar talleres, la UMC podría promover que otras instituciones los organicen (por ejemplo cediendo los derechos a formatos de presentaciones y talleres)

Evaluaciones escritas al finalizar el taller.

Comunicación masiva de resultados, vía notas de prensa a diferentes tipos de medios y boletín electrónico de novedades de la UMC.

Alentar a diversas audiencias a la utilización de resultados de la UMC

Todos La prensa ha utilizado los resultados pero solamente para promover noticias negativas, sin mayor profundización de los resultados

Registro de notas, entrevistas y número de suscriptores a boletín.

Coordinación de respuestas y asesorías

Generar una mayor interacción entre la UMC y sus públicos

Dependiendo de la solicitud

La UMC responde a pedidos diversos pero sería bueno oficializar esto y ponerlo a cargo de una persona de

Número de solicitudes atendidas

67 Las posibles publicaciones que resultarían de las evaluaciones fueron mencionadas en la anterior sección. Para un análisis de cómo presentan sus resultados de evaluación diversas unidades de la región ver Ravela (2002).

73

Actividad Objetivo Público objetivo*

Estatus actual Evaluación de actividad

usuarios comunicaciones, que respondería directamente o derivaría los pedidos.

Diversas actividades de promoción

Mantener a la UMC con un perfil técnico y de prestigio

Todos Si bien la UMC ha ganado prestigio, es importante desarrollar estrategias para mantenerlo; las actividades anteriores deberían ayudar a esto pero se podría pensar en rediseñar algunas de las publicaciones y portal para hacerlos más atractivos y promover algunos afiches u otros que identifiquen con claridad a la UMC.

Consulta con expertos

* Los públicos objetivo podrían ser: 1. Docentes de aula y directivos de instituciones educativas; 2. Funcionarios del Ministerio de Educación y órganos descentralizados; 3. Autores de textos y editoriales; 4. Funcionarios de organismos internacionales de cooperación técnica; 5. Representantes de ONG e instituciones interesadas en desarrollar proyectos educativos; 6. Instituciones formadores y capacitadoras de docentes; 7. Padres de familia y estudiantes; 8. Académicos; 9. Público en general. De nuevo, la lista anterior es solo tentativa para sugerir que se podrían implementar diversas estrategias para promover la utilización técnica de los resultados de las evaluaciones, buscando que los actores responsables diseñen e implementen programas para mayor calidad y equidad educativa. La forma de elaborar una lista de actores clave de manera sistemática sería generar una lista de personas e instituciones con intereses en calidad y equidad educativa (que pueden ser a favor o en contra, pero también neutrales actualmente que podrían interesarse en el tema). Luego de culminado este mapeo podría ser conveniente promover alianzas informales con algunos de ellos. De hecho de alguna forma la UMC lo ha venido haciendo en el pasado (por ejemplo con el Banco Mundial, universidades y con algunos periodistas de medios escritos). Habría que hacer un esfuerzo por cultivar estas relaciones más formalmente y decidir formas de involucrarlos activamente en algunas publicaciones (por ejemplo prologándolas) y presentaciones públicas (por ejemplo como comentaristas). Asimismo, es importante identificar a actores e instituciones que podrían obstaculizar el trabajo de la UMC y anticipar sus reacciones y objeciones al trabajo para preparar mensajes eficaces que respondan a estas. Es importante también definir oportunidades que se querrían aprovechar. En este sentido, tal vez los principales actores, instituciones y documentos de política vinculados a oportunidades que se podría buscar aprovechar son la oficina del Presidente (buscando por ejemplo ser incluidos en el Mensaje Presidencial anual), la oficina del Primer Ministro (quien debe reportar anualmente al Congreso sobre logros en el Plan Nacional de Acción por la Infancia y Adolescencia), el Primer Ministro (buscando que se incluyan temas de calidad y equidad con base en los resultados de la UMC en los presupuestos anuales), el Consejo Nacional de Educación (que emite pronunciamientos periódicos basados en el Proyecto Educativo Nacional) y el Plan Nacional de Educación para Todos (que emite reportes periódicos de resultados). A futuro, será importante buscar brindar información pública para consideración de diversos grupos políticos que postulen a cargos nacionales o regionales. Otros actores posibles con los que se podría buscar interactuar son la Mesa de Concertación de Lucha contra la Pobreza y el Acuerdo Nacional. En base a análisis como el anterior, pero

74

expandiéndolos, se podría generar una lista de actores y oportunidades que la UMC podría querer influenciar. En el trabajo de comunicaciones se debe reiterar el principio de equidad mencionado al inicio del presente capítulo. Así por ejemplo, la sola difusión de algunos materiales, como por ejemplo los resultados de la evaluación censal de estudiantes a los padres de familia, podría generar mayor inequidad pues el uso eficaz del material estará seguramente relacionado positivamente con el nivel educativo de la familia (que a su vez se sabe está asociado al rendimiento del estudiante). Así, padres más educados harán mejor uso del material, logrando mayores beneficios para sus hijos, que se traducirán en brechas de rendimiento aun mayores a lo largo del tiempo. Lo que se podría hacer en casos como estos es pensar en estrategias específicas contra la inequidad, orientadas a audiencias definidas (por ejemplo solamente difundir el material a padres de alto nivel socioeconómico pero difundir y promover que se organicen talleres explicativos de los resultados del censo con padres de estudiantes de bajo nivel socioeconómico). Es importante reiterar el rol que pensamos que la UMC debería tener en cuanto a comunicaciones: Este no debe ser el de definir qué es lo que se debe hacer, pues las políticas sociales en general y educativas en particular se definen en base a una serie de influencias (por ejemplo coyuntura política, disponibilidad de tiempo, recursos humanos y financieros, e influencia de corrientes teóricas o de de políticas “de moda” en el Perú o la región). El aporte de la UMC podría estar en participar en las discusiones de política brindando datos empíricos de alta calidad técnica que en su mayor parte ayudarán al diagnóstico (por ejemplo de qué competencias pueden resolver los estudiantes o dónde se encuentran instituciones con relativo menor rendimiento) más no valorar algunas intervenciones como eficaces o eficientes (a menos que participe en el diseño de un estudio específico sobre este tema). Nuestra apreciación es que, a pesar de las múltiples publicaciones de alta calidad técnica de autoría de la UMC y la organización de algunos eventos en Lima y provincias, se ha hecho poco por sentarse a interactuar con diferentes audiencias qué podrían utilizar de los resultados para su trabajo en particular. Cuando hablamos de políticas educativas aquí estamos pensando tanto en las de nivel nacional como las regionales, locales e inclusive individuales (del centro educativo u orientadas a estudiantes específicos). El enfoque propuesto aquí se basa en corrientes internacionales actuales que promueven el desarrollo de políticas basados en evidencias empíricas sólidas68. La influencia de las investigaciones en la toma de decisiones a través de vías indirectas, es decir a cargo de tomadores de decisiones influenciados por los materiales de la UMC, que es finalmente lo que se está proponiendo aquí, ha sido objeto de investigaciones internacionales pues supone una serie de complejidades. Se ha dicho por ejemplo que los que generan información (en este caso la UMC) tienen una lenguaje y en general una cultura especializada que es diferente de los que pueden utilizar la información (por ejemplo estos pueden no tener mayores conocimientos académicos que les ayudarían a interpretar la información, tiempo para leer y analizar largos informes y prioridades inmediatas que requieren respuestas concretas). Hay algunos modelos que han analizado estos vínculos (por ejemplo RAPID,

68 En esta línea, en países del Norte se han desarrollado en los últimos años iniciativas que tratan de establecer lo que la ciencia ha demostrado eficaz en cuanto a prácticas educativas; ver por ejemplo What Works Clearinghouse, disponible en http://www.whatworks.ed.gov/, Evidence for Policy and Practice Information, http://eppi.ioe.ac.uk/EPPIWeb/home.aspx, y http://www.campbellcollaboration.org/. Hay por cierto una gran discusión sobre los criterios utilizados para definir qué es evidencia empírica sólida, pero lo importante aquí es señalar la tendencia internacional a la incorporación de la ciencia en la toma de decisiones de política.

75

http://www.whatworks.ed.gov/

http://eppi.ioe.ac.uk/EPPIWeb/home.aspx

http://www.campbellcollaboration.org/

desarrollado por ODI, que ha usado casos exitosos de diferentes partes del mundo; para la región ver Reimers y McGinn (2000) y Arregui y Ferrer (2003) que se podrían consultar en el diseño de un plan comprehensivo de comunicaciones para la UMC. En el trabajo acumulado de la UMC seguramente el equipo de evaluadores y análisis ira elaborando una lista de mensajes principales a comunicar en base a los resultados. Estos mensajes, por ejemplo vinculados a la evolución del promedio de estudiantes con nivel suficiente en diferentes grados y áreas curriculares y los principales indicadores de inequidad en la educación peruana, tendrían que estar claramente definidos y ser promovidos a través de diferentes medios de comunicación. 3.8. Organización La UMC tiene actualmente y casi desde su creación una organización que descansa en 2 pilares: un equipo de evaluación, que se encarga de todo lo correspondiente a las pruebas de rendimiento escolar, y un equipo de análisis, que se encarga de los factores asociados. Además cuenta con un equipo de apoyo administrativo y otro de sistemas. La participación en LLECE durante la segunda mitad de los 90 y más recientemente en el SERCE no implicó la creación de un equipo especial en la UMC ni la incorporación de personal nuevo para cubrir los requerimientos de las actividades del LLECE. La participación en PISA Plus tampoco implicó la creación de una sección pero sí se incorporó 4 personas, una para coordinar las actividades, dos especializadas en matemática y ciencias y otra en comunicación, y una cuarta para que se encargara de las labores logísticas. Por otra parte el inicio de las evaluaciones censales en el 2006 ha requerido de los equipos, especialmente el de evaluación, un trabajo mucho más intenso en los muy cortos periodos de producción de estas evaluaciones: 12 meses para diseñar las pruebas, tomarlas, corregirlas y divulgar sus resultados. En nuestra opinión hay 4 ajustes importantes en la estructura organizacional de la UMC. Primero, debe crearse una sección encargada exclusivamente de todo el tema de la comunicación y difusión de los resultados de las evaluaciones que busque garantizar que los actores valoran la información y efectivamente se usan en los programas y para las políticas educativas. Segundo, sería conveniente que la UMC tenga un comité asesor con el que se pueda discutir los progresos, problemas, y retos que la unidad va enfrentando periódicamente. Tercero, si la UMC ha decidido participar en las evaluaciones internacionales de manera sistemática, entonces debería contemplarse la creación de una sección encargada de estas evaluaciones. La experiencia con PISA y SERCE, por ejemplo, muestran que las demandas de recursos humanos especializados pueden ser muy grandes en estas actividades. Cuarto, la intensidad y velocidad con la que se hacen las evaluaciones censales sugieren fuertemente que haya un equipo exclusivamente dedicado a estos operativos. De lo contrario se corre el riesgo de que, como parece haber sido el caso recientemente, las demandas de las evaluaciones censales y otras más, desplacen las evaluaciones muestrales.

76

Capítulo 4 Balance y perspectivas En poco más de una década la UMC ha logrado consolidarse como un referente muy importante para las evaluaciones de los rendimientos escolares en el Perú. Ha llevado adelante 7 evaluaciones nacionales y 3 internacionales. Ha publicado en forma impresa o electrónica algunas decenas de documentos y ha realizado varias actividades de difusión con diferentes públicos. Ha asesorado o diseñado algunos instrumentos para otras unidades del Ministerio de Educación y conducido estudios sobre rendimiento escolar. Gracias a su nivel técnico ha conseguido convencer a severos críticos de las pruebas estandarizadas no solo de la seriedad y alto nivel técnico de su trabajo, sino también de los potenciales usos de la información que genera. Sin embargo, a pesar de los esfuerzos de difusión a través de las publicaciones, las presentaciones y talleres y hasta poner las bases de datos disponibles para los interesados, persiste la sensación de que la información generada en las distintas evaluaciones no consiguen ser o constituirse en un elemento movilizador de las dimensiones que requiere el sistema educativo peruano. Ciertamente, ha sido útil para la definición de políticas y hasta ha inspirado iniciativas, pero estas no pasan de las esferas más altas de la administración hacia los niveles intermedios y menos hasta las escuelas. Este es probablemente el principal reto que enfrenta la UMC en los años que vienen. Al respecto, la propuesta principalmente es que la UMC desarrolle una estrategia integral de comunicaciones que incluya tanto actividades de difusión como de involucramiento con algunos actores clave (ver sobre todo capítulo 3 del presente documento). En este trabajo será importante definir objetivos, actores clave y estrategias adecuadas para cada caso. Dada la relativamente baja efectividad hasta ahora mostrada, probablemente hay que hacer que “la oferta cree su propia demanda”, es decir, inducir por convencimiento de que la información sea útil para las decisiones de los actores y que, eventualmente, ya como demanda debidamente calificada, se conviertan en demandantes de cada vez más y más sofisticada información.69 Esto supone provocar el uso de la información sin necesariamente abogar por programas específicos ni tampoco convertirse en una unidad organizadora de eventos de comunicaciones. Sin embargo, este no es el único reto que enfrenta la UMC. Algunas decisiones en otras instancias de decisión de la política educativa han puesto sobre el tapete la discusión de las pruebas censales y las pruebas muestrales. Esta discusión, a nuestro modo ver mal enfocada, está asociada a la posibilidad de pasar de un sistema de evaluación con bajas consecuencias a otro de altas consecuencias. Hemos revisado en el primer capítulo algunas experiencias del continente que muestran sistemas de altas o bajas consecuencias (y sistemas mixtos). Si bien ambos sistemas tienen pros y contras, nuestra impresión es que no podemos aún dejar el actual de bajas consecuencias hacia un sistema de altas consecuencias por varias razones. Primero, lo que se ha llamado evaluación censal, no es tal pues solo es censal respecto a alumnos de un cierto grado más no de la cobertura curricular, es decir, no todas las áreas ni grados han sido incluidas.70 Segundo, por su carácter censal, estas evaluaciones suelen usar pruebas cortas y de opción múltiple, con lo que se tiene una limitada cobertura del área curricular evaluada. Tercero, la capacidad de controlar efectivamente una operación de

69 Idealmente, por ejemplo, las instancias pedagógicas de las distintas instancias del gobierno (i.e. nacional, regional, local) soliciten estudios y, en se sentido, contribuyan con la definición de la agenda de la UMC. 70 En una reunión de trabajo personal de la UMC comentó que se ha sabido de casos en los que los profesores no quieren ir a segundo grado de primaria, que es justamente el grado que ha sido considerado en las 3 evaluaciones censales ya realizadas.

77

campo de la envergadura de una evaluación censal introduce muchas dudas sobre la calidad y hasta veracidad de la información. No parece razonable esperar que si de esas evaluaciones dependieran incentivos (positivos y/o negativos) sea posible garantizar que no será vulnerada en alguna parte la aplicación de las pruebas. Cuarto, la situación educativa es muy heterogénea en el país como para que una evaluación estandarizada permita evaluar la contribución de cada uno de los actores del proceso educativo. Los análisis de los factores asociados aún no permiten atribuir con claridad el rol y la importancia que cumplen los distintos factores del contexto escolar y extraescolar. Quinto, aún no hay claridad con respecto a las expectativas de aprendizaje en el sistema educativo. El currículo, que dicho sea de paso ha cambiado muchas veces desde que se hizo la reforma de mediados de los noventa, solo puede ser visto como un estándar de contenidos (y aún incompleto) más no de aprendizajes y habilidades. Es por ello que a UMC se ha visto obligada a interpretar el currículo respecto a los desempeños que se espera logren los estudiantes. En ese contexto, resulta claro que si los propios actores no tienen pautas claras o expectativas claras respecto al currículo, resulta más conveniente poner más esfuerzo primero en desarrollar estas expectativas antes que evaluar para dar incentivos. Debe quedar claro, sin embargo, que no nos oponemos a hacer pruebas censales o masivas. Lo que hay que saber o tener claro es para qué las queremos y si se justifica la inversión dados los usos previstos. A lo que nos oponemos a estas alturas del desarrollo del sistema de evaluación es al tipo de uso de la información en particular, que sea de altas consecuencias. A pesar de ello, en el capítulo 3 del presente documento se han planteado hasta 3 opciones para el subsiguiente desarrollo del sistema de evaluación. En las propuestas hay evaluaciones muestrales, pero mientras un par de ellas restringe el uso de las evaluaciones masivas para fines formativos, la otra integra más netamente las evaluaciones muestrales con las censales. Lo que sucede es que un modelo sobre-enfatiza el rol o dimensión formativa que podría otorgársele a una evaluación masiva, mientras que el otro apuesta en el paulatino desarrollo de un sistema de información más amplio que contribuya con la rendición de cuentas (pero sin altas consecuencias). Cada modelo tiene sus pros y sus contras y ello debe ser evaluado por la UMC. Consideramos que participar en las evaluaciones internacionales es importante pues permite las comparaciones internacionales lo que de alguna manera induce sino obliga a mirar parámetros internacionales, y también permite participar de un medio muy activo de producción técnica respecto a las mediciones (en el capítulo 3 sugerimos considerar PISA, LLECE, TIMSS y PIRLS). Finalmente, respecto a los temas organizacionales, además de lo comentado sobre la necesidad de tener un equipo permanentemente encargado de las actividades de comunicación y difusión, creemos que la UMC podría contar con un comité consultivo que le permita retroalimentar su trabajo desde la perspectiva de diferentes actores de la sociedad y el Estado. Además, si se decide que la UMC participará permanentemente en estudios internacionales, entonces será conveniente tener un equipo especializado en esas actividades. Y, finalmente, dependiendo del modelo de evaluaciones que se opte, habrá que decidir si se requiere o no tener 2 equipos en evaluación especializados uno en las muéstrales y el otro en las censales o masivas. Haciendo un balance, pensamos que la UMC ha hecho un trabajo notable por su alta calidad técnica y relevancia para el diagnóstico de temas cruciales vinculados a la calidad de la educación peruana. Sin embargo se presentan retos importantes que por lo demás no son

78

únicos al país. Las propuestas presentadas en este documento pretenden ser un insumo para discutir posibles roles que permitan a la UMC profundizar su influencia en la mejora de la educación peruana.

79

Referencias Arregui P. (2001). Sistemas de determinación y evaluación de metas de logros de aprendizaje

escolar como instrumentos para mejorar la calidad, la equidad y la responsabilización en los procesos educativos en América Latina. Ponencia presentada en la Séptima Reunión del Comité Regional Intergubernamental del Proyecto Principal de Educación en América Latina y el Caribe. UNESCO.

Arregui, P. y Ferrer, G. (2003). Las pruebas internacionales de aprendizaje en América Latina y su impacto en la calidad de la educación: Criterios para guiar futuras aplicaciones. Documento de Trabajo 26 de PREAL. Santiago de Chile.

Arregui, P. y C. McLauchlan. (2005). Utilization of large-scale assessment results in Latin America. Documento sin publicar. Banco Mundial (1999). “Peruvian Education at a Cross-Road. Challenges and

Opportunities for the 21st Century”. World Bank Country Study. Washington DC: The World Bank.

Brown, K. T. (2008). Testing the testing: Validity of a state growth model. International Journal of Education Policy & Leadership, 3 (6). Recuperado de http://wwwijepl.org el 1 de octubre de 2008.

Burga, Andrés, Liliana Miranda y Tania Pacheco (2005): Evaluación Nacional del Rendimiento Escolar. Informe descriptivo de resultados. Documento de Trabajo UMC 12. Lima: Ministerio de Educación.

Calderón, Arturo, Cholly Farro y Jorge Bazán (2002): Diseño muestral de la aplicación nacional CRECER 1998. http://www2.minedu.gob.pe/umc/admin/images/menanexos/menanexos_209.pdf

Caro, Daniel (coordinador) (2004). Una aproximación a la alfabetización lectora de los estudiantes peruanos de 15 años. Resultado del Perú en la evaluación

internacional PISA. Documento de Trabajo 6. Lima: UMC-Ministerio de Educación. Cueto, Santiago. (2007). Las evaluaciones nacionales e internacionales de rendimiento

escolar en el Perú: balance y perspectivas. En Grupo de Análisis para el Desarrollo (Editor). Investigación, Políticas y Desarrollo en el Perú. (pp. 405-455). Lima: GRADE.

Elacqua, G. y Fábrega, R. (2004). El consumidor de la educación: el actor olvidado de la libre elección de escuelas en Chile, en Santiago Cueto (editor): Educación y brechas de equidad en América Latina, p. 353-398. Santiago de Chile: PREAL.

Esquivel, J. M. (2001). El diseño de las pruebas para medir logro académico: ¿Referencia a normas o a criterios? En Ravela, P (Editor). Los Próximos Pasos: ¿Cómo Avanzar en la Evaluación de Aprendizajes en América Latina? (pp. 20-29). Documento de Trabajo No. 20 de PREAL.

Ferrer, G. (2006a). Estándares en educación. Implicancias para su aplicación en América Latina. Santiago de Chile: PREAL.

Ferrer, G. (2006b). Sistemas de Evaluación de Aprendizajes en América Latina. Balances y Desafíos. PREAL

Ferrer, G. (2005). Estado de situación de los sistemas nacionales de evaluación de logros de aprendizaje en América Latina. PREAL, disponible en <http://www.preal.cl/GTEE/docr/Estado%20de%20Situacion.pdf >.

Ferrer, G. y P. Arregui. (2003). Las pruebas internacionales de aprendizaje en América Latina y su impacto en la calidad de la educación: Criterios para guiar futuras aplicaciones. Documento de Trabajo No 22. PREAL.

80

http://wwwijepl.org/

http://www.preal.cl/GTEE/docr/Estado%20de%20Situacion.pdf

McCaffrey, D. F., D. Koretz, J. R. Lockwood, L.S. Hamilton (2003). Evaluating Value-Added Models for teacher Accountability. Carnegie Corporation / RAND Corporation, Santa Monica, USA.

Ministerio de Educación (1998). Evaluación del Rendimiento Estudiantil “CRECER”. Informe de Resultados de la Primera Prueba Nacional. Lima: MED.

Mizala, A. y P. Romaguera. (2004) “School and Teacher Performance Incentives: The Latin American Experience”, International Journal of Educational Development, v24, n6, p739-754, November.

Montané, Angelica et al (2004): ¿Cómo rinde los estudiantes peruanos en comunicación y matemática. Resultados de la Evaluación Nacional 2001.

ODI. (2004). Superando las barreras entre la investigación y las políticas en el desarrollo internacional: un marco analítico y práctico. Documento Informativo de RAPID. http://www.odi.org.uk/publications/briefing/rapid/rapid_bp1_spanish.pdf

OECD y UNESCO (2003). Literacy Skills for the World of Tomorrow. Further Results from PISA 2000. http://www.pisa.oecd.org/dataoecd/43/9/33690591.pdf>.

Ravela, P. (2004). Rendición de Cuentas en Educación No 2. Serie Políticas; Formas y Reformas de la Educación. Año 6, # 17. PREAL.

Ravela, P. (2002). ¿Cómo presentan sus resultados los sistemas nacionales de evaluación educativa en América Latina? Documento de trabajo Nº 22, PREAL, Santiago. http://www.preal.org/GTEE/pdf/Resultados2.pdf

Ravela, P. (editor), Wolfe, R., Valverde, G. y Esquivel, J. M. (2000). Los próximos pasos: ¿hacia dónde y cómo avanzar en la evaluación de aprendizajes en América Latina? Santiago de Chile: PREAL.

Ravela, Pedro, Patricia Arregui, G. Valverde, R. Wolfe, G. Ferrer, F. Martínez Rizo, M. Aylwin y L. Wolf. (2008). Las evaluaciones educativas que América Latina necesita. Documento de Trabajo No. 40. PREAL.

Reimers, Fernando y N. McGinn (2000). Diálogo informado: el uso de la investigación para conformar la política educativa. México D.F.: Centro de Estudios Educativos.

Rodríguez, José y Santiago Cueto (2001). ¿Cuánto aprenden nuestros estudiantes? Presentación de la Evaluación Nacional del 2001, Revista Crecer 2, julio 2001. Lima: UMC-Ministerio de Educación.

Torreblanca, Alberto y Daniela Zacharías (2002): Ficha técnica. Diseño muestral de la Evaluación nacional 2001. Primaria. UMC. http://www2.minedu.gob.pe/umc/admin/images/menanexos/menanexos_46.pdf

Torreblanca, Alberto y Daniela Zacharías (2002): Ficha técnica. Diseño muestral de la Evaluación nacional 2001. Secundaria. UMC. http://www2.minedu.gob.pe/umc/admin/images/menanexos/menanexos_47.pdf

Torreblanca, Alberto, Arturo Calderón y Cholly Farro (2000): Diseño muestral de la aplicación CRECER 1996. Mimeo. http://www2.minedu.gob.pe/umc/admin/images/menanexos/menanexos_209.pdf

UMC (2005a): Evaluación Nacional 2004. Marco de trabajo de las pruebas de rendimiento de comunicación integral en lenguas nativas. Lima: Ministerio de educación. http://www2.minedu.gob.pe/umc/admin/images/menanexos/menanexos_127.pdf

UMC (2005b): Evaluación Nacional 2004. Marco de trabajo de las pruebas de rendimiento. http://www2.minedu.gob.pe/umc/admin/images/menanexos/menanexos_126.pdf

UMC (2007) Evaluación censal de estudiantes 2006. Mimeo. UMC (2008) Informe de la Evaluación censal de estudiantes 2007. Mimeo. UMC (2001) Manual de instrucciones de los coordinadores.

http://www2.minedu.gob.pe/umc/admin/images/menanexos/menanexos_66.pdf UMC y GRADE (2001). El Perú en el primer estudio internacional comparativo de la

81

http://www.odi.org.uk/publications/briefing/rapid/rapid_bp1_spanish.pdf

http://www.preal.org/GTEE/pdf/Resultados2.pdf

http://www2.minedu.gob.pe/umc/admin/images/menanexos/menanexos_46.pdf



Unesco sobre lenguaje, matemática y factores asociados en el tercer y cuarto grado. Boletín UMC 9. Lima: Ministerio de Educación. U.S. Department of Education (2008). A Nation Accountable: Twenty-five years After a

Nation at Risk. Washington D.C. Consultado el 1 de agosto en: www.ed.gov/rschstat/research/pubs/accountable/

Vegas, E. y J. Petrow. (2008). Incrementar el Aprendizaje Estudiantil en América Latina. El Desafío para el Siglo XXI. Washington D.C.: Banco Mundial y Mayol Ediciones.

82

http://www.ed.gov/rschstat/research/pubs/accountable/

Documents

files.pucp.edu.pefiles.pucp.edu.pe/departamento/economia/INF2008_Informe-sistem… · ÍNDICE . Presentación