Evaluación de maestros en Estados Unidos: un caso de estudio

19 Abr, 2016 - Heather C. Hill

En la última década, muchos países han tratado de encontrar la forma de evaluar y hacer que los profesores rindan cuentas por la calidad de su trabajo. En este contexto, los estudios de caso de tales esfuerzos pueden ayudar a orientar a los policy-makers que estén considerando dichas reformas. En este post me propongo analizar las recientes reformas de evaluación de docentes y los mecanismos de rendición de cuentas puestos en marcha en Estados Unidos. En dichas reformas, los policy-makers trataron de cambiar la forma en que los distritos escolares miden el desempeño de los docentes, así como los incentivos que se derivan de la medición.

Estas reformas surgieron de dos áreas clave de la investigación social. En la década de los 90 y principios de los 2000, una serie de economistas y estadísticos de Estados Unidos encontraron que las diferencias en la calidad de los maestros¹ explicaban entre un diez y un veinte por ciento de la variación en las puntuaciones de pruebas de los estudiantes. Esto significa que son los docentes y no las escuelas quienes representan el factor institucional más importante que afecta al aprendizaje de los estudiantes. Sin embargo, las evaluaciones formales que por aquel entonces realizaban los directores estadounidenses encontraban muy pocas diferencias entre los profesores. De hecho, los datos agregados muestran que la gran mayoría de los maestros en los EE.UU. eran calificados como aptos y que sólo un número muy pequeño perdía su empleo debido a los problemas en la calidad de su práctica docente o los malos resultados de sus estudiantes. Dicho de otro modo, los responsables políticos de Estados Unidos y sus asesores se toparon con la enorme discrepancia entre la falta de variación en los datos formales de evaluación de maestros y las amplias diferencias en los análisis estadísticos.

Esta evidencia llevó a la administración Obama a pedir a los estados que reformaran sus sistemas de evaluación y rendición de cuentas de los docentes. Debido a que la administración federal vinculó los programas de financiación de estados y escuelas a la aplicación de estas reformas, la mayoría de los estados terminaron llevándolas a cabo². Los sistemas que surgieron de dichas reformas consisten en la asignación de puntuaciones a los maestros en base a una combinación de a) instrumentos de observación de aula más modernos, ampliados y estandarizados; y b) métricas que capturan las tendencias del desempeño de los estudiantes teniendo en cuenta su origen socioeconómico. Así, las puntuaciones combinadas representaban la calidad de la enseñanza de los profesores y su contribución a la mejora del desempeño de los estudiantes. Los defensores de las reformas³ argumentaron que estos nuevos procedimientos de evaluación de docentes funcionarían a través de tres mecanismos específicos: permitiría a los distritos escolares identificar y prescindir de los maestros de peor desempeño en las aulas, incrementaría la motivación del resto de los docentes y lograría una mejora de su práctica en el aula a través del feedback recibido por directores y tutores de centros. Muchos creían que el uso de nuevos instrumentos de observación de aula aumentaría la precisión y la cantidad de información que habría sobre maestros, la cuál aportaría y estimularía mejoras en la práctica docente.

Existen casos de señalado éxito de estos mecanismos y del enfoque general de las reformas de evaluación de los maestros. En Washington DC, la reforma de la evaluación docente comenzó antes que en otros lugares y tuvo el firme apoyo de la administración central. Dicha reforma significó la implantación de incentivos de gran magnitud para los maestros, que iban desde la expulsión inmediata hasta bonus monetarios que podían llegar hasta los $25.000 anuales. Con estas condiciones, el sistema de evaluación logró influir en el comportamiento de directores y docentes. En los primeros años del programa, el distrito despidió a cientos de maestros. El trabajo de Dee y Wyckoff mostró además que la amenaza de despido aumentaba la deserción voluntaria de los profesores de bajo rendimiento. Además, los maestros justo por debajo del umbral que permitía recibir el bonus mejoraban los resultados de sus evaluaciones a lo largo del tiempo. Y aunque no está relacionado causalmente con el sistema de evaluación docente, el rendimiento de Washington DC en las pruebas nacionales ha aumentado considerablemente desde entonces⁴.

Otros lugares han visto resultados similares. En Chicago, varios investigadores han relacionado mejoras en los resultados de la pruebas estandarizadas a un programa piloto de un nuevo sistema de evaluación⁵, que además fue bien recibido por maestros y profesores⁶. En Tennessee, otro programa innovador ha logrado que las decisiones de los maestros a la hora de abandonar la profesión o de su propio centro esté vinculada a las bajas calificaciones en las evaluaciones recibidas.

Si bien estos casos demuestran que un buen diseño con fuertes incentivos puede afectar los resultados de los docentes, la historia en el resto del país parece menos prometedora. Para empezar, la distribución del desempeño de los maestros en las evaluaciones formales no ha cambiado mucho. En 2013, un año en el que la mayoría de los estados reformaron sus sistemas de evaluación, en Florida, Michigan y Tennessee el 97/98% de los profesores fueron calificados en las categorías de Efectivo o Muy Efectivo, casi idénticos a los niveles pre-reforma⁸. Del mismo modo, Kraft y Gilmour analizaron los datos posteriores a la reforma de los sistemas de evaluación diecinueve estados encontrando que un promedio del 2,7% de los maestros en esos estados fueron calificados como No efectivos. En un único estado el porcentaje de maestros con bajas calificaciones se disparó a niveles por encima de 10%. Aunque no existe evidencia disponible al público en cuanto a despido de maestros, es lógico pensar que no se están produciendo a gran escala en la mayoría de estos lugares. Por lo tanto el primer mecanismo para la mejora de la calidad de los maestros (prescindir de los maestros con bajo rendimiento) no ha llegado a materializarse de la forma en que se esperaba.

La evidencia sobre el segundo mecanismo para la mejora de la calidad (aumentar la motivación de los docentes para mejorar su práctica en el aula) también pone en duda la eficacia de estas reformas. En sólo unos pocos sistemas se observaron efectos similares a Washington DC derivados de las recompensas monetarias y las amenazas de despido y en muchos lugares, los docentes recibieron el nuevo sistema de evaluación como una losa más de la compleja burocracia. Las evaluaciones a gran escala de bonus a docentes en algunos sistemas de evaluación docente no hallaron ninguna evidencia de que esos premios monetarios lograran aumentar la motivación y el esfuerzo de los docentes⁹. En entrevistas con treinta profesores en dos distritos escolares, Braslow identifica que aproximadamente la mitad mencionaba la ambición de obtener recompensas monetarias o evitar ser despedidos como consecuencia de los nuevos sistemas de evaluación, pero que en realidad pocos docentes habían realizado cambios en su práctica en el aula o habían aumentado su motivación y su nivel de esfuerzo. Del mismo modo, en el estudio de un barrio del noreste de EE.UU., Donaldson encuentra pocos cambios de motivación y de práctica docente enseñanza como resultado del nuevo sistema de evaluación¹⁰.

Por último, los resultados sobre el tercer mecanismo que esperaban los promotores de las reformas (que el feedback proporcionado por directores y tutores a los docentes se traduciría en una mejora de su práctica en el aula) también parecen desalentadores. En el estudio de Donaldson, los maestros recibieron un muy escaso apoyo para lograr mejorar su práctica en el aula. Los docentes entrevistados por Braslow también afirmaban que rara vez los directores de sus centros ofrecían feedback que pudiera ser traducido en una acción concreta o un programa desarrollo profesional docente. Además, toda la evidencia disponible parece indicar que los nuevos sistemas de evaluación de los docentes han supuesto una enorme carga de trabajo para los directores, los cuales deben hacer más observaciones en el aula y mucho más papeleo. Por otro lado confirman un mayor estrés para los profesores, que a menudo no saben qué esperar de sus directores o de los sistemas de evaluación. Como era de esperar, teniendo en cuenta estos resultados y otras cuestiones técnicas y legales asociadas con las reformas de evaluación de maestros, algunos estados han comenzado a echar para atrás dichas reformas¹¹.

Sin embargo, hay una lección que aprender con respecto al corto periodo de vida de esta reforma. ¿Qué llevó a que estos resultados fueran peores de lo esperado? Para el diseño de nuevos sistemas de evaluación docente, aquí van algunas lecciones aprendidas.

El estudio de Kraft y Gilmour arroja luz sobre por qué la distribución del desempeño de los maestros no cambió. En las encuestas, los directores de un distrito contaban de forma anónima que el 27% de sus maestros estaba desempeñando por debajo del nivel más básico, una cifra cuatro veces superior a la que los centros reportaban. Esta disonancia entre las valoraciones públicas y privadas de los directores parece estar relacionada con la enorme documentación necesaria para demostrar el bajo desempeño de un docente. Los directores también señalaban los enormes costes personales y organizativos que implica valorar de forma crítica el trabajo de los docentes y eso les convenció para aumentar sus calificaciones, incluso de forma no justificada.

El fracaso de los nuevos sistemas de evaluación para motivar o mejorar la práctica docente quizás pueda explicarse mirando la investigación previa en este área. En Estados Unidos siempre ha habido defensores de la retribución por desempeño para los docentes (en esencia, premiar a los maestros cuyos estudiantes obtienen resultados por encima del resto en las pruebas estandarizadas estatales o del distrito). Sin embargo, numerosos experimentos de Estados Unidos han demostrado que la remuneración por rendimiento no mejora los resultados del estudiante. Un estudio vincula este fracaso al hecho de que muchos profesores ya consideran que están trabajando a pleno rendimiento, lo cual les deja poco margen para dosis de esfuerzo y la motivación extra¹². Otros estudios sugieren que los maestros están muy satisfechos con su propia instrucción, dando lugar a pocas innovaciones dirigidas a mejorar la calidad de su práctica docente.

Por último, el fracaso de estas reformas para reforzar la cantidad y calidad de información a los maestros puede explicarse de dos maneras. En primer lugar, como se señaló anteriormente, los directores reiteran de forma general que se sienten abrumados por las exigencias de los nuevos sistemas de evaluación docente, que en muchos estados requieren múltiples observaciones por docente cada año. En esta situación, los directores no son capaces de proporcionar un feedback adecuado a todos los maestros. En segundo lugar, los directores pueden no tener la experiencia necesaria para evaluar correctamente la instrucción. Por ejemplo, en mi área de especialización (aprendizaje en matemáticas en educación secundaria) muchos sospechan que, si bien los directores perciben las características generales del aula (tales como el nivel de ruido y la interacción entre estudiantes y docente) con cierta exactitud, su conocimiento matemático es insuficiente para valorar cuestiones clave del contenido y la resolución de problemas en matemáticas.

No está claro cómo de generalizables a otros países son estos hallazgos. En algunos lugares, particularmente aquellos donde se indican problemas de absentismo y motivación de los maestros, las reformas de evaluación de maestros pueden promover más enseñanza (en el sentido de horas trabajadas), lo cuál puede traducirse en mejores resultados de los estudiantes. Sin embargo, en Estados Unidos y otros países, donde las mejoras pasan en gran medida por una mejor enseñanza, existen obstáculos importantes para el éxito de estas reformas. La eliminación de estos obstáculos puede dar lugar a un sistema de evaluación de los maestros más efectivo, pero es necesario plantearse alternativas para la mejora de la calidad docente, ya que es probable que eliminar dichos obstáculos sea una política cara que requiera cambios sistémicos muy significativos.

Bibliografía y referencias

[1] Nye, B., Konstantopoulos, S., & Hedges, L. V. (2004). How large are teacher effects? Educational Evaluation and Policy Analysis, 26(3), 237-257. Rockoff, J. E. (2004). The impact of individual teachers on student achievement: Evidence from panel data. The American Economic Review, 94(2), 247-252.

[2] Steinberg, M. P., & Donaldson, M. L. (in press) The new educational accountability: Understanding the landscape of teacher evaluation in the post NCLB era. Education Finance and Policy.

[3] Gordon, R. J., Kane, T. J., & Staiger, D. (2006). Identifying effective teachers using performance on the job. Washington, DC: Brookings Institution.

[4] https://www.washingtonpost.com/local/education/dc-posts-significant-gains-on-national-test-outpacing-nearly-every-state/2013/11/07/dccc08c0-475c-11e3-b6f8-3782ff6cb769_story.html

[5] Steinberg, M. P., & Sartain, L. (2015). Does Teacher Evaluation Improve School Performance? Experimental Evidence from Chicago’s Excellence in Teaching Project. Education Finance and Policy.

[6] Jiang, J. Y., Sporte, S. E., & Luppescu, S. (2015). Teacher Perspectives on Evaluation Reform Chicago’s REACH Students. Educational Researcher, 44(2), 105-116.

[7] Rodriguez, L. A. (2015, November). The Impact of Tennessee’s Teacher Evaluation System on Teacher Transfer and Exit Decisions. In 2015 Fall Conference: The Golden Age of Evidence-Based Policy. Miami, FL: Annual conference of the Association for Public Policy and Management.

[8] http://www.nytimes.com/2013/03/31/education/curious-grade-for-teachers-nearly-all-pass.html

[9] Yuan, K., Le, V. N., McCaffrey, D. F., Marsh, J. A., Hamilton, L. S., Stecher, B. M., & Springer, M. G. (2012). Incentive pay programs do not affect teacher motivation or reported practices results from three randomized studies. Educational Evaluation and Policy Analysis, 0162373712462625.

[10] Donaldson, M.L. (2012) Teachers’ perspectives on evaluation reform. Washington, DC: Center for American Progress.

[11] http://www.nytimes.com/2015/11/26/nyregion/cuomo-in-shift-is-said-to-back-reducing-test-scores-role-in-teacher-reviews.html

[12] Springer, M., D. Ballou, L. Hamilton, V. Le, J.R. Lockwood, D. McCaffrey, M. Pepper, B. Stecher (2010) Teacher Pay for Performance, Experimental Evidence from the Project on Incentives in Teaching, Nashville, TN: National Center on Performance Incentives at Vanderbilt University; Springer, M., J. Pane, V. Le, D. McCaffrey, S. Burns, L. Hamilton, and B. Stecher. “Team Pay for Performance: Experimental Evidence From the Round Rock Pilot Project on Team Incentives,” Educational Evaluation and Policy Analysis December 2012, Vol. 34, No. 4, pp. 367–390.

￩￫ x

14 comentarios

Gerion dice:

19 abril, 2016 a las 12:34

La observación en el aula está bien como parte de la evaluación de los docentes, pero parece que sería la evaluación en la consecución de los objetivos de las unidades didácticas la que debe llevar el mayor peso. Y eso es tan fácil como tomar los objetivos que el propio docente ha redactado, y contrastarlos con los contenidos de las pruebas y evaluaciones de los alumnos que el mismo docente ha elaborado. Si el docente ha conseguido los objetivos que él mismo planteó, será bueno. Y las juntas de profesores y departamentos pueden realizar esta comprobación, no necesariamente los directores.
¿Cuántos centros se preocupan de que sus docentes presenten los proyectos de sus asignaturas, detallados al nivel de unidades de aprendizaje? ¿Cuántos centros eligen a sus docentes en función de esos proyectos? La docencia no se toma lo suficientemente en serio.
- JC dice:
  
  19 abril, 2016 a las 12:51
  
  ¿Pero hasta qué punto pueden ser fiables? No es por ser malpensado pero un docente puede hinchar esos resultados siendo consciente de lo que se juega si no llega a cumplir sus propias expectativas. Creo.
  - Albricias dice:
    
    19 abril, 2016 a las 13:11
    
    Entiendo que no habla de hinchar resultados, sino de verificar que las pruebas (tareas, trabajos, exposiciones, exámenes…) estén en consonancia con los objetivos didácticos de la programación de la asignatura, no sólo en cuanto a contenido sino también en cuanto a profundidad/dificultad.
    
    Soy profesor, y como medida la veo adecuada aunque incompleta, a menos que el propio docente justifique el grado de cumplimiento de su propia programación, lo cual abriría la puerta a ver falseamiento de datos. Ese grado de cumplimiento lo exige ya la inspección de educación de oficio en mi comunidad autónoma, con lo que no sería nada nuevo. Lo malo de esto es que no me imagino al inspector de turno valorando la consonancia entre objetivos y pruebas, por lo que esto sería trabajo del departamento o de algún grupo específico de profestoes, y eso supondría un aumento de la carga de trabajo, que ya de por sí es abusiva, al menos en España, donde la profesión es cada vez más burocrática y menos académica.
  - Lester dice:
    
    20 abril, 2016 a las 17:37
    
    No estás siendo malpensado en absoluto. Es el resultado normal, es lo que en economía se llaman «incentivos perversos».
    
    Ya pasa, cualquiera que haya trasladado a alumnos de centro sabe que en unos el nivel es más bajo que en otros.
    
    La solución es evaluaciones externas, como se hace con el examen de selectividad.
    
    En su momento, con la selectividad, se puso el grito en el cielo, pero la realidad es que aprueban 90% o más. En la nueva ley de educación hay previstos más exámenes de este tipo, y se ha puesto el grito en el cielo otra vez. Hay huelgas etc.
    
    No digo que los exámenes sean la solución perfecta, añade estrés al estudiante. Se estudia para aprobar el examen, no para adquirir conocimientos. Pero es la opción menos mala que hay. El discurso de «la solución perfecta o no hacer nada» es simplemente el deseo normal de no querer ser evaluados, ni alumnos, ni profesores, ni los padres de los alumnos, que pradójicamente quieren que evalúen a los profesores, pero no a través de único mecanismo posible: Evaluando a su hijo antes.
Carlos Jerez dice:

19 abril, 2016 a las 14:10

Hay evidencia de escuelas que separen docentes de examinadores?
Pau Arlandis Martinez dice:

19 abril, 2016 a las 16:15

La evaluación de docentes es un tema siempre espinoso ya que es realmente complicado crear un sistema que sea al mismo tiempo fiable y no suponga una carga extra para el trabajo del docente. Hasta donde se ningún sistema lo ha conseguido. Los que parecen fiables suelen suponer trabajo inútil para los profesores, directores y otros profesionales del sector lo que puede hacer que por un lado baje el rendimiento de los docentes y, por otro, que se trate de forma injusta a docentes con rendimientos medios que no son capaces de mejorar porque, en general, no saben como. Los sistemas más ligeros suelen hacer que todos los profesores tengan un buen rendimiento y eso, estadísticas en mano es claramente falso. Todo un reto para los encargados de este tema.

Conozco bastante bien el ejemplo de Inglaterra, donde el sistema de evaluación docente es extremo hasta el punto que el sueldo del docente (el más bajo sobre el pib de toda la unión europea) está prácticamente supeditado al supuesto rendimiento en este sistema que da un gran peso a las evaluaciones nacionales de los alumnos. ¿El resultado? No podría ser peor: profesores haciendo el trabajo que no quieren hacer los alumnos (cuadernos sobre todo) pero que se evalúan en el sistema, trampeo absoluto de las pruebas nacionales, una enseñanza totalmente volcada en esos exámenes en concreto y un nivel educativo general lamentable. Además de unos profesores absolutamente frustrados y estresados.

No todo puede ser evaluar al docente por el rendimiento de sus alumnos sobre todo si no se pone ningún medio para solventar los problemas que puedan sacar a relucir estos sistemas de evaluación. En España, por ejemplo, no necesitamos un sistema de evaluación antes de una inversión en innovación educativa. Dinero que llevan sin ver los colegios españoles desde que comenzó y en el fondo la clave no está en saber si tus profesores son buenos o no sino en si eres capaz de mejorarlos. Muchas veces se prefiere antes lo primero que trabajar en lo segundo.
Juan Illarramendi dice:

19 abril, 2016 a las 18:51

A las objeciones ya señaladas, añadiría otra que es la relación entre desempeño académico y desarrollo educativo. Es muy diferente hacer bien un examen o desarrollar un competencia.
Otro aspecto que como profesor me empieza a tener mosca es pensar que el eje de un desarrollo educativo satisfactorio son los profesores, por raro que pueda parecer que yo diga esto. Lo mismo me pasa con el ISEC. Por mi experiencia, cada vez veo como más importante el grado de implicación de las familias, diría que verdaderamente lo más importante. Al fin y al cabo, yo soy el mismo profesor para un grupo con ISEC homogéneo y las diferencias no se explican, en su mayor parte, por diferencias en la capacidad cognoscitiva.
Como lector asiduo pido 🙂 una entrada sobre la escala de valores, implicación y prácticas educativas dentro del hogar y su relación con el desarrollo educativo.
Me ha gustado mucho la entrada, últimamente las de educación me estaban pareciendo flojitas pero esta es de agradecer. ¡Gracias!
Agustín dice:

21 abril, 2016 a las 00:03

Siempre habrá elementos en el proceso educativo irreductibles a estándares. Y más tratandose de areas de conocimiento y patrones de conducta tan diferentes como ciencias, matemáticas, sociedad, ciudadanía, artes… Tanto empeño cuantificador… De mis estudios de metodología sociológica traigo aquí la idea de que la cantidad es otra cualidad más de los fenómenos humanos. Habrá quien aprecie un rechazo a la evaluación del profesorado, que lo hay, pero… Por qué no hay estudios medianamente claros sobre este tema? Por qué los especialistas no son capaces de llegar a conclusiones definitivas? Sigan, sigan con sus investigaciones, siempre a remolque de una realidad compleja y cambiante, que supera con creces enfoques simplistas como los que se apoyan en un examen.
- Lester dice:
  
  21 abril, 2016 a las 16:27
  
  Por tanto dejémoslo ahí. Es un conocimiento vedado para el hombre. Non plus utra, más allá hay dragones.
  
  Así es como ha progresado la humanidad, cuando las realidades son complejas y cambiantes, se deja por imposible y se les da anatema.
Agustín dice:

21 abril, 2016 a las 19:59

O bien cambiemos de estrategia, profundicemos en la formación inicial y permanente del profesorado, impliquemos a las familias en el proceso educativo, como se dice en otro comentario. Y cómo se hace todo esto? Pues mire usted, no soy especialista en evaluación de políticas educativas, pero sí soy tremendamente escéptico respecto a los ejemplos estadounidense y británico de los que aquí se habla.
Los 11 mejores enlaces sobre economía y sociedad para entender qué está pasando - dice:

24 abril, 2016 a las 14:35

[…] la forma de evaluar y hacer que los profesores rindan cuentas por la calidad de su trabajo. En Politikon nos cuentan el caso de Estados […]
Los 11 mejores enlaces sobre economía y sociedad para entender qué está pasando dice:

24 abril, 2016 a las 14:50

[…] la forma de evaluar y hacer que los profesores rindan cuentas por la calidad de su trabajo. En Politikon nos cuentan el caso de Estados […]
¿Se puede medir la calidad del profesorado? » Politikon dice:

10 mayo, 2016 a las 10:00

[…] de inducción a la docencia para mejorar la calidad y ofrecer una carrera profesional atractiva, de evaluación e incentivos en la docencia y del impacto que estas políticas han tenido en Estados Unidos, o de los problemas de […]
¿Se puede medir la calidad del profesorado? dice:

10 mayo, 2016 a las 15:00

[…] de inducción a la docencia para mejorar la calidad y ofrecer una carrera profesional atractiva, de evaluación e incentivos en la docencia y del impacto que estas políticas han tenido en Estados Unidos, o de los problemas de […]

Comments are closed.

Comments RSS Feed