Juicio comparativo adaptativo
El juicio comparativo adaptativo es una técnica prestada de la psicofísica que puede generar resultados confiables para la evaluación educativa, por lo que es una alternativa a la calificación tradicional del guión del examen. En el enfoque, a los jueces se les presentan pares de trabajo de los estudiantes y luego se les pide que elijan cuál es mejor, uno u otro.
Por medio de un algoritmo iterativo y adaptativo, se puede obtener una distribución a escala del trabajo del alumno sin referencia a los criterios.
Introducción
El marcado de guiones de examen tradicional comenzó en Cambridge 1792 cuando, con el aumento de los números de pregrado, la importancia de una clasificación adecuada de los estudiantes fue creciendo. Entonces, en 1792, el nuevo Proctor de exámenes, William Farish, introdujo la calificación, un proceso en el que cada examinador otorga una puntuación numérica a cada respuesta de cada estudiante, y la calificación total general coloca a los estudiantes en el orden de rango final.
Francis Galton (1869) señaló que, en un año no identificado alrededor de 1863, el Senior Wrangler obtuvo 7,634 de un máximo de 17,000, mientras que el Segundo Wrangler obtuvo 4,123. (La ‘Cuchara de madera’ obtuvo solo 237).
Antes de 1792, un equipo de examinadores de Cambridge se reunió a las 5 de la tarde del último día de examen, revisó los 19 documentos que cada estudiante había presentado y publicó su orden de clasificación a la medianoche. El marcado resolvió los problemas de los números y evitó el sesgo personal injusto, y su introducción fue un paso hacia la prueba objetiva moderna, el formato que mejor se adapta.
Pero la tecnología de prueba que siguió, con su mayor énfasis en la confiabilidad y la automatización de la calificación, ha sido un socio incómodo para algunas áreas de logros educativos: evaluar la escritura o el habla, y otros tipos de desempeño necesitan algo más cualitativo y crítico.
La técnica del juicio comparativo adaptativo es una alternativa al marcado. Vuelve a la idea anterior a 1792 de clasificar los papeles según su calidad, pero conserva la garantía de fiabilidad y equidad. Es, con mucho, la forma más confiable conocida de calificar ensayos o interpretaciones más complejas.
Es mucho más simple que marcar y ha sido preferido por casi todos los examinadores que lo han probado. El verdadero atractivo del juicio adaptativo comparativo radica en cómo puede volver a profesionalizar la actividad de evaluación y cómo puede volver a integrar la evaluación con el aprendizaje.
Historia
La ley del juicio comparativo de Thurstone
No existe el juicio absoluto»
Laming (2004)
La ciencia del juicio comparativo comenzó con Louis Leon Thurstone, de la Universidad de Chicago. Pionero de la psicofísica, propuso varias formas de construir escalas para medir la sensación y otras propiedades psicológicas. Una de ellas fue la ley del juicio comparativo (Thurstone, 1927a, 1927b), que definió una forma matemática de modelar la posibilidad de que un objeto ‘venza’ a otro en una comparación, dados los valores para la ‘calidad ‘ de cada.
Esto es todo lo que se necesita para construir un sistema de medición completo.
Una variación de su modelo (ver Comparación de pares y el modelo BTL), establece que la diferencia entre sus valores de calidad es igual al registro de las probabilidades de que el objeto-A supere al objeto-B:
Antes de la disponibilidad de las computadoras modernas, las matemáticas necesarias para calcular los «valores» de la calidad de cada objeto significaban que el método solo podía usarse con pequeños conjuntos de objetos, y su aplicación era limitada. Para Thurstone, los objetos eran generalmente sensaciones, como la intensidad, o actitudes, como la gravedad de los crímenes, o las declaraciones de opiniones.
Los investigadores sociales continuaron utilizando el método, al igual que los investigadores de mercado para quienes los objetos podrían ser diferentes diseños de habitaciones de hotel o variaciones en una nueva galleta propuesta.
En los años setenta y ochenta, el juicio comparativo apareció, casi por primera vez en la evaluación educativa, como una base teórica o precursora de las nuevas Teorías de respuesta latente o Rasgo latente. (Andrich, 1978). Estos modelos ahora son estándar, especialmente en bancos de artículos y sistemas de prueba adaptativos.
Reintroducción en la educación
El primer artículo publicado que usó Juicio comparativo en educación fue Pollitt & Murray (1994), esencialmente un trabajo de investigación sobre la naturaleza de la escala de dominio del inglés evaluada en la parte oral del examen CPE de Cambridge. Los objetos eran candidatos, representados por fragmentos de grabaciones de video de 2 minutos de sus sesiones de prueba, y los jueces eran estudiantes de posgrado de Lingüística sin capacitación en evaluación.
Los jueces compararon pares de fragmentos de video, simplemente informaron que creían que era el mejor estudiante y luego fueron entrevistados clínicamente para obtener las razones de sus decisiones.
Pollitt luego presentó Juicio comparativo a los organismos de adjudicación del Reino Unido, como un método para comparar los estándares de A Levels de diferentes juntas. El juicio comparativo reemplazó su método existente que requería el juicio directo de un guión contra el estándar oficial de una junta diferente.
Durante los primeros dos o tres años de esto, Pollitt llevó a cabo todos los análisis de todas las juntas, utilizando un programa que había escrito para tal fin. Inmediatamente se convirtió en el único método experimental utilizado para investigar la comparabilidad de exámenes en el Reino Unido; Las aplicaciones para este propósito desde 1996 hasta 2006 se describen en su totalidad en Bramley (2007).
En 2004, Pollitt presentó un documento en la conferencia de la Asociación Internacional para la Evaluación Educativa titulado Let’s Stop Marking Exams, y otro en la misma conferencia en 2009 titulado Abolishing Marksism. En cada trabajo, el objetivo era convencer a la comunidad de evaluación de que había ventajas significativas al usar el Juicio Comparativo en lugar de marcar para algunos tipos de evaluación.
En 2010 presentó un documento en la Asociación para la Evaluación Educativa – Europa, Cómo evaluar la escritura de manera confiable y válida, que presentó evidencia de la extraordinariamente alta confiabilidad que se ha logrado con Juicio comparativo en la evaluación de las habilidades de los alumnos de primaria en inglés de primer idioma.
Escritura.
Juicio comparativo adaptativo
El juicio comparativo se convierte en una alternativa viable al marcado cuando se implementa como un sistema de evaluación adaptable basado en la web. En esto, las ‘puntuaciones’ (el parámetro modelo para cada objeto) se vuelven a estimar después de cada ‘ronda’ de juicios en los que, en promedio, cada objeto ha sido juzgado una vez más.
En la siguiente ronda, cada guión se compara solo con otro cuyo puntaje estimado actual es similar, lo que aumenta la cantidad de información estadística contenida en cada juicio. Como resultado, el procedimiento de estimación es más eficiente que el emparejamiento aleatorio o cualquier otro sistema de emparejamiento predeterminado como los utilizados en las aplicaciones clásicas de juicio comparativo.
Pollitt, 2012).
Al igual que con las pruebas adaptativas por computadora, esta adaptabilidad maximiza la eficiencia del procedimiento de estimación, aumentando la separación de los puntajes y reduciendo los errores estándar. La ventaja más obvia es que esto produce una fiabilidad significativamente mejorada, en comparación con la evaluación por marcado, sin pérdida de validez.
No está claro si el juicio comparativo adaptativo realmente aumenta la confiabilidad. (Bramley, Vitello, 2016).
Proyectos actuales de juicio comparativo
Evaluación digital
La plataforma Digital Evaluation es el sistema original de juicio comparativo adaptativo. El sistema está diseñado para ejecutarse en despliegues a escala de Juicios Comparativos Adaptativos y se ha utilizado en todo el mundo en una amplia gama de contextos. Actualmente, la compañía está desarrollando nuevas versiones del enfoque que utilizan el aprendizaje automático para reducir sustancialmente el número de juicios requeridos.
Proyectos de juicio comparativo de código abierto
La Plataforma Digital para la Evaluación de Competencias (D-PAC) es un consorcio con la Universidad de Amberes, iMinds y la Universidad de Gante para crear una aplicación de juicio comparativo de código abierto. D-PAC, en colaboración con No More Marking Ltd, ha lanzado los algoritmos que impulsan www.nomoremarking.com bajo la LICENCIA PÚBLICA GENERAL GNU Versión 3, 29 de junio de 2007
Juicio comparativo gratuito basado en la web
No More Marking ha creado una aplicación gratuita en línea de Juicio comparativo, junto con un repositorio de información útil.
E-scape
La primera aplicación de Juicio comparativo a la evaluación directa de estudiantes fue en un proyecto llamado e-scape, dirigido por el profesor Richard Kimbell del Goldsmiths College de la Universidad de Londres (Kimbell & Pollitt, 2008). El trabajo de desarrollo se llevó a cabo en colaboración con varios organismos premiados en un curso de Diseño y Tecnología.
El equipo de Kimbell desarrolló un proyecto sofisticado y auténtico en el que los estudiantes debían desarrollar, en cuanto a un prototipo, un objeto como un dispensador de píldoras para niños en dos sesiones supervisadas de tres horas.
El sistema de juicio basado en la web fue diseñado por Karim Derrick y Declan Lynch de TAG Developments, ahora parte de Digital Evaluation, y basado en el sistema de cartera de evaluación MAPS (software) original, ahora conocido como Manage. Goldsmiths, TAG Developments y Pollitt realizaron tres ensayos, aumentando el tamaño de la muestra de 20 a 249 estudiantes, y desarrollando tanto el sistema de evaluación como el sistema de evaluación.
Hay tres pilotos, que involucran Geografía y Ciencia, así como el original en Diseño y Tecnología.
Escritura de la escuela primaria
A finales de 2009, TAG Developments y Pollitt probaron una nueva versión del sistema para evaluar la escritura. Un equipo de 54 jueces evaluó un total de 1000 guiones de escuelas primarias en un contexto de evaluación nacional simulado. La confiabilidad de los puntajes resultantes después de que cada guión haya sido juzgado 16 veces fue de 0.96, considerablemente mayor que en cualquier otro estudio reportado de evaluación de escritura similar.
El desarrollo posterior del sistema ha demostrado que se puede alcanzar una confiabilidad de 0,93 después de aproximadamente 9 juicios de cada secuencia de comandos, cuando el sistema no es más costoso que el marcado único, pero aún es mucho más confiable.
Otros proyectos
Varios proyectos están en marcha actualmente, en Inglaterra, Escocia, Irlanda, Israel, Singapur y Australia. Varían desde la escuela primaria hasta la universidad en su contexto, e incluyen evaluaciones formativas y sumativas, desde escritura hasta matemáticas. El sistema web básico ahora está disponible en una base comercial de TAG Assessment ( http://www.tagassessment.com ), y puede modificarse para satisfacer necesidades específicas.
ACJ ha sido utilizado por Seery, Canty, Gordon y Lane en la Universidad de Limerick, Irlanda para evaluar el trabajo de los estudiantes de pregrado en los programas de formación inicial del profesorado desde 2009. ACJ también ha sido utilizado por el Dr. Bartholomew en la Universidad de Purdue para evaluar las carteras de diseño en el medio, estudiantes de secundaria y universitarios.
Bartholomew también ha utilizado ACJ como una herramienta de enseñanza y aprendizaje de evaluación formativa para problemas abiertos.