Generación automática de artículos
La generación automática de artículos (AIG), o generación automática de artículos, es un proceso que vincula la psicometría con la programación de computadoras. Utiliza un algoritmo informático para crear automáticamente elementos de prueba que son los componentes básicos de una prueba psicológica. El método fue descrito por primera vez por John R.
Bormuth en la década de 1960, pero no se desarrolló hasta hace poco. AIG utiliza un proceso de dos pasos: primero, un especialista en pruebas crea una plantilla llamada modelo de ítem; luego, se desarrolla un algoritmo informático para generar elementos de prueba. Entonces, en lugar de que un especialista en pruebas escriba cada elemento individual, los algoritmos informáticos generan familias de elementos a partir de un conjunto más pequeño de modelos de elementos principales.
Contexto
En las pruebas psicológicas, las respuestas del examinado a los elementos de prueba proporcionan datos de medición objetivos para una variedad de características humanas. Algunas características medidas por pruebas psicológicas y educativas incluyen habilidades académicas, rendimiento escolar, inteligencia, motivación, etc.
Y estas pruebas se usan con frecuencia para tomar decisiones que tienen consecuencias significativas en individuos o grupos de individuos. Lograr estándares de calidad de medición, como la validez de la prueba, es uno de los objetivos más importantes para los psicólogos y educadores. AIG es un enfoque para el desarrollo de pruebas que se puede utilizar para mantener y mejorar la calidad de las pruebas económicamente en el entorno contemporáneo donde las pruebas computarizadas han aumentado la necesidad de un gran número de elementos de prueba.
Beneficios
AIG reduce el costo de producir pruebas estandarizadas, ya que los algoritmos pueden generar muchos más elementos en un período de tiempo determinado que un especialista en pruebas en humanos. Puede crear rápida y fácilmente formularios de prueba paralelos, lo que permite que diferentes examinados estén expuestos a diferentes grupos de elementos de prueba con el mismo nivel de complejidad o dificultad, mejorando así la seguridad de la prueba.
Cuando se combina con pruebas adaptativas computarizadas, AIG puede generar nuevos elementos o seleccionar qué elementos ya generados se deben administrar a continuación en función de la capacidad del examinado durante la administración de la prueba. También se espera que AIG produzca artículos con una amplia gama de dificultades, menos errores en la construcción, y se espera que permita una mayor comparabilidad de los artículos debido a una definición más sistemática del modelo prototípico de artículos.
Radicales, imprevistos e isomorfos
El desarrollo de pruebas (incluido AIG) puede enriquecerse si se basa en alguna teoría cognitiva. Los procesos cognitivos tomados de una teoría dada a menudo se combinan con las características del elemento durante su construcción. El propósito de esto es predeterminar un parámetro psicométrico dado, como la dificultad del elemento (de ahora en adelante:
Β ). Deje que los radicales sean aquellos elementos estructurales que afectan significativamente los parámetros del ítem y le proporcionan ciertos requisitos cognitivos. Se pueden manipular uno o más radicales del modelo de artículo para producir modelos de artículo padre con diferentes niveles de parámetros (por ejemplo, β ).
Cada padre puede desarrollar su propia familia manipulando otros elementos que Irvine llamó imprevistos.. Los incidentes son características de la superficie que sufren variaciones aleatorias de un elemento a otro dentro de la misma familia. Los artículos que tienen la misma estructura de radicales y que solo difieren en imprevistos generalmente se etiquetan como isomorfos o clones.
Puede haber dos tipos de clonación de artículos: por un lado, el modelo de artículo puede consistir en un artículo con uno o más lugares abiertos, y la clonación se realiza al llenar cada lugar con un elemento seleccionado de una lista de posibilidades Por otro lado, el modelo de elemento podría ser un elemento intacto que se clona mediante la introducción de transformaciones, por ejemplo, cambiando el ángulo de un objeto de pruebas de habilidad espacial.La variación de las características de la superficie de estos elementos no debe influir significativamente en las respuestas del testado.
Esta es la razón por la cual se cree que los incidentes producen solo pequeñas diferencias entre los parámetros de los isomorfos.
Desarrollos actuales
Varios generadores de artículos han sido sometidos a pruebas de validación objetivas.
MathGen es un programa que genera elementos para evaluar el rendimiento matemático. En un artículo de 2018 para el Journal of Educational Measurement, los autores Embretson y Kingston realizaron una extensa revisión cualitativa y pruebas empíricas para evaluar las propiedades cualitativas y psicométricas de los artículos generados, concluyendo que los artículos fueron exitosos y que los artículos se generaron a partir del mismo artículo.
La estructura tenía propiedades psicométricas predecibles.
Una prueba de discriminación melódica desarrollada con la ayuda del modelo computacional Rachman-Jun 2015 se administró a los participantes en un ensayo de 2017. Según los datos recopilados por PM Harrison et al., Los resultados demuestran una fuerte validez y fiabilidad.
Ferreyra y Backhoff-Escudero generaron dos versiones paralelas del Examen de Competencias Básicas (Excoba), una prueba general de habilidades educativas, utilizando un programa que desarrollaron llamado GenerEx. Luego estudiaron la estructura interna, así como la equivalencia psicométrica de las pruebas creadas.
Los resultados empíricos de la calidad psicométrica son favorables en general, y las pruebas y los ítems son consistentes según lo medido por múltiples índices psicométricos.
Gierl y sus colegas utilizaron un programa AIG llamado Generador de elementos (IGOR ) para crear elementos de opción múltiple que evalúan el conocimiento médico. Los artículos generados por IGOR, incluso en comparación con los artículos diseñados manualmente, mostraron buenas propiedades psicométricas.
Arendasy, Sommer y Mayr usaron AIG para crear elementos verbales para evaluar la fluidez verbal en alemán e inglés, administrándolos a los participantes de habla alemana e inglesa respectivamente. Los artículos generados por computadora mostraron propiedades psicométricas aceptables. Los conjuntos de ítems administrados a estos dos grupos se basaron en un conjunto común de ítems de anclaje interlenguaje, lo que facilitó las comparaciones de rendimiento entre idiomas.
Holling, Bertling y Zeuch utilizaron la teoría de la probabilidad para generar automáticamente problemas matemáticos de palabras con las dificultades esperadas. Lograron un ajuste del modelo Rasch y las dificultades del ítem podrían explicarse por el Modelo de Prueba Logística Lineal (LLTM ), así como por el LLTM de Efectos Aleatorios.
Holling, Blank, Kuchenbäcker y Kuhn realizaron un estudio similar con problemas estadísticos de palabras pero sin utilizar AIG. Arendasy y sus colegas presentaron estudios sobre problemas verbales de álgebra generados automáticamente y examinaron cómo un marco de control de calidad de AIG puede afectar la calidad de medición de los artículos.
Generación automática de elementos figurativos
Item Maker (IMak) es un programa escrito en el lenguaje de programación R para trazar elementos de analogía figurativa. Se descubrió que las propiedades psicométricas de 23 ítems generados por IMak eran satisfactorias, y la dificultad del ítem basada en la generación de reglas podría predecirse mediante el Modelo de Prueba Logística Lineal (LLTM).
MazeGen es otro programa codificado con R que genera laberintos automáticamente. Se descubrió que las propiedades psicométricas de 18 de estos laberintos eran óptimas, incluido el ajuste del modelo Rasch y la predicción LLTM de la dificultad del laberinto.
GeomGen es un programa que genera matrices figurativas. Un estudio que identificó fuentes de sesgo de medición relacionadas con las estrategias de eliminación de respuestas para los ítems de matriz figurativa concluyó que la prominencia del distractor favorece la búsqueda de estrategias de eliminación de respuestas y que este conocimiento podría incorporarse a AIG para mejorar la validez de constructo de dichos ítems.
El mismo grupo utilizó AIG para estudiar el funcionamiento diferencial de los ítems (DIF) y las diferencias de género asociadas con la rotación mental. Manipularon las características de diseño de elementos que han exhibido DIF de género en estudios anteriores, y mostraron que las estimaciones del tamaño del efecto de las diferencias de género se vieron comprometidas por la presencia de diferentes tipos de DIF de género que podrían estar relacionadas con características específicas de diseño de elementos.
Arendasy también estudió posibles violaciones de la calidad psicométrica identificada utilizando la teoría de respuesta al ítem (IRT) de ítems de razonamiento visoespacial generados automáticamente. Para este propósito, presentó dos programas, a saber: el ya mencionado GeomGen y el Endless Loop Generator (EsGen).
Llegó a la conclusión de que GeomGen era más adecuado para AIG porque los principios IRT se pueden incorporar durante la generación de elementos. En un proyecto de investigación paralelo con GeomGen, Arendasy y Sommerdescubrieron que la variación de la organización perceptiva de los ítems podría influir en el desempeño de los encuestados dependiendo de sus niveles de habilidad y que tenía un efecto en varios índices de calidad psicométrica.
Con estos resultados, cuestionaron la suposición de unidimensionalidad de los ítems de la matriz figurativa en general.
MatrixDeveloper se utilizó para generar veinticinco elementos de matriz cuadrada de 4×4 automáticamente. Estos artículos fueron administrados a 169 individuos. Según los resultados de la investigación, los ítems muestran un buen ajuste del modelo Rasch, y la generación basada en reglas puede explicar la dificultad del ítem.
El primer generador de matriz de ítems conocido fue diseñado por Embretson, y sus ítems generados automáticamente demostraron buenas propiedades psicométricas, como lo demuestran Embretson y Reise. También propuso un modelo para la generación adecuada de artículos en línea.