Funcionamiento diferencial del artículo
El funcionamiento diferencial del ítem ( DIF ) es una característica estadística de un ítem que muestra hasta qué punto el ítem podría estar midiendo diferentes habilidades para miembros de subgrupos separados. Los puntajes promedio de los ítems para subgrupos que tienen el mismo puntaje general en la prueba se comparan para determinar si el ítem se mide esencialmente de la misma manera para todos los subgrupos.
La presencia de DIF requiere revisión y juicio, y no necesariamente indica la presencia de sesgo. El análisis DIF proporciona una indicación del comportamiento inesperado de los elementos en una prueba. Un elemento no muestra DIF si las personas de diferentes grupos tienen una probabilidad diferente de dar una respuesta determinada;
Muestra DIF si y solo si personas de diferentes gruposcon la misma habilidad verdadera subyacente tienen una probabilidad diferente de dar una respuesta determinada. Los procedimientos comunes para evaluar DIF son Mantel-Haenszel, métodos basados en la teoría de respuesta al ítem (IRT) y regresión logística.
Descripción
DIF se refiere a las diferencias en el funcionamiento de los ítems entre los grupos, a menudo demográficos, que se corresponden con el rasgo latente o, más generalmente, el atributo que se mide con los ítems o la prueba. Es importante tener en cuenta que cuando se examinan los elementos para DIF, los grupos deben coincidir con el atributo medido, de lo contrario, esto puede resultar en una detección inexacta de DIF.
Para crear una comprensión general de DIF o sesgo de medición, considere el siguiente ejemplo ofrecido por Osterlind y Everson (2009). En este caso, Y se refiere a una respuesta a un elemento de prueba particular que está determinada por la construcción latentesiendo medido La construcción latente de interés se conoce como theta (θ) donde Y es un indicador de θ que se puede organizar en términos de la distribución de probabilidad de Y en θ mediante la expresión f (Y) ;
Θ. Por lo tanto, la respuesta Y está condicionada al rasgo latente (θ). Debido a que DIF examina las diferencias en las probabilidades condicionales de Y entre los grupos, etiquetemos los grupos como grupos de «referencia» y «focales». Aunque la designación no importa, una práctica típica en la literatura es designar al grupo de referencia como el grupo del que se sospecha que tiene una ventaja, mientras que el grupo focal se refiere al grupo que se anticipa que está en desventaja por la prueba.
Por lo tanto, dada la relación funcional{\ displaystyle f (Y) ; \ theta}{\ displaystyle f (Y) ; \ theta}y bajo el supuesto de que existen distribuciones de error de medición idénticas para los grupos focales y de referencia, se puede concluir que bajo la hipótesis nula :
Con G correspondiente a la variable de agrupación, «r» el grupo de referencia y «f» el grupo focal. Esta ecuación representa una instancia donde DIF no está presente. En este caso, la ausencia de DIF está determinada por el hecho de que la probabilidad condicionalla distribución de Y no depende de la membresía del grupo.
Para ilustrar, considere un elemento con las opciones de respuesta 0 y 1, donde Y = 0 indica una respuesta incorrecta e Y = 1 indica una respuesta correcta. La probabilidad de responder correctamente a un elemento es la misma para los miembros de cualquier grupo. Esto indica que no hay sesgo de DIF o elemento porque los miembros de la referencia y el grupo focal con la misma habilidad o atributo subyacente tienen la misma probabilidad de responder correctamente.
Por lo tanto, no hay sesgo o desventaja para un grupo sobre el otro. Considere la instancia donde la probabilidad condicional de Y no es la misma para los grupos de referencia y focales. En otras palabras, los miembros de diferentes grupos con el mismo rasgo o nivel de habilidad tienen distribuciones de probabilidad desiguales en Y.
Una vez que controlan por θ, Existe una clara dependencia entre la pertenencia al grupo y el rendimiento de un elemento. porítems dicotómicos, esto sugiere que cuando los grupos focales y de referencia están en la misma ubicación en θ, existe una probabilidad diferente de obtener una respuesta correcta o respaldar un ítem.
Por lo tanto, el grupo con la mayor probabilidad condicional de responder correctamente a un ítem es el grupo que se beneficia del ítem de prueba. Esto sugiere que el elemento de prueba está sesgado y funciona de manera diferente para los grupos, por lo tanto, exhibe DIF. Es importante establecer la distinción entre DIF o sesgo de medición y las diferencias de grupo ordinarias.
Mientras que las diferencias de grupo indican diferentes distribuciones de puntaje en Y, DIF implica explícitamente el condicionamiento en θ. Por ejemplo, considere la siguiente ecuación:
Esto indica que la puntuación de un examinado está condicionada a la agrupación, de modo que tener información sobre la pertenencia al grupo cambia la probabilidad de una respuesta correcta. Por lo tanto, si los grupos difieren en θ, y el rendimiento depende de θ, entonces la ecuación anterior sugeriría un sesgo de ítem incluso en ausencia de DIF.
Por esta razón, en la literatura sobre mediciones generalmente se acuerda que las diferencias en Y condicionadas solo a la pertenencia a un grupo son inadecuadas para establecer un sesgo. De hecho, las diferencias en θ o habilidad son comunes entre los grupos y establecen la base para mucha investigación.
Recuerde establecer un sesgo o DIF, los grupos deben coincidir en θ y luego demostrar las probabilidades diferenciales en Y en función de la pertenencia al grupo.
Formularios
El DIF uniforme es el tipo más simple de DIF donde la magnitud de la dependencia condicional es relativamente invariable en todo el rasgo continuo latente (θ). El ítem de interés consistentemente le da a un grupo una ventaja en todos los niveles de habilidad θ. Dentro de un marco de teoría de respuesta al ítem (IRT) esto se evidenciaría cuando ambas curvas características del ítem (ICC) son igualmente discriminatorias pero exhiben diferencias en los parámetros de dificultad (es decir, a r = a f y b r
En lugar de otorgar una ventaja consistente al grupo de referencia a través del continuo de habilidades, la dependencia condicional se mueve y cambia de dirección en diferentes ubicaciones en el continuo θ. Por ejemplo, un elemento puede dar al grupo de referencia una ventaja menor en el extremo inferior del continuo, mientras que una ventaja mayor en el extremo superior.
Además, a diferencia del DIF uniforme, un elemento puede variar simultáneamente en la discriminación para los dos grupos, pero también puede variar en dificultad (es decir, a r ≠ a f y b r
Las diferencias en los ICC indican que los examinados de los dos grupos con niveles de habilidad idénticos tienen probabilidades desiguales de responder correctamente a un elemento. Cuando las curvas son diferentes pero no se cruzan, esto es evidencia de DIF uniforme. Sin embargo, si los ICC se cruzan en cualquier punto a lo largo de la escala θ, hay evidencia de DIF no uniforme.
Procedimientos para detectar DIF
Mantel-Haenszel
Un procedimiento común para detectar DIF es el enfoque Mantel-Haenszel (MH). El procedimiento MH es un enfoque basado en la tabla de contingencia chi-cuadrado que examina las diferencias entre los grupos de referencia y focales en todos los elementos de la prueba, uno por uno. El continuo de habilidades, definido por los puntajes totales de las pruebas, se divide en k intervalos que luego sirven como base para unir a los miembros de ambos grupos.
Se utiliza una tabla de contingencia de 2 x 2 en cada intervalo de kcomparar ambos grupos en un artículo individual. Las filas de la tabla de contingencia corresponden a la pertenencia al grupo (referencia o focal) mientras que las columnas corresponden a respuestas correctas o incorrectas. La siguiente tabla presenta la forma general de un solo elemento en el k ésimo intervalo de habilidad.
Odds ratio
El siguiente paso en el cálculo de la estadística MH es utilizar los datos de la tabla de contingencia para obtener una razón de probabilidades para los dos grupos en el elemento de interés en un intervalo k particular. Esto se expresa en términos de p y q donde p representa la proporción correcta yq la proporción incorrecta para los grupos de referencia (R) y focal (F).
Para el procedimiento MH, la odds ratio obtenida está representada por α con un posible valor que varía de 0 a ∞. A αel valor de 1.0 indica una ausencia de DIF y, por lo tanto, un rendimiento similar en ambos grupos. Los valores superiores a 1.0 sugieren que el grupo de referencia superó o encontró el ítem menos difícil que el grupo focal.
Por otro lado, si el valor obtenido es menor a 1.0, esto es una indicación de que el ítem fue menos difícil para el grupo focal. El uso de las variables de la tabla de contingencia de arriba, el cálculo es como sigue: α = (p Rk / q Rk ) / (p Fk / q Fk ) = (A k / (A k B k )) / (B k / (A k Bk )) / (C k / (C k D k )) / (D k / (C k D k )) = (A k / B k ) / (C k / D k ) = A k D k ⁄ B k C k El cálculo anterior se refiere a un elemento individual en un solo intervalo de habilidad.
La estimación de la poblaciónαpuede extenderse para reflejar una razón de probabilidad común en todos los intervalos de habilidadkpara un artículo específico El odds común estimador de razón se denota α MH y se puede calcular por la siguiente ecuación: α MH = Σ (A k D k / N k ) / Σ (B k C k / N k )
Para todos los valores de k y donde N k representa el tamaño total de la muestra en el késimo intervalo. El α MH obtenido a menudo se estandariza a través de la transformación logarítmica, centrando el valor alrededor de 0. El nuevo estimador transformado MH D-DIFse calcula de la siguiente manera: MH D-DIF = -2.35ln (α MH ) Por lo tanto, un valor obtenido de 0 indicaría que no hay DIF.
Al examinar la ecuación, es importante tener en cuenta que el signo menos cambia la interpretación de los valores menores o mayores que 0. Los valores menores que 0 indican una ventaja del grupo de referencia, mientras que los valores mayores que 0 indican una ventaja para el grupo focal.
Teoría de respuesta al ítem
La teoría de respuesta al ítem (IRT) es otro método ampliamente utilizado para evaluar el DIF. IRT permite un examen crítico de las respuestas a elementos particulares de una prueba o medida. Como se señaló anteriormente, DIF examina la probabilidad de responder correctamente o respaldar un elemento condicionado al rasgo o habilidad latente.
Debido a que IRT examina la relación monotónica entre las respuestas y el rasgo o habilidad latente, es un enfoque apropiado para examinar DIF. Tres ventajas principales de usar IRT en la detección DIF son:
En comparación con la teoría de prueba clásica, las estimaciones de los parámetros IRT no están tan confundidas por las características de la muestra.
Las propiedades estadísticas de los elementos se pueden expresar con mayor precisión, lo que aumenta la precisión de interpretación de DIF entre dos grupos.
Estas propiedades estadísticas de los ítems pueden expresarse gráficamente, mejorando la interpretabilidad y la comprensión de cómo los ítems funcionan de manera diferente entre los grupos.
En relación con el DIF, las estimaciones de los parámetros del ítem se calculan y se examinan gráficamente a través de curvas características del ítem (ICC), también denominadas líneas de traza o funciones de respuesta al ítem (IRF). Después del examen de los ICC y la sospecha posterior de DIF, se implementan procedimientos estadísticos para probar las diferencias entre las estimaciones de los parámetros.
Los ICC representan funciones matemáticas de la relación entre el posicionamiento en el rasgo latente continuo y la probabilidad de dar una respuesta particular. La Figura 3 ilustra esta relación como una función logística.. Las personas con un rasgo latente inferior o con menos capacidad tienen una probabilidad menor de obtener una respuesta correcta o de respaldar un elemento, especialmente a medida que aumenta la dificultad.
Por lo tanto, aquellos con un rasgo latente o con capacidad tienen una mayor probabilidad de una respuesta correcta o de respaldar un elemento. Por ejemplo, en un inventario de depresión, las personas muy deprimidas tendrían una mayor probabilidad de respaldar un artículo que las personas con depresión más baja.
Del mismo modo, las personas con mayor habilidad matemática tienen una mayor probabilidad de obtener un ítem matemático correcto que aquellos con menor habilidad. Otro aspecto crítico de los ICC se refiere al punto de inflexión. Este es el punto en la curva donde la probabilidad de una respuesta particular es.
Y también representa el valor máximo para la pendiente. Este punto de inflexión indica dónde la probabilidad de una respuesta correcta o endosar un ítem es mayor al 50%, excepto cuando un parámetro c es mayor que 0, que luego coloca el punto de inflexión en 1 c / 2 (a continuación se presenta una descripción abajo).
El punto de inflexión está determinado por la dificultad del elemento que corresponde a los valores de la habilidad o del rasgo latente continuo. Por lo tanto, para un objeto fácil, este punto de inflexión puede ser más bajo en el continuo de habilidades, mientras que para un objeto difícil puede ser más alto en la misma escala.
Antes de presentar procedimientos estadísticos para probar las diferencias de los parámetros de los ítems, es importante proporcionar una comprensión general de los diferentes modelos de estimación de parámetros y sus parámetros asociados. Estos incluyen los modelos logísticos (PL) de uno, dos y tres parámetros.
Todos estos modelos asumen un solo rasgo o habilidad latente subyacente. Los tres de estos modelos tienen un parámetro de dificultad de ítem denotado b. Para los modelos 1PL y 2PL, el parámetro b corresponde al punto de inflexión en la escala de habilidad, como se mencionó anteriormente. En el caso del modelo 3PL, la inflexión corresponde a 1 c / 2 donde ces una asíntota inferior (discutida más abajo).
Los valores de dificultad, en teoría, pueden variar de -∞ a ∞; sin embargo, en la práctica rara vez superan ± 3. Los valores más altos son indicativos de elementos de prueba más difíciles. Los artículos que exhiben parámetros bajos b son artículos de prueba fáciles. Otro parámetro que se estima es un parámetro de discriminación designado a.
Este parámetro se refiere a la capacidad de un elemento para discriminar entre individuos. El un parámetro se calcula en los modelos de 2 picolitros ya 3PL. En el caso del modelo 1PL, este parámetro está obligado a ser igual entre grupos. En relación con los CCI, el un parámetro es la pendiente del punto de inflexión.
Como se mencionó anteriormente, la pendiente es máxima en el punto de inflexión. El aparámetro, similar al parámetro b, puede variar de -∞ a ∞; sin embargo, los valores típicos son menores que 2. En este caso, un valor más alto indica una mayor discriminación entre individuos. El modelo 3PL tiene un parámetro adicional denominado parámetro de adivinanzas o pseudocance y se denota por c.
Esto corresponde a una asíntota más baja que esencialmente permite la posibilidad de que un individuo obtenga un elemento moderado o difícil, incluso si tiene poca capacidad. Los valores para c oscilan entre 0 y 1, sin embargo, generalmente caen por debajo de 0,3. Al aplicar procedimientos estadísticos para evaluar para DIF, la una y bparámetros (discriminación y dificultad) son de particular interés.
Sin embargo, suponga se utilizó un modelo 1PL, donde los unos parámetros se ven limitados a ser igual para ambos grupos dejando sólo la estimación de los b parámetros. Después de examinar los ICC, hay una diferencia aparente en los parámetros b para ambos grupos. Usando un método similar a la prueba t de Student, el siguiente paso es determinar si la diferencia de dificultad es estadísticamente significativa.
Bajo la hipótesis nula H 0 : b r = b f Lord (1980) proporciona una estadística de prueba fácilmente calculada y distribuida normalmente. d = (b r – bf ) / SE (b r – b f ) El error estándar de la diferencia entre losparámetros b se calcula por √ 2 √ 2
Estadística de Wald
Sin embargo, más común que no, un modelo 2PL o 3PL es más apropiado que ajustar un modelo 1PL a los datos y, por tanto, tanto los unos y b parámetros deben ser probados para DIF. Señor (1980) propuso otro método para probar diferencias tanto en los unos y b parámetros, donde c parámetros están obligados a ser igual en todos los grupos.
Esta prueba produce una estadística de Wald que sigue una distribución de chi-cuadrado. En este caso, la hipótesis nula que se está probando es H 0 : a r = a f y b r = b f. Primero, una matriz de covarianza de 2 x 2de las estimaciones de parámetros se calcula para cada grupo que están representados por S r y S f para los grupos de referencia y focales.
Estas matrices de covarianza se calculan invirtiendo las matrices de información obtenidas. A continuación, las diferencias entre los parámetros estimados se ponen en un vector 2 x 1 y se denota por V ‘= (a r – a f, b r – b f ) A continuación, la matriz de covarianza S se estima sumando S r y S f. Con esta información, la estadística de Wald se calcula de la siguiente manera:
Χ 2 = V’S −1 V que se evalúa a 2 grados de libertad.
Prueba de razón de probabilidad
La prueba de razón de probabilidad es otro método basado en IRT para evaluar DIF. Este procedimiento implica comparar la relación de dos modelos. Bajo el modelo (M c ), los parámetros de los ítems están obligados a ser iguales o invariables entre los grupos focales y de referencia. Bajo el modelo (M v ), los parámetros del artículo pueden variar libremente.
La función de probabilidad bajo M c se denota (L c ) mientras que la función de probabilidad bajo M v se designa (L v) Los elementos restringidos a ser iguales sirven como elementos de anclaje para este procedimiento, mientras que los elementos sospechosos de DIF pueden variar libremente. Mediante el uso de elementos de anclaje y permitiendo que varíen los parámetros de elementos restantes, se pueden evaluar simultáneamente varios elementos para DIF.
Sin embargo, si la razón de probabilidad indica DIF potencial, un análisis ítem por ítem sería apropiado para determinar qué ítems, si no todos, contienen DIF. La razón de probabilidad de los dos modelos se calcula mediante G 2 = 2ln Alternativamente, la razón se puede expresar mediante G 2 = -2ln donde L v y L cse invierten y luego se multiplican por -2ln.
G 2 sigue aproximadamente una distribución de chi cuadrado, especialmente con muestras más grandes. Por lo tanto, se evalúa por los grados de libertad que corresponden al número de restricciones necesarias para derivar el modelo restringido del modelo que varía libremente. Por ejemplo, si se utiliza un modelo 2PL y ambos a y b parámetros son libres para variar bajo M v y estas mismas dos parámetros se ven limitados en menos de M c, entonces la relación se evalúa en 2 grados de libertad.
Regresión logística
Los enfoques de regresión logística para la detección de DIF implican ejecutar un análisis separado para cada elemento. Las variables independientes incluidas en el análisis son la pertenencia a grupos, una variable de coincidencia de habilidades, generalmente un puntaje total, y un término de interacción entre los dos.
La variable de interés dependiente es la probabilidad o probabilidad de obtener una respuesta correcta o endosar un ítem. Debido a que el resultado de interés se expresa en términos de probabilidades, la estimación de máxima verosimilitud es el procedimiento apropiado. Este conjunto de variables se puede expresar mediante la siguiente ecuación de regresión:
Y = β 0 β 1 M β 2 G β 3 MG
Donde β 0 corresponde a la intersección o la probabilidad de una respuesta cuando M y G son iguales a 0 con β s restantescorrespondiente a los coeficientes de peso para cada variable independiente. La primera variable independiente, M, es la variable de emparejamiento utilizada para vincular a los individuos con la capacidad, en este caso una puntuación total de la prueba, similar a la empleada por el procedimiento Mantel-Haenszel.
La variable de pertenencia al grupo se denota G y en el caso de regresión se representa a través de variables codificadas ficticias. El término final MG corresponde a la interacción entre las dos variables mencionadas anteriormente. Para este procedimiento, las variables se ingresan jerárquicamente.
Siguiendo la estructura de la ecuación de regresión proporcionada anteriormente, las variables se ingresan mediante la siguiente secuencia: la variable de coincidencia M, la variable de agrupación G y la variable de interacción MG. La determinación de DIF se realiza evaluando la estadística de chi-cuadrado obtenida con 2 grados de libertad.
Adicionalmente, Se evalúa la importancia de la estimación de parámetros. A partir de los resultados de la regresión logística, DIF se indicaría si los individuos con una capacidad similar tienen probabilidades significativamente diferentes de responder a un ítem y, por lo tanto, diferentes curvas de regresión logística.
Por el contrario, si las curvas para ambos grupos son iguales, entonces el ítem es imparcial y, por lo tanto, DIF no está presente. En términos de DIF uniforme y no uniforme, si las intersecciones y los parámetros variables coincidentes para ambos grupos no son iguales, entonces hay evidencia de DIF uniforme.
Sin embargo, si hay un parámetro de interacción distinto de cero, esto es una indicación de DIF no uniforme. DIF se indicaría si los individuos con habilidades similares tienen probabilidades significativamente diferentes de responder a un ítem y, por lo tanto, diferentes curvas de regresión logística.
Por el contrario, si las curvas para ambos grupos son iguales, entonces el ítem es imparcial y, por lo tanto, DIF no está presente. En términos de DIF uniforme y no uniforme, si las intersecciones y los parámetros variables coincidentes para ambos grupos no son iguales, entonces hay evidencia de DIF uniforme.
Sin embargo, si hay un parámetro de interacción distinto de cero, esto es una indicación de DIF no uniforme. DIF se indicaría si los individuos con habilidades similares tienen probabilidades significativamente diferentes de responder a un ítem y, por lo tanto, diferentes curvas de regresión logística.
Por el contrario, si las curvas para ambos grupos son iguales, entonces el ítem es imparcial y, por lo tanto, DIF no está presente. En términos de DIF uniforme y no uniforme, si las intersecciones y los parámetros variables coincidentes para ambos grupos no son iguales, entonces hay evidencia de DIF uniforme.
Sin embargo, si hay un parámetro de interacción distinto de cero, esto es una indicación de DIF no uniforme.
Consideraciones
Tamaño de muestra
La primera consideración se refiere a cuestiones de tamaño de muestra, específicamente con respecto a los grupos focales y de referencia. Antes de cualquier análisis, la información sobre el número de personas en cada grupo se conoce típicamente, como el número de hombres / mujeres o miembros de grupos étnicos / raciales.
Sin embargo, el problema gira más en torno a si la cantidad de personas por grupo es suficiente para que haya suficiente poder estadísticopara identificar DIF. En algunos casos, como el origen étnico, puede haber evidencia de tamaños de grupo desiguales, de modo que los blancos representan una muestra de grupo mucho más grande que cada grupo étnico individual que está siendo representado.
Por lo tanto, en tales casos, puede ser apropiado modificar o ajustar los datos para que los grupos que se comparan para DIF sean de hecho iguales o más cercanos en tamaño. La codificación o recodificación ficticia es una práctica común empleada para ajustar las disparidades en el tamaño del grupo focal y de referencia.
En este caso, todos los grupos étnicos no blancos se pueden agrupar para tener un tamaño de muestra relativamente igual para los grupos de referencia y focales. Esto permitiría una comparación «mayoritaria / minoritaria» del funcionamiento del ítem. Si no se realizan modificaciones y se llevan a cabo procedimientos DIF, Es posible que no haya suficiente poder estadístico para identificar DIF, incluso si existe DIF entre los grupos.
Otra cuestión relacionada con el tamaño de la muestra se relaciona directamente con el procedimiento estadístico que se utiliza para detectar DIF. Además de las consideraciones sobre el tamaño de la muestra de los grupos focales y de referencia, se deben cumplir ciertas características de la muestra para cumplir con los supuestos de cada prueba estadística utilizada en la detección de DIF.
Por ejemplo, el uso de enfoques IRT puede requerir muestras más grandes que las requeridas para el procedimiento Mantel-Haenszel. Esto es importante, ya que la investigación del tamaño del grupo puede dirigir a uno a usar un procedimiento sobre otro. Dentro del enfoque de regresión logística, los valores apalancados y los valores atípicos son de particular preocupación y deben ser examinados antes de la detección DIF.
Además, como con todos los análisis, se deben cumplir los supuestos de las pruebas estadísticas. Algunos procedimientos son más robustos para infracciones menores, mientras que otros lo son menos. Por lo tanto, la naturaleza distributiva de las respuestas de la muestra debe investigarse antes de implementar cualquier procedimiento DIF.
Artículos
Se debe considerar la determinación del número de elementos que se utilizan para la detección DIF. No existe un estándar sobre cuántos elementos deben usarse para la detección de DIF, ya que esto cambia de estudio a estudio. En algunos casos, puede ser apropiado probar todos los elementos para DIF, mientras que en otros puede no ser necesario.
Si solo se sospecha que ciertos elementos tienen DIF con un razonamiento adecuado, entonces puede ser más apropiado probar esos elementos y no todo el conjunto. Sin embargo, a menudo es difícil simplemente asumir qué elementos pueden ser problemáticos. Por esta razón, a menudo se recomienda examinar simultáneamente todos los elementos de prueba para DIF.
Esto proporcionará información sobre todos los elementos, arrojando luz sobre los elementos problemáticos, así como aquellos que funcionan de manera similar para los grupos de referencia y focales. Con respecto a las pruebas estadísticas, Algunos procedimientos, como las pruebas de relación de probabilidad de IRT, requieren el uso de elementos de anclaje.
Algunos artículos están obligados a ser iguales en todos los grupos, mientras que los artículos sospechosos de DIF pueden variar libremente. En este caso, solo un subconjunto se identificaría como elementos DIF, mientras que el resto serviría como grupo de comparación para la detección DIF. Una vez que se identifican los elementos DIF, los elementos de anclaje también se pueden analizar restringiendo los elementos DIF originales y permitiendo que los elementos de anclaje originales varíen libremente.
Por lo tanto, parece que probar todos los elementos simultáneamente puede ser un procedimiento más eficiente. Sin embargo, como se señaló, dependiendo del procedimiento implementado se utilizan diferentes métodos para seleccionar elementos DIF. Además de identificar la cantidad de elementos que se utilizan en la detección DIF, De importancia adicional es determinar el número de elementos en toda la prueba o medida.
La recomendación típica según lo observado por Zumbo (1999) es tener un mínimo de 20 elementos. El razonamiento para un mínimo de 20 ítems se relaciona directamente con la formación de criterios coincidentes. Como se señaló en las secciones anteriores, el puntaje total de una prueba se usa generalmente como un método para emparejar a los individuos con la capacidad.
El puntaje total de la prueba se divide normalmente en 3 a 5 niveles de habilidad (k), que luego se utiliza para unir a los individuos en la habilidad antes de los procedimientos de análisis DIF. El uso de un mínimo de 20 elementos permite una mayor variación en la distribución de puntaje, lo que resulta en grupos de nivel de habilidad más significativos.
Aunque las propiedades psicométricas del instrumento deberían haberse evaluado antes de ser utilizadas, es importante que el La recomendación típica según lo observado por Zumbo (1999) es tener un mínimo de 20 elementos. El razonamiento para un mínimo de 20 ítems se relaciona directamente con la formación de criterios coincidentes.
Como se señaló en las secciones anteriores, el puntaje total de una prueba se usa generalmente como un método para emparejar a los individuos con la capacidad. El puntaje total de la prueba se divide normalmente en 3 a 5 niveles de habilidad (k), que luego se utiliza para unir a los individuos en la habilidad antes de los procedimientos de análisis DIF.
El uso de un mínimo de 20 elementos permite una mayor variación en la distribución de puntaje, lo que resulta en grupos de nivel de habilidad más significativos. Aunque las propiedades psicométricas del instrumento deberían haberse evaluado antes de ser utilizadas, es importante que el La recomendación típica según lo observado por Zumbo (1999) es tener un mínimo de 20 elementos.
El razonamiento para un mínimo de 20 ítems se relaciona directamente con la formación de criterios coincidentes. Como se señaló en las secciones anteriores, el puntaje total de una prueba se usa generalmente como un método para emparejar a los individuos con la capacidad. El puntaje total de la prueba se divide normalmente en 3 a 5 niveles de habilidad (k), que luego se utiliza para unir a los individuos en la habilidad antes de los procedimientos de análisis DIF.
El uso de un mínimo de 20 elementos permite una mayor variación en la distribución de puntaje, lo que resulta en grupos de nivel de habilidad más significativos. Aunque las propiedades psicométricas del instrumento deberían haberse evaluado antes de ser utilizadas, es importante que el El razonamiento para un mínimo de 20 ítems se relaciona directamente con la formación de criterios coincidentes.
Como se señaló en las secciones anteriores, el puntaje total de una prueba se usa generalmente como un método para emparejar a los individuos con la capacidad. El puntaje total de la prueba se divide normalmente en 3 a 5 niveles de habilidad (k), que luego se utiliza para unir a los individuos en la habilidad antes de los procedimientos de análisis DIF.
El uso de un mínimo de 20 elementos permite una mayor variación en la distribución de puntaje, lo que resulta en grupos de nivel de habilidad más significativos. Aunque las propiedades psicométricas del instrumento deberían haberse evaluado antes de ser utilizadas, es importante que el El razonamiento para un mínimo de 20 ítems se relaciona directamente con la formación de criterios coincidentes.
Como se señaló en las secciones anteriores, el puntaje total de una prueba se usa generalmente como un método para emparejar a los individuos con la capacidad. El puntaje total de la prueba se divide normalmente en 3 a 5 niveles de habilidad (k), que luego se utiliza para unir a los individuos en la habilidad antes de los procedimientos de análisis DIF.
El uso de un mínimo de 20 elementos permite una mayor variación en la distribución de puntaje, lo que resulta en grupos de nivel de habilidad más significativos. Aunque las propiedades psicométricas del instrumento deberían haberse evaluado antes de ser utilizadas, es importante que el El puntaje total de la prueba se divide normalmente en 3 a 5 niveles de habilidad (k), que luego se utiliza para unir a los individuos en la habilidad antes de los procedimientos de análisis DIF.
El uso de un mínimo de 20 elementos permite una mayor variación en la distribución de puntaje, lo que resulta en grupos de nivel de habilidad más significativos. Aunque las propiedades psicométricas del instrumento deberían haberse evaluado antes de ser utilizadas, es importante que el El puntaje total de la prueba se divide normalmente en 3 a 5 niveles de habilidad (k), que luego se utiliza para unir a los individuos en la habilidad antes de los procedimientos de análisis DIF.
El uso de un mínimo de 20 elementos permite una mayor variación en la distribución de puntaje, lo que resulta en grupos de nivel de habilidad más significativos. Aunque las propiedades psicométricas del instrumento deberían haberse evaluado antes de ser utilizadas, es importante que elLa validez y la fiabilidad de un instrumento sean adecuadas.
Los elementos de prueba deben aprovechar con precisión la construcción de interés para obtener grupos de nivel de habilidad significativos. Por supuesto, uno no quiere inflar los coeficientes de confiabilidad simplemente agregando elementos redundantes. La clave es tener una medida válida y confiable con elementos suficientes para desarrollar grupos de correspondencia significativos.
Gadermann y col. (2012), Revelle y Zinbarg (2009), y John y Soto (2007) ofrecen más información sobre enfoques modernos para la validación estructural y métodos más precisos y apropiados para evaluar la confiabilidad.
Estadísticas versus razonamiento
Como con toda investigación psicológica y evaluación psicométrica, estadísticasdesempeñar un papel vital, pero de ninguna manera debe ser la única base para las decisiones y conclusiones alcanzadas. El juicio razonado es de importancia crítica cuando se evalúan los elementos para DIF. Por ejemplo, dependiendo del procedimiento estadístico utilizado para la detección de DIF, se pueden obtener resultados diferentes.
Algunos procedimientos son más precisos mientras que otros lo son menos. Por ejemplo, el procedimiento Mantel-Haenszel requiere que el investigador construya niveles de habilidad basados en los puntajes totales de las pruebas, mientras que IRT ubica a los individuos de manera más efectiva a lo largo del rasgo latente o continuo de habilidad.
Por lo tanto, un procedimiento puede indicar DIF para ciertos elementos, mientras que otros no. Otro problema es que a veces DIF puede estar indicado, pero no hay una razón clara por la cual existe DIF. Aquí es donde entra en juego el juicio razonado. El investigador debe usar el sentido común para derivar el significado de los análisis DIF.
No es suficiente informar que los elementos funcionan de manera diferente para los grupos, debe haber una razón teórica de por qué ocurre. Además, la evidencia de DIF no se traduce directamente en injusticia en la prueba. Es común en los estudios de DIF identificar algunos elementos que sugieren DIF.
Esto puede ser una indicación de elementos problemáticos que necesitan ser revisados u omitidos y no necesariamente una indicación de una prueba injusta. Por lo tanto, el análisis DIF puede considerarse una herramienta útil para el análisis de ítems, pero es más efectivo cuando se combina con un razonamiento teórico.
Esto puede ser una indicación de elementos problemáticos que necesitan ser revisados u omitidos y no necesariamente una indicación de una prueba injusta. Por lo tanto, el análisis DIF puede considerarse una herramienta útil para el análisis de ítems, pero es más efectivo cuando se combina con un razonamiento teórico.
Esto puede ser una indicación de elementos problemáticos que necesitan ser revisados u omitidos y no necesariamente una indicación de una prueba injusta. Por lo tanto, el análisis DIF puede considerarse una herramienta útil para el análisis de ítems, pero es más efectivo cuando se combina con un razonamiento teórico.
Software estadístico
A continuación se presentan programas estadísticos comunes capaces de realizar los procedimientos discutidos aquí. Al hacer clic en la lista de paquetes estadísticos, se lo dirigirá a una lista completa de código abierto, dominio público, software gratuito y software estadístico patentado. Procedimiento de Mantel-Haenszel
SPSS
SAS
Stata
R (p. Ej., Paquete ‘difR’ )
Systat
Lertap 5
Procedimientos basados en IRT
BILOG-MG
MULTILOG
ESCALA
PRUEBA
EQSIRT
R (por ejemplo, paquete ‘difR’ o ‘mirt’ )
IRTPRO
Regresión logística
SPSS
SAS
Stata
R (p. Ej., Paquete ‘difR’ )
Systat