Evaluación basada en el consenso
La evaluación basada en el consenso amplía la práctica común de la toma de decisiones por consenso y la observación teórica de que un gran número de principiantes o jornaleros pueden aproximarse estrechamente a la experiencia. Crea un método para determinar estándares de medición para dominios de conocimiento muy ambiguos, como inteligencia emocional, política, religión, valores y cultura en general.
Desde esta perspectiva, el conocimiento compartido que forma el consenso cultural puede evaluarse de la misma manera que la experiencia o la inteligencia general.
Estándares de medición para inteligencia general
La evaluación basada en el consenso se basa en un hallazgo simple: que muestras de individuos con diferentes competencias (por ejemplo, expertos y aprendices) califican escenarios relevantes, usando escalas de Likert, con calificaciones medias similares. Por lo tanto, desde la perspectiva de un marco de CBA, los estándares culturales para la puntuación de claves pueden derivarse de la población que se está evaluando.
Peter Legree y Joseph Psotka, trabajando juntos durante las últimas décadas, propusieron que la g psicométrica podría medirse discretamente a través de escalas tipo encuesta que requieren juicios. Esto podría usar el puntaje de desviación para cada persona del grupo o la media experta; o una correlación de Pearsonentre sus juicios y el grupo significa.
Las dos técnicas están perfectamente correlacionadas. Legree y Psotka posteriormente crearon escalas que solicitaban a las personas que estimaran la frecuencia de las palabras; juzgar las probabilidades binarias de buena continuación; identificar implicaciones de conocimiento; y distribuciones aproximadas de empleo.
Los ítems fueron cuidadosamente identificados para evitar referentes objetivos y, por lo tanto, las escalas requerían que los encuestados emitieran juicios que se calificaran con estándares consensuados ampliamente desarrollados. El rendimiento en esta batería de juicio correlacionó aproximadamente 0,80 con las medidas convencionales de psicometría g.
Las claves de respuesta se derivaron de forma consensuada. A diferencia de las preguntas de matemáticas o física, la selección de ítems, escenarios y opciones para evaluar psicométrica g fueron guiados aproximadamente por una teoría que enfatizaba el juicio complejo, pero las claves explícitas eran desconocidas hasta que se hicieron las evaluaciones:
Fueron determinadas por el promedio de las respuestas de todos, usando puntajes de desviación, correlaciones o puntajes de factores.
Estándares de medición para el conocimiento cultural
Una forma de comprender la conexión entre la experiencia y el consenso es considerar que para muchos dominios de rendimiento, la experiencia refleja en gran medida el conocimiento derivado de la experiencia. Como los novatos tienden a tener menos experiencias, sus opiniones se equivocan en varias direcciones inconsistentes.
Sin embargo, a medida que se adquiere experiencia, las opiniones de los jornaleros hasta los expertos se vuelven más consistentes. Según esta opinión, los errores son aleatorios. Por lo tanto, los datos de calificaciones recopilados de grandes muestras de encuestados de diferente experiencia se pueden utilizar para aproximar las calificaciones promedio que proporcionaría un número sustancial de expertos si hubiera muchos expertos disponibles.
Debido a que la desviación estándar de una media se acercará a cero a medida que el número de observaciones sea muy grande, Las estimaciones basadas en grupos de competencia variable proporcionarán estimaciones convergentes de los mejores estándares de rendimiento. Los medios de las respuestas de estos grupos pueden usarse para crear una puntuación efectivarúbricas o estándares de medición para evaluar el rendimiento.
Este enfoque es particularmente relevante para calificar áreas subjetivas de conocimiento que se escalan usando escalas de respuesta Likert, y el enfoque se ha aplicado para desarrollar estándares de calificación para varios dominios donde los expertos son escasos.
Resultados experimentales
En la práctica, los análisis han demostrado altos niveles de convergencia entre los estándares expertos y CBA con valores que cuantifican esos estándares altamente correlacionados ( R de Pearson que van de. a.), y con puntajes basados en esos estándares también altamente correlacionados ( R que van de.
A.) siempre que el tamaño de la muestra de ambos grupos sea grande (Legree, Psotka, Tremble & Bourne, 2005). Esta convergencia entre el CBA y los puntajes referenciados por expertos y los datos de validez asociados indican que el CBA y el puntaje basado en expertos se pueden usar indistintamente, siempre que los datos de las calificaciones se recopilen utilizando grandes muestras de expertos y novatos o jornaleros.
Análisis factorial
El CBA a menudo se calcula utilizando la correlación de Pearson R de los juicios de escala Likert de cada persona en un conjunto de elementos contra la media de los juicios de todas las personas sobre esos mismos elementos. La correlación es entonces una medida de la proximidad de esa persona al consenso.
A veces también se calcula como una puntuación de desviación estandarizada de los medios de consenso de los grupos. Estos dos procedimientos son matemáticamente isomorfos. Si se considera que la cultura es conocimiento compartido; y la media de las calificaciones del grupo en un dominio enfocado del conocimiento se considera una medida del consenso cultural en ese dominio;
Luego, ambos procedimientos evalúan la CBA como una medida de la comprensión cultural de una persona individual.
Sin embargo, puede ser que el consenso no se distribuya uniformemente entre todos los elementos subordinados sobre un tema. Quizás el contenido de conocimiento de los ítems se distribuya en dominios con diferentes consensos. Por ejemplo, los conservadores que son libertarios pueden sentir de manera diferente acerca de la invasión de la privacidad que los conservadores que se sienten fuertemente acerca de la ley y el orden.
De hecho, el análisis factorial estándar pone este tema en primer plano.
En el centroide o en el análisis de componentes principales(PCA) los puntajes del primer factor se crean multiplicando cada calificación por la correlación del factor (generalmente la media de todas las calificaciones estandarizadas para cada persona) contra las calificaciones de cada elemento. Esta multiplicación pondera cada ítem por la correlación del patrón de diferencias individuales en cada ítem (las puntuaciones de los componentes).
Si el consenso se distribuye de manera desigual entre estos elementos, algunos elementos pueden centrarse más en los problemas generales del factor común. Si un ítem se correlaciona altamente con el patrón de diferencias individuales generales, entonces se pondera más fuertemente en los puntajes generales de los factores.
Esta ponderación implícitamente también pondera el puntaje de la CBA, ya que son aquellos elementos que comparten un patrón común de consenso de la CBA los que se ponderan más en el análisis factorial.
El análisis factorial de la metodología transpuesta o Q, creado por William Stephenson (psicólogo) pone de manifiesto esta relación explícitamente. Las puntuaciones de CBA son estadísticamente isomorfas a las puntuaciones de los componentes en PCA para un análisis de factor Q. Son la carga de las respuestas de cada persona en la media de las respuestas de todas las personas.
Por lo tanto, el análisis del factor Q puede proporcionar una medida CBA superior, si se puede usar primero para seleccionar a las personas que representan la dimensión dominante, sobre los elementos que mejor representan una dimensión de atributo subordinado de un dominio (como el liberalismo en un dominio político).
El análisis factorial puede proporcionar el CBA de individuos a lo largo de ese eje particular del dominio.
En la práctica, cuando los elementos no se crean y organizan fácilmente para proporcionar una escala altamente confiable, el análisis del factor Q no es necesario, ya que el análisis factorial original también debe seleccionar aquellos elementos que tienen un consenso común. Entonces, por ejemplo, en una escala de ítems para actitudes políticas, los ítems pueden preguntar sobre actitudes hacia el gran gobierno;
La Ley y el orden; Problemas económicos; cuestiones laborales; o temas libertarios. ¿Cuál de estos elementos influye más en las actitudes políticas de los grupos encuestados puede ser difícil de determinar a priori? Sin embargo, dado que el análisis factorial es un cálculo simétrico en la matriz de ítems y personas, el análisis factorial original de ítems (cuando se trata de escalas Likert) selecciona no solo aquellos ítems que están en un dominio similar, sino más generalmente, aquellos ítems que Tener un consenso similar.
La ventaja adicional de esta técnica analítica de factores es que los elementos se organizan automáticamente a lo largo de un factor para que las calificaciones de Likert más altas también sean las puntuaciones estándar más altas de CBA. Una vez seleccionado, ese factor determina los puntajes de CBA (componente).
Críticas
La crítica más común de los estándares de CBA es cuestionar cómo un promedio podría ser un estándar máximo. Esta crítica argumenta que CBA no es adecuado para pruebas de máximo rendimiento de atributos psicológicos, especialmente inteligencia. Aun así, las técnicas de CBA se emplean habitualmente en diversas medidas de inteligencias no tradicionales (por ejemplo, prácticas, emocionales, sociales, etc.).
Se presentan críticas detalladas en Gottfredson (2003) y MacCann, Roberts, Matthews y Zeidner (2004), así como en otras partes de la literatura científica.