Psicometría

La psicometría es un campo de estudio relacionado con la teoría y la técnica de medición psicológica. Según lo definido por el Consejo Nacional de Medición en Educación (NCME) de EE. UU., La psicometría se refiere a la medición psicológica. En general, se refiere al campo de la psicología y la educación que se dedica a las pruebas, la medición, la evaluación y las actividades relacionadas.
El campo se ocupa de la medición objetiva de habilidades y conocimientos, habilidades, actitudes, rasgos de personalidad y logros educativos. Algunos investigadores psicométricos se centran en la construcción y validación de instrumentos de evaluación como cuestionarios, pruebas, juicios de evaluadores, escalas de síntomas psicológicos y pruebas de personalidad.
Otros se centran en la investigación relacionada con la teoría de la medición (por ejemplo, teoría de respuesta al ítem; correlación intraclase ).
Los practicantes son descritos como psicometristas. Los psicometristas generalmente poseen una calificación específica, y la mayoría son psicólogos con formación avanzada de postgrado. Además de las instituciones académicas tradicionales, muchos psicometristas trabajan para el gobierno o en departamentos de recursos humanos.
Otros se especializan como profesionales de aprendizaje y desarrollo.
Fundación histórica
Las pruebas psicológicas provienen de dos corrientes de pensamiento: la primera, de Darwin, Galton y Cattell sobre la medición de diferencias individuales, y la segunda, de Herbart, Weber, Fechner y Wundt y sus mediciones psicofísicas de una construcción similar. El segundo grupo de individuos y su investigación es lo que ha llevado al desarrollo de la psicología experimental y las pruebas estandarizadas.
Corriente victoriana
Charles Darwin fue la inspiración detrás de Sir Francis Galton, quien condujo a la creación de la psicometría. En 1859, Darwin publicó su libro Sobre el origen de las especies, dedicado al papel de la selección natural en la aparición a lo largo del tiempo de diferentes poblaciones de especies de plantas y animales.
El libro discutió cómo los miembros individuales de una especie difieren y cómo poseen características que son más o menos adaptables a su entorno. Aquellos con características más adaptativas tienen más probabilidades de procrear y dar lugar a otra generación. Aquellos con características menos adaptativas tienen menos probabilidades de procrear.
Esta idea estimuló el interés de Galton en el estudio de los seres humanos y cómo se diferencian entre sí y, lo que es más importante, cómo medir esas diferencias.
Galton escribió un libro titulado Hereditary Genius sobre las diferentes características que poseen las personas y cómo esas características las hacen más «adecuadas» que otras. Hoy en día, estas diferencias, como el funcionamiento sensorial y motor (tiempo de reacción, agudeza visual y fuerza física) son dominios importantes de la psicología científica.
Gran parte del trabajo teórico y aplicado temprano en psicometría se realizó en un intento de medir la inteligencia. Galton, a menudo referido como «el padre de la psicometría», ideó e incluyó pruebas mentales entre sus medidas antropométricas. James McKeen Cattell, considerado un pionero de la psicometría, amplió el trabajo de Galton.
Cattell también acuñó el término prueba mental, y es responsable de la investigación y el conocimiento que finalmente condujeron al desarrollo de pruebas modernas.
Corriente alemana
El origen de la psicometría también tiene conexiones con el campo relacionado de la psicofísica. Casi al mismo tiempo que Darwin, Galton y Cattell estaban haciendo sus descubrimientos, Herbart también estaba interesado en «descubrir los misterios de la conciencia humana» a través del método científico.
Herbart fue responsable de crear modelos matemáticos de la mente, que influyeron en las prácticas educativas en los años venideros.
EH Weber se basó en el trabajo de Herbart e intentó probar la existencia de un umbral psicológico, diciendo que era necesario un estímulo mínimo para activar un sistema sensorial. Después de Weber, GT Fechner amplió el conocimiento que obtuvo de Herbart y Weber, para idear la ley de que la fuerza de una sensación crece a medida que aumenta la intensidad del estímulo.
Un seguidor de Weber y Fechner, Wilhelm Wundt se acredita con la fundación de la ciencia de la psicología. Es la influencia de Wundt la que allanó el camino para que otros desarrollen pruebas psicológicas.
Siglo XX
En 1936, el psicométrico LL Thurstone, fundador y primer presidente de la Sociedad Psicométrica, desarrolló y aplicó un enfoque teórico a la medición denominado la ley del juicio comparativo, un enfoque que tiene conexiones cercanas con la teoría psicofísica de Ernst Heinrich Weber y Gustav Fechner..
Además, Spearman y Thurstone hicieron importantes contribuciones a la teoría y la aplicación del análisis factorial, un método estadístico desarrollado y utilizado ampliamente en psicometría. A finales de la década de 1950, Leopold Szondirealizó una evaluación histórica y epistemológica del impacto del pensamiento estadístico en la psicología durante las últimas décadas:
En las últimas décadas, el pensamiento psicológico específico ha sido casi completamente suprimido y eliminado, y reemplazado por un pensamiento estadístico. Precisamente aquí vemos el cáncer de testología y testomanía de hoy «.
Más recientemente, la teoría psicométrica se ha aplicado en la medición de la personalidad, las actitudes y creencias y el rendimiento académico. La medición de estos fenómenos no observables es difícil, y gran parte de la investigación y la ciencia acumulada en esta disciplina se han desarrollado en un intento por definir y cuantificar adecuadamente dichos fenómenos.
Los críticos, incluidos los profesionales de las ciencias físicas y los activistas sociales, han argumentado que dicha definición y cuantificación es imposiblemente difícil, y que tales mediciones a menudo se usan incorrectamente, como con las pruebas de personalidad psicométrica utilizadas en los procedimientos de empleo:
Por ejemplo, un empleador que quiere a alguien para un papel que requiere atención constante a los detalles repetitivos probablemente no quiera darle ese trabajo a alguien que sea muy creativo y se aburra fácilmente».
Las figuras que hicieron contribuciones significativas a la psicometría incluyen a Karl Pearson, Henry F.Kaiser, Carl Brigham, LL Thurstone, EL Thorndike, Georg Rasch, Eugene Galanter, Johnson O’Connor, Frederic M. Lord, Ledyard R Tucker y Jane Loevinger.
Definición de medida en las ciencias sociales
La definición de medición en las ciencias sociales tiene una larga historia. Una definición actualmente extendida, propuesta por Stanley Smith Stevens (1946), es que la medición es «la asignación de números a objetos o eventos de acuerdo con alguna regla». Esta definición se introdujo en el documento en el que Stevens propuso cuatro niveles de medición.
Aunque ampliamente adoptada, esta definición difiere en aspectos importantes de la definición más clásica de medición adoptada en las ciencias físicas, a saber, que la medición científica implica «la estimación o descubrimiento de la relación de cierta magnitud de un atributo cuantitativo a una unidad del mismo atributo «(pág.
358)
De hecho, la definición de medición de Stevens se presentó en respuesta al Comité Británico de Ferguson, cuyo presidente, A. Ferguson, era físico. El comité fue designado en 1932 por la Asociación Británica para el Avance de la Ciencia para investigar la posibilidad de estimar cuantitativamente los eventos sensoriales.
Aunque su presidente y otros miembros eran físicos, el comité también incluía a varios psicólogos. El informe del comité destacó la importancia de la definición de medición. Si bien la respuesta de Stevens fue proponer una nueva definición, que ha tenido una influencia considerable en el campo, de ninguna manera fue la única respuesta al informe.
Otra respuesta notablemente diferente fue aceptar la definición clásica, como se refleja en la siguiente declaración:
La medición en psicología y física no es en ningún sentido diferente. Los físicos pueden medir cuándo pueden encontrar las operaciones mediante las cuales pueden cumplir con los criterios necesarios; Los psicólogos tienen que hacer lo mismo. No necesitan preocuparse por las misteriosas diferencias entre el significado de la medición en las dos ciencias (Reese, 1943, p.
49).
Estas respuestas divergentes se reflejan en enfoques alternativos de medición. Por ejemplo, los métodos basados en matrices de covarianza se emplean típicamente bajo la premisa de que los números, como los puntajes brutos derivados de las evaluaciones, son medidas. Dichos enfoques implican implícitamente la definición de medición de Stevens, que requiere solo que los números se asignen de acuerdo con alguna regla.
La principal tarea de investigación, entonces, generalmente se considera el descubrimiento de asociaciones entre puntajes, y de los factores que subyacen a tales asociaciones.
Por otro lado, cuando se emplean modelos de medición como el modelo Rasch, los números no se asignan según una regla. En cambio, de acuerdo con la declaración anterior de Reese, se establecen criterios específicos para la medición, y el objetivo es construir procedimientos u operaciones que proporcionen datos que cumplan con los criterios relevantes.
Las mediciones se estiman en función de los modelos, y se realizan pruebas para determinar si se han cumplido los criterios relevantes.
Instrumentos y procedimientos
Los primeros instrumentos psicométricos fueron diseñados para medir el concepto de inteligencia. Un enfoque histórico implicó la prueba de coeficiente intelectual Stanford-Binet, desarrollada originalmente por el psicólogo francés Alfred Binet. Las pruebas de inteligencia son herramientas útiles para diversos fines.
Una concepción alternativa de la inteligencia es que las capacidades cognitivas dentro de los individuos son una manifestación de un componente general o factor de inteligencia general, así como la capacidad cognitiva específica de un dominio dado.
Otro enfoque importante en psicometría ha sido en las pruebas de personalidad. Ha habido una variedad de enfoques teóricos para conceptualizar y medir la personalidad. Algunos de los instrumentos más conocidos incluyen el Inventario de personalidad multifásica de Minnesota, el Modelo de cinco factores (o «Big 5») y herramientas como el Inventario de personalidad y preferencias y el Indicador de tipo Myers-Briggs.
Las actitudes también se han estudiado ampliamente utilizando enfoques psicométricos. Un método común en la medición de actitudes es el uso de la escala Likert. Un método alternativo implica la aplicación de modelos de medición desplegables, el más general es el modelo de coseno hiperbólico (Andrich y Luo, 1993).
Enfoques teóricos
Los psicometristas han desarrollado varias teorías de medición diferentes. Estos incluyen la teoría de prueba clásica (CTT) y la teoría de respuesta al ítem (IRT). El modelo Rasch para la medición representa un enfoque matemáticamente similar al IRT pero también bastante distintivo, en términos de sus orígenes y características.
El desarrollo del modelo Rasch, y la clase más amplia de modelos a los que pertenece, se fundó explícitamente en los requisitos de medición en las ciencias físicas.
Los psicometristas también han desarrollado métodos para trabajar con grandes matrices de correlaciones y covarianzas. Las técnicas en esta tradición general incluyen: análisis factorial, un método para determinar las dimensiones subyacentes de los datos. Uno de los principales desafíos que enfrentan los usuarios del análisis factorial es la falta de consenso sobre los procedimientos adecuados para determinar el número de factores latentes.
Un procedimiento habitual es dejar de factorizar cuando los valores propios caen por debajo de uno porque la esfera original se contrae. La falta de puntos de corte también se refiere a otros métodos multivariados.
El escalado multidimensional es un método para encontrar una representación simple para datos con una gran cantidad de dimensiones latentes. El análisis de conglomerados es un enfoque para encontrar objetos que son similares entre sí. El análisis factorial, el escalado multidimensional y el análisis de conglomerados son todos métodos descriptivos multivariados utilizados para destilar a partir de grandes cantidades de datos de estructuras más simples.
Más recientemente, el modelado de ecuaciones estructurales y el análisis de ruta representan enfoques más sofisticados para trabajar con grandes matrices de covarianza. Estos métodos permiten que los modelos estadísticamente sofisticados se ajusten a los datos y se prueben para determinar si son ajustes adecuados.
Debido a que a nivel granular, la investigación psicométrica tiene que ver con el alcance y la naturaleza de la multidimensionalidad en cada uno de los ítems de interés, un procedimiento relativamente nuevo conocido como análisis bi-factor puede ser útil. El análisis de dos factores puede descomponer «la varianza sistemática de un elemento en términos de, idealmente, dos fuentes, un factor general y una fuente de varianza sistemática adicional».
Conceptos clave
Los conceptos clave en la teoría de prueba clásica son la fiabilidad y la validez. Una medida confiable es aquella que mide una construcción consistentemente a través del tiempo, individuos y situaciones. Una medida válida es aquella que mide lo que se pretende medir. La fiabilidad es necesaria, pero no suficiente, para la validez.
Tanto la fiabilidad como la validez se pueden evaluar estadísticamente. La consistencia sobre las medidas repetidas de la misma prueba se puede evaluar con el coeficiente de correlación de Pearson, y a menudo se llama confiabilidad prueba-prueba. Del mismo modo, la equivalencia de diferentes versiones de la misma medida puede indexarse mediante una correlación de Pearson, y se denomina fiabilidad de formas equivalentes o un término similar.
La consistencia interna, que aborda la homogeneidad de una sola forma de prueba, puede evaluarse correlacionando el rendimiento en dos mitades de una prueba, lo que se denomina confiabilidad dividida a la mitad; El valor de este coeficiente de correlación momento-producto de Pearson para dos medias pruebas se ajusta con la fórmula de predicción de Spearman-Brown para corresponder a la correlación entre dos pruebas de longitud completa.
Quizás el índice de confiabilidad más utilizado es el α de Cronbach, que es equivalente a la media de todos los posibles coeficientes de mitad dividida. Otros enfoques incluyen la correlación intraclase, que es la relación entre la varianza de las mediciones de un objetivo determinado y la varianza de todos los objetivos.
Hay varias formas diferentes de validez. La validez relacionada con el criterio se refiere a la medida en que una prueba o escala predice una muestra de comportamiento, es decir, el criterio, que es «externo al instrumento de medición mismo». Esa muestra externa de comportamiento puede ser muchas cosas, incluida otra prueba;
Promedio de calificaciones de la universidad como cuando se usa el SAT de la escuela secundaria para predecir el rendimiento en la universidad; e incluso el comportamiento que ocurrió en el pasado, por ejemplo, cuando se usa una prueba de los síntomas psicológicos actuales para predecir la ocurrencia de victimización pasada (que representaría con precisión la postdicción).
Cuando la medida de criterio se recopila al mismo tiempo que la medida que se valida, el objetivo es establecer la validez concurrente; cuando el criterio se recopila más adelante, el objetivo es establecer la validez predictiva. Una medida tiene validez de constructo si está relacionada con medidas de otros constructos como lo requiere la teoría.
La validez de contenido es una demostración de que los elementos de una prueba hacen un trabajo adecuado al cubrir el dominio que se está midiendo. En un ejemplo de selección de personal, el contenido de la prueba se basa en una declaración definida o un conjunto de declaraciones de conocimiento, habilidad, habilidad u otras características obtenidas de un análisis de trabajo.
La teoría de respuesta al ítem modela la relación entre los rasgos latentesy respuestas a elementos de prueba. Entre otras ventajas, IRT proporciona una base para obtener una estimación de la ubicación de un examinado en un rasgo latente dado, así como el error estándar de medición de esa ubicación.
Por ejemplo, el conocimiento de historia de un estudiante universitario puede deducirse de su puntaje en un examen universitario y luego compararse de manera confiable con el conocimiento de un estudiante de secundaria deducido de un examen menos difícil. Los puntajes derivados de la teoría de prueba clásica no tienen esta característica, y la evaluación de la capacidad real (en lugar de la habilidad relativa a otros examinados) debe evaluarse comparando las puntuaciones con las de un «grupo de normas» seleccionado al azar de la población.
De hecho, todas las medidas derivadas de la teoría de prueba clásica dependen de la muestra analizada, mientras que, en principio,
Muchos psicometristas también se preocupan por encontrar y eliminar el sesgo de prueba de sus pruebas psicológicas. El sesgo de prueba es una forma de error sistemático (es decir, no aleatorio) que lleva a los examinados de un grupo demográfico a tener una ventaja injustificada sobre los examinados de otro grupo demográfico.
Según los principales expertos, el sesgo de la prueba puede causar diferencias en los puntajes promedio entre los grupos demográficos, pero las diferencias en los puntajes de los grupos no son evidencia suficiente de que el sesgo de la prueba esté realmente presente porque la prueba podría medir diferencias reales entre los grupos.Los psicometristas usan métodos científicos sofisticados para buscar sesgos en las pruebas y eliminarlos.
La investigación muestra que generalmente es imposible para las personas que leen un elemento de prueba determinar con precisión si está sesgado o no.
Estándares de calidad
Las consideraciones de validez y confiabilidad generalmente se consideran elementos esenciales para determinar la calidad de cualquier prueba. Sin embargo, las asociaciones profesionales y profesionales con frecuencia han colocado estas preocupaciones dentro de contextos más amplios al desarrollar estándares y hacer juicios generales sobre la calidad de cualquier prueba en su conjunto dentro de un contexto dado.
Una consideración de preocupación en muchos entornos de investigación aplicada es si la métrica de un inventario psicológico dado es significativa o arbitraria.
Pruebas de estándares
En 2014, la American Educational Research Association (AERA), la American Psychological Association (APA) y el National Council on Measurement in Education (NCME) publicaron una revisión de los Estándares para las Pruebas Educativas y Psicológicas, que describe los estándares para el desarrollo de exámenes., evaluación y uso.
Los Estándares cubren temas esenciales en las pruebas, incluyendo validez, confiabilidad / errores de medición y equidad en las pruebas. El libro también establece estándares relacionados con las operaciones de prueba, incluyendo diseño y desarrollo de pruebas, puntajes, escalas, normas, vinculación de puntajes, puntajes de corte, administración de exámenes, puntaje, informes, interpretación de puntajes, documentación de exámenes y derechos y responsabilidades de los examinados y usuarios de exámenes..
Finalmente, elLas normas cubren temas relacionados con las aplicaciones de prueba, incluidas las pruebas y evaluaciones psicológicas, las pruebas y credenciales en el lugar de trabajo, las pruebas y evaluaciones educativas, y las pruebas en la evaluación del programa y las políticas públicas.
Estándares de evaluación
En el campo de la evaluación, y en particular la evaluación educativa, el Comité Conjunto de Normas para la Evaluación Educativa ha publicado tres conjuntos de normas para las evaluaciones. Las Normas de evaluación del personal se publicaron en 1988, Las Normas de evaluación del programa (2ª edición) se publicaron en 1994, y Las Normas de evaluación estudiantil se publicaron en 2003.
Cada publicación presenta y elabora un conjunto de estándares para su uso en una variedad de entornos educativos. Los estándares proporcionan pautas para diseñar, implementar, evaluar y mejorar la forma de evaluación identificada. Cada uno de los estándares se ha colocado en una de cuatro categorías fundamentales para promover evaluaciones educativas que sean apropiadas, útiles, factibles y precisas.
En estos conjuntos de estándares, las consideraciones de validez y confiabilidad están cubiertas bajo el tema de precisión. Por ejemplo, los estándares de precisión de los estudiantes ayudan a garantizar que las evaluaciones de los estudiantes proporcionen información sólida, precisa y creíble sobre el aprendizaje y el rendimiento de los estudiantes.
No humanos: animales y máquinas
La psicometría aborda las habilidades humanas, actitudes, rasgos y evolución educativa. En particular, el estudio del comportamiento, los procesos mentales y las habilidades de los animales no humanos generalmente se aborda mediante la psicología comparada, o con un continuo entre los animales no humanos y el resto de los animales mediante la psicología evolutiva.
No obstante, hay algunos defensores de una transición más gradual entre el enfoque adoptado para los humanos y el enfoque adoptado para los animales (no humanos).
La evaluación de las habilidades, los rasgos y la evolución del aprendizaje de las máquinas no ha tenido relación alguna con el caso de los humanos y los animales no humanos, con enfoques específicos en el área de la inteligencia artificial. También se ha propuesto un enfoque más integrado, bajo el nombre de psicometría universal.
Autor
