Percepción de la escena natural

La percepción de la escena natural se refiere al proceso mediante el cual un agente (como un ser humano) toma visualmente e interpreta escenas que normalmente encuentra en modos naturales de operación (por ejemplo, calles concurridas, prados, salas de estar). Este proceso ha sido modelado de diferentes maneras guiadas por diferentes conceptos.
Contenido
Debate sobre el papel de la atención
Una línea divisoria importante entre las teorías que explican la percepción natural de la escena es el papel de la atención. Algunas teorías mantienen la necesidad de una atención enfocada, mientras que otras afirman que la atención enfocada no está involucrada.
La atención enfocada jugó un papel parcial en los primeros modelos de percepción de la escena natural. Dichos modelos implicaron dos etapas de procesamiento visual. Según estos modelos, la primera etapa no requiere atención y registra características de bajo nivel, como gradientes de brillo, movimiento y orientación de forma paralela.
Mientras tanto, la segunda etapa requiere atención enfocada. Registra descripciones de objetos de alto nivel, tiene una capacidad limitada y funciona en serie. Estos modelos han sido informados empíricamente por estudios que demuestran ceguera al cambio, ceguera desatendida y parpadeo atencional. Dichos estudios muestran que cuando una tarea enfoca la atención visual de uno, los cambios significativos en el entorno que no son directamente pertinentes a la tarea pueden escapar de la conciencia.
En general, se pensaba que la percepción natural de la escena era igualmente susceptible a la ceguera por cambio, la ceguera desatendida y el parpadeo atencional, y que estos fenómenos psicológicos ocurrían porque participar en una tarea desvía recursos atencionales que de otra manera se utilizarían para la percepción natural de la escena.
Evidencia contra la necesidad de atención enfocada
La hipótesis libre de atención pronto surgió para desafiar los primeros modelos. La base inicial de la hipótesis libre de atención fue el hallazgo de que en la búsqueda visual, las características visuales básicas de los objetos aparecen de forma inmediata y automática a la persona que realiza la búsqueda visual.
Otros experimentos parecían respaldar esto: Potter (como lo citan Evans y Treisman, 2005) mostró que se puede acceder rápidamente a representaciones de alto orden desde escenas naturales presentadas a velocidades de hasta 10 por segundo. Además, Thorpe, Fize & Marlot (según lo citado por Evans y Treisman) descubrieron que los humanos y los primates pueden clasificar las imágenes naturales (es decir, de animales en escenas cotidianas en interiores y exteriores) de forma rápida y precisa incluso después de breves exposiciones.
La idea básica en estos estudios es que la exposición a cada escena individual es demasiado breve para que ocurran procesos atencionales, sin embargo, los seres humanos son capaces de interpretar y clasificar estas escenas.
Las versiones más débiles de la hipótesis libre de atención también se han dirigido a componentes específicos del proceso de percepción de la escena natural en lugar del proceso en su conjunto. Kihara y Takeda (2012) limitan su afirmación de decir que es la integración de la información espacial basada en frecuencia en escenas naturales (un subproceso de percepción de la escena natural) lo que no requiere atención.
Esta afirmación se basa en un estudio de los suyos que utilizó tareas exigentes para examinar las habilidades de los participantes para clasificar con precisión las imágenes que se filtrarontener una amplia gama de frecuencias espaciales. La lógica detrás de este experimento fue que si la integración de la información visual a través de las frecuencias espaciales (medida por la tarea de categorización) es preattentiva, entonces las tareas que demandan atención no deberían afectar el rendimiento en la tarea de categorización.
De hecho, este fue el caso.
Evidencia más reciente reafirmando la necesidad de atención enfocada
Un estudio reciente de Cohen, Alvarez y Nakayama (2011) cuestiona la validez de la evidencia que respalda la hipótesis libre de atención. Descubrieron que los participantes mostraban ceguera desatendida mientras realizaban ciertos tipos de tareas de seguimiento de objetos múltiples (MOT) y de presentación visual rápida en serie (RSVP).
Además, Cohen et al. descubrieron que la percepción de la escena natural de los participantes se vio afectada en condiciones de doble tarea, pero que este deterioro de la doble tarea ocurrió solo cuando la tarea principal de los participantes era lo suficientemente exigente. Los autores concluyeron que los estudios anteriores que mostraban la ausencia de una necesidad de atención focalizada no utilizaban tareas que fueran lo suficientemente exigentes como para atraer la atención por completo.
En Cohen et al. En el estudio, la tarea MOT consistió en ver ocho discos negros en movimiento presentados en un contexto cambiante que consistía en máscaras de tablero de ajedrez de colores aleatorios. Cuatro de estos discos fueron seleccionados y los participantes recibieron instrucciones de rastrear estos cuatro discos.
La tarea de RSVP implicó ver una secuencia de letras y dígitos presentados contra una serie de cuadros de ajedrez cambiantes, y contar el número de veces que se presentó un dígito. En ambos experimentos, el ensayo crítico involucró una escena natural que reemplazó repentinamente el segundo último tablero de ajedrez, y a los participantes se les preguntó inmediatamente después si habían notado algo diferente, y se les presentaron seis preguntas para determinar si habían categorizado la escena.
La condición de doble tarea simplemente involucraba a los participantes que realizaban la tarea MOT mencionada anteriormente y una tarea de clasificación de escena simultáneamente. Los autores variaron la dificultad de la tarea (es decir, cuán exigente era la tarea) al aumentar o disminuir la velocidad de los discos en movimiento.
Modelos
Estos son algunos de los modelos que se han propuesto con el fin de explicar la percepción de la escena natural.
La hipótesis de Evans y Treisman
Evans y Treisman (2005) propusieron una hipótesis de que los humanos detectan rápidamente conjuntos disyuntivos de características no vinculadas de categorías objetivo de manera paralela, y luego usan estas características para discriminar entre escenas que contienen o no el objetivo sin identificarlo necesariamente.
Un ejemplo de tal característica serían las alas extendidas que se pueden usar para saber si un pájaro está en una imagen, incluso antes de que el sistema haya identificado un objeto como un pájaro. Evans y Treisman proponen que la percepción de la escena natural implica un primer paso a través de la jerarquía de procesamiento visualhasta los nodos en una red de identificación visual, y luego una revisión opcional de los niveles anteriores para un análisis más detallado.
Durante la etapa de «primer paso», el sistema forma una representación global de la escena natural que incluye el diseño de límites globales y objetos potenciales. Durante la etapa de ‘revisión’, se emplea la atención enfocada para seleccionar objetos locales de interés de manera serial y luego unir sus características a sus representaciones.
Esta hipótesis es consistente con los resultados de su estudio en el que se instruyó a los participantes para detectar objetivos de animales en secuencias de RSVP, y luego informar sus identidades y ubicaciones. Si bien los participantes pudieron detectar los objetivos en la mayoría de los ensayos, a menudo no pudieron identificarlos o localizarlos posteriormente.
Además, cuando se presentaron dos objetivos en rápida sucesión, los participantes mostraron un parpadeo atencional significativo cuando fue necesario para identificar los objetivos, pero el parpadeo atencional se eliminó principalmente entre los participantes, solo se requería detectarlos. Evans y Treisman explican estos resultados con la hipótesis de que el parpadeo atencional ocurre porque la etapa de identificación requiere recursos atencionales, mientras que la etapa de detección no.
Categorización visual ultrarrápida
La categorización visual ultrarrápida es un modelo que propone un mecanismo automático de avance que forma representaciones de objetos de alto nivel en paralelo sin atención enfocada. En este modelo, el mecanismo no puede acelerarse mediante entrenamiento. Se puede encontrar evidencia de un mecanismo de avance en los estudios que han demostrado que muchas neuronas ya son altamente selectivas al comienzo de una respuesta visual, lo que sugiere que no se requieren mecanismos de retroalimentación para que aumente la selectividad de la respuesta.
Además, recientes fMRI y ERPLos estudios han demostrado que los estímulos visuales enmascarados que los participantes no perciben conscientemente pueden modular significativamente la actividad en el sistema motor, lo que sugiere un procesamiento visual algo sofisticado. VanRullen (2006) realizó simulaciones que muestran que la propagación anticipada de una ola de picos a través de neuronas de alto nivel, generada en respuesta a un estímulo, podría ser suficiente para el reconocimiento y la categorización crudos que ocurren en 150 ms o menos.
Teoría del archivo de objetos neuronales
Xu y Chun (2009) proponen la teoría del archivo de objetos neuronales, que postula que el sistema visual humano inicialmente selecciona un número fijo de aproximadamente cuatro objetos de una escena llena de gente en función de su información espacial (individualización de objetos) antes de codificar sus detalles (identificación de objeto ) Bajo este marco, la individualización de los objetos generalmente está controlada por el surco intraparietal inferior(IPS), mientras que la identificación de objetos implica el IPS superior y las áreas visuales de nivel superior.
En la etapa de individuación de objetos, las representaciones de objetos son gruesas y contienen información mínima sobre las características. Sin embargo, una vez que estas representaciones de objetos (o archivos de objetos, para usar el lenguaje de la teoría) se han « configurado » durante la etapa de individualización del objeto, pueden elaborarse con el tiempo durante la etapa de identificación del objeto, durante la cual se obtiene información adicional sobre la identidad y las características recibido.
La teoría del archivo de objetos neurales trata el tema de la atención al proponer dos sistemas de procesamiento diferentes. Uno de ellos rastrea la estructura jerárquica general de la pantalla visual y no requiere atención, mientras que el otro procesa los objetos actuales de selección atencional. La hipótesis actual es que el área de lugar parahippocampal (PPA) desempeña un papel en el cambio de la atención visual a diferentes partes de una escena e incorpora información de múltiples cuadros para formar una representación integrada de la escena.
La separación entre la individualización de objetos y la identificación en la teoría del archivo de objetos neurales está respaldada por evidencia como la del estudio fMRI de Xu & Chun (como se cita en Xu & Chun, 2009). En este estudio, examinaron los mecanismos cerebrales posteriores que soportaban la memoria visual a corto plazo (VSTM).
El fMRI mostró que las representaciones en el IPS inferior se fijaron en aproximadamente cuatro objetos independientemente de la complejidad del objeto, pero las representaciones en el IPS superior y el complejo occipital lateral (LOC) variaron según la complejidad.
Estadísticas de escenas naturales
Autor
