Condicionamiento operante

El condicionamiento operante (también llamado condicionamiento instrumental ) es un tipo de proceso de aprendizaje asociativo a través del cual la fuerza de un comportamiento se modifica mediante refuerzo o castigo. También es un procedimiento que se utiliza para lograr dicho aprendizaje.
Aunque el condicionamiento operante y clásico implica comportamientos controlados por estímulos ambientales, difieren en su naturaleza. En el condicionamiento operante, los estímulos presentes cuando un comportamiento es recompensado o castigado llegan a controlar ese comportamiento. Por ejemplo, un niño puede aprender a abrir una caja para meter los dulces dentro, o aprender a evitar tocar una estufa caliente;
En términos operantes, la caja y la estufa son «estímulos discriminativos». Se dice que el comportamiento operativo es «voluntario». Las respuestas están bajo el control del organismo y son operantes. Por ejemplo, el niño puede enfrentar una elección entre abrir la caja y acariciar a un cachorro.
En contraste, el condicionamiento clásico implica un comportamiento involuntario basado en el emparejamiento de estímulos con eventos biológicamente significativos. Las respuestas están bajo el control de algunos estímulos porque son reflejos, provocados automáticamente por los estímulos apropiados.
Por ejemplo, la vista de los dulces puede hacer que un niño salive, o el sonido de un portazo puede indicarle a un padre enojado, haciendo que un niño tiemble. La salivación y el temblor no son operantes; no son reforzados por sus consecuencias, y no son voluntariamente «elegidos».
Sin embargo, ambos tipos de aprendizaje pueden afectar el comportamiento. Los estímulos condicionados de manera clásica, por ejemplo, una imagen de dulces en una caja, pueden mejorar el condicionamiento operante al alentar al niño a que se acerque y abra la caja. La investigación ha demostrado que este es un fenómeno beneficioso en los casos en que el comportamiento operante es propenso a errores.
El estudio del aprendizaje animal en el siglo XX estuvo dominado por el análisis de estos dos tipos de aprendizaje, y todavía están en el centro del análisis del comportamiento. También se han aplicado al estudio de la psicología social, ayudando a aclarar ciertos fenómenos como el falso efecto de consenso.
Contenido
Nota histórica
Ley de efecto de Thorndike
El condicionamiento operante, a veces llamado aprendizaje instrumental, fue estudiado por primera vez por Edward L. Thorndike (1874-1949), quien observó el comportamiento de los gatos que intentaban escapar de las cajas de rompecabezas hechas en casa. Un gato podría escapar de la caja con una respuesta simple, como tirar de una cuerda o empujar un poste, pero cuando se les restringió por primera vez, los gatos tardaron mucho en salir.
Con los ensayos repetidos, las respuestas ineficaces ocurrieron con menos frecuencia y las respuestas exitosas ocurrieron con mayor frecuencia, por lo que los gatos escaparon cada vez más rápido. Thorndike generalizó este hallazgo en su ley de efecto, que establece que los comportamientos seguidos de consecuencias satisfactorias tienden a repetirse y los que producen consecuencias desagradables tienen menos probabilidades de repetirse.
En resumen, algunas consecuencias fortalecen el comportamiento y algunas consecuencias debilitan el comportamiento. Al trazar el tiempo de escape contra el número de prueba, Thorndike produjo las primeras curvas de aprendizaje de animales conocidas a través de este procedimiento.
Los humanos parecen aprender muchos comportamientos simples a través del tipo de proceso estudiado por Thorndike, ahora llamado condicionamiento operante. Es decir, las respuestas se retienen cuando conducen a un resultado exitoso y se descartan cuando no lo hacen, o cuando producen efectos adversos.
Esto suele suceder sin ser planeado por ningún «maestro», pero los padres han utilizado el condicionamiento operante para enseñar a sus hijos durante miles de años.
BF Skinner
BF Skinner (1904–1990) se conoce como el padre del condicionamiento operante, y su trabajo se cita con frecuencia en relación con este tema. Su libro de 1938 «El comportamiento de los organismos: un análisis experimental» inició su estudio de toda la vida sobre el condicionamiento operante y su aplicación al comportamiento humano y animal.
Siguiendo las ideas de Ernst Mach, Skinner rechazó la referencia de Thorndike a estados mentales no observables como la satisfacción, construyendo su análisis sobre el comportamiento observable y sus consecuencias igualmente observables.
Skinner creía que el condicionamiento clásico era demasiado simplista para ser usado para describir algo tan complejo como el comportamiento humano. El condicionamiento operante, en su opinión, describió mejor el comportamiento humano al examinar las causas y los efectos del comportamiento intencional.
Para implementar su enfoque empírico, Skinner inventó la cámara de acondicionamiento operante, o » Caja de Skinner «, en la que sujetos como palomas y ratas se aislaron y podrían exponerse a estímulos cuidadosamente controlados. A diferencia de la caja de rompecabezas de Thorndike, este arreglo permitió al sujeto hacer una o dos respuestas simples y repetibles, y la tasa de tales respuestas se convirtió en la principal medida de comportamiento de Skinner.
Otra invención, el registrador acumulativo, produjo un registro gráfico a partir del cual se podían estimar estas tasas de respuesta. Estos registros fueron los datos primarios que Skinner y sus colegas utilizaron para explorar los efectos sobre la tasa de respuesta de varios esquemas de refuerzo.Un programa de refuerzo puede definirse como «cualquier procedimiento que entrega refuerzo a un organismo de acuerdo con alguna regla bien definida».
Los efectos de los horarios se convirtieron, a su vez, en los hallazgos básicos a partir de los cuales Skinner desarrolló su explicación del condicionamiento operante. También recurrió a muchas observaciones menos formales del comportamiento humano y animal.
Muchos de los escritos de Skinner están dedicados a la aplicación del condicionamiento operante al comportamiento humano. En 1948 publicó Walden Two, un relato ficticio de una comunidad pacífica, feliz y productiva organizada en torno a sus principios condicionantes. En 1957, Skinner publicó Verbal Behavior,que extendió los principios del condicionamiento operante al lenguaje, una forma de comportamiento humano que previamente había sido analizado de manera muy diferente por los lingüistas y otros.
Skinner definió nuevas relaciones funcionales como «mands» y «tacts» para capturar algunos elementos esenciales del lenguaje, pero no introdujo nuevos principios, tratando el comportamiento verbal como cualquier otro comportamiento controlado por sus consecuencias, que incluía las reacciones de la audiencia del hablante.
Conceptos y procedimientos
Orígenes del comportamiento operante: variabilidad operante
Se dice que el comportamiento operativo se «emite»; es decir, inicialmente no es provocado por ningún estímulo particular. Por lo tanto, uno puede preguntarse por qué sucede en primer lugar. La respuesta a esta pregunta es como la respuesta de Darwin a la pregunta del origen de una «nueva» estructura corporal, a saber, la variación y la selección.
Del mismo modo, el comportamiento de un individuo varía de un momento a otro, en aspectos tales como los movimientos específicos involucrados, la cantidad de fuerza aplicada o el momento de la respuesta. Las variaciones que conducen al refuerzo se fortalecen, y si el refuerzo es consistente, el comportamiento tiende a permanecer estable.
Sin embargo, la variabilidad del comportamiento puede alterarse mediante la manipulación de ciertas variables.
Modificación del comportamiento operante: refuerzo y castigo
El refuerzo y el castigo son las herramientas centrales a través de las cuales se modifica el comportamiento operante. Estos términos se definen por su efecto sobre el comportamiento. Cualquiera puede ser positivo o negativo.
El refuerzo positivo y el refuerzo negativo aumentan la probabilidad de un comportamiento que siguen, mientras que el castigo positivo y el castigo negativo reducen la probabilidad de comportamiento que siguen.
Otro procedimiento se llama «extinción».
La extinción ocurre cuando un comportamiento previamente reforzado ya no se refuerza con refuerzo positivo o negativo. Durante la extinción, el comportamiento se vuelve menos probable. El refuerzo ocasional puede conducir a un retraso aún mayor antes de la extinción del comportamiento debido al factor de aprendizaje de instancias repetidas que se hacen necesarias para obtener refuerzo, en comparación con el refuerzo que se da en cada oportunidad antes de la extinción.
Hay un total de cinco consecuencias.
El refuerzo positivo ocurre cuando un comportamiento (respuesta) es gratificante o el comportamiento es seguido por otro estímulo que es gratificante, aumentando la frecuencia de ese comportamiento. Por ejemplo, si una rata en una caja Skinner obtiene comida cuando presiona una palanca, su tasa de presión aumentará.
Este procedimiento generalmente se llama simplemente refuerzo.
El refuerzo negativo (también conocido como escape) ocurre cuando un comportamiento (respuesta) es seguido por la eliminación de unestímulo aversivo, lo que aumenta la frecuencia del comportamiento original. En el experimento de Skinner Box, el estímulo aversivo podría ser un ruido fuerte continuamente dentro de la caja;
El refuerzo negativo ocurriría cuando la rata presiona una palanca para apagar el ruido.
El castigo positivo (también denominado «castigo por estimulación contingente») ocurre cuando un comportamiento (respuesta) es seguido por un estímulo aversivo. Ejemplo: dolor por una paliza, que a menudo daría como resultado una disminución en ese comportamiento. El castigo positivo es un término confuso, por lo que el procedimiento generalmente se conoce como «castigo».
El castigo negativo (pena) (también llamado «castigo por retiro contingente») ocurre cuando un comportamiento (respuesta) es seguido por la eliminación de un estímulo. Ejemplo: quitarle el juguete a un niño después de un comportamiento no deseado por él / ella, lo que resultaría en una disminución en el comportamiento no deseado.
La extinción ocurre cuando un comportamiento (respuesta) que previamente había sido reforzado ya no es efectivo. Ejemplo: primero se le da comida a una rata muchas veces por presionar una palanca, hasta que el experimentador ya no da comida como recompensa. La rata normalmente presiona la palanca con menos frecuencia y luego se detiene.
Entonces se diría que la presión de la palanca está «extinguida».
Es importante tener en cuenta que no se dice que los actores (por ejemplo, una rata) sean reforzados, castigados o extinguidos; son las acciones que se refuerzan, castigan o extinguen. El refuerzo, el castigo y la extinción no son términos cuyo uso está restringido al laboratorio. Las consecuencias que ocurren naturalmente también pueden reforzar, castigar o extinguir el comportamiento y no siempre se planifican o se entregan a propósito.
Horarios de refuerzo
Los horarios de refuerzo son reglas que controlan la entrega de refuerzo. Las reglas especifican el tiempo en que el refuerzo debe estar disponible, o el número de respuestas a realizar, o ambos. Son posibles muchas reglas, pero las siguientes son las más básicas y comúnmente utilizadas
Programa de intervalo fijo: el refuerzo se produce después de la primera respuesta después de que haya transcurrido un tiempo fijo después del refuerzo anterior. Este programa produce un patrón de respuesta «break-run»; es decir, después de entrenar en este horario, el organismo generalmente hace una pausa después del refuerzo y luego comienza a responder rápidamente a medida que se acerca el momento del próximo refuerzo.
Programa de intervalo variable: el refuerzo se produce después de la primera respuesta después de que haya transcurrido un tiempo variable desde el refuerzo anterior. Este programa generalmente produce una tasa de respuesta relativamente constante que varía con el tiempo promedio entre refuerzos.
Programa de proporción fija: el refuerzo se produce después de que se haya emitido un número fijo de respuestas desde el refuerzo anterior. Un organismo entrenado en este programa generalmente hace una pausa por un tiempo después de un refuerzo y luego responde a un ritmo alto. Si el requisito de respuesta es bajo, puede que no haya pausa;
Si el requisito de respuesta es alto, el organismo puede dejar de responder por completo.
Programa de relación variable: el refuerzo se produce después de que se haya emitido un número variable de respuestas desde el refuerzo anterior. Este programa generalmente produce una tasa de respuesta muy alta y persistente.
Refuerzo continuo: el refuerzo ocurre después de cada respuesta. Los organismos generalmente responden tan rápido como pueden, dado el tiempo necesario para obtener y consumir refuerzo, hasta que se sacian.
Factores que alteran la efectividad del refuerzo y el castigo
La efectividad del refuerzo y el castigo se puede cambiar.
Saciedad / Privación : la efectividad de un estímulo positivo o «apetito» se reducirá si el individuo ha recibido suficiente estímulo para satisfacer su apetito. El efecto contrario ocurrirá si el individuo se ve privado de ese estímulo: la efectividad de una consecuencia aumentará. Un sujeto con el estómago lleno no se sentiría tan motivado como uno hambriento.
Inmediatez : una consecuencia inmediata es más efectiva que una demorada. Si uno le da un regalo a un perro por sentarse dentro de los cinco segundos, el perro aprenderá más rápido que si el regalo se da después de treinta segundos.
Contingencia : para ser más efectivo, el refuerzo debe ocurrir consistentemente después de las respuestas y no en otros momentos. El aprendizaje puede ser más lento si el refuerzo es intermitente, es decir, siguiendo solo algunos casos de la misma respuesta. Las respuestas reforzadas de forma intermitente suelen ser más lentas de extinguir que las respuestas que siempre han sido reforzadas.
Tamaño : el tamaño o la cantidad de un estímulo a menudo afecta su potencia como reforzador. Los humanos y los animales participan en análisis de costo-beneficio. Si una prensa de palanca trae diez gránulos de comida, la presión de palanca puede aprenderse más rápidamente que si una prensa solo trae una bolita.
Una pila de monedas de una máquina tragamonedas puede hacer que un jugador tire de la palanca más de un cuarto.
La mayoría de estos factores cumplen funciones biológicas. Por ejemplo, el proceso de saciedad ayuda al organismo a mantener un ambiente interno estable ( homeostasis ). Cuando un organismo ha sido privado de azúcar, por ejemplo, el sabor del azúcar es un reforzador efectivo. Cuando el azúcar en la sangre del organismo alcanza o supera un nivel óptimo, el sabor del azúcar se vuelve menos efectivo o incluso aversivo.
Dar forma
La conformación es un método de acondicionamiento muy utilizado en el entrenamiento de animales y en la enseñanza de humanos no verbales. Depende de la variabilidad operante y el refuerzo, como se describió anteriormente. El entrenador comienza identificando el comportamiento final deseado (o «objetivo«).
Luego, el entrenador elige un comportamiento que el animal o la persona ya emite con cierta probabilidad. La forma de este comportamiento cambia gradualmente a través de pruebas sucesivas reforzando comportamientos que se aproximan cada vez más al comportamiento objetivo. Cuando el comportamiento objetivo finalmente se emite, puede fortalecerse y mantenerse mediante el uso de un programa de refuerzo.
Refuerzo no contingente
El refuerzo no contingente es la entrega de estímulos de refuerzo independientemente del comportamiento del organismo. El refuerzo no contingente puede usarse en un intento de reducir un comportamiento objetivo no deseado reforzando múltiples respuestas alternativas mientras se extingue la respuesta objetivo.
Como no se identifica un comportamiento medido como fortalecido, existe una controversia en torno al uso del término «refuerzo» no contingente.
Control de estímulo del comportamiento operante
Aunque inicialmente el comportamiento operante se emite sin una referencia identificada a un estímulo particular, durante el condicionamiento operante los operantes quedan bajo el control de los estímulos que están presentes cuando se refuerza el comportamiento. Tales estímulos se llaman «estímulos discriminativos».
El resultado es una llamada » contingencia de tres términos «. Es decir, los estímulos discriminativos crean la ocasión para respuestas que producen recompensa o castigo. Ejemplo: una rata puede ser entrenada para presionar una palanca solo cuando se enciende una luz; un perro corre a la cocina cuando escucha el traqueteo de su bolsa de comida;
Un niño alcanza un caramelo cuando lo ve en una mesa.
Discriminación, generalización y contexto
La mayoría del comportamiento está bajo control de estímulo. Se pueden distinguir varios aspectos de esto:
La discriminación generalmente ocurre cuando una respuesta se refuerza solo en presencia de un estímulo específico. Por ejemplo, una paloma podría ser alimentada para picotear en una luz roja y no en una luz verde; en consecuencia, picotea en rojo y deja de picotear en verde. Se han estudiado muchas combinaciones complejas de estímulos y otras condiciones;
Por ejemplo, un organismo podría reforzarse en un horario de intervalos en presencia de un estímulo y en un horario de proporciones en presencia de otro.
La generalización es la tendencia a responder a estímulos que son similares a un estímulo discriminatorio previamente entrenado. Por ejemplo, haber sido entrenado para picotear en «rojo» una paloma también podría picotear en «rosa», aunque generalmente con menos fuerza.
El contexto se refiere a estímulos que están continuamente presentes en una situación, como las paredes, mesas, sillas, etc. en una habitación o el interior de una cámara de acondicionamiento operante. Los estímulos del contexto pueden llegar a controlar el comportamiento al igual que los estímulos discriminativos, aunque generalmente de manera más débil.
Los comportamientos aprendidos en un contexto pueden estar ausentes o alterados en otro. Esto puede causar dificultades para la terapia conductual, ya que los comportamientos aprendidos en el entorno terapéutico pueden fallar en otras situaciones.
Secuencias de comportamiento: refuerzo condicionado y encadenamiento
La mayoría de los comportamientos no pueden describirse fácilmente en términos de respuestas individuales reforzadas una por una. El alcance del análisis operante se expande a través de la idea de las cadenas de comportamiento, que son secuencias de respuestas unidas por las contingencias de tres términos definidas anteriormente.
El encadenamiento se basa en el hecho, demostrado experimentalmente, de que un estímulo discriminativo no solo establece la ocasión para un comportamiento posterior, sino que también puede reforzar un comportamiento que lo precede. Es decir, un estímulo discriminativo es también un «reforzador condicionado».
Por ejemplo, la luz que establece la ocasión para presionar la palanca puede usarse para reforzar el «giro» en presencia de un ruido. Esto da como resultado la secuencia «ruido – giro – luz – palanca de presión – comida». Se pueden construir cadenas mucho más largas agregando más estímulos y respuestas.
Escape y evasión
En el aprendizaje de escape, un comportamiento termina un estímulo (aversivo). Por ejemplo, proteger los ojos de la luz solar termina la estimulación (aversiva) de la luz brillante en los ojos. (Este es un ejemplo de refuerzo negativo, definido anteriormente). El comportamiento que se mantiene al prevenir un estímulo se llama «evitación», como, por ejemplo, ponerse gafas de sol antes de salir al aire libre.
El comportamiento de evitación plantea la llamada «paradoja de la evitación», ya que, se puede preguntar, ¿cómo puede la no ocurrencia de un estímulo servir como un refuerzo? Esta pregunta es abordada por varias teorías de evitación (ver más abajo).
Se utilizan comúnmente dos tipos de entornos experimentales: aprendizaje de evitación discriminado y de libre operación.
Aprendizaje evasivo discriminado
Un experimento de evitación discriminada implica una serie de ensayos en los que un estímulo neutral, como una luz, es seguido por un estímulo aversivo, como un shock. Después de que aparece el estímulo neutro, una respuesta operante, como una palanca, previene o termina el estímulo aversivo. En las primeras pruebas, el sujeto no responde hasta que el estímulo aversivo ha comenzado, por lo que estas primeras pruebas se llaman pruebas de «escape».
A medida que el aprendizaje progresa, el sujeto comienza a responder durante el estímulo neutral y, por lo tanto, evita que ocurra el estímulo aversivo. Dichos ensayos se denominan «ensayos de evitación». Se dice que este experimento involucra el condicionamiento clásico porque un CS neutro (estímulo condicionado) se combina con los EE.
UU. Aversivos (estímulo no condicionado);
Aprendizaje de evitación de operación libre
En la evitación de operación libre, un sujeto recibe periódicamente un estímulo aversivo (a menudo una descarga eléctrica) a menos que se realice una respuesta operante; La respuesta retrasa la aparición del shock. En esta situación, a diferencia de la evitación discriminada, ningún estímulo previo señala el shock.
Dos intervalos de tiempo cruciales determinan la tasa de aprendizaje de evitación. Este primero es el intervalo SS (shock-shock). Este es el tiempo entre sucesivas perturbaciones en ausencia de una respuesta. El segundo intervalo es el intervalo RS (respuesta-shock). Esto especifica el tiempo por el cual una respuesta operante retrasa el inicio de la próxima descarga.
Tenga en cuenta que cada vez que el sujeto realiza la respuesta operante, el intervalo RS sin choque comienza de nuevo.
Teoría de la evitación en dos procesos
Esta teoría se propuso originalmente para explicar el aprendizaje de evitación discriminada, en el que un organismo aprende a evitar un estímulo aversivo al escapar de una señal para ese estímulo. Hay dos procesos involucrados: el condicionamiento clásico de la señal seguido del condicionamiento operante de la respuesta de escape:
A) Condicionamiento clásico del miedo. Inicialmente, el organismo experimenta el emparejamiento de un CS con un Estados Unidos aversivo. La teoría supone que este emparejamiento crea una asociación entre el CS y los EE. UU. A través del condicionamiento clásico y, debido a la naturaleza aversiva de los EE.
UU., El CS llega a provocar una reacción emocional condicionada (CER): «miedo». b) Refuerzo de la respuesta operante por reducción del miedo.Como resultado del primer proceso, el CS ahora muestra miedo; Esta desagradable reacción emocional sirve para motivar las respuestas operantes, y las respuestas que terminan el CS se ven reforzadas por la terminación del miedo.
Tenga en cuenta que la teoría no dice que el organismo «evita» a los Estados Unidos en el sentido de anticiparlo, sino que el organismo «escapa» de un estado interno aversivo que es causado por el CS. Varios hallazgos experimentales parecen ir en contra de la teoría de dos factores. Por ejemplo, el comportamiento de evitación a menudo se extingue muy lentamente, incluso cuando el emparejamiento inicial CS-US nunca vuelve a ocurrir, por lo que se espera que la respuesta al miedo se extinga (consulte Condicionamiento clásico) Además, los animales que han aprendido a evitar a menudo muestran poca evidencia de miedo, lo que sugiere que escapar del miedo no es necesario para mantener el comportamiento de evitación.
Teoría operante o de «un factor»
Algunos teóricos sugieren que el comportamiento de evitación puede ser simplemente un caso especial de comportamiento operante mantenido por sus consecuencias. Desde este punto de vista, la idea de «consecuencias» se expande para incluir la sensibilidad a un patrón de eventos. Por lo tanto, evitando, la consecuencia de una respuesta es una reducción en la tasa de estimulación aversiva.
De hecho, la evidencia experimental sugiere que un «choque perdido» se detecta como un estímulo y puede actuar como un reforzador. Las teorías cognitivas de la evitación llevan esta idea un paso más allá. Por ejemplo, una rata llega a «esperar» un shock si no presiona una palanca y a «no esperar un shock» si la presiona, y el comportamiento de evitación se fortalece si se confirman estas expectativas.
Acumulación de operadores
El acaparamiento operativo se refiere a la observación de que las ratas reforzadas de cierta manera pueden permitir que los gránulos de comida se acumulen en una bandeja de comida en lugar de recuperar esos gránulos. En este procedimiento, la recuperación de los gránulos siempre instituyó un período de extinción de un minuto durante el cual no había gránulos de alimentos adicionales disponibles, pero los que se habían acumulado antes podían ser consumidos.
Este hallazgo parece contradecir el hallazgo habitual de que las ratas se comportan impulsivamente en situaciones en las que hay una opción entre un objeto de comida más pequeño de inmediato y un objeto de comida más grande después de algún retraso. Ver horarios de refuerzo.
Correlatos neurobiológicos
Los primeros estudios científicos que identificaron las neuronas que respondieron de manera que sugirieron que codifican estímulos condicionados vinieron del trabajo de Mahlon deLong y de RT Richardson. Mostraron que las neuronas del núcleo basal, que liberan acetilcolina en toda la corteza cerebral, se activan poco después de un estímulo condicionado, o después de una recompensa primaria si no existe un estímulo condicionado.
Estas neuronas son igualmente activas para los reforzadores positivos y negativos, y se ha demostrado que están relacionadas con la neuroplasticidad en muchas regiones corticales. También existe evidencia de queLa dopamina se activa en momentos similares. Existe considerable evidencia de que la dopamina participa tanto en el refuerzo como en el aprendizaje aversivo.
Las vías de dopamina se proyectan mucho más densamente en las regiones de la corteza frontal. Las proyecciones colinérgicas, en contraste, son densas incluso en las regiones corticales posteriores, como la corteza visual primaria. Un estudio de pacientes con enfermedad de Parkinson, una afección atribuida a la acción insuficiente de la dopamina, ilustra aún más el papel de la dopamina en el refuerzo positivo.Demostró que mientras no tomaban sus medicamentos, los pacientes aprendían más fácilmente con consecuencias adversas que con refuerzo positivo.
Los pacientes que estaban tomando sus medicamentos mostraron lo contrario, el refuerzo positivo demostró ser la forma más efectiva de aprendizaje cuando la actividad de la dopamina es alta.
Se ha sugerido que un proceso neuroquímico que involucra dopamina subyace al refuerzo. Cuando un organismo experimenta un estímulo de refuerzo, se activan las vías de dopamina en el cerebro. Esta red de vías «libera un pulso corto de dopamina en muchas dendritas, transmitiendo así una señal de refuerzo global a las neuronas postsinápticas «.Esto permite que las sinapsis recientemente activadas aumenten su sensibilidad a las señales eferentes (que conducen hacia afuera), aumentando así la probabilidad de ocurrencia de las respuestas recientes que precedieron al refuerzo.
Estas respuestas son, estadísticamente, las más probables de haber sido el comportamiento responsable de lograr con éxito el refuerzo. Pero cuando la aplicación de refuerzo es menos inmediata o menos contingente (menos consistente), la capacidad de la dopamina para actuar sobre las sinapsis apropiadas se reduce.
Preguntas sobre la ley del efecto
Una serie de observaciones parecen mostrar que el comportamiento operante puede establecerse sin refuerzo en el sentido definido anteriormente. Lo más citado es el fenómeno de la autoformación (a veces llamado «seguimiento de signos»), en el que un estímulo es seguido repetidamente por refuerzo, y en consecuencia el animal comienza a responder al estímulo.
Por ejemplo, se enciende una clave de respuesta y luego se presentan los alimentos. Cuando esto se repite varias veces, un sujeto de paloma comienza a picotear la llave a pesar de que la comida llega, ya sea que el pájaro picotee o no. Del mismo modo, las ratas comienzan a manipular objetos pequeños, como una palanca, cuando se presentan alimentos cerca.
Sorprendentemente, las palomas y las ratas persisten en este comportamiento incluso cuando picotean la tecla o presionan la palanca conduce a menos comida (entrenamiento de omisión). Otro comportamiento operante aparente que aparece sin refuerzo es contrafreeloading.
Estas observaciones y otras parecen contradecir la ley del efecto, y han llevado a algunos investigadores a proponer nuevas conceptualizaciones del refuerzo operante (p. Ej., ). Una visión más general es que el autoconformado es una instancia de condicionamiento clásico.; El procedimiento de modelado automático se ha convertido, de hecho, en una de las formas más comunes de medir el condicionamiento clásico.
Desde este punto de vista, muchos comportamientos pueden estar influenciados tanto por contingencias clásicas (estímulo-respuesta) como por contingencias operantes (refuerzo de respuesta), y la tarea del experimentador es determinar cómo interactúan.
Aplicaciones
El refuerzo y el castigo son omnipresentes en las interacciones sociales humanas, y se han sugerido e implementado una gran cantidad de aplicaciones de principios operantes. Los siguientes son algunos ejemplos.
Adicción y dependencia
El refuerzo positivo y negativo juega un papel central en el desarrollo y mantenimiento de la adicción y la drogodependencia. Una droga adictiva es intrínsecamente gratificante; es decir, funciona como un reforzador positivo primario del consumo de drogas. El sistema de recompensa del cerebro le asigna prominencia de incentivos (es decir, es «deseado» o «deseado»), de modo que a medida que se desarrolla una adicción, la privación de la droga conduce al deseo.
Además, los estímulos asociados con el uso de drogas, por ejemplo, la visión de una jeringa y la ubicación del uso, se asocian con el refuerzo intenso inducido por la droga.Estos estímulos previamente neutros adquieren varias propiedades: su apariencia puede inducir antojo y pueden convertirse en reforzadores positivos condicionados de uso continuo.
Por lo tanto, si un individuo adicto encuentra una de estas señales de drogas, puede reaparecer un ansia por la droga asociada. Por ejemplo, las agencias antidrogas utilizaron previamente carteles con imágenes de parafernalia de drogas como un intento de mostrar los peligros del consumo de drogas. Sin embargo, tales carteles ya no se usan debido a los efectos de la prominencia de incentivos al provocar una recaída al ver los estímulos ilustrados en los carteles.
En individuos dependientes de drogas, el refuerzo negativo ocurre cuando un medicamento se autoadministra para aliviar o «escapar» de los síntomas de dependencia física (p. Ej., Temblores y sudoración) y / o dependencia psicológica (p. Ej., Anhedonia, inquietud, irritabilidad y ansiedad) que surgen durante el estado de abstinencia de drogas.
Entrenamiento animal
Los entrenadores de animales y los dueños de mascotas estaban aplicando los principios y prácticas del condicionamiento operante mucho antes de que estas ideas fueran nombradas y estudiadas, y el entrenamiento con animales todavía proporciona uno de los ejemplos más claros y convincentes de control operante.
De los conceptos y procedimientos descritos en este artículo, algunos de los más destacados son los siguientes: (a) disponibilidad de refuerzo primario (por ejemplo, una bolsa de yummies para perros); (b) el uso de refuerzo secundario (por ejemplo, hacer sonar un clicker inmediatamente después de una respuesta deseada, luego dar un delicioso);
C) contingencia, asegurando que el refuerzo (por ejemplo, el clicker) sigue el comportamiento deseado y no otra cosa; (d) dar forma, como hacer que un perro salte cada vez más alto; (e) refuerzo intermitente, como en reducir gradualmente la frecuencia de refuerzo para inducir un comportamiento persistente sin saciedad;
F) encadenamiento, donde un comportamiento complejo se construye gradualmente a partir de unidades más pequeñas.
Ejemplo de adiestramiento de animales de Seaworld relacionado con el condicionamiento operante
El entrenamiento animal tiene efectos sobre el refuerzo positivo y el refuerzo negativo. Los horarios de los refuerzos pueden desempeñar un papel importante en el caso del entrenamiento de animales.
Análisis de comportamiento aplicado
El análisis de comportamiento aplicado es la disciplina iniciada por BF Skinner que aplica los principios del condicionamiento a la modificación del comportamiento humano socialmente significativo. Utiliza los conceptos básicos de la teoría del condicionamiento, incluido el estímulo condicionado (S C ), el estímulo discriminativo (S d ), la respuesta (R) y el estímulo de refuerzo (S rein o S r para los reforzadores, a veces S ave para los estímulos aversivos).Un estímulo condicionado controla las conductas desarrolladas a través del condicionamiento del encuestado (clásico), como las reacciones emocionales.
Los otros tres términos se combinan para formar la «contingencia de tres términos» de Skinner: un estímulo discriminatorio establece la ocasión para respuestas que conducen al refuerzo. Los investigadores han encontrado que el siguiente protocolo es efectivo cuando usan las herramientas de condicionamiento operante para modificar el comportamiento humano:
Objetivo del estado Aclarar exactamente qué cambios se deben realizar. Por ejemplo, «reduzca el peso en 30 libras».
Monitorear el comportamiento Lleve un registro del comportamiento para poder ver si están ocurriendo los efectos deseados. Por ejemplo, mantenga una tabla de pesos diarios.
Reforzar el comportamiento deseado Por ejemplo, felicitar al individuo por la pérdida de peso. Con los humanos, un registro de comportamiento puede servir como refuerzo. Por ejemplo, cuando un participante ve un patrón de pérdida de peso, esto puede reforzar la continuidad en un programa conductual de pérdida de peso.
Sin embargo, los individuos pueden percibir el refuerzo que pretende ser positivo como negativo y viceversa. Por ejemplo, un registro de pérdida de peso puede actuar como refuerzo negativo si le recuerda al individuo cuán pesado es en realidad. La economía de fichas, es un sistema de intercambio en el que las fichas se otorgan como recompensas por los comportamientos deseados.
Posteriormente, los tokens se pueden cambiar por un premio o recompensas deseadas, como poder, prestigio, bienes o servicios.
Reduzca los incentivos para realizar comportamientos indeseables. Por ejemplo, retire los dulces y los refrigerios grasos de los estantes de la cocina.
Los practicantes del análisis de comportamiento aplicado (ABA) aplican estos procedimientos, y muchas variaciones y desarrollos de los mismos, para influir en una variedad de comportamientos y problemas socialmente significativos. En muchos casos, los profesionales usan técnicas operantes para desarrollar comportamientos constructivos y socialmente aceptables para reemplazar los comportamientos aberrantes.
Las técnicas de ABA se han aplicado de manera efectiva en cuestiones tales como intervenciones conductuales intensivas tempranas para niños con un trastorno del espectro autista (TEA) investigación sobre los principios que influyen en el comportamiento delictivo, la prevención del VIH, conservación de los recursos naturales, educación, gerontología, salud y ejercicio, seguridad industrial, adquisición del lenguaje, tirar basura, procedimientos médicos, crianza de los hijos, psicoterapia,uso del cinturón de seguridad, trastornos mentales graves, deportes, abuso de sustancias, fobias, trastornos de la alimentación pediátrica y manejo y cuidado de animales en zoológicos.
Algunas de estas aplicaciones se encuentran entre las que se describen a continuación.
Comportamiento del niño – capacitación en gestión de padres
Brindar un refuerzo positivo para los comportamientos apropiados del niño es un enfoque principal de la capacitación para el manejo de los padres. Por lo general, los padres aprenden a recompensar el comportamiento apropiado a través de recompensas sociales (como elogios, sonrisas y abrazos), así como recompensas concretas (como pegatinas o puntos hacia una recompensa más grande como parte de un sistema de incentivos creado en colaboración con el niño).
Además, los padres aprenden a seleccionar comportamientos simples como enfoque inicial y recompensan cada uno de los pequeños pasos que su hijo logra para alcanzar una meta más grande (este concepto se llama «aproximaciones sucesivas»).
Economía
Tanto los psicólogos como los economistas se han interesado en aplicar conceptos y hallazgos operantes al comportamiento de los humanos en el mercado. Un ejemplo es el análisis de la demanda del consumidor, según lo indexado por la cantidad de una mercancía que se compra. En economía, el grado en que el precio influye en el consumo se llama «la elasticidad precio de la demanda».
Ciertos productos son más elásticos que otros; Por ejemplo, un cambio en el precio de ciertos alimentos puede tener un gran efecto en la cantidad comprada, mientras que la gasolina y otros consumibles cotidianos pueden verse menos afectados por los cambios en los precios. En términos de análisis operante, tales efectos pueden interpretarse en términos de motivaciones de los consumidores y el valor relativo de los productos como reforzadores.
Juegos de apuestas: programación de relación variable
Como se indicó anteriormente en este artículo, un programa de relación variable produce refuerzo después de la emisión de un número impredecible de respuestas. Este programa generalmente genera una respuesta rápida y persistente. Las máquinas tragamonedas pagan en un horario de relación variable, y producen este tipo de comportamiento persistente de palanca en los jugadores.
La rentabilidad variable de las máquinas tragamonedas y otras formas de juego a menudo se ha citado como un factor subyacente a la adicción al juego.
Psicología militar
Los seres humanos tienen una resistencia innata a los asesinatos y son reacios a actuar de forma directa y agresiva hacia los miembros de su propia especie, incluso para salvar vidas. Esta resistencia al asesinato ha causado que la infantería sea notablemente ineficiente a lo largo de la historia de la guerra militar.
Este fenómeno no se entendió hasta que el SLA Marshall (general de brigada e historiador militar) emprendió estudios de entrevistas de infantería de la Segunda Guerra Mundial inmediatamente después del combate. El conocido y controvertido libro de Marshall, Men Against Fire, reveló que solo el 15% de los soldados dispararon sus rifles con el propósito de matar en combate.
Tras la aceptación de la investigación de Marshall por el Ejército de los EE. UU. En 1946, la Oficina de Investigación de Recursos Humanos del Ejército de los EE. UU. Comenzó a implementar nuevos protocolos de entrenamiento que se asemejan a los métodos de condicionamiento operante. Las aplicaciones posteriores de tales métodos aumentaron el porcentaje de soldados capaces de matar a alrededor del 50% en Corea y más del 90% en Vietnam.
Las revoluciones en el entrenamiento incluyeron el reemplazo de los campos de tiro emergentes tradicionales con objetivos emergentes tridimensionales, en forma de hombre, que colapsaron al ser golpeados. Esto proporcionó retroalimentación inmediata y actuó como refuerzo positivo para el comportamiento de un soldado.
Otras mejoras a los métodos de entrenamiento militar han incluido el curso de tiro cronometrado; entrenamiento más realista; altas repeticiones; alabanzas de los superiores; recompensas de puntería; y reconocimiento grupal. El refuerzo negativo incluye la responsabilidad de los compañeros o el requisito de retomar los cursos.
El entrenamiento militar moderno condiciona la respuesta del cerebro medio a la presión de combate simulando de cerca el combate real, utilizando principalmente condicionamiento clásico pavloviano y skinnerianocondicionamiento operante (ambas formas de conductismo ).
El entrenamiento de puntería moderno es un excelente ejemplo de conductismo que se ha utilizado durante años en el curso introductorio de psicología enseñado a todos los cadetes de la Academia Militar de los Estados Unidos en West Point como un ejemplo clásico de condicionamiento operante. En la década de 1980, durante una visita a West Point, BF Skinner identificó el entrenamiento de puntería militar moderno como una aplicación casi perfecta del condicionamiento operante.
El teniente coronel Dave Grossman declara sobre el condicionamiento operante y el entrenamiento militar de los EE. UU. Que:
Es completamente posible que nadie se haya sentado intencionalmente para usar técnicas de condicionamiento operante o modificación de comportamiento para entrenar a soldados en esta área… Pero desde el punto de vista de un psicólogo que también es historiador y soldado de carrera, me ha resultado cada vez más obvio que Esto es exactamente lo que se ha logrado.
Teoría de empujones
La teoría de los empujones (o empujones) es un concepto en ciencias del comportamiento, teoría política y economía que argumenta que las sugerencias indirectas para tratar de lograr el cumplimiento no forzado pueden influir en los motivos, incentivos y toma de decisiones de grupos e individuos, al menos con la misma eficacia, si no con mayor eficacia que la instrucción directa, la legislación o la ejecución.
Alabanza
El concepto de alabanza como un medio de refuerzo conductual se basa en el modelo de condicionamiento operante de BF Skinner. A través de este lente, los elogios han sido vistos como un medio de refuerzo positivo, en donde un comportamiento observado es más probable que ocurra al elogiar de manera contingente dicho comportamiento.
Cientos de estudios han demostrado la efectividad de los elogios en la promoción de comportamientos positivos, especialmente en el estudio del uso de los elogios por parte de los maestros y los padres en los niños para promover un mejor comportamiento y rendimiento académico, pero también en el estudio de Rendimiento laboral.También se ha demostrado que los elogios refuerzan los comportamientos positivos en individuos adyacentes no elogiados (como un compañero de clase del destinatario de los elogios) a través del refuerzo indirecto.
Los elogios pueden ser más o menos efectivos para cambiar el comportamiento dependiendo de su forma, contenido y entrega. Para que el elogio produzca un cambio de comportamiento positivo, debe estar supeditado al comportamiento positivo (es decir, solo administrado después de que se promulgue el comportamiento objetivo), debe especificar los detalles del comportamiento que debe reforzarse y debe entregarse sinceramente y creíblemente
Reconociendo el efecto del elogio como una estrategia de refuerzo positivo, numerosas intervenciones conductuales y cognitivas han incorporado el uso del elogio en sus protocolos. El uso estratégico del elogio se reconoce como una práctica basada en la evidencia tanto en el manejo del aula como en las intervenciones de capacitación para padres, aunque el elogio a menudo se incluye en la investigación de intervención en una categoría más amplia de refuerzo positivo, que incluye estrategias como atención estratégica y recompensas de comportamiento.
Se han realizado varios estudios sobre el efecto que la terapia cognitivo-conductual y la terapia operante-conductual tienen en diferentes afecciones médicas. Cuando los pacientes desarrollaron técnicas cognitivas y conductuales que cambiaron sus comportamientos, actitudes y emociones; su severidad del dolor disminuyó.
Los resultados de estos estudios mostraron una influencia de las cogniciones sobre la percepción del dolor y el impacto presentado explicaron la eficacia general de la terapia cognitiva conductual (TCC) y la terapia conductual operante (OBT).
Manipulación psicológica
Braiker identificó las siguientes formas en que los manipuladores controlan a sus víctimas:
Refuerzo positivo : incluye elogios, encanto superficial, simpatía superficial ( lágrimas de cocodrilo ), disculpas excesivas, dinero, aprobación, obsequios, atención, expresiones faciales como una risa o una sonrisa forzada y reconocimiento público.
Refuerzo negativo : puede implicar sacar a uno de una situación negativa
Refuerzo intermitente o parcial : el refuerzo negativo parcial o intermitente puede crear un clima efectivo de miedo y duda. El refuerzo positivo parcial o intermitente puede alentar a la víctima a persistir; por ejemplo, en la mayoría de las formas de juego, es probable que el jugador gane de vez en cuando pero aún así pierda dinero en general.
Castigo : incluye regañar, gritar, el tratamiento silencioso, intimidación, amenazas, palabrotas, chantaje emocional, el viaje de culpa, enfurruñarse, llorar y jugar a la víctima.
Aprendizaje traumático en un ensayo: uso de abuso verbal, ira explosiva u otro comportamiento intimidante para establecer dominio o superioridad; Incluso un incidente de tal comportamiento puede condicionar o entrenar a las víctimas para evitar molestar, confrontar o contradecir al manipulador.
Unión traumática
La vinculación traumática ocurre como resultado de ciclos continuos de abuso en los que el refuerzo intermitente de la recompensa y el castigo crea poderosos lazos emocionales que son resistentes al cambio.
La otra fuente indicó que ‘Las condiciones necesarias para la vinculación traumática son que una persona debe dominar a la otra y que el nivel de abuso aumenta de forma crónica y luego disminuye. La relación se caracteriza por períodos de comportamiento permisivo, compasivo e incluso afectivo de la persona dominante, puntuado por episodios intermitentes de abuso intenso.
Para mantener la ventaja, el victimario manipula el comportamiento de la víctima y limita las opciones de la víctima para perpetuar el desequilibrio de poder. Cualquier amenaza para el equilibrio de dominio y sumisión puede encontrarse con un ciclo de castigo en aumento que va desde la intimidación hirviente hasta arrebatos intensamente violentos.
El victimario también aísla a la víctima de otras fuentes de apoyo, lo que reduce la probabilidad de detección e intervención, perjudica a la víctima ‘ s capacidad de recibir retroalimentación autorreferencial y fortalece el sentido de dependencia unilateral… Los efectos traumáticos de estas relaciones abusivas pueden incluir el deterioro de la capacidad de la víctima para una autoevaluación precisa, lo que lleva a una sensación de insuficiencia personal y un sentido subordinado de dependencia de la persona dominante.
Las víctimas también pueden encontrar una variedad de consecuencias sociales y legales desagradables de su afiliación emocional y conductual con alguien que perpetró actos agresivos, incluso si ellos mismos fueron los receptores de la agresión. ‘. conduciendo a una sensación de insuficiencia personal y una sensación subordinada de dependencia de la persona dominante.
Las víctimas también pueden encontrar una variedad de consecuencias sociales y legales desagradables de su afiliación emocional y conductual con alguien que perpetró actos agresivos, incluso si ellos mismos fueron los receptores de la agresión. ‘. conduciendo a una sensación de insuficiencia personal y una sensación subordinada de dependencia de la persona dominante.
Las víctimas también pueden encontrar una variedad de consecuencias sociales y legales desagradables de su afiliación emocional y conductual con alguien que perpetró actos agresivos, incluso si ellos mismos fueron los receptores de la agresión. ‘.
Videojuegos
La mayoría de los videojuegos están diseñados alrededor de un ciclo de compulsión, agregando un tipo de refuerzo positivo a través de un horario de tasa variable para mantener al jugador jugando. Esto puede conducir a la patología de la adicción a los videojuegos.
Como parte de una tendencia en la monetización de los videojuegos durante la década de 2010, algunos juegos ofrecían cajas de botín como recompensas o como elementos que se pueden comprar con fondos del mundo real. Boxes contiene una selección aleatoria de elementos en el juego. La práctica se ha vinculado a los mismos métodos que las máquinas tragamonedas y otros dispositivos de juego distribuyen recompensas, ya que sigue un programa de tasa variable.
Si bien la percepción general de que los botines son una forma de juego, la práctica solo se clasifica como tal en algunos países. Sin embargo, los métodos para usar esos artículos como moneda virtual para los juegos de azar en línea o el comercio de dinero del mundo real ha creado un mercado de juegos de azar que está bajo evaluación legal.
Cultura del miedo en el lugar de trabajo
Ashforth discutió los lados potencialmente destructivos del liderazgo e identificó lo que él llamó pequeños tiranos : líderes que ejercen un estilo tiránico de gestión, lo que resulta en un clima de miedo en el lugar de trabajo. El refuerzo negativo parcial o intermitente puede crear un clima efectivo de miedo y duda.
Cuando los empleados tienen la sensación de que los matones son tolerados, el resultado puede ser un clima de miedo.
Las diferencias individuales en la sensibilidad a la recompensa, el castigo y la motivación se han estudiado bajo las premisas de la teoría de la sensibilidad de refuerzo y también se han aplicado al rendimiento laboral.
Una de las muchas razones propuestas para los dramáticos costos asociados con la atención médica es la práctica de la medicina defensiva. Prabhu revisa el artículo de Cole y analiza cómo las respuestas de dos grupos de neurocirujanos son comportamientos operantes clásicos. Un grupo practica en un estado con restricciones en demandas médicas y el otro grupo sin restricciones.
El grupo de neurocirujanos fue consultado anónimamente sobre sus patrones de práctica. Los médicos cambiaron su práctica en respuesta a una retroalimentación negativa (miedo de una demanda) en el grupo que practicaba en un estado sin restricciones en las demandas médicas.
Autor
