Conexionismo

El conexionismo es un enfoque en los campos de la ciencia cognitiva que espera explicar los fenómenos mentales utilizando redes neuronales artificiales (ANN). El conexionismo presenta una teoría cognitiva basada en la actividad de señal distribuida que ocurre simultáneamente a través de conexiones que pueden representarse numéricamente, donde el aprendizaje ocurre modificando las fuerzas de conexión en función de la experiencia.
Algunas ventajas del enfoque conexionista incluyen su aplicabilidad a una amplia gama de funciones, aproximación estructural a las neuronas biológicas, bajos requisitos de estructura innata y capacidad de degradación elegante. Algunas desventajas incluyen la dificultad para descifrar cómo las ANN procesan la información y la dificultad resultante para explicar los fenómenos a un nivel superior.
El éxito de las redes de aprendizaje profundo en la última década ha aumentado en gran medida la popularidad de este enfoque, pero la complejidad y la escala de tales redes ha traído consigo un aumento de los problemas de interpretación. Muchos consideran que el conexionismo ofrece una alternativa a las teorías clásicas de la mente basadas en la computación simbólica, pero la medida en que los dos enfoques son compatibles ha sido objeto de mucho debate desde su inicio.
Contenido
Principios básicos
El principio conexionista central es que los fenómenos mentales pueden describirse mediante redes interconectadas de unidades simples y a menudo uniformes. La forma de las conexiones y las unidades puede variar de un modelo a otro. Por ejemplo, las unidades en la red podrían representar neuronas y las conexiones podrían representar sinapsis, como en el cerebro humano.
Difusión de la activación
En la mayoría de los modelos conexionistas, las redes cambian con el tiempo. Un aspecto estrechamente relacionado y muy común de los modelos conexionistas es la activación. En cualquier momento, una unidad en la red tiene una activación, que es un valor numérico destinado a representar algún aspecto de la unidad.
Por ejemplo, si las unidades en el modelo son neuronas, la activación podría representar la probabilidad de que la neurona genere un pico de potencial de acción. La activación generalmente se extiende a todas las otras unidades conectadas a ella. La activación extendida es siempre una característica de los modelos de redes neuronales, y es muy común en los modelos conexionistas utilizados por los psicólogos cognitivos.
Redes neuronales
Las redes neuronales son, con mucho, el modelo conexionista más utilizado en la actualidad. Aunque hay una gran variedad de modelos de redes neuronales, casi siempre siguen dos principios básicos con respecto a la mente:
Cualquier estado mental puede describirse como un vector (N) -dimensional de valores de activación numéricos sobre unidades neuronales en una red.
La memoria se crea modificando la fuerza de las conexiones entre las unidades neuronales. Las fuerzas de conexión, o «pesos», se representan generalmente como un N × N matriz.
La mayor parte de la variedad entre los modelos de redes neuronales proviene de:
Interpretación de unidades : las unidades pueden interpretarse como neuronas o grupos de neuronas.
Definición de activación : la activación se puede definir de varias maneras. Por ejemplo, en una máquina Boltzmann, la activación se interpreta como la probabilidad de generar un pico de potencial de acción, y se determina mediante una función logística en la suma de las entradas a una unidad.
Algoritmo de aprendizaje : diferentes redes modifican sus conexiones de manera diferente. En general, cualquier cambio matemáticamente definido en los pesos de conexión a lo largo del tiempo se denomina «algoritmo de aprendizaje».
Los conexionistas están de acuerdo en que las redes neuronales recurrentes ( redes dirigidas en las que las conexiones de la red pueden formar un ciclo dirigido) son un mejor modelo del cerebro que las redes neuronales de alimentación directa (redes dirigidas sin ciclos, llamadas DAG ). Muchos modelos conexionistas recurrentes también incorporan la teoría de sistemas dinámicos.
Muchos investigadores, como el conexionista Paul Smolensky, han argumentado que los modelos conexionistas evolucionarán hacia enfoques de sistemas dinámicos, no lineales, altamente continuos y de alta dimensión.
Realismo biológico
El trabajo conexionista en general no necesita ser biológicamente realista y, por lo tanto, adolece de una falta de plausibilidad neurocientífica. Sin embargo, la estructura de las redes neuronales se deriva de la de las neuronas biológicas, y este paralelo en la estructura de bajo nivel a menudo se argumenta que es una ventaja del conexionismo en el modelado de estructuras cognitivas en comparación con otros enfoques.
Un área donde se piensa que los modelos conexionistas son biológicamente inverosímiles es con respecto a las redes de propagación de errores que son necesarias para apoyar el aprendizaje,pero la propagación de errores puede explicar parte de la actividad eléctrica generada biológicamente vista en el cuero cabelludo en potenciales relacionados con eventos como el N400 y P600, y esto proporciona algún soporte biológico para uno de los supuestos clave de los procedimientos de aprendizaje conexionista.
Aprendizaje
Los pesos en una red neuronal se ajustan de acuerdo con alguna regla o algoritmo de aprendizaje, como el aprendizaje hebbiano. Por lo tanto, los conexionistas han creado muchos procedimientos de aprendizaje sofisticados para redes neuronales. El aprendizaje siempre implica modificar los pesos de conexión.
En general, estos involucran fórmulas matemáticas para determinar el cambio en los pesos cuando se dan conjuntos de datos que consisten en vectores de activación para algún subconjunto de las unidades neuronales. Varios estudios se han centrado en diseñar métodos de enseñanza-aprendizaje basados en el conexionismo.
Al formalizar el aprendizaje de tal manera, los conexionistas tienen muchas herramientas. Una estrategia muy común en los métodos de aprendizaje conexionista es incorporar el descenso de gradiente sobre una superficie de error en un espacio definido por la matriz de peso. Todo aprendizaje de descenso de gradiente en modelos conexionistas implica cambiar cada peso por la derivada parcial de la superficie de error con respecto al peso.
La retropropagación (BP), que se hizo popular por primera vez en la década de 1980, es probablemente el algoritmo de descenso de gradiente conexionista más comúnmente conocido en la actualidad.
El conexionismo se remonta a ideas de más de un siglo de antigüedad, que fueron poco más que especulaciones hasta mediados o finales del siglo XX.
Procesamiento distribuido en paralelo
El enfoque conexionista prevaleciente hoy en día se conocía originalmente como procesamiento distribuido paralelo (PDP). Era un enfoque de red neuronal artificial que enfatizaba la naturaleza paralela del procesamiento neural y la naturaleza distribuida de las representaciones neurales. Proporcionó un marco matemático general para que los investigadores operen.
El marco involucraba ocho aspectos principales:
Un conjunto de unidades de procesamiento, representado por un conjunto de enteros.
Una activación para cada unidad, representada por un vector de funciones dependientes del tiempo.
Una función de salida para cada unidad, representada por un vector de funciones en las activaciones.
Un patrón de conectividad entre unidades, representado por una matriz de números reales que indica la fuerza de la conexión.
Una regla de propagación que extiende las activaciones a través de las conexiones, representadas por una función en la salida de las unidades.
Una regla de activación para combinar entradas a una unidad para determinar su nueva activación, representada por una función en la activación y propagación actuales.
Una regla de aprendizaje para modificar conexiones basadas en la experiencia, representada por un cambio en los pesos basado en cualquier número de variables.
Un entorno que proporciona experiencia al sistema, representado por conjuntos de vectores de activación para algún subconjunto de las unidades.
Gran parte de la investigación que condujo al desarrollo de PDP se realizó en la década de 1970, pero PDP se hizo popular en la década de 1980 con el lanzamiento de los libros Parallel Distributed Processing: Explorations in the Microestructura of Cognition – Volumen 1 (fundamentos) y Volumen 2 (Modelos psicológicos y biológicos), por James L.
McClelland, David E. Rumelhart y el PDP Research Group. Los libros ahora se consideran obras seccionistas conexionistas, y ahora es común equiparar completamente el PDP y el conexionismo, aunque el término «conexionismo» no se usa en los libros.
Trabajo anterior
Las raíces directas del PDP fueron las teorías del perceptrón de investigadores como Frank Rosenblatt de los años cincuenta y sesenta. Pero los modelos de perceptrón se hicieron muy impopulares por el libro Perceptrons de Marvin Minsky y Seymour Papert, publicado en 1969. Demostró los límites en el tipo de funciones que los perceptrones de una sola capa (sin capa oculta) pueden calcular, mostrando que incluso funciones simples como la disyunción exclusiva (XOR) no se pudo manejar correctamente.
Los libros de PDP superaron esta limitación al mostrar que las redes neuronales no lineales de varios niveles eran mucho más robustas y podían usarse para una amplia gama de funciones.
Muchos investigadores anteriores abogaron por modelos de estilo conexionista, por ejemplo en las décadas de 1940 y 1950, Warren McCulloch y Walter Pitts ( neurona MP ), Donald Olding Hebb y Karl Lashley. McCulloch y Pitts mostraron cómo los sistemas neuronales podrían implementar la lógica de primer orden :
Su clásico artículo «Un cálculo lógico de ideas inmanentes en la actividad nerviosa» (1943) es importante en este desarrollo aquí. Fueron influenciados por el importante trabajo de Nicolas Rashevsky en la década de 1930. Hebb contribuyó en gran medida a las especulaciones sobre el funcionamiento neuronal, y propuso un principio de aprendizaje, el aprendizaje hebbiano, que todavía se usa hoy.
Lashley abogó por representaciones distribuidas como resultado de su fracaso para encontrar algo así como un engrama localizado en años de experimentos de lesiones.
El conexionismo aparte del PDP
Aunque PDP es la forma dominante de conexionismo, otro trabajo teórico también debe clasificarse como conexionista.
Muchos principios conexionistas se remontan a los primeros trabajos en psicología, como el de William James. Las teorías psicológicas basadas en el conocimiento sobre el cerebro humano estaban de moda a fines del siglo XIX. Ya en 1869, el neurólogo John Hughlings Jackson abogó por sistemas distribuidos de varios niveles.
Siguiendo este ejemplo, los Principios de Psicología de Herbert Spencer, tercera edición (1872), y el Proyecto de Sigmund Freud para una Psicología Científica (compuesto en 1895) propusieron teorías conexionistas o proto-conexionistas. Estas tendían a ser teorías especulativas. Pero a principios del siglo XX, Edward Thorndike estaba experimentando sobre el aprendizaje que postulaba una red de tipo conexionista.
Friedrich Hayek concibió de forma independiente el modelo de aprendizaje de sinapsis hebbiana en un artículo presentado en 1920 y desarrolló ese modelo en la teoría cerebral global constituida por redes sinapsis hebbianas que se integran en sistemas más grandes de mapas y redes de memoria. El trabajo innovador de Hayek fue citado por Frank Rosenblatt en su artículo de perceptrón.
Otra forma de modelo conexionista fue el marco de red relacional desarrollado por el lingüista Sydney Lamb en la década de 1960. Las redes relacionales solo han sido utilizadas por lingüistas, y nunca se unificaron con el enfoque PDP. Como resultado, ahora son utilizados por muy pocos investigadores.
También hay modelos conexionistas híbridos, que en su mayoría mezclan representaciones simbólicas con modelos de redes neuronales. El enfoque híbrido ha sido defendido por algunos investigadores (como Ron Sun ).
Debate conexionismo versus computacionalismo
A medida que el conexionismo se hizo cada vez más popular a fines de la década de 1980, algunos investigadores (incluidos Jerry Fodor, Steven Pinker y otros) reaccionaron contra él. Argumentaron que el conexionismo, a medida que se desarrollaba, amenazaba con destruir lo que veían como el progreso realizado en los campos de la ciencia cognitiva y la psicología por el enfoque clásico del computacionalismo.
El computacionalismo es una forma específica de cognitivismo que argumenta que la actividad mental es computacional, es decir, que la mente opera realizando operaciones puramente formales en símbolos, como una máquina de Turing. Algunos investigadores argumentaron que la tendencia en el conexionismo representaba una reversión hacia el asociacionismo.y el abandono de la idea de un lenguaje de pensamiento, algo que vieron como equivocado.
En contraste, esas mismas tendencias hicieron atractivo el conexionismo para otros investigadores.
El conexionismo y el computacionalismo no tienen por qué estar reñidos, pero el debate a fines de los años ochenta y principios de los noventa llevó a la oposición entre los dos enfoques. A lo largo del debate, algunos investigadores han argumentado que el conexionismo y el computacionalismo son totalmente compatibles, aunque no se ha alcanzado un consenso total sobre este tema.
Las diferencias entre los dos enfoques incluyen lo siguiente:
Los computacionalistas postulan modelos simbólicos que son estructuralmente similares a la estructura cerebral subyacente, mientras que los conexionistas realizan modelos de «bajo nivel», tratando de garantizar que sus modelos se asemejen a estructuras neurológicas.
Los computacionalistas en general se centran en la estructura de los símbolos explícitos ( modelos mentales ) y las reglas sintácticas para su manipulación interna, mientras que los conexionistas se centran en aprender de los estímulos ambientales y almacenar esta información en forma de conexiones entre las neuronas.
Los computacionalistas creen que la actividad mental interna consiste en la manipulación de símbolos explícitos, mientras que los conexionistas creen que la manipulación de símbolos explícitos proporciona un modelo pobre de actividad mental.
Los computacionalistas a menudo plantean subsistemas simbólicos específicos del dominio diseñados para apoyar el aprendizaje en áreas específicas de cognición (por ejemplo, lenguaje, intencionalidad, número), mientras que los conexionistas plantean uno o un pequeño conjunto de mecanismos de aprendizaje muy generales.
A pesar de estas diferencias, algunos teóricos han propuesto que la arquitectura conexionista es simplemente la forma en que los cerebros orgánicos implementan el sistema de manipulación de símbolos. Esto es lógicamente posible, ya que es bien sabido que los modelos conexionistas pueden implementar sistemas de manipulación de símbolos del tipo utilizado en modelos computacionalistas, ya que de hecho deben ser capaces de explicar la capacidad humana para realizar tareas de manipulación de símbolos..
Se han propuesto varios modelos cognitivos que combinan arquitecturas manipuladoras de símbolos y conexionistas, en particular, entre ellos, la Arquitectura Cognitiva Simbolista Integrada (ICS) de Paul Smolensky.Pero el debate se basa en si esta manipulación de símbolos constituye la base de la cognición en general, por lo que esta no es una reivindicación potencial del computacionalismo.
No obstante, las descripciones computacionales pueden ser útiles, por ejemplo, descripciones de alto nivel de la cognición de la lógica.
El debate se centró principalmente en argumentos lógicos sobre si las redes conexionistas podrían producir la estructura sintáctica observada en este tipo de razonamiento. Esto se logró más tarde, aunque utilizando habilidades de unión de variables rápidas fuera de las asumidas de manera estándar en los modelos conexionistas.
A partir de 2016, el progreso en neurofisiología y los avances generales en la comprensión de las redes neuronales han llevado a la modelización exitosa de muchos de estos problemas iniciales, y el debate sobre la cognición fundamental se ha decidido en gran medida. entre neurocientíficos a favor del conexionismo.
Sin embargo, estos desarrollos bastante recientes aún no han alcanzado la aceptación del consenso entre aquellos que trabajan en otros campos, como la psicología o la filosofía de la mente.
Parte del atractivo de las descripciones computacionales es que son relativamente fáciles de interpretar y, por lo tanto, pueden considerarse que contribuyen a nuestra comprensión de procesos mentales particulares, mientras que los modelos conexionistas son en general más opacos, en la medida en que pueden describirse solo en términos muy generales (como especificar el algoritmo de aprendizaje, el número de unidades, etc.) o en términos de bajo nivel inútiles.
En este sentido, los modelos conexionistas pueden crear instancias y, por lo tanto, proporcionar evidencia para una teoría amplia de la cognición (es decir, el conexionismo), sin representar una teoría útil del proceso particular que se está modelando. En este sentido, podría considerarse que el debate refleja en cierta medida una mera diferencia en el nivel de análisis en el que se enmarcan las teorías particulares.fenómenos emergentes que pueden describirse en términos computacionales.
La reciente popularidad de los sistemas dinámicos en filosofía de la mente ha agregado una nueva perspectiva sobre el debate; algunos autores ahora argumentan que cualquier división entre conexionismo y computacionalismo se caracteriza de manera más concluyente como una división entre computacionalismo y sistemas dinámicos.
En 2014, Alex Graves y otros de DeepMind publicaron una serie de documentos que describen una nueva estructura de la red neuronal profunda llamada Neural Turing Machine capaz de leer símbolos en una cinta y almacenar símbolos en la memoria. Relational Networks, otro módulo de Deep Network publicado por DeepMind puede crear representaciones similares a objetos y manipularlas para responder preguntas complejas.
Las redes relacionales y las máquinas neuronales de Turing son una prueba más de que el conexionismo y el computacionalismo no tienen por qué estar reñidos.
Referencias
Rumelhart, DE, JL McClelland y el PDP Research Group (1986). Procesamiento distribuido en paralelo: exploraciones en la microestructura de la cognición. Volumen 1: Fundaciones, Cambridge, Massachusetts: MIT Press, ISBN 978-0262680530
McClelland, JL, DE Rumelhart y el PDP Research Group (1986). Procesamiento distribuido en paralelo: exploraciones en la microestructura de la cognición. Volumen 2: Modelos psicológicos y biológicos, Cambridge, Massachusetts: MIT Press, ISBN 978-0262631105
Pinker, Steven y Mehler, Jacques (1988). Conexiones y símbolos, Cambridge MA: MIT Press, ISBN 978-0262660648
Jeffrey L. Elman, Elizabeth A. Bates, Mark H. Johnson, Annette Karmiloff-Smith, Domenico Parisi, Kim Plunkett (1996). Repensar lo innato: una perspectiva conexionista sobre el desarrollo, Cambridge MA: MIT Press, ISBN 978-0262550307
Marcus, Gary F. (2001). La mente algebraica: integrando el conexionismo y la ciencia cognitiva (aprendizaje, desarrollo y cambio conceptual), Cambridge, Massachusetts: MIT Press, ISBN 978-0262632683
David A. Medler (1998). «Una breve historia del conexionismo» (PDF). Encuestas de computación neuronal. 1 : 61-101.
Fuentes
- Fuente: plato.stanford.edu
- Fuente: csjarchive.cogsci.rpi.edu
- Fuente: doi.org
- Fuente: archive.org
- Fuente: www.encephalos.gr
- Fuente: books.google.com
- Fuente: api.semanticscholar.org
- Fuente: www.ncbi.nlm.nih.gov
- Fuente: www.worldcat.org
- Fuente: pubmed.ncbi.nlm.nih.gov
- Fuente: scholarworks.sjsu.edu
- Fuente: ui.adsabs.harvard.edu
- Fuente: hdl.handle.net
- Fuente: www.lscp.net
- Fuente: www-personal.umich.edu
- Fuente: arxiv.org
- Fuente: www.blutner.de
Autor
