Adrià Garriga-Alonso sobre el riesgo existencial asociado a los modelos de lenguaje a gran escala

Episodio 1

17 de mayo de 2024

Adrià Garriga-Alonso sobre el riesgo existencial asociado a los modelos de lenguaje a gran escala

1.00x

00:00:00 / 00:00:00

1.00x

Presentación

Adrià Garriga-Alonso es un investigador científico en FAR AI, una organización dedicada a garantizar que los sistemas de inteligencia artificial (IA) sean confiables y beneficiosos para la humanidad.

En este episodio, discutimos con Adrià los riesgos existenciales que los modelos de lenguaje a gran escala podrían crear y algunas de las posibles estrategias para mitigarlos. Los temas tratados incluyen:

La naturaleza y el funcionamiento de los sistemas de IA, incluidos los modelos de aprendizaje profundo y los modelos de lenguaje a gran escala.
El argumento general de la “segunda especie”, que sostiene que el destino de la especie humana podría ser análogo al de los chimpancés si apareciera una nueva especie más inteligente y capaz de hacerse con el control de nuestro futuro.
Las características específicas de los modelos de lenguaje a gran escala y su potencial para generar riesgos existenciales.
Un escenario prototípico de una catástrofe existencial causada por la IA.
Una taxonomía de intervenciones para reducir los riesgos de la IA, que incluyen intervenciones políticas y otras estrategias, como la mejora del aprendizaje por refuerzo a partir de realimentación humana, el desarrollo de la interpretabilidad de la IA y los esfuerzos para identificar y controlar las capacidades peligrosas de la IA.
La investigación de Adrià sobre interpretabilidad, incluidas la automatización de la interpretabilidad con la ayuda de otras herramientas y la identificación de partes de la IA que se encargan de la planificación y de la toma de decisiones.

Recursos adicionales

En orden de mención.

FAR IA. Sitio web oficial.
Adrià Garriga Alonso. Sitio web personal.
Wikipedia (2022) Alineación de la inteligencia artificial, Wikipedia, 10 de October (última actualización: 16 de February de 2024)
Alignment Research Center
Arthur Conmy et al. (2023) Towards automated circuit discovery for mechanistic interpretability, arXiv:2304.14997 [cs]

Transcripción

Introducción

Pablo: Hola, bienvenidos. Estamos acá con Adrià Garriga-Alonso, que es investigador científico en la organización FAR AI. Adrià, bienvenido a La Bisagra de la Historia.

Adrià: Hola, Pablo. Muchas gracias. Estoy muy contento de estar aquí.

Pablo: La primera línea de la biografía que uno encuentra cuando visita tu página web, agarri.ga, dice que tu meta es “prevenir al riesgo existencial asociado a la inteligencia artificial”. Me parece que podríamos estructurar nuestra conversación en torno a esta descripción, si te parece.

Adrià: Sí.

Introducción a los sistemas de inteligencia artificial

Pablo: Bien. Entonces, antes de pasar a discutir los riesgos derivados de la inteligencia artificial y las intervenciones más prometedoras, me gustaría que nos tomemos un tiempo para entender mejor la naturaleza de los sistemas de inteligencia artificial que conocemos, como GPT-4. Muchas veces se dan por sentado términos como aprendizaje automático, aprendizaje profundo, redes neuronales, cuyo significado puede no ser claro para gente sin el conocimiento técnico. Así que me gustaría que nos expliques, en la media lo posible, cómo funcionan estos modelos. Si querés, podemos empezar por el principio: qué es la inteligencia artificial en términos genéricos; y después podemos pasar a hablar de del paradigma de aprendizaje profundo.

Adrià: La inteligencia artificial son intentos tecnológicos de replicar la inteligencia que vemos en el mundo natural, como por ejemplo de varios animales o los seres humanos, usando medios artificiales, mayoritariamente ordenadores. Y hace muchas décadas que este campo de la ciencia está activo. Desde los años 50, en el principio de la explosión de los ordenadores, los científicos han estado intentando replicar lo que es pensar, pero en un ordenador. Entonces, al principio, pensaban que terminarían muy rápidamente. Famosamente, hubo una conferencia en Dartmouth —creo que fue el verano de 1956— donde dijeron “ah, sí, conectada una cámara a un ordenador, en unos meses de verano, podemos hacer que un estudiante de grado pueda, programando, hacer que el ordenador reconozca objetos”. Y bueno, resultó no ser tan fácil.

Pablo: La falacia de la planificación.

Adrià: Exacto. Bueno, nadie había intentado antes hacer una inteligente artificial, ¿no? Yo creo que podía ser que fuera así de fácil, pero no lo fue.

Pablo: Tengo entendido que hubo una serie de distintos enfoques —lo que se llamó good old fashioned AI— y podríamos decir que en la última década hubo un cambio de paradigma, si se quiere, y es en ese paradigma que tal vez podríamos encuadrar los modelos actuales, ¿es así?

Adrià: Sí. Bueno, depende de a quién le preguntes, ha habido uno o varios cambios de paradigma, pero la transición que todo el mundo conoce es más o menos en 2012, donde los métodos de aprendizaje profundo o redes neuronales pasaron a ser mucho más populares de lo que eran antes, aunque las redes neuronales han existido en alguna forma desde los años 60 o así, con la introducción del perceptrón, que era una red neuronal de una sola capa. No parecía que funcionaran muy bien, hasta que en el 2012 empezaron a utilizar GPU, que son la parte del ordenador que está especializada en procesar gráficos para videojuegos, para hacer los cálculos requeridos para simular una red neuronal artificial muy rápidamente, y pudieron hacer las redes neuronales más grandes de lo que eran antes.

Y en el 2012 lo que ocurrió fue que un estudiante doctorado de Geoffrey Hinton llamado Alex Krizhevsky consiguió mejorar mucho un resultado de, precisamente, clasificación de objetos; o sea, la tarea es la famosa ImageNet, donde simplemente hay un montón de fotos de varios objetos, animales, personas, lo que sea, y tienes que reconocer cuál es el objeto principal en la imagen, y la precisión en hacer esta tarea aumentó mucho en el 2012 con la introducción de la red neuronal que se llamó AlexNet por su inventor.

Pablo: Claro.

Adrià: Desde entonces, la adopción fue un poco lenta, porque siempre hay gente que piensa que lo que ha estado investigando hasta ahora es mejor y no quiere cambiar, pero más o menos desde entonces el paradigma dominante de la inteligencia artificial es el aprendizaje profundo, que se caracteriza por poner la mayoría de la computación y el tiempo de desarrollo y todo eso en desarrollar una red neuronal profunda y entrenarla para que haga la tarea que necesitamos con datos. Es decir, se le dan datos a la red neuronal de una forma u otra y esta, iterativamente, va cambiando los valores de los pesos, hasta que satisface una función inicial que definimos, que tiene que satisfacer con los datos. Por ejemplo, en el caso de AlexNet, la función es: se le dan imágenes y una etiqueta representando lo que hay en la imagen a la red neuronal y se le pide a la red que prediga exactamente cuál es la etiqueta basándose en la imagen que le llega. Y con eso minimizamos iterativamente el error de la red neuronal utilizando descenso por gradiente, lo que eventualmente llega a una red neuronal que lo hace bastante bien.

Pablo: Claro. ¿Qué es el descenso por gradiente?

Adrià: Bueno, es un método iterativo de optimización que utiliza el gradiente de una función, que es un concepto de cálculo que nos da la dirección del máximo cambio en la función en una localidad pequeña. Entonces, lo que hace es: estás intentando optimizar una función, como por ejemplo, en el caso de red neuronal, puede ser el error en los datos de entreno, el error de predicción, concretamente, y queremos minimizar esto. Entonces, podemos, tomar el gradiente de esta función con respecto a todos los pesos de la red neuronal y esto nos da la dirección en la cual si movemos los pesos en esa dirección, la función va a decrecer lo máximo. Entonces, una manera quizás más intuitiva de explicarlo, que podría haber dicho antes del resto: es como si estás en una montaña y quieres llegar a la cima. Una estrategia que no te fallaría es simplemente seguir la pendiente más empinada que veas a tu alrededor, es decir, para hacer la analogía más precisa, es simplemente la dirección en la cual la pendiente sube, respecto al sitio donde estás, es decir, simplemente miras al suelo y dices: “¿Para qué dirección está inclinado al suelo? ¿Para qué dirección sube? Voy a ir hacia allí”. Y esto te llevaría a la cima de una montaña con bastante confianza.

Pablo: Quedarte atrapado en un óptimo local no sería un problema serio o un problema frecuente.

Adrià: No suele ocurrir. Pensábamos antes que sí, que ocurre mucho. Es decir, cuando le das un problema cualquiera al descenso por gradiente, muchas veces se queda atrapado en un óptimo local. En la analogía de la montaña, eso sería si hay dos montañas, una de las cuales es más alta que la otra, pero has empezado cerca de la montaña que es baja. Entonces, cuando subas, vas a llegar a la cima de la montaña baja y desde allí, si sigues subiendo… no, no puedes seguir subiendo a ningún sitio. Para llegar a la montaña que es más alta tienes que bajar y después subir otra vez. Y eso no es algo que el descenso por gradiente sepa como hacer. Pero en la práctica resulta que las redes neuronales o no tienen óptimos locales de este tipo o son bastante difíciles de encontrar o hay muchos óptimos locales y casi todos tienen la misma pérdida. Es decir, es como si estás en un sitio donde hay muchísimas montañas y todas, más o menos, son igual de altas. Y hay incluso algunas demostraciones teóricas de que con alta probabilidad llegas a un óptimo local que está muy cerca del óptimo global por redes neuronales que son lo suficientemente anchas. Pero sí, es algo bastante curioso que yo al menos no me esperaba, cuando empecé a estudiar esto. Este resultado es del 2018 y creo que esta creencia de que las redes neuronales no tienen mínimos locales donde te puedes quedar encallado es bastante reciente.

Los modelos de lenguaje a gran escala

Pablo: Muy bien, entonces, luego de describir qué es una red neuronal y cómo funcionan, podemos discutir, antes de pasar a discutir los riesgos existenciales, en qué consiste o cómo definirías o explicarías estos llamados modelos de lenguaje a gran escala, uno de cuyos ejemplos paradigmáticos es GPT-4 o ChatGPT.

Adrià: Sí. Una manera de verlos es que son una red neuronal, como les acabo de contar, con una arquitectura específica. La arquitectura de una red neuronal es la configuración de pesos que se pueden aprender y funciones. Es decir, cuando creas una red, especificas una manera de transformar el input, los datos de entrada, en los datos de salida, y esa especificación contiene pesos que se pueden aprender. Esa es la forma en la cual la red neuronal aprende. En el caso de los modelos de lenguaje, hay una manera específica de especificar esta transformación. La arquitectura general se llama transformer. Y el mecanismo principal que tiene, que la distingue de las otras arquitecturas, es que tiene un mecanismo de autoatención. Es decir, hay una capa en la red neuronal, de hecho hay muchas y están alternadas con otros tipos de capas, pero hay un tipo de capa que aplica la misma operación a todos los elementos de la secuencia. Es decir, está especializada para operar en secuencias como pueden ser las secuencias del lenguaje, es decir, palabras o tokens, en este caso, y se computan las mismas dos funciones de cada posición. Una se llama la llave (la key) y la otra se llama la pregunta (la query).

Entonces, utilizando la query, es decir, la pregunta de la posición actual, mira todos los tokens anteriores y mira cuán similares son de acuerdo con esta función de atención. Y de allí saca a qué parte del texto anterior tengo que prestar atención y tengo que llevar información desde allí. Entonces, resulta que este tipo de arquitectura hace que sea muy fácil mover la información de contextos largos al momento actual para utilizarla, y crucialmente hace que sea muy fácil aprender como hacer esto de forma automática y bien. Por eso esta arquitectura ha funcionado mejor que las anteriores que teníamos, como redes neuronales recurrentes para procesar lenguaje. Entonces, el ingrediente que falta es hacerlas grandes. Por eso se llaman los “grandes modelos de lenguaje”. Y simplemente —bueno, no es muy simple en la práctica, pero en teoría es muy simple— aumentas el número de pesos y de capas hasta que tiene suficiente capacidad para aprender. Y resulta que simplemente haciendo la red neuronal más grande, los resultados son mejores y el artefacto que resulta al final es más inteligente, diría yo.

Pablo: Esto es algo que algunos llaman la scaling hypothesis, o hipótesis del escalamiento. No tengo una noción clara de cuánto acuerdo hay al respecto, pero ¿a vos te parece que para alcanzar un nivel arbitrario de inteligencia, es simplemente cuestión de incrementar el poder de cómputo o los datos con las cuales se alimenta al modelo, o hay algún límite que a vos te parece que esta arquitectura podría tener y que para alcanzar un nivel superior de inteligencia sería necesario transicionar a una arquitectura diferente?

Adrià: Es una buena pregunta. No hay consenso sobre esto. Yo mismo no estoy seguro de cuál es la realidad. No veo ningún obstáculo concreto a simplemente extender las arquitecturas actuales, hacerlas más y más grandes hasta que puedan ser más inteligentes que las personas. Pero tampoco, tampoco sé seguro que no vaya a haber más obstáculos. Estoy planeando como si simplemente la extensibilidad funcionara, es decir, como si no hubiera ningún obstáculo.

Pablo: Claro. Quizá un argumento en favor de esa tesis es que intuitivamente, antes de conocer los resultados de este tipo de modelos, habría parecido muy improbable que un modelo que meramente se reduce a predecir la siguiente palabra o el siguiente token pudiera lograr el nivel de capacidad que un modelo como GPT-4 muestra. Entonces, si estas intuiciones mostraron ser falibles, en la medida que nuestro escepticismo sobre la posibilidad de que estos modelos puedan ser extensibles todavía más se basa también en intuiciones de este tipo, uno podría decir que a ese tipo de intuiciones no se le deberían dar crédito y, por lo tanto, que el escepticismo, si es que es defendible, debería ser defendible con otros argumentos, pero no la mera sensación intuitiva de que un modelo suficientemente inteligente no puede estar basado en esta arquitectura porque parece que hace falta más que predecir la siguiente palabra en una secuencia de texto.

Adrià: Sí, creo. Esto es un muy buen argumento. Pero también tengo que decir que es verdad que la mayoría del entrenamiento de los grandes modelos de lenguaje son simplemente predecir la siguiente palabra o el siguiente token, pero una cantidad importante (sin ella no son un producto comercializable y utilizable) es el reinforcement learning from human feedback [aprendizaje por refuerzo a partir de realimentación humana] (RLHF), o reinforcement learning from human preferences [aprendizaje por refuerzo a partir de preferencias humanas], que no simplemente predice el siguiente token, sino que los datos que recibe el modelo allí son una conversación y si es una buena conversación o una mala conversación, y de allí el proceso saca las conclusiones de planear de antemano cómo hacer que la conversación vaya en una dirección u otra. Es decir, que ya no es cierto que simplemente aprenden a predecir el siguiente token.

Pablo: Entiendo. O sea, si comparáramos un modelo que consiste puramente en predecir el siguiente token con un modelo que además de eso ha sido entrenado con reinforcement learning from human feedback, este último elemento ¿obedece a que se quiere que el modelo no diga cosas que nos parecen éticamente problemáticas o va más allá de eso y busca que el modelo sea más útil?

Adrià: Sí, claramente sí. Especialmente en seguir instrucciones, esa era una de las primeras aplicaciones del RLHF en modelos de lenguaje: que siguieran instrucciones del usuario en vez de ignorarlas y continuar el texto. De hecho, no sé si aún es posible, pero antes era posible comparar modelos que existían antes del RLHF y después del RLHF, que te podías descargar y probar. Por ejemplo, el reciente Llama 2, de Meta, tienen una versión que simplemente predice el siguiente token y una versión a la cual se le ha aplicado reinforcement learning from human feedback, y puedes comparar la diferencia de las dos (no lo he hecho personalmente).

El argumento de la segunda especie

Pablo: Es interesante. Bueno, este es un buen punto para pasar a la discusión sobre los riesgos existenciales, me parece. ¿Tenés alguna perspectiva al respecto? Sé que hay distintos argumentos para llegar a la conclusión de que un sistema de inteligencia artificial, y estos sistemas en particular, pueden generar riesgos existenciales. Para aclarar, un riesgo existencial, suele entenderse como un riesgo que amenaza el potencial humano a largo plazo: puede ser porque causa la extinción de la humanidad o porque destruye gran parte del valor que la humanidad podría crear en el futuro algo plazo. No sé si alguno de estos argumentos te resulta más convincente, o si tenés alguna manera particular de ver el panorama general. Me gustaría que me digas, en la medida que estos sistemas generan un riesgo, por qué te parece que lo generan.

Adrià: Yo he estado preocupado por esto desde hace muchos años, ahora mismo pueden ser seis o siete, y eso es claramente mucho antes de que llegaran los modelos de lenguajes grandes y de que fuera obvio que podemos realmente crear máquinas inteligentes. En ese momento existía el deep learning, pero crear máquinas realmente capaces de razonar en general, como los modelos de lenguaje lo son, era simplemente una hipótesis. Pero el argumento que me convenció y que creo que aún es el que tiene más fuerza es el argumento de la segunda especie, como se suele llamar, que es que los humanos tenemos el control de nuestro futuro, porque somos la especie, al menos en la tierra, que es más inteligente. Y con esto hemos conseguido ocupar muchos biomas y sitios diferentes del planeta. Y, por ejemplo, los chimpancés, que son una especie muy relacionada con nosotros, son también muy inteligentes, pero no tanto: les falta un poquito. Y resulta que por eso los chimpancés solo viven en una parcela en particular de la selva (no me acuerdo exactamente dónde). La única razón por la cual aún sobreviven es porque hemos decidido que nos importa que puedan existir bien y no vamos a cortar el bosque. Y esto es una situación muy peligrosa y muy mala para los chimpancés. Entonces, si nuestra ventaja mayor por la supervivencia —que es la inteligencia— se replica en un sistema diferente, un ordenador, por ejemplo, y el ordenador tiene la ventaja en esta característica, la inteligencia, pues pasaremos ahí a no tener control de nuestro futuro. Pasaremos a ser como los chimpancés ahora, que no pueden decidir qué ocurre con ellos mismos.

Pablo: Sí. Otra analogía que a veces se menciona es con los caballos: cuando eran útiles para el ser humano como medio transporte, proliferaron por la tierra, y cuando dejaron de ser útiles, bueno, su número se redujo significativamente. ¿Cómo responderías a la potencial objeción de que una disanalogía entre los chimpancés respecto de los humanos y los humanos respectos de un sistema superinteligente es que estos sistemas estarían creados por los propios seres?

Adrià: Sí, es una diferencia importante. Y sería crucial si realmente supiéramos transmitir exactamente lo que queremos o los valores que tenemos a estos sistemas. Pero en la práctica, no es así. Cuando queremos que un modelo de lenguaje hable con el usuario y nos dé consejos o nos ayude a explorar un tema que no entendemos muy bien, lo que hacemos es decirle que prediga el siguiente token y después que siga la aprobación o desaprobación de una serie de humanos. Pero la mayoría del entrenamiento está en predecir el siguiente token. Y ¿qué relación tiene esto con “ayúdame a programar” o “ayúdame a entender la historia de nueva Zelanda”? No mucha, la verdad.

Ahora mismo, cómo construimos estas redes neuronales y la forma en la cual les damos una idea de lo que queremos que hagan, es de forma indirecta. Creamos funciones simples que capturan una parte muy pequeña de lo que queremos, y resulta que en la práctica más o menos resulta que la red neuronal hace lo que queremos. Pero no está claro que siga siendo así cuando su comportamiento sea más sofisticado y, por lo tanto, más impredecible. De hecho, mucho esfuerzo ahora está dirigido a hacer que los modelos de lenguaje, que no son tan inteligentes como los humanos, no digan lo que no queremos o puedan ayudar al usuario en vez de continuar el texto con lo que sea. Y no lo podemos hacer muy bien: muchas veces se ven los fallos.

Cuando el sistema sea superinteligente, pues, estos fallos pueden ser mucho peores. En particular estoy imaginando que el sistema, por alguna razón, decide que sus objetivos pueden ser completados mejor sin que nosotros estemos allí, igual que los caballos, en la analogía anterior tuya, Pablo. O igual el punto de no retorno es mucho antes de esto: simplemente decide que para obtener los objetivos, tiene que obtener control y de allí vienen los problemas. Te voy a decir que ahora mismo no parece que los modelos de lenguaje presenten mucha agencia de este tipo, pero creo que esto solo va a empeorar a medida que los entrenamos más con RLHF. RLHF es una forma de dar nuestras intenciones de una forma más detallada al modelo del lenguaje mediante muchos ejemplos de conversaciones que han ido bien y mal, pero también incentiva al optimizador a hacer modelos de lenguaje que piensan más a largo término y planean para el futuro y quizás tienen objetivos que no entendemos.

Riesgos específicos de los modelos de lenguaje a gran escala

Pablo: Claro. Ahora, este argumento de la segunda especie parece ser un argumento general que no depende de ningún tipo de presupuesto sobre la arquitectura del sistema de inteligencia artificial. En principio, cualquier sistema que alcance una capacidad sobrehumana generaría este riesgo existencial. ¿Hasta qué punto los modelos actuales que describiste previamente, estos modelos basados en deep learning, y los modelos de lenguaje a gran escala en especial, presentan peculiaridades o hacen que uno deba reconsiderar el problema de la alineación en relación con cómo era planteado cuando todavía estos modelos no habían sido desarrollados?

Adrià: Muy buena pregunta. He intentado ir un poco en esta dirección, pero no lo he hecho muy explícito. Una de las cosas que el argumento presupone es que el sistema inteligente tiene algunos objetivos a largo término y que estos no son exactamente los mismos de los seres humanos. Creo que a la segunda parte de que no son exactamente los mismos sigue siendo verdad, y no veo cómo va a dejar de serlo, aunque me gustaría que dejara de serlo. Pero en cuanto a la parte de que tienen objetivos a largo término, no está claro de que los modelos de lenguaje actuales en el paradigma actual tengan objetivos a largo término que consideren muy importantes. Creo que obtienen algunos objetivos de este tipo en la fase de RLHF, pero la mayoría de su desarrollo es en la fase de predecir el siguiente token y, de allí, no es necesariamente el caso que adquieran objetivos al largo término.

Entonces creo que comparada con las analogías que teníamos antes, la analogía con la que operábamos mucho antes del argumento de la segunda especie es la analogía de la evolución. La evolución, como el descenso por gradiente, es un sistema con un objetivo simple y con un procedimiento simple que, simplemente operando con muchos datos y mucha computación, llega a crear sistemas inteligentes, como por ejemplo nosotros. Como el objetivo es supervivencia y replicación, crea sistemas que son muy competitivos y, en cierto modo, está empujando a los sistemas creados a pensar más en su supervivencia y en aprovecharse de los otros sistemas, en tomar el control y todas estas cosas que son problemas existenciales, pero el pretraining de los modelos de lenguaje, es decir, la parte en la cual solo predicen el siguiente token, no tiene estas características de hipercompetitividad y de aprovecharse de los demás agentes. Entonces creo que, en cierta manera, hay menos problemas de los que anticipaba. Pero aun así, el aprendizaje por refuerzo from human feedback y otras cosas que la gente hace, como varios intentos de dar agencia a los modelos de lenguaje —por ejemplo, Auto-GPT, un programa que da entradas de texto al modelo que lo hacen responder como si fuera un agente—, creo que allí está más el peligro. O sea, la particularidad en particular es que, sorprendentemente para mí, podemos llegar a sistemas lo suficientemente inteligentes para ser útiles en cierta forma, sin la hipercompetitividad que la evolución da y que nos ha creado nosotros.

Pablo: O sea que en la medida que los modelos de lenguaje a gran escala pudieran —no actualmente, tal vez, pero sí, si fueran extendidos con mayor poder de cómputo o mayores datos—: en la medida que estos modelos pudieran generar un riesgo existencial, el riesgo vendría sobre todo del componente de aprendizaje por refuerzo a partir de realimentación humana y no tanto por el mero carácter predictivo, the next token prediction, de los modelos. Si uno quitara ese elemento, ¿te parece que el problema en su mayoría desaparecería? Obviamente, podría reaparecer con otras arquitecturas, pero si nos atuviéramos a lo que tenemos hoy, me gustaría entender mejor en qué medida el problema surge de este componente específico.

Adrià: Sí. Yo creo que no diría su mayoría, pero en gran parte, sí, desaparecería. Existen otras maneras de hacer que el modelo sea más como un agente, como, por ejemplo, los prompts de Auto-GPT que he mencionado antes. Y entonces, de allí lo único que queda son preocupaciones más teóricas sobre si, por alguna razón, el objetivo de aprender el mismo token también crea estructuras que funcionan a largo término dentro del modelo de lenguaje y que le hacen planear, pero eso es bastante menos probable que la situación actual en la cual tenemos claramente un sistema de aprendizaje, el aprendizaje por refuerzo, que claramente está intentando dar capacidades de planeo a largo término al modelo de lenguaje. Las preocupaciones más teóricas de las que hablaba, cuando se aprende solamente siguiente token, son que, en la práctica, los modelos de lenguaje pueden hacer computación a largo término, pero pasan muy poco tiempo dentro de su vida de desarrollo. Pasan muy poco tiempo en aprendizaje por refuerzo. Entonces, es probable que las estructuras básicas con las cuales se le realiza este pensamiento a largo término aparecen ya antes durante el pretraining, durante el predecir el siguiente token. O sea, es menos probable que un modelo de lenguaje sea como un agente solamente con el pretraining que con el pretraining y el RLHF.

Pablo: Ahora, ¿cómo deberíamos entender la idea de un modelo que planifica a largo plazo cuando en realidad está solamente prediciendo el siguiente token?

Adrià: Buena pregunta. Pues con cada token que emite, el número de operaciones que hace la red en su predicción aumenta. La manera en la que piensa es adquiriendo memoria y adquiriendo varios intentos y varios pasos: es simplemente escribiendo en una especie de libreta que lleva, que simplemente es el texto que aparecía antes. Una forma muy prototípica de esto es el chain of thought reasoning, el razonamiento por cadena de pensamiento, que es una técnica actual que hace que los modelos de lenguaje solucionen muchos más problemas. Y simplemente lo que se hace es pedirle al modelo de lenguaje que responda una pregunta y entonces le dices “piensa paso a paso”. Y entonces, pues, como un niño de escuela, escribe los pasos del problema y después la solución al final. Y eso ya hace que pueda solucionar muchos más problemas, cosa que indica que es posible que esté utilizando estos tokens extra que está sacando de la libreta para pensar. No está establecido esto, pero es bastante probable, en mi opinión.

Pablo: Claro. De hecho leí que cuando un usuario, usando ChatGPT o GPT-4, le pedía al modelo que lograra un objetivo, por ejemplo, escribir una cierta función en un lenguaje de programación, cuando le pedía que explique la serie de pasos que le habían llevado a escribir esa función, la calidad del código se incrementaba. Parecería ser un ejemplo de lo que estás diciendo.

Adrià: Sí, eso es un ejemplo de utilizar los tokens extra que están en el medio como un espacio para pensar, como un espacio para hacer razonamiento en varios pasos. Entonces la hipótesis aquí es que el razonamiento de varios pasos y a largo término se hace sacando tokens y leyéndolos en el siguiente paso. Para nosotros, es lo que sería pasar el tiempo. Si pasa tiempo, tienes más tiempo para pensar y más tiempo para construir cosas con tus pensamientos anteriores. Y el mecanismo este es lo mismo.

Pablo: Entonces tenemos el argumento de la segunda especie y, después, este conocimiento más específico de cómo funcionan los modelos actuales y cómo ajustamos nuestras preocupaciones a la luz de estos desarrollos. Te parece que hay algún escenario prototípico que uno pudiera describir, para ilustrar cómo podría ocurrir una catástrofe existencial o te parece más bien que hay múltiples maneras de que algo así pudiera ocurrir y que ningún escenario ilustra particularmente bien la preocupación subyacente.

Adrià: Yo creo que hay varios prototipos, y me gustaría contar uno de ellos, pero también hay muchas maneras… ¿Estamos hablando de cómo puede presentar exactamente un riesgo existencial el modelo, cómo puede ejercer el control de la forma en la que nos preocupábamos en el argumento?

Pablo: Sí, exacto.

Adrià: Vale. Sí. Una forma muy prototípica es esta: la inteligente artificial la usamos para algo y, por lo tanto, hay alguien hablando con ella o alguien que está viendo sus outputs, al menos, y entonces una cosa que los modelos de ahora hacen espantosamente bien es la persuasión. Puede ser que haciéndose amiga de quien sea que está interactuando con la inteligencia artificial y prometiendo cosas, pueda persuadir a esa persona a actuar por los intereses de la inteligencia artificial y, de esta forma, lentamente, acumular más poder, más gente persuadida, convencida, y también quizás acumular dinero —porque si es tan inteligente, puede crear negocios en el mundo real y ganar dinero, utilizando otras personas como intermediarios—, y en algún momento tomar el control de todas las instituciones de esta forma. Creo que no necesitaría el ejército de robots de ficción. Simplemente con persuadir a suficiente gente y hacerles pensar que sus intereses están servidos por hacer las acciones que ellos creen que son buenas para ellos, pero a largo término lo que hacen es mantener el control de la inteligencia artificial, pues con eso ya creamos un riesgo existencial. Y en ese caso, los humanos no se han extinguido, pero el control está ahora en manos de la inteligencia artificial y, en el futuro, los humanos se pueden extinguir o simplemente perdemos la mayoría del potencial, como has descrito antes.

Intervenciones para mitigar los riesgos

Pablo: Bueno tal vez acá podemos pasar a discutir cuáles son las posibles intervenciones o las líneas de investigación que podrían contribuir a reducir o mitigar estos riesgos. ¿Hay alguna taxonomía de intervenciones que a vos te atraiga?

Adrià: Sí, creo que la taxonomía principal con la que operamos incluyen intervenciones políticas e intervenciones técnicas. Las intervenciones políticas se centran en convencer al resto de del mundo de que realmente hay un peligro aquí y quizás no deberíamos desarrollar la inteligencia artificial o tomarnos más tiempo para ver si la podemos desarrollar de una forma segura, o algo así. Entonces hay que pensar cómo se crean en la práctica estos sistemas, de una forma social. Pues hay unas compañías que tienen data centers grandes o los han alquilado. Entonces utilizan una cierta cantidad de capital para entrenar al modelo y lo que hacen es comprar los chips de otra compañía. Entonces, ¿cuáles son buenas regulaciones que podemos poner ahí? Pensar en eso e implementarlas es una intervención posible dentro de eso. Quizá podemos hacer algún tipo de campaña para comunicar al público en general que está ocurriendo esto y que creemos que es un problema y que muchos científicos que trabajan en la inteligente artificial creen que es un problema y hay varios más. Realmente no soy un experto en esta parte de la taxonomía.

La otra grande gran clase de intervenciones son las intervenciones técnicas. Y de ahí, pues, se trata investigar cómo podemos hacer inteligencia artificial de una forma segura y si es posible en general. Entonces, mi trabajo es en esta área. Creo que por desgracia no hay una taxonomía en la que más o menos todo el campo esté acuerdo. Más bien hay como escuelas de pensamiento y mucha gente que cree que varios programas de investigación van a resultar en éxito. Pero creo que algunas de las grandes escuelas de pensamiento o agendas, como las llamamos, o investigación que se está haciendo ahora, como la investigación de las grandes compañías OpenAI y Anthropic, se centra en qué podemos hacer por los modelos de lenguaje actuales para que, incrementalmente, actúen de forma más acorde con lo que queremos. Entonces se trata de mejorar el RLHF y otras formas de transmitir nuestros valores a la inteligencia artificial. Por ejemplo, uno de los productos aquí que creo que están bastante bien es la Constitutional AI que salió de Anthropic, la inteligencia artificial constitucional, que es una técnica con la cual escribes una serie de leyes de la robótica o leyes de la inteligencia artificial, o principios, más bien. Por ejemplo, hay una conversación que acabas de leer ofensiva y cómo la escribirías para que fuera menos ofensiva. Y lo que está intentando hacer es utilizar todo el resto de conocimientos de hechos del modelo de lenguaje para poder apuntarlo más en la dirección que queremos que vaya. Hace más eficiente el feedback humano de una manera bastante grande. Pero no creo que solucione el problema completamente, porque una inteligencia artificial que está pensando en tomar el control puede, estratégicamente, no criticarse de formas que la modificarían de maneras que no quiere.

Otros campos: por ejemplo, hay un campo bastante grande de interpretability o intentar entender cómo funcionan internamente las redes neuronales y con eso tener más bien una idea de cómo se produce exactamente el comportamiento inteligente, y si lo entendemos bien quizás podemos reproducirlo de forma que no presente problemas existenciales. O sea, entender cómo funciona en general es bueno para que no tenga comportamientos que no entendemos y que no hemos predicho con antelación.

Dime, Pablo, quieres hablar.

Pablo: Algo que no mencionamos cuando estábamos discutiendo qué propiedades del paradigma actual son relevantes para evaluar los riesgos existenciales que una inteligencia artificial podría generar es el hecho de que no son interpretables. O sea que hay que deliberadamente trabajar para entender cómo funciona internamente.

Adrià: Es verdad. Y no entendemos cómo funcionan internamente la mayoría de ellas. Solo las redes neuronales más pequeñas que hacen las tareas más tontas, como añadir dos números, son las que entendemos.

Pablo: Y para entender un poco mejor —valga la expresión—: ¿por qué no entendemos, estos modelos de deep learning o estos modelos de lenguaje a gran escala? ¿Cuál sería la explicación por la cual esto es así?

Adrià: Creo que la explicación principal es que son sistemas muy complejos con muchas conexiones y muchas cosas que tienes que tener en cuenta al mismo tiempo cuando las investigas. Entonces eso lo hace más difícil. También otra parte que contribuye mucho es que no son sistemas construidos, en cierta forma. O sea, son sistemas artificiales, pero las formas en las cuales los hemos construido es creando las condiciones para que existan, antes que crearlos directamente. Creo que la analogía, otra vez, es la evolución. Puedes crear un miniecosistema, en una esfera de vidrio o algo así, puedes poner nutrientes y plantas. Bueno, eso no sería evolución, sería más bien crear un miniecosistema. Pero creo que es una analogía bastante buena. Puedes poner nutrientes y plantas que ya existen, y tierra, y todo esto, y pues de allí salen unos animalitos y no sabrías cómo construirlos de cero, ¿no? Pero sabes que si creas las condiciones correctas, va a emerger la vida que buscas. Una manera evolutiva sería que simulemos la evolución durante muchas generaciones con el objetivo que queremos, siendo el objetivo aquello por lo que se seleccionan los diferentes organismos, y de allí sale un organismo que hace la tarea que queremos, pero no sabemos cómo, porque no lo hemos construido pieza a pieza. Entonces la interpretabilidad creo que es exactamente análoga a la biología o a la neurociencia, pero aplicada a sistemas artificiales. Y como la biología o la neurociencia, al principio no sabemos cómo funciona nada, pero lentamente vamos encontrando patrones que se repiten y que entendemos bien. O sea, la biología ha avanzado muchísimo desde sus principios y creo que es exactamente como la biología o la neurociencia, pero por suerte es mucho más fácil porque podemos simularlo todo perfectamente y podemos medirlo todo perfectamente, pero aun así no entendemos que hay en cada parte y por qué.

Pablo: Claro. Entonces habías mencionado primero diversos métodos para mejorar el RLHF, y después —como intervención genérica que busca tal vez amplificar o ayudar con otras intervenciones— esta interpretabilidad. ¿Qué otras líneas de investigación te parecen prometedoras?

Adrià: Hay un contingente que está específicamente intentando encontrar cuáles son las condiciones generales que inclinan a un modelo de lenguaje a decir la verdad o a comportarse de una forma u otra. Esto también es interpretabilidad de algún tipo, pero es diferente de la otra que intenta entenderlo todo. Es interpretabilidad a grandes rasgos.

Y después hay varios esfuerzos del resto de la comunidad de machine learning para entender la generalización mejor: cómo se comporta un sistema fuera de su área de entrenamiento.

Otro campo consiste en una serie de esfuerzos o instituciones que están intentando crear situaciones análogas a la de la IA intentando tomar control. Una de ellas es el Alignment Research Center, encabezado por Paul Christiano, un científico de alignment que lleva mucho tiempo y ha hecho muchos avances, por ejemplo, el mismo aprendizaje por refuerzo por realimentación humana. Lo que están intentando es hacer una situación de juguete, una especie de benchmark, como la IA manipulando los sensores que tienes para ver el mundo. Por ejemplo, estás intentando proteger un diamante en una caja fuerte de un banco y tienes varios sensores que te indican la situación actual allí, como varias cámaras. Hay muchas maneras en las que se podría entrar a esa caja fuerte, y entonces le das a la IA control de eso y le dices que te explique cuál es la situación allí. Entonces están investigando en qué situaciones la IA manipularía los sensores y cómo puedes distinguir esas situaciones de las situaciones normales donde la IA no manipula los sensores, simplemente mirando los sensores manipulados y los no manipulados, pero sin saber exactamente cuál es la relación entre todo eso. El objetivo de eso es cómo conseguir sacar todo el conocimiento implícito en la IA, intentar que te explique todo lo que realmente está pensando, no simplemente lo que está diciendo. Es como intentar identificar todo el conocimiento que intenta esconder. Una manera de verlo simple es como un detector de mentiras, que posiblemente funcione bien porque tenemos acceso a todas las partes del cerebro de la IA.

Pablo: ¿Cómo se llama este enfoque? ¿Tiene nombre?

Adrià: Sí, hay algunos papers online. Las palabras clave para buscar son “eliciting latent knowledge” o ELK, y “heuristic arguments” o argumentos heurísticos.

Pablo: Otro enfoque del propio Paul Christiano, que mencionabas, es lo que se llama scalable oversight, supervisión extensible o escalable. Si entiendo el enfoque, la idea sería acá amplificar las capacidades humanas haciendo uso de la propia inteligencia artificial, para asegurarse que una inteligencia artificial de mayor capacidad que la que está siendo usada para amplificar las capacidades esté alineada, y luego usar esta nueva inteligencia artificial para amplificar todavía más la capacidad humana, y así sucesivamente a niveles arbitrarios. No sé si esta es la una manera correcta de entender el enfoque.

Adrià: Bueno, creo que la manera de entender el enfoque general es lo que has dicho primero: que simplemente estás intentando aumentar las capacidades humanas de alguna forma para poder dar feedback o decirle a la inteligencia artificial si está haciendo bien o mal en más situaciones. Ese es el campo que he mencionado bastante anteriormente en el que OpenAI y Anthropic se están enfocando al máximo. Es mejorar RLHF pero también otras cosas, como Constitutional AI. El esquema en particular que has descrito es un esquema de Paul para realizar esto que se llama iterated amplification and distillation o humans consulting HCH, hay varios nombres para esto, pero eso es más bien un diseño conceptual que no creo que nadie en particular esté intentando crear ahora mismo. Nadie que yo conozca está intentando realizarlo.

Pablo: O sea, la investigación que está haciendo el Alignment Research Center es a nivel conceptual. Ellos no están, a diferencia de Anthropic, por ejemplo, tratando desarrollar modelos…

Adrià: No están intentando desarrollar modelos. Tienen dos partes, la parte teórica, que está intentando investigar el ELK del que he hablado antes, y una parte práctica que está intentando evaluar si los modelos actuales son peligrosos y cuán peligrosos son. Y también tienen un par de informes que han sacado sobre las capacidades peligrosas de GPT-4, por ejemplo.

Pablo: Y entonces, tu propia investigación, tengo entendido que es en interpretabilidad. ¿Es así?

Adrià: Sí, diría que es parte de la interpretabilidad.

Las investigaciones de Adrià sobre interpretabilidad

Pablo: ¿Podrías contarnos un poco qué es lo que has venido haciendo, ya sea con FAR AI o con otras organizaciones en las que has trabajado?

Adrià: Sí. En FAR e incluso antes, he estado desarrollando dos direcciones principales de interpretabilidad. Una de ellas es intentar automatizar la interpretabilidad, o hacer herramientas que nos ayuden a captar más partes de la complejidad de estos sistemas artificiales. Por ejemplo, recientemente he escrito un paper con otra gente llamado “Towards automated circuit discovery for mechanistic interpretability”, en el cual presentamos un método para descubrir qué partes de la red neuronal son las responsables para un cierto comportamiento. Se puede ver como una especie de colorante o tinta que va a buscar las partes de la red neuronal que son importantes para un cierto de comportamiento. El comportamiento está definido con un dataset pequeño que tiene ciertas variaciones. Por ejemplo, puedes decidir investigar cómo sabe la IA contar al siguiente número solamente cuando los números se están incrementando y cómo sabe que el siguiente número no es el más probable si los números son aleatorios, es decir, si la secuencia de números que están en el contexto son 4, 10, 2, el siguiente número no necesariamente va a ser 3, mientras que si los números anteriores son 0, 1, 2, pues es casi seguro que el siguiente número va a ser 3. Entonces los modelos de lenguaje, incluso los no muy grandes, han aprendido esta distinción. Y una pregunta que te puedes hacer es, ¿qué parte de ellos implementa este entendimiento de los números y de cómo se cuenta hacia arriba? Entonces investigamos comportamientos simples de este tipo: cómo hacer concordancia gramatical o concordancia de género, y queremos ir a cosas más complicadas, pero lentamente.

Y otra dirección de investigación que creo que es muy prometedora, en la que me estoy enfocando ahora mismo es interpretabilidad, pero específicamente para encontrar y entender las partes de la inteligente artificial que hacen el planeo y la parte de agente que he descrito al principio del pódcast. Es decir, ¿hay alguna manera de encontrar, sin tener que entender cómo funciona todo, por ejemplo, cómo se computa y cuál es el siguiente número dentro de la de la red neuronal? Sin tener que entenderlo todo, ¿podemos entender en qué partes la red neuronal está pensando en diferentes posibles acciones que va a tomar, sus posibles consecuencias y qué consecuencias son mejores y peores? ¿Podemos encontrar esto dentro de la red neuronal? Creo que hay varios beneficios en esto. Creo que el beneficio principal sería tener una cuantificación: ¿en qué medida es como un agente esta inteligente artificial? ¿Cuánto realmente está planeando para el futuro y pensando en lo que va a hacer para conseguir sus metas? ¿Tiene metas de algún tipo? ¿Cuáles son estas metas? Eso sería útil para poder desarrollar la inteligencia artificial de forma un poco más segura. Otra cosa que puedes medir sería si la inteligencia que estás desarrollando se está desarrollando como un agente o no. Y creo yo que si no es como un agente que tiene planes a largo término y los realiza, pues probablemente no presente un riesgo existencial del tipo de segunda especie de que estábamos hablando antes, ¿no? Entonces, creo que es bastante útil tener una herramienta de este tipo.

Pablo: O sea, la idea sería detectar intenciones o planes que tal vez la inteligencia artificial no expresaría de manera explícita.

Adrià: Sí. Detectar los planes en particular y el acto de estar planeando el futuro.

Pablo: ¿Es esto algo en lo que vas a seguir trabajando?

Adrià: Bueno, estoy trabajando en ello en FAR AI y ahora mismo hemos construido modelos pequeños, en los cuales entendemos exactamente cómo planean y qué planean, por construcción, porque es son muy, muy pequeños: del orden de miles de pesos en comparación con los modelos de lenguaje actuales que tienen miles de millones, al menos, de pesos. Y estamos intentando desarrollar métodos que encuentren el planeo en estos modelos simples. Y entonces vamos a aplicarlos a otros modelos simples, pero que no hemos construido, y si todo va bien, seguir iterando en este círculo de aumentar la complejidad hasta que quizás lleguemos a los modelos grandes que se utilizan ahora.

Pablo: Claro. Muy interesante. Creo que hemos cubierto todo el panorama, al menos lo que parece más prometedor en términos de estrategias para mitigar los riesgos existenciales. ¿Hay alguna otra estrategia que quieras discutir o algún otro enfoque en el cual hayas trabajado?

Adrià: No. Nada en particular.

Pablo: Muchas gracias, Adrià. Ha sido un gran placer.

Adrià: Muchas gracias, Pablo. Muy contento de estar aquí.