Jaime Sevilla es director de Epoch AI, un instituto de investigación sin ánimo de lucro dedicado a estudiar las tendencias fundamentales y los problemas que determinarán el futuro de la inteligencia artificial.
En este episodio, discutimos con Jaime la evolución de los modelos de inteligencia artificial y el probable desarrollo futuro de esta tecnología en vista de su trayectoria histórica. Los temas tratados incluyen:
En orden de mención.
Jaime Sevilla et al. (2022) Compute trends across three eras of machine learning, arXiv:2202.05924v1.
Jaime Sevilla et al. (2024) Can AI scaling continue through 2030?, Epoch Ai, 20 de agosto.
Jared Kaplan et al. (2020) Scaling laws for neural language models, arXiv:2001.08361 [cs, stat].
Jordan Hoffmann et al. (2022) Training compute-optimal large language models, arXiv:2203.15556.
Ege Erdil & Tamay Besiroglu (2023) Algorithmic progress in computer vision, arXiv:2212.05153.
Anson Ho et al. (2024) Algorithmic progress in language models, arXiv:2403.05812 [cs.CL].
Pablo Villalobos et al. (2024) Will we run out of data? Limits of LLM scaling based on human-generated data, Epoch Ai, 6 de junio.
Tom Davidson (2023) What a compute-centric framework says about takeoff speeds, Open Philanthropy.
Ege Erdil & Tamay Besiroglu (2024) Explosive growth from AI automation: A review of the arguments, arXiv:2309.11690 [econ.GN].
Pablo Stafforini Hola, estás escuchando “La bisagra de la historia”, un pódcast en el que conversamos a fondo con invitados que están trabajando en algunos de los problemas más importantes de nuestro tiempo. Mi nombre es Pablo Stafforini y hoy tengo como invitado a Jaime Sevilla, que es director de Epoch AI, un instituto de investigación sin ánimo de lucro que estudia el futuro de la inteligencia artificial.
Jaime, bienvenido a La Bisagra de la Historia.
Jaime Sevilla: Muchísimas gracias por tenerme, Pablo. Encantado de estar aquí.
Pablo: Para empezar, ¿podrías contarnos un poco sobre Epoch, esta organización que fundaste y que dirigís?
Jaime: Por supuesto. Epoch AI es un instituto de investigación independiente desde el cual estamos investigando la trayectoria de la inteligencia artificial. Un poco el razonamiento —por el que creo que esta es una misión que merece la pena seguir— es que creo que la inteligencia artificial hoy en día está avanzando a grandes saltos y puede que tenga enormes consecuencias en la sociedad, pero a pesar de la enorme importancia que ha tenido, veo que hay muy poco trabajo independiente, fuera de los laboratorios que están desarrollando esta inteligencia artificial, para crear un mapa de qué es lo que está ocurriendo e informar al público acerca de cómo se están desarrollando estas tecnologías, cuáles son las razones fundamentales por las que estamos viendo estos avances y en qué puede desembocar esto de aquí a unos años.
Pablo: Ahora, para situar un poco el lugar de Epoch en el ecosistema de la comunidad de personas preocupadas por el impacto de la inteligencia artificial en el futuro de la humanidad, quizá podríamos recurrir a una tipología que a veces se utiliza, que identifica tres tipos de actividades que una organización podría realizar. Primero estarían las organizaciones que se ocupan de la seguridad de la inteligencia artificial, que intentan “alinear” —como se dice— los valores de estos sistemas con los valores humanos. Después tenemos las organizaciones que se ocupan de la gobernanza de la inteligencia artificial, que, en términos generales, buscan promover políticas e instituciones que contribuyan a que la inteligencia artificial se desarrolle de manera segura. Y, por último, estarían las organizaciones que se ocupan de lo que podría llamarse la pronosticación de la inteligencia artificial, es decir, que buscan entender cómo la inteligencia artificial se va a desarrollar en el futuro y qué efectos tendrá en la sociedad. Entonces, entiendo que Epoch, si es que se encuadra en algunas de estas categorías, se encuadraría en la última. O sea, se centraría no en la seguridad o la gobernanza de la IA, sino más bien en la pronosticación de la IA. Pero no sé qué pensás esa tipología, Jaime. ¿Te parece que la categorización de Epoch es correcta?
Jaime: Con respecto a la tipología, bueno, un poco lo que se me viene a la cabeza es que puede ser útil para plantearse, para entender qué es lo que están intentando hacer distintas organizaciones. Al final, lo importante no es identificar cuál es tu nicho y cuál es la manera en la que lo que estás haciendo realmente conduce a llevar a un mundo en el que la inteligencia artificial se sobrelleve de una mejor manera. Yo, dentro de esta tipología que planteas, sí que encajaría Epoch más en la tercera, aunque meramente lo pondría como pronosticación. Creo que también tiene mucho valor simplemente el entender que es lo que ha pasado hasta el momento y dar más información acerca de ello. Mucha de la información que hemos proporcionado, a raíz de nuestra investigación en Epoch, creo que ha llevado a que varios de los reguladores que hoy en día están trabajando en inteligencia artificial hayan tomado distintas decisiones meramente basados en lo que ha ocurrido hasta el momento, no necesariamente lo que se va a venir después. Y ese rol también creo que es muy importante.
Pablo: En esta charla, me gustaría que discutiéramos con cierto grado de profundidad, primero, las investigaciones que vos y tu equipo han venido haciendo sobre justamente estas tendencias en los modelos de aprendizaje automático y, después, los pronósticos sobre los sistemas de IA que uno podría hacer a partir de esas tendencias. Pero antes de discutir estos temas, creo que sería útil hacer un breve paréntesis y aclarar cuál es la relación entre inteligencia artificial y aprendizaje automático. Ya usamos estos términos un par de veces y tal vez algunos de nuestros oyentes no tengan de todo claro qué significan o en qué difieren, así que ¿podrías, Jaime, explicarnos brevemente qué es la inteligencia artificial y qué es el aprendizaje automático?
Jaime: Por supuesto. Hablando de la inteligencia artificial, me refiero a este campo de investigación en ingeniería, de conocimiento, en el que estamos intentando crear máquinas que sean capaces de automatizar varias tareas, especialmente tareas de índole cognitiva, que involucren cosas como el razonamiento o programar: trabajos creativos. El campo es muy variado, pero últimamente una de las ambiciones centrales del campo es crear sistemas que no solamente sean capaces de desempeñar estas tareas de manera automática porque han sido programadas así, sino que sean sistemas muy flexibles, que sean capaces de aprender automáticamente, a partir de datos de entrenamiento que le damos, a desempeñar tareas muy variadas. Y eso es dentro de lo que yo encajaría todo este campo, que tiene que ver con el aprendizaje automático. Dentro del aprendizaje automático, luego, ya hay muchísimas técnicas que se están utilizando para crear estos modelos de inteligencia artificial que pueden automatizar tareas variadas. Pero en nuestros últimos años, hemos visto especialmente una familia de técnicas que son las técnicas relacionadas con el deep learning [aprendizaje profundo], que ha tenido muchísimo tirón y muchísimo éxito a la hora de automatizar muchas tareas a partir de simplemente enseñar a los modelos ejemplos de entrenamiento.
Pablo: Entonces, para empezar, ahora así, a discutir las tendencias en aprendizaje automático que ustedes han venido investigando, tal vez podrías hablarnos un poco, Jaime, primero, a nivel general, de los factores que a tu juicio determinan el ritmo con que se incrementan las capacidades de estos modelos. Entiendo que son tres factores: poder de cómputo, datos y eficiencia de los algoritmos. ¿Podrías contarnos un poco más sobre cada uno de estos factores?
Jaime: Sí, por supuesto. Antes de esto, creo que sería bueno dar un poco de contexto acerca de qué es lo que está ocurriendo. He referido al principio que creo que la inteligencia artificial, hoy en día, está avanzando a pasos de gigante. Simplemente por dar un poco más de contexto a la audiencia, probablemente muchos de ustedes ya han probado ChatGPT y otros modelos de inteligencia artificial relacionados, que creo que son un muy buen ejemplo de hasta donde han llegado las capacidades de modelado de lenguaje. Hoy en día ya tenemos inteligencia artificial con la que básicamente puedes conversar como estarías conversando con otro humano y que es capaz de darte respuestas coherentes y útiles como si fuera un asistente personal. No solamente es capaz de hacer eso, sino que además tiene una amplia gama de conocimiento. Y hemos visto como estos modelos han sido capaces de grandes hazañas, incluyendo pasar tests de razonamiento que hoy en día solemos utilizar, como los tests que utilizamos para admisiones a la universidad, por ejemplo. También son muy aptos a la hora de programar: hoy en día, yo, para programar, mucho de lo que hago es delegar esas tareas de programación a ChatGPT y los modelos subyacentes. Y son bastante capaces de darme una muy buena primera aproximación a los scripts que necesito para mi día a día. Al margen del proceso de lenguaje, también hemos visto avances en otros campos: uno muy notable ha sido en la generación de imágenes y, más recientemente, en la generación de vídeo y de audio. También en campos más exóticos: hubo un gran avance, por ejemplo, en el modelado de proteínas. En general, parece que toda esta familia de modelos de deep learning ha logrado encontrar una arquitectura lo suficientemente general que, a partir de las técnicas que se están aplicando, es capaz de resolver toda esta clase de problemas interesantes. Y ahora, ¿cuál es la razón por la que estamos viendo todo esto? ¿Cuál es la razón por la que ha habido tantos avances estos últimos años y, más en general, en la última década? Has mencionado tres factores fundamentales que influyen en el desarrollo de la inteligencia artificial y quiero entrar un poco en ellos.
¿Cómo aprenden estos modelos de aprendizaje automático a desarrollar todas estas tareas? Les das un montón de datos de entrenamiento y entonces ocurre un proceso, que es el proceso de back propagation [retropropagación] —como se conoce— en el que básicamente la inteligencia artificial, al principio, está como aleatoriamente inicializada y las respuestas que produce, el texto que escribe, es incoherente, pero nosotros somos capaces de enseñarle ejemplos de texto, como podrían ser pasajes en la Wikipedia, y ver en qué dirección tendrías que modificar el modelo para que produjera resultados más acordes al texto que está viendo. Esto ha resultado ser una manera de entrenar los modelos muy general, que tiene mucho éxito y que ha sido la base de todos estos grandes avances que han venido llegando hasta el momento. Ahora, lo más importante que hemos aprendido en estos últimos diez años, y lo que hemos observado, es que esta es una receta que funciona a escalas muy grandes. En general, si entrenas un modelo con diez veces más texto, va a ser un modelo que va a ser en general más capaz, que va a ser capaz de realizar más tareas, y las tareas que realiza las puede hacer con una mejor calidad. Y un poco esto ha llevado a este paradigma en el que vivimos ahora, en el que los principales desarrolladores de inteligencia artificial están muy preocupados por intentar conseguir centros de datos más grandes y entrenar modelos de inteligencia artificial cada vez mayores.
¿Qué es lo que necesitan para entrenar estos modelos de inteligencia artificial mayores? He mencionado que necesitan datos. También necesitan la capacidad de cómputo necesaria para poder hacer todo este proceso de back propagation, o retropropagación, como diríamos en español, para procesar esos datos en primer lugar. Y esa es la razón por la que mirar la cantidad de cómputo que se está utilizando para entrenar estos modelos y mirar cantidad de datos son buenos predictores de las capacidades que el modelo va a tener a continuación. Y es algo también en lo que yo me baso a la hora de pronosticar el por qué creo que los modelos de inteligencia artificial van a continuar siendo mejores en el futuro; porque veo que las grandes compañías que desarrollan estos modelos están de hecho ya planeando modelos diez veces más grandes de los que existen ahora. Y dada toda esta historia inductiva, que hemos tenido hasta el momento, de entrenar modelos más grandes y de obtener mayores capacidades, es fácil hacer la inferencia: deberíamos esperar, simplemente basados en lo que hemos visto hasta el momento y lo que sabemos acerca de las propiedades de escalar estos modelos, que esto sea una buena receta para crear modelos más generales.
De entre estos dos factores de que he venido hablando, que son el cómputo y datos, que necesitas para escalar los modelos, ahora mismo diría que ambos son importantes, pero sobre todo y al menos históricamente, el cómputo ha sido el más determinante a la hora de determinar hasta dónde puedes escalar, básicamente, por la razón de que había un déficit de cómputo con respecto a los datos en Internet. Estos modelos generalmente se entrenan con datos que están públicamente disponibles en Internet y, hasta el momento, podías simplemente coger más datos de Internet de una manera u otra, así dicho de manera burda. Pero si no tienes suficientes GPU [unidades de procesamiento gráfico] —los aceleradores que se utilizan para entrenar estos modelos— pues de poco te iban a servir esos datos. Y esta es la razón por la que el cómputo, hasta el momento, ha sido el mejor predictor de las capacidades del modelo que hemos visto hasta el momento.
Ahora, esto no es toda la historia. Un factor muy importante, que estoy dejando de lado en todo esto que estaba diciendo, es toda la innovación científica que ha ocurrido en los últimos años, que ha contribuido a que los modelos se vuelvan mejores, incluso con una cantidad dada de cómputo: que puedan utilizar de manera más eficiente los datos y el cómputo que tienen disponibles para obtener mejores capacidades. Y esto se manifiesta a través de los distintos descubrimientos que ha habido en los últimos años de cómo entrenar mejor los modelos, incluyendo mejores arquitecturas. La arquitectura del Transformer [Transformador] ha sido un ejemplo paradigmático de un gran avance: ha ayudado a entrenar los modelos de una manera mucho más eficiente y a mayores escalas. Otras cosas incluyen las leyes de escalado: el estudio de cómo deberías escalar distintas propiedades del modelo, como, por ejemplo, el número de parámetros que tienen frente al número de datos con el que son entrenados, para poder aprovechar al máximo las capacidades computacionales a las que tienes acceso.
Estos dos factores, el cómputo y la innovación algorítmica, se combinan para explicar los grandes avances que hemos visto en los últimos años. Creo que si lo que quieres entender es cómo es que ha habido tantos avances en los últimos diez años y cuántos avances deberíamos esperar que ocurrieran la próxima década, es muy importante ver cuánto cómputo se ha utilizado para entrenar estos modelos y cuántas innovaciones han ocurrido y a qué ritmo, y un poco a partir de ahí creo que te da una buena base para extrapolar esto en el futuro e intentar entender dónde podemos estar de aquí a diez años.
Pablo: Ahora en seguida vamos a ver en mayor detalle cada uno de estos factores y después esas posibles extrapolaciones que uno podría hacer. Pero para ver si estoy entendiendo bien cómo encajan estos factores en la explicación del progreso de los modelos en la última década: tenemos un modelo con un enorme número de parámetros que deben ser ajustados gradualmente por este proceso de retropropagación. Este es un proceso que requiere de una enorme cantidad de datos y el procesamiento de estos datos a su vez consume una enorme cantidad de cómputo. Por último, la performance o las capacidades que muestra el modelo están mediadas por la eficiencia de los algoritmos: una misma cantidad de datos y de cómputo puede resultar en un mejor o peor desempeño dependiendo de cuán eficientes sean esos algoritmos. Entonces esta sería, muy brevemente, la manera en que estos tres factores, el cómputo, los datos y las innovaciones algorítmicas, explicarían las mejoras que hemos observado en los modelos de inteligencia artificial y de aprendizaje automático en particular en este último tiempo.
Pablo: Ahora, si te parece podemos pasar a considerar cada uno de estos factores, uno por uno, empezando por el poder de cómputo. Y ahí tal vez lo mejor sería charlar sobre un artículo que publicaste con tu equipo sobre lo que ustedes llaman las tres eras del aprendizaje automático. ¿Podrías contarnos un poco, Jaime, qué es lo que intentaron hacer en este artículo y cuáles son las principales conclusiones a las que llegaron?
Jaime: Absolutamente. Pues con lo que hemos hablado antes espero haber comunicado la importancia del cómputo a la hora de determinar la capacidad de los modelos. Dado esto, una pregunta muy natural que podemos hacernos es cómo de rápido están escalando los modelos en términos de la cantidad de recursos computacionales que se usan para entrenarlos. Y esto es exactamente lo que nosotros pretendíamos averiguar mediante este estudio. Lo que hicimos fue recopilar información acerca de cientos de modelos notables de aprendizaje automático que se han desarrollado históricamente e intentar entender cómo mejor describir esta tendencia de escalado del cómputo. Y lo que encontramos es, principalmente, que había dos eras muy claramente diferenciadas. Y luego también postulamos una tercera era, un tercer cambio más reciente que había ocurrido. El cambio más fundamental que observamos es que antes de que el paradigma del deep learning cobrara la importancia que tiene hoy en día, la cantidad de cómputo que se utilizaba para entrenar los modelos estaba creciendo exponencialmente, pero no de manera muy exagerada. Principalmente, estaba creciendo exponencialmente porque el hardware que se estaba utilizando para entrenar estos modelos también se estaba volviendo mucho mejor exponencialmente. Esto es bien conocido: la ley de Moore es como nos referimos a esta observación de que la capacidad del hardware al que tenemos acceso, principalmente en el contexto de las CPU [unidades centrales de procesamiento], pero algo también similar observamos en las GPU, dobla su performance cada dos años más o menos. Y un poco lo que veíamos aquí es simplemente que los desarrolladores que estaban intentando investigar estos prototipos de inteligencia artificial, naturalmente, tenían acceso a mejor hardware meramente por las propias mejoras del hardware hasta el momento. Y esto les llevaba naturalmente a experimentar con más y más cómputo. Pero alrededor de 2010–2012 algo cambió. Y este nuevo paradigma de aprendizaje automático —que comenzó a cobrar forma como una manera muy eficaz de conseguir muy buenos resultados en varios problemas que hasta el momento se consideraban intratables, como podía ser el reconocimiento de imágenes o el modelado de lenguaje— es, simplemente, entrenando modelos muy grandes, con muchos parámetros procesados con muchos datos. Esto incentivó a la gente a experimentar con modelos más y más grandes. Y lo que vemos a partir de ese momento es que no solamente la gente tiene acceso a mejor hardware, sino que se empiezan a esforzar por acumular más y más hardware y por utilizar más aceleradores durante el entrenamiento. Antes de 2010, el ritmo de escalado era que cada 20 meses, o así, la cantidad de cómputo que se utilizaba para entrenar los modelos notables se estaba doblando. A partir de entonces fue cada seis meses. Y esto es una tendencia que se ha mantenido hasta el momento. Esta es una tendencia muy, muy rápida. Básicamente, cada año se utiliza cuatro veces más cómputo para entrenar estos modelos de inteligencia artificial. Hay muy pocas tecnologías que hayan crecido tan rápido durante un largo periodo de años en la historia de la humanidad. De hecho, en lo que estuve investigando de otras tecnologías con muy rápido crecimiento, como la secuenciación de genomas, no encontré una sola que se aproximara a crecer a un ritmo de multiplicarse por cuatro cada año durante un periodo de más de unos pocos años.
Ahora bien, también he aludido un poco a esta tercera era. Hasta antes de 2014–2016, o así, la inteligencia artificial tenía un interés académico: era principalmente algo realizado por profesores de universidad que estaban interesados en esto desde un punto de vista intelectual. Pero una vez que se empezaron a conseguir estos resultados tan impresionantes en inteligencia artificial, la cosa cambió un poco. Y varias compañías, incluyendo compañías grandes como Google, empezaron a estar interesadas en integrar estos modelos de inteligencia artificial en sus productos y desarrollar sus propios modelos de inteligencia artificial a gran coste para ellos. Y esto significó el que llegaran todas estas grandes compañías que fueron capaces de elevar rápidamente la cantidad de recursos que se podían dedicar a la inteligencia artificial. La tendencia de crecimiento seguía siendo estable: más o menos, todo crecía a un ritmo de cuatro veces al año. Pero hubo este salto discreto en el que, alrededor de 2014–2016, finalmente, las grandes compañías dieron el paso de unirse al desarrollo de la inteligencia artificial de una manera más dedicada y de empezar a liderar el campo en términos de desarrollo. Y esto es un poco a lo que aludimos con esta tercera era que discutimos. Sin embargo, para la audiencia y para simplificarlo, principalmente les invito a llevarse de esta pequeña reflexión estas dos tendencias que vemos antes de la llegada del deep learning y después. Antes del deep learning el escalado ocurre de manera muy lenta, sigue habiendo avances en inteligencia artificial, pero no tantos, y, a partir de entonces, se disparan las cosas: entramos en este régimen en el que todos se acelera a un ritmo de crecimiento de multiplicarse por cuatro cada año y comenzamos a ver toda esta maratón de nuevos descubrimientos, nuevos avances en inteligencia artificial que empiezan en unos pocos campos, como el reconocimiento de imágenes y partes de modelado de lenguaje, y terminan siendo algo muy general que hoy en día desemboca en los productos que estamos utilizando, como ChatGPT, que nos ayudan a razonar, a programar, a generar imágenes y en el futuro aun con más tareas.
Pablo: Más recientemente —creo que, de hecho, hace un par de semanas— ustedes, en particular, vos y Eduardo Roldán, publicaron un informe que, en algún sentido, actualiza las conclusiones de ese paper. ¿Hay alguna conclusión que deba revisarse a la luz de ese informe o es básicamente una confirmación del panorama general que presentaba el artículo original?
Jaime: La principal conclusión que yo saqué de esta exploración más actualizada de las tendencias de cómputo es que, básicamente, esta imagen que he dado de que todo está acelerando a un ritmo de cuadruplicarse cada año se ha mantenido desde que escribimos el anterior paper en 2022. Tal vez la parte en la que merezca la pena indagar un poco más es que, antes de escribir este paper, hubo otros varios intentos de caracterizar las tendencias de cómputo que llegaban a conclusiones ligeramente distintas a las que nosotros llegábamos en el paper anterior. Y en particular, hubo un paper antes del nuestro, de OpenAI, en el que encontraban un ritmo francamente más rápido del que nosotros veíamos, en el que el ritmo de crecimiento era el doble de rápido de lo que nosotros encontrábamos. Y también había otro paper que encontraba que hubo una deceleración de las tendencias de cómputo entre los modelos más avanzados alrededor de 2018, o así. Y nosotros, en ese paper, lo que hemos logrado es darle coherencia a todos esos resultados y ponerlos en un marco en el que para mí ahora tienen mucho más sentido. Al final, por no complicar mucho la cosa, lo que yo veo es que, especialmente si vemos la tendencia desde 2018, o así, el ritmo de crecimiento de multiplicarse por cuatro al año es algo que se ha mantenido. Y, por defecto, creo que es lo que deberíamos esperar ver en los próximos años: que este ritmo de crecimiento se mantenga.
Pablo: Muy bien, entonces la conclusión es que antes de la era que podríamos llamar del aprendizaje profundo, que empezó alrededor de 2012, el cómputo se duplicaba cada 18 meses aproximadamente, en consonancia con la ley de Moore, y que cruzado ese umbral, y en esta nueva era, el cómputo se multiplica por cuatro cada año, o sea que es un incremento muy significativo. Podemos pasar ahora, si te parece, al segundo factor que explica el crecimiento en las capacidades de los modelos de IA, que son los datos. Después vamos a discutir, en más detalle, si podríamos toparnos con algún límite, si podríamos quedarnos sin datos, cuándo eso podría ocurrir y qué intervenciones o qué estrategias podrían adoptarse para mitigar ese problema. Pero ahora veamos cómo ha ido evolucionando el consumo de datos a lo largo del tiempo en esta era del aprendizaje profundo. ¿Podrías contarnos, Jaime, cómo viene creciendo la demanda de datos en este último tiempo?
Jaime: Por supuesto, y no solo puedo darte un número, sino que puedo darte algo más valioso, que es una intuición para este número. Para escalar estos modelos tienes dos dimensiones en las que puedes escalarlo físicamente: una es entrenarlo con más datos y otra es entrenar un modelo mayor. Hacia donde ha evolucionado el campo hasta el momento, y lo que hemos visto que empíricamente funciona mejor, es escalar la dimensión del modelo y el número de datos en el que se entrena en paralelo, a un ritmo similar. Y esto en lo que se traduce es que como los dos contribuyen al cómputo de la misma manera y queremos que crezcan en consonancia, si la cantidad de cómputo está incrementando por cuatro al año, pues entonces tanto la cantidad de datos como el tamaño de los modelos tiene que estar multiplicándose por dos al año para que ambas cosas coincidan y al final tengamos esta tendencia de que el cómputo se incremente por cuatro cada año. Y esto es un poco lo que vemos en la práctica. La cantidad de datos que se utilizan para entrenar nuestros modelos está doblándose aproximadamente cada año.
Pablo: Tal vez este es un buen momento para que nos cuentes en qué consisten estas llamadas leyes de escalamiento, o leyes de escalado, que tratan de capturar formalmente la relación que existe entre estas cantidades: el tamaño del modelo, su número de parámetros, la cantidad de datos que se usan para entrenarlo y el poder de cómputo necesario para entrenar un modelo con esa cantidad de parámetros y de datos.
Jaime: Por supuesto, Pablo. He comentado que alrededor de 2012, o así, comenzó este nuevo paradigma del aprendizaje profundo en el que la gente empezó a intentar escalar mejor sus modelos. Y un poco se empezó a plantearse su hipótesis de “¿Tiene esto un límite? ¿Somos simplemente capaces de entrenar un modelo que sea 1 000 000 de veces más grande de lo que estamos entrenando en este punto y ver hasta ese punto grandes avances en lo que los modelos van a ser capaces de hacer?”. Y en ese punto era un poco más como una observación informal, una hipótesis a ser testeada. Y fue testeada con mucho éxito. Se fue ampliando el tamaño de los modelos y se fue observando que según se entrenaban modelos mayores se estaban consiguiendo mejores resultados. Hubo varios ensayos muy influyentes, por ejemplo, uno de Richard Sutton, que se llama ‘The bitter lesson’, en el que reflexionaba acerca de cómo esta estrategia de conseguir métodos de entrenamiento que sean capaces de utilizar poder computacional a grandes escalas terminan siendo las más exitosas a la hora de determinar cuáles obtienen mejores resultados a la hora de automatizar tareas. En 2020, algunos investigadores de OpenAI intentaron estudiar esta hipótesis de una manera más formal. Y lo que hicieron fue entrenar una serie de modelos de progresivamente mayor tamaño e intentar relacionar el tamaño de estos modelos con la performance que estos modelos conseguían, y encontraron una relación matemática bastante regular. En el contexto experimental en el que estaban estudiándola, en el que se apreciaba esta relación entre el tamaño del modelo y la performance que conseguía de una manera muy clara, no solamente pudieron establecer esta relación con sorprendente regularidad, sino que además estudiaron otros ángulos de variación: qué ocurre si entrenas un modelo que tenga muchos datos, pero no sea tan grande en tamaño, qué ocurre si entrenas un modelo que sea grande en tamaño, pero no tenga tantos datos. Esto fue un gran avance en lo que ahora se conoce como las leyes de escalado de la inteligencia artificial: esta subárea del campo que intenta estudiar precisamente la relación entre las características de escala del modelo y lo que son capaces de conseguir. El resultado más importante en leyes de escalado se consiguió hace un par de años con una actualización posterior a este paper de 2020 de Kaplan y otros en OpenAI. En 2022 hubo un sucesor, un paper de Hoffmann y otros, de Google DeepMind, en el que hacían sus propios experimentos de escalado y concluyeron a partir de tres métodos estadísticos que lo mejor para conseguir la máxima performance de tus modelos era escalar la cantidad de datos de entrenamiento y el tamaño de los modelos en sincronía Y esto ha sido un poco la receta que se ha vuelto popular para entrenar estos modelos de inteligencia artificial hasta el momento.
Pablo: Claro. Bueno, entonces, si te parece, podemos ahora pasar a discutir el tercero de los tres factores mencionados, que es la eficiencia algorítmica. Y acá tal vez haya una cuestión conceptual que podríamos mencionar brevemente antes de charlar sobre las conclusiones a las que arribó tu equipo. Y esta es la idea misma de eficiencia algorítmica. Quizá para nuestra audiencia no sea un concepto tan tangible como el de cómputo o el de datos. Entonces, ¿podrías, Jaime, darnos alguna intuición o alguna manera de visualizar qué significa esto para entender cómo encaja la eficiencia algorítmica en este modelo de tres factores que venimos discutiendo?
Jaime: Por supuesto. La idea detrás de este factor de innovación algorítmica es que estamos interesados en encontrar mejores maneras de utilizar los recursos que tenemos a nuestra disposición y conseguir entrenar modelos más capaces dada la cantidad de cómputo a la que tenemos acceso. Y para ello, pues, hay innovación y experimentos constantes, en los que la gente prueba nuevas arquitecturas, nuevas recetas de entrenamiento, nuevos optimizadores y nuevas mezclas de datos, un poco con el objetivo final de “Mira, dado que tenemos acceso solo a tantas GPU, con tanto poder computacional, ¿cómo podemos entrenar el mejor modelo posible, dados los recursos que tenemos?” Y el resultado final de esta innovación es esto a lo que yo me refiero con innovación algorítmica.
Puedes pensar en ello de dos maneras. Una manera muy clara es ver que para obtener un cierto nivel de capacidad, los recursos que necesitas van bajando con el tiempo. Un ejemplo muy saliente aquí es un predecesor de GPT-4, que fue GPT-2. En 2019, el cómputo que se utilizó para entrenar ese modelo costó alrededor de unos 100 000 dólares. Pues resulta que recientemente un investigador, Andrej Karpathy, logro reimplementar GPT-2 utilizando técnicas modernas de entrenamiento, obteniendo resultados similares a los que GPT-2 obtenía en 2019, pero solamente gastando alrededor de 100 dólares para el cómputo. O sea, este ha sido un factor de diferencia de 1000: utilizando mil veces menos dinero, que más o menos corresponde a mil veces menos cómputo, ha conseguido entrenar un modelo con la misma capacidad. Este es el efecto de difusión que permite la innovación algorítmica. También puedes pensar esto en la otra dirección. He estado hablando acerca de la relación entre la escala y la performance que consiguen los modelos, descrita por estas leyes de escalado. Yo no esperaría que simplemente los modelos del futuro van a obedecer estas leyes, sino que van a ser mejores que lo que estas leyes sugerían, porque en el futuro vamos a tener nuevas arquitecturas, nuevas innovaciones algorítmicas que permiten a los modelos llegar aún más lejos, dado los recursos que tengan en ese momento. Y este es el efecto de expansión de la frontera de la innovación algorítmica. Es un poco complicado de estudiar en la práctica, y nosotros en Epoch AI hemos estado intentando pensar en cómo podemos describir así, de manera burda, toda la innovación algorítmica que ha ocurrido hasta el momento y cuantificarla para poder intentar formar una predicción base acerca de qué es lo que debemos esperar año a año: cuánto se van a difundir las capacidades que existen este momento, cómo de barato va a ser desarrollar las capacidades que existen ahora y, más allá de eso, cuánto van a superar los modelos frontera del futuro las leyes de escalado actuales.
Pablo: Para ir al ejemplo que mencionabas de Karpathy y su reimplementación de GPT-2, un factor que creo que habría que ajustar es el abaratamiento en el costo del cómputo. Supongo que en cualquier intento de cuantificar cómo ha ido evolucionando la eficiencia de los algoritmos este es un ajuste que hay que hacer si uno intenta medir estrictamente cuánto cómputo se utilizó originalmente y comparar esa cantidad con el cómputo necesario hoy en día. ¿Es este un ejemplo de las complicaciones a las que aludías relacionadas con la cuantificación de los progresos en eficiencia algorítmica?
Jaime: Esto es algo que tienes que tener en cuenta. Pero la verdad es que yo lo he ignorado por una razón. Lo he ignorado porque en realidad no es tanto en las mejoras que hemos visto hasta el momento. Para que te hagas una idea, las mejoras que hemos visto en el cómputo de los modelos, el hardware al que tenemos acceso es, de media, un 30 % mejor que el año anterior. O sea que en un periodo de cinco años, como ha sido entre 2019 y hoy, deberías esperar que el cómputo sea aproximadamente cuatro veces más barato de lo que era entonces. Comparado con este factor de 1000 que te ha dado antes en el coste, un factor de 4 no es tanto: podemos permitirnos redondearlo. En mi trabajo, yo lo tengo en cuenta, pero aquí que estamos hablando tú y yo en confianza no es tan importante.
Creo que esto en general es algo que merece la pena discutir un poco más. Hemos estado hablando de cómo la tendencia del cómputo se disparó después de 2010. Se disparó porque la gente empezó a gastar más en la inteligencia artificial. Este ha sido el principal motor que ha permitido todos estos rápidos avances que hemos visto hasta el momento. En comparación, el ritmo al que el cómputo se ha ido volviendo más barato, aunque es importante, es solo como la quinta parte del escalado que hemos visto hasta el momento. El resto se explica más bien por el incremento en los gastos que están dispuestos a asumir los desarrolladores. Y bueno, poniendo este paréntesis un poco de lado, podemos volver ahora al tema de la eficiencia algorítmica y qué es lo que hicimos para estudiarlo.
Al final, lo que hicimos fue hacer una especie de leyes de escalado a través del tiempo. Normalmente, en las leyes de escalado, tú lo que haces es estudiar una arquitectura concreta: coges las técnicas más modernas que hay en un año, intentas entrenar una serie de modelos conforme a esas técnicas y estudias la relación entre la escala de los modelos y su performance, dadas esas técnicas. Nosotros intentábamos reflejar no solamente la escala de los modelos, sino también este componente de innovación algorítmica y cómo se han ido descubriendo mejores técnicas para entrenar los modelos. Y para ello, en vez de entrenar nuestros propios modelos, simplemente estudiamos lo que se ha conseguido a lo largo de los años: cogimos una amplia cantidad de modelos históricos y anotábamos la escala que tenían, cuánto cómputo se utilizó para entrenarlos y en qué años se entrenaron. Y creamos un modelo predictivo que asociaba esas dos cosas a la performance que conseguía. Y así lo que logramos es, a través de este componente temporal, poder cuantificar cómo de importantes fueron las mejoras algorítmicas para explicar los avances que hemos visto en el desarrollo de inteligencia artificial hasta el momento. Esto lo hicimos en dos contextos distintos. Nuestro primer paper, hace un par de años, fue en el contexto de modelos de reconocimiento de imágenes para el cual existían más datos en el momento. Y más recientemente lo hicimos en el contexto de modelos de lenguaje, que es más relevante para la discusión actual. Y lo que encontramos es que hay bastante incertidumbre: es un poco difícil de decir con seguridad, pero la magnitud de importancia de las mejoras algorítmicas era más o menos similar a la magnitud de la importancia del escalado que hemos visto hasta el momento. En los modelos de lenguaje particular, si me viera forzado a dar un número, diría que las mejoras algorítmicas han sido la mitad de importantes que el escalado en los últimos 10 años. Pero, bueno, la mitad de importante, dado el nivel de incertidumbre que tenemos es, aun así, comparable e importante. Y significa que si quieres intentar entender a dónde está yendo el campo, no puedes ignorar la innovación algorítmica. No es algo que pueda redondear para poder entender hasta donde vamos a ser capaces de llegar.
Pablo: Muy bien, entonces vimos cada uno de los tres factores. Antes de pasar a discutir los pronósticos que podrían hacerse a partir de las tendencias que describiste, ¿podrías resumir cuál es el peso relativo de los distintos factores, es decir, la incidencia que cada uno ha tenido en estas tendencias?
Jaime: Sí, o sea, los dos factores principales que tienes que tener en cuenta es el escalado en cómputo y el escalado algorítmico. Con el escalado en cómputo, se incrementa por un factor de 4 cada año y las mejores algorítmicas lo que hacen es disminuir las necesidades de cómputo para llegar a cierto nivel de performance por un factor de 3 cada año. Cuando combinas ambas cosas, pues más o menos cada año es como si tuvieras 10 veces más cómputo para entrenar un modelo. Aquí los datos no tienes que tenerlos en cuenta porque los datos están dentro del factor de escalado del cómputo y, al final, lo que determina el escalado es el factor que está en mayor escasez en este punto, que es el cómputo. Y luego, te estoy diciendo que puedes pensar en que el ritmo al que van los inputs está incrementándose por un factor de 10 cada año, en términos efectivos, después de que tengamos en cuenta las mejoras algorítmicas. Pero ¿en qué se traduce esto? También tenemos que pensar en qué es lo que esto me consigue. Y un poco lo que vemos es una relación logarítmica entre la escala efectiva de los modelos y las tareas que pueden hacer. Si miras en benchmarks que se utilizan hoy en día para medir las capacidades de los modelos, que tienen varias preguntas de muchas índoles, lo que vemos es que los resultados que consiguen los modelos están mejorando de una manera casi lineal. Mientras que los recursos que se están invirtiendo en la tecnología están creciendo de manera exponencial, lo cual indica que hay esta relación logarítmica entre ambas cantidades: entrenas un modelo 10 veces más grande, pero eso solamente te consigue los mismos resultados que el último escalado de por 10 que habías efectuado.
Pablo: ¿Podrías brevemente hablarnos de cuáles son estos benchmarks o cómo es que de hecho se mide la capacidad de un modelo y si tiene sentido hablar de algo así como la duplicación de su capacidad u otras afirmaciones que presuponen una escala cardinal en la que medimos el progreso? En el caso del cómputo y los datos, es obvio, porque son cantidades concretas. Pero en el caso de la performance de un modelo parece menos claro.
Jaime: Sí, haces bien en ser escéptico, porque la manera en la que se mide hasta el momento es malamente, Pablo, malamente. En cuanto a los benchmarks que tenemos hasta el momento, no está muy claro el que realmente se correspondan con lo que a nosotros nos interesa del modelo, que es, al final, pues, la cantidad de tareas útiles que puede hacer. En general, estos benchmarks suelen ser cosas como tests de los que podría hacer uno en la escuela. Hay preguntas, tienen múltiples respuestas y se invita al modelo a producir una respuesta para eso, y simplemente anotamos cuantas preguntas ha contestado de manera correcta. Y hay muchos problemas con estos benchmarks. He mencionado ya el que no se corresponden del todo a lo que realmente queremos. Otro problema importante es que estos benchmarks se saturan rápidamente. Hace un par de años teníamos benchmarks de matemática como era el math benchmark, que se creía que eran imposibles de hacer por los modelos, y simplemente en un periodo muy corto de tiempo logramos llegar a un punto en el que los modelos de inteligencia artificial se los desayunaban. Entonces, cuando en el benchmark ya estás consiguiendo 90 % de preguntas correctas, ya no es fácil seguir avanzando y el benchmark deja de medir las capacidades latentes del modelo, que es lo que nos interesa. Aparte de eso, muchos de estos benchmarks han terminado estando contaminados, han terminado apareciendo en los datos de entrenamiento en los que se entrena en Internet. Y si tú has visto un examen antes de hacerlo, pues ese examen no es una buena manera de ver si realmente tienes esas capacidades de razonamiento que se supone que el examen está intentando testear. Por esta y otras razones, los benchmarks que tenemos hasta el momento creo que no son muy buenos y, de hecho, dentro de Epoch estamos ahora pilotando varias iniciativas para crear mejores benchmarks que nos ayuden a entender mejor este lado de cuánto realmente están mejorando los modelos. Aun así, creo que esta intuición fundamental de que los modelos se están volviendo linealmente mejores con el tiempo es algo que sigo compartiendo: veo que ha habido aproximadamente tanta mejora entre 2020 y 2022 que entre 2022 y 2024, con respecto a la calidad de los modelos, la cantidad de tareas que pueden hacer, cómo de útiles los encuentro en mi día a día, etcétera.
Pablo: Me gustaría que consideremos ahora cómo estas tendencias nos sirven para predecir la manera en que la inteligencia artificial podría desarrollarse en los próximos años. Tal vez la manera más natural sería meramente extrapolando estas tendencias en el futuro y preguntándonos si esa extrapolación resulta plausible a la luz de otras cosas que sabemos sobre cómo funcionan estos modelos. Y esto es justamente lo que ustedes estudiaron en un paper que acaba de publicarse, ‘Can AI scaling continue through 2030?’. ¿ Podrías hablarnos un poco de este informe?
Jaime: Por supuesto, Pablo. Pues hemos venido comentando que la cantidad de cómputo que se utiliza para entrenar estos modelos se está incrementando por un factor de cuatro cada año. También he mencionado brevemente que esto es algo inaudito, que hay muy pocas tecnologías anteriores que hayan logrado mantener este ritmo exponencial de crecimiento durante tantos años. Dado esto, una pregunta muy natural que podemos hacernos es: ¿Puede esto continuar? ¿Durante cuánto tiempo podría esto continuar?, y esto es un poco lo que nosotros estamos intentando investigar. En concreto, nos pusimos como una fecha referencia el fin de la década y nos intentamos plantear, dadas las tendencias que ha habido hasta el momento y dado lo que se necesita para poder continuar este escalado: ¿estamos en un ritmo de crecimiento que realmente permita que se mantenga esta tendencia hasta el final de la década?, y lo que hicimos en concreto fue pensar en cuáles son las principales razones por las que esto no podría continuar, y examinar cada uno de todos esos factores que contribuían al escalado e intentar entender si se puede sostener el ritmo de crecimiento de estos factores hasta el final de la década. Y lo que concluimos es que parece que sí. Parece que, dados los planes que hemos visto de los distintos productores de los insumos que se necesitan para llevar a cabo este escalado, principalmente en términos de la electricidad que se necesita para alimentar estos modelos y, en términos de los chips, las GPU que se necesitan para entrenar estos modelos, sí va a ser posible el continuar este ritmo escalado hasta 2030, si existe la voluntad para llevar esto a cabo. Una pregunta muy fundamental es si esto va a merecer la pena el coste. O sea, hoy en día, el coste de estos modelos —si quisieras comprar todas las GPU que se necesitan para entrenar un modelo puntero de inteligencia artificial— puede rondar los mil millones de dólares, que diríamos en castellano. Pero si esto sigue creciendo a un ritmo exponencial, pues pronto podríamos estar en una situación en la que se necesitarían billones de dólares, para poder costear el centro de datos en el que se pudiera llevar a cabo el entrenamiento que correspondería a continuar este escalado durante, por ejemplo, 10 años. Pero bueno, dejando eso al margen, lo que nosotros investigábamos es esto: suponiendo que existiera esta willingness to pay, que realmente los desarrolladores estén dispuestos a costear el modelo, ¿va a ser físicamente posible entrenar modelos de esa escala? Y pensamos en los distintos factores que podrían llevar a esto y encontramos cuatro factores que creo que es importante considerar a la hora de ver si el escalado se puede mantener. Los dos más importantes que he mencionado son la electricidad que necesitan estos centros de datos durante el entrenamiento y las GPU que se utilizan para entrenar los modelos.
Pablo: Claro. O sea, ustedes, básicamente, están dejando de lado la cuestión de si los laboratorios o las empresas de inteligencia artificial van a tener esta voluntad de pagar por lo que haga falta para continuar la tendencia de escalado y, sujeto a ese supuesto, la pregunta es: ¿Van a toparse con algún otro tipo de obstáculo?; y ¿cuáles podrían ser estos obstáculos? Y los dos que mencionaste son la disponibilidad de energía o electricidad y la disponibilidad del número suficiente de chips para que la tendencia de escalamiento continúe. Ahora en el paper también mencionan otros dos factores que son, creo, los datos y lo que llaman el muro de latencia. En algún momento, no sé si ahora mismo, me gustaría que hablemos de los datos, porque a menudo se menciona la cuestión de si no nos vamos a quedar sin datos y, en ese caso, qué es lo que podría pasar. Pero no sé si antes de discutir eso querrías hablar de alguno de estos otros factores que mencionaste…
Jaime: Podemos empezar hablando de los otros dos factores y luego de los datos. Hablemos un poco acerca de la energía. Hoy en día, para entrenar un modelo de la escala de GPT-4, necesitarías un centro de datos que consume unos 15 megavatios de potencia, megavatios siendo la unidad de energía por unidad de tiempo. 15 megavatios no es tanto en el gran contexto de las cosas. Es muy poco comparado con, por ejemplo, la producción nacional de energía de Estados Unidos, por poner un ejemplo, que hoy en día ronda los 1000 gigavatios, esto es, 1 000 000 de megavatios de capacidad productiva instalada. Ahora, no pueden utilizar toda esa capacidad productiva. La capacidad productiva que se produce en un año es más bien como unos 800 gigavatios, u 800 000 megavatios. Pero bueno, si ponemos 15 megavatios en el contexto de la producción nacional de un país, no es tanto. Ahora bien, el problema es que si pones esto en el contexto de un centro de datos, sí, es bastante dentro del contexto de un centro de datos, y especialmente esto es algo que, como el resto de las tendencias en inteligencia artificial, esperamos que crezca exponencialmente con el tiempo. Hay ciertas cosas que puedes hacer para que sea más eficiente y espero que el entrenamiento sea más eficiente en el futuro. Por ejemplo, espero que se utilicen formatos más eficientes de precisión durante el entrenamiento. También espero que se entrene durante más tiempo, lo cual hace que no necesites tanta energía de repente, sino que puedes distribuir tu consumo a lo largo del tiempo. Pero aun así, dadas las tendencias que vemos para poder continuar este ritmo de escalado de multiplicarse por cuatro cada año, para el final de la década necesitarías alrededor de entre 5 y 15 gigavatios de potencia para realizar el entrenamiento de estos modelos. Eso es un montón en términos de un centro de datos. Para que tengas una idea, las facilidades con mayor consumo energético que existen hoy en día son, por ejemplo, fundiciones en las que se produce aluminio o acero. Y estas fundiciones, pues como mucho llegan al gigavatio de consumo, a veces un poco más de un gigavatio pero menos de dos. Y aquí estoy planteando una facilidad de entrenamiento que necesitaría 5 gigavatios de energía, que es algo inaudito. Ahora bien, se está empezando a hablar de construir centros de datos, campus de centros de datos que pudieran llegar a esa escala. Y un poco el ejercicio que hicimos fue investigar si realmente esto sería factible dado lo que están planeando los productores de energía. Esto lo miramos en el contexto principalmente de Estados Unidos. Y lo que encontramos es que, para un solo centro de datos, estar entre 1 y 5 gigavatios de escala parece algo factible, pero difícil. Llegar a los cinco gigavatios ya parece como un orden mayor y que requeriría una inversión potente. Ya hay planes anunciados para construir centros de datos de 1 gigavatio, como puede ser el centro de datos de Amazon en Susquehanna, que está directamente al lado de una central nuclear y esta es la central nuclear que suministraría energía a este centro de datos en construcción. Ahora bien, ¿si necesitas más energía, qué es lo que puedes hacer? Otra cosa de la que se está hablando es que no solamente tienes un solo centro de datos, sino que puedes tener varios centros de datos en distintos estados y que se estén coordinando para el entrenamiento. Esto es algo que hemos estudiado, y realmente parece que sería factible realizar esta clase de entrenamiento distribuido y que ayudaría significativamente a aliviar los problemas de consumo energético que pudieran enfrentar estos modelos. Así que, en principio, la cantidad de energía que se necesita para entrenar estos modelos, manteniendo la tendencia de crecimiento histórica, parece factible de mantener al menos hasta el final de la década.
Pablo: ¿ Y qué hay del otro factor que destacaste: la producción de chips? ¿No sería este un posible cuello botella con el que nos toparíamos más adelante en el tiempo, al menos si se solucionara el problema del suministro de energía?
Jaime: En efecto. El año pasado hubo una situación en la que la cantidad de GPU de último modelo —el modelo 8100— que se estaban produciendo no era suficiente para satisfacer la demanda de los grandes consumidores de estas GPU, principalmente Google, Amazon, Microsoft, etc. Ahora bien, dado el enorme potencial del campo, hay un incentivo muy grande para escalar la producción de estos modelos. Ahora mismo es muy valioso vender GPU. Los principales vendedores de GPU, hoy en día, han subido muchísimo en el mercado y es por una buena razón: están consiguiendo márgenes de beneficio muy grandes que les incentivan a perseguir estrategias creativas para subir la producción de estas GPU. Veo más difícil escalar la producción de GPU que escalar la producción de energía. Escalar la producción de energía es algo que sabemos hacer. Por ejemplo, en Estados Unidos, a comienzos del siglo, hubo una gran expansión de la energía producida con la introducción de plantas de energía de gas. Pero expandir la cadena de producción de las GPU es muchísimo más complicado. Hoy en día, básicamente, todas las GPU y TPU del mundo se producen en Taiwán por una sola compañía, TSMC. Hay algunas otras compañías en el mundo que intentan hacerle competencia, como Intel, pero el 90 % de la producción está concentrada en TSMC. El hecho de que esté tan concentrado el mercado, naturalmente, significa que es difícil escalarlo, especialmente si TSMC no quiere invertir muchísimo específicamente en el campo de la inteligencia artificial, tal vez por miedo de que la inteligencia artificial sea un poco una burbuja y que si echa a sus otros clientes para hacer hueco a la producción de GPU de inteligencia artificial, pues en un futuro se caiga. Aun así, dado el ritmo de crecimiento que han logrado hasta el momento y dado los planes que han anunciado públicamente de expansión, eso debería ser suficiente como para producir suficientes GPU de última generación que pudieran utilizarse para mantener la tendencia histórica de entrenamiento hasta el final de la década.
Pablo: Bueno, veamos ahora entonces este otro posible cuello de botella que son los datos. Al principio, cuando hablamos de la tendencia en el consumo de datos, mencionaste que hasta el momento los datos no han sido un factor limitante. Si bien la demanda de datos por parte de los modelos de inteligencia artificial ha venido creciendo exponencialmente durante el período de referencia, el enorme tamaño del stock existente de datos hace que todavía no se haya alcanzado el punto en el cual este factor empieza a restringir el progreso en el escalado de los modelos. Creo que hay un trabajo reciente de Pablo Villalobos y otros colaboradores de Epoch que justamente examinaba esta cuestión de cuándo nos podríamos quedar sin datos. ¿Podrías resumir un poco las conclusiones a las que llegaron en ese trabajo?
Jaime: Por supuesto. Para que te hagas una idea, los modelos frontera que se entrenan hoy son entrenados con alrededor de unos 15 billones [15 millones de millones] de palabras, lo cual es mucho, pero tenemos que ponerlo esto en contexto de lo que existe en Internet. Hoy en día, Common Crawl es un gran repositorio de información web que, básicamente, recopila varias páginas web y crea un archivo de ellas para la posteridad que contiene el equivalente de 100 billones de palabras. El Common Crawl no es exhaustivo, no ha indexado todo lo que existe en la web. Y, de hecho, esperamos que exista alrededor de cinco veces más información textual en Internet que no existe en Common Crawl. No toda esa información es útil. Hay partes de ellas que están duplicadas, hay partes de ellas que son de baja calidad y no tiene mucho uso para entrenamiento. Pero esperamos que haya una proporción decente de ello que lo tenga: por lo menos el 20 % por ciento de esos datos deberían poder servir para entrenamiento. Y no solamente eso, sino que además no tienes que limitarte a utilizar cada dato una sola vez: puedes usar un dato varias veces durante el entrenamiento. Esto no puedes hacerlo infinitamente porque al final se degrada mucho el entrenamiento, pero sí deberías poder utilizar cada dato alrededor de cinco veces sin que se degrade mucho la calidad del entrenamiento, según lo que sabemos hasta el momento. Y al final, este factor de por cinco de que puedes entrenar varias veces con el mismo dato se cancela con el factor de 20 % de la cantidad de datos que son útiles, y acabamos con un estimado de que debería haber como unos 500 billones de datos textuales en Internet que pudieran ser útiles para entrenar. En comparación, hoy en día se están utilizando unos 15 billones de palabras, lo que significa que hay un factor de 30 de diferencia en el que podrían seguir escalando los modelos. Recuerda que antes estábamos comentando que la cantidad de cómputo que utilizas escala cuadráticamente con los datos que se utilizan con el entrenamiento, así que eso podría ser ya suficiente para entrenar un modelo que fuera básicamente mil veces mayor a lo que se está utilizando, a lo que se viene entrenando hoy en día en términos de cómputo. Hay mucha incertidumbre en todo esto que estoy diciendo.
Pablo: Para resumir un poco los números que fuiste mencionando: el Common Crawl, que es un set de datos que se suele utilizar para entrenar modelos, ¿qué cantidad de palabras dijiste que contiene?
Jaime: 100 billones.
Pablo: 100 billones. Para darnos una idea, creo que un libro largo tiene unas 100 000 palabras, por lo que esto sería el equivalente de mil millones de gruesos volúmenes. Me acuerdo de que Borges se jactaba de dirigir una biblioteca de 900 000 volúmenes, o sea que esto claramente es una enorme cantidad de texto. Pero dijiste también que representa una fracción bastante reducida del total de palabras que tiene la web. ¿Cuál es ese número?
Jaime: Sí, lo que decía es que hay cinco veces más datos en Internet que lo que existe en Common Crawl, con mucha incertidumbre.
Pablo: Claro, claro.
Jaime: Muy buen apunte, Pablo. En realidad, esto no sería suficiente para mantener la tendencia de cómputo hasta al final de la década. A lo mejor esto te puede llegar hasta 2027–2028. Ahora bien, hay cosas que puedes hacer para intentar llegar más allá de esto y espero que algunas de ellas vayan a tener éxito. Una cosa que puedes hacer es, bueno, no limitarte al texto: puedes entrenar en otras modalidades. Y espero que si tienes en cuenta la cantidad de imágenes que hay, la cantidad de vídeo que hay en Internet, vas a poder recopilar el equivalente de tres veces más información que si simplemente te restringieras a la información textual. Esto lo estoy midiendo en unas unidades equivalentes a la cantidad de lo que se llamaría tokens, que estaría procesando el modelo para entrenar.
Otra cosa que va a ocurrir: ¿va a haber más datos en el futuro? Pues vamos a ser más personas en Internet produciendo más datos, y espero que la cantidad de datos que exista aumente por un factor de un 50 % para el final de la década. 50 % a lo mejor no es tanto en el contexto de todo esto, pero es significativo, especialmente teniendo en cuenta esta relación cuadrática entre los datos que consume el modelo y el cómputo que puede ingerir para entrenar.
Y finalmente algo con lo que las compañías están empezando a experimentar, y que espero que en el futuro sea una parte más integral del entrenamiento, es la generación de datos sintéticos: simplemente utilizar los propios modelos que existen ahora para crear datos que se utilicen nuevamente durante el entrenamiento. Esta estrategia hay que utilizarla con cuidado y hay varias maneras de hacerlo mal que resultan en una degradación de la calidad de los modelos. Pero, por lo menos funciona en ciertos dominios, especialmente en dominios como las matemáticas y la programación, en los que es posible comprobar la calidad de los datos generados simplemente viendo si realmente resuelve el problema matemático que le estás planteando, si realmente satisface las condiciones de los tests de software que le estás poniendo.
Pablo: No sé si querés decirnos algo sobre este cuarto posible cuello de botella que han denominado muro de latencia: tal vez, primero, explicar qué quiere decir eso y luego discutir brevemente en qué grado podría convertirse en un cuello de botella efectivo.
Jaime: Por supuesto, Pablo. Con el muro de latencia, ¿a qué me estoy refiriendo? Para entrenar estos modelos de inteligencia artificial, hemos dicho que tienen que entrenarse en una amplia cantidad de datos. Procesar un solo dato requiere cierto tiempo. Incluso si tienes muchas GPU para intentar distribuir las operaciones que se utilizan para entrenar este dato, el dato tiene que pasar por el modelo y retropropagarse para completar el entrenamiento. Y esto introduce como un delay fundamental: no importa la cantidad de GPU, no importa lo mucho que paralelices la operación, no vas a poder acelerar. Lo que tarda un resultado en propagarse de una capa del modelo a la siguiente es algo que depende de las características del hardware con el que estás trabajando y no te queda otra que trabajar con ello. Conforme trabajas con modelos más grandes, esta latencia se vuelve mayor y mayor. Puedes mitigar esto hasta cierto punto procesando varios datos en paralelo, y esto es algo que hoy en día se hace a gran escala. Por ejemplo, para entrenar a GPT-4, no lo sabemos con certeza, pero especulamos que llegaba a entrenarse 60 000 000 de ejemplos al mismo tiempo, en paralelo. Pero hay un límite a esta estrategia, en el que si quieres entrenar estos modelos en muchísimos datos en paralelo, la calidad de entrenamiento se degradaría muchísimo: conseguirías muy bajos retornos por esa amplia cantidad de paralelismo. Y al final, esto se traduce en una limitación fundamental: como tienes este límite de cuántos datos puedes procesar en paralelo y cada dato, independientemente de la cantidad de cómputo que tengas a tu alcance, va a terminar tardando una cantidad de tiempo que no puede reducir, esto significa, al final, que si el tiempo que tienes para entrenar tu modelo es un año, no vas a poder superar cierta escala. Y en cierto sentido, veo esto como un límite aún más fundamental que los límites que vienen asociados con los datos, que vienen asociados con los chips, que vienen asociados con la energía. Siempre puedes construir más energía, siempre puedes manufacturar más chips, pero no vas a poder violar esta restricción de que los datos tardan en procesarse una cantidad de tiempo mínima, independientemente del cómputo al que tengas acceso. Y eso es un poco a lo que nos referíamos con el muro de latencia. Este muro de latencia es una restricción que es aún más lejana que estas otras restricciones de que hemos venido hablando y creo que los desarrolladores principalmente van a estar pensando en los otros. Pero encuentro este último constraint [restricción] muy informativo para pensar en lo siguiente: si lleváramos esto a su último extremo hasta donde podríamos llegar.
Pablo: ¿ Hay alguna manera simple de resumir las conclusiones a las que llegaron respecto de estos cuatro cuellos de botella? Por ejemplo, ¿podríamos decir que el primer cuello de botella podría empezar a impedir que los modelos escalen tal como lo han venido haciendo, en, pongamos, 2027, el segundo en 2029 y así, o el tipo de conclusiones a las que llegaron no permiten un resumen con ese nivel de precisión?
Jaime: Sí y no. Voy a abstenerme porque creo que el modelo no está muy bien calibrado cuando intenta hacer predicciones más allá de 2030. Lo que encontramos es que, para escalar hasta 2030 manteniendo el ritmo histórico, es algo que va a ser posible. Estos cuatro factores que he comentado permiten que se llegue a este nivel de escalado. Los dos factores que parecen más acuciantes y urgentes de resolver son el factor de la energía y el factor de los chips. Estos dos parece que van a ser las principales preocupaciones para poder llegar hasta ese punto e ir más allá. Los datos siguen siendo una amplia preocupación, aunque finalmente yo espero que —la gente es creativa— terminaremos encontrando una manera de sortear esta limitación. Pero los otros dos son cosas respecto a las que sí o sí tienes que enfrentar la realidad: solamente vas a tener acceso a cierta cantidad de energía y cierta cantidad de chips.
Pablo: Claro. Bueno, hasta ahora venimos discutiendo las implicancias de estas tendencias considerando una extrapolación simple: considerando las tendencias observadas hasta la actualidad y viendo hasta qué medida este escalado podría continuar a la luz de posibles cuellos de botella como los cuatro que mencionamos. Una manera alternativa sería desarrollar algún tipo de modelo formal y usar las tendencias como inputs para alimentar ese modelo. Tengo entendido que Tom Davidson de Open Philanthropy hizo un trabajo al respecto y, si mal lo recuerdo, creo que ese trabajo empezó con una investigación que vos mismo hiciste para Open Phil.
Jaime: Un poco al revés, pero sé que estuvo involucrado. Tom Davidson fue quien empezó este proceso internamente en Open Phil. Lidero la investigación al inicio, y finalmente me contrataron a mí para ayudar con esta investigación e implementar los modelos que Tom Davidson estaba investigando. Y de hecho un poco lo que hemos hecho en Epoch es continuar esta rama de investigación. Hoy en día tenemos internamente versiones más sofisticadas de los modelos de Tom Davidson que utilizamos para pensar acerca del futuro de la inteligencia artificial. Espero que para el final de este año ya podamos compartir algunos de estos modelos externamente, aunque todavía están en una fase en la que necesitamos testearlos más y recibir más feedback antes de que estemos listos para compartirlos.
Pablo: ¿Creés que podrías contarnos al menos algo del trabajo que ya hiciste al respecto, ya sea con el modelo de Davidson o con algún otro modelo? Por ejemplo, otro miembro de tu equipo, Ege Erdil, junto con otros colaboradores, desarrollaron un modelo sobre crecimiento explosivo. No sé si preferirías hablarnos del trabajo que hiciste con Davidson o de este otro modelo, o más en general de cómo están pensando en Epoch sobre la modelización de estas cuestiones.
Jaime: Sí, en general puedo hablarte de cuál es la filosofía que estamos intentando seguir, la metodología que estamos intentando implementar y comentar algunos resultados, sin entrar mucho en términos cuantitativos, pero sí hablarte en términos cualitativos. Entonces, un poco empezando sobre qué es lo que estamos haciendo exactamente. Lo que estamos haciendo es son lo que en inglés llamamos integrated assessment models, “modelos de evaluación integrada”. ¿Qué es un modelo de evaluación integrada? Es un modelo que combina la ciencia de la macroeconomía con un dominio particular para intentar hacer reflexiones acerca de cómo ese dominio va a interactuar con la economía y cómo va a afectar las decisiones de inversión que se van a hacer en los próximos años. Esto ha tenido muchísimo éxito en el campo del cambio climático. William Nordhaus recibió un premio Nobel debido a su trabajo en modelos de evaluación integrada en el contexto del cambio climático. Y nosotros, en Epoch, lo que estamos haciendo es aplicar esta misma técnica al campo de la inteligencia artificial. Hoy en día, creemos que el campo de la inteligencia artificial y concretamente lo que sabemos acerca del escalado, está lo suficientemente maduro como para permitir una primera aproximación a hacer un trabajo similar a lo que hizo Nordhaus con el cambio climático, pero en inteligencia artificial. Y lo he encontrado como una herramienta muy instructiva para ayudarme a pensar sobre qué es lo que puede pasar en el futuro. Y encontramos consecuencias bastante dramáticas simplemente aplicando teorías económicas relativamente bien establecidas, como la teoría del crecimiento semiendógeno, por la que Romer y otros ganaron un premio Nobel. Encontramos algunas predicciones bastante sorprendentes de qué es lo que podría llevar a esta inteligencia artificial. Si admitimos que la inteligencia artificial y las capacidades van a seguir escalando con la cantidad de cómputo que se invierten ellas y que en el límite esto puede llevar a una casi completa automatización de las tareas que son útiles para la economía, esto redundaría en un crecimiento económico explosivo en el que la inteligencia artificial ayuda a automatizar una gran parte de la economía. Y esto puede ayudar a que vaya muchísimo más rápido, en una especie de ciclo virtuoso en el que se automatizan más tareas. Esto redunda en mayor output económico, y este output económico se puede reinvertir en aumentar la cantidad de recursos que existen para desarrollar mejor inteligencia artificial, hacerla más eficiente y tener más trabajadores virtuales que aumenten de manera efectiva la cantidad de labor que puede existir para automatizar estas tareas. Esta promesa es tan grande que estos modelos que nosotros programamos, modelos matemáticos simplificados, de hecho muestran una preferencia por hacer una apuesta brutal, por apostar por estas tecnologías e invertir hasta un quinto del producto bruto mundial en desarrollar inteligencia artificial y mayor infraestructura de cómputo, un poco con la esperanza de que realmente se consiga esta promesa de que la inteligencia artificial termine siendo este increíble motor económico que puede acelerar enormemente la productividad económica mundial.
Pablo: ¿Cómo te parece que se comparan estas estrategias para pronosticar el futuro a partir de las tendencias que ustedes han ido estudiando? Una conclusión simple a la cual uno podría llegar a partir de la estrategia de extrapolación simple sería que durante los próximos años el progreso va a continuar más o menos al mismo ritmo que durante los últimos años. ¿Dirías que ese panorama debería alterarse cuando uno incorpora intentos más sofisticados de modelar la evolución de la inteligencia artificial como el que acabas de mencionar?
Jaime: Yo diría que sí. Al final, no todo es una línea recta en la realidad: hay cosas que no pueden continuar para siempre. Y especialmente la inteligencia artificial no puede seguir creciendo a un ritmo de multiplicarse por cuatro cada año sin que haya un cambio dramático en el mundo. O sea, esto requeriría que hubiera un incremento muy drástico de la productividad económica y el producto interno bruto mundial, para poder mantener ese ritmo de crecimiento durante muchos más años que los próximos diez. Al final, estas técnicas de modelado las encuentro útiles para intentar incorporar partes de estas consideraciones más complejas. Por otra parte, no están tan bien probadas a la hora de hacer predicciones cuantitativas. Y también es esto por lo que estamos teniendo mucho cuidado en intentar calibrar bien los modelos, consultar con mucha gente a la hora de desarrollarlos y no avanzar predicciones que no reflejen bien el conocimiento latente que hemos desarrollado en Epoch. Es difícil disciplinar estos modelos. Existen pocos datos al respecto. Y al final es una realidad compleja: hay muchos factores que no caben en estos modelos y simplificaciones que tienes que hacer que van a afectar tus conclusiones. Probablemente, el factor más fundamental en el que deberíamos estar pensando a la hora de pensar cuánto pueden escalar estos modelos, va a ser lo que he venido diciendo de la voluntad de inversión. Al final existe esta decisión o no de los inversores de invertir o no estos miles de millones de dólares que se van a necesitar para entrenar estos modelos. Y que los inversores pertinentes vayan a decidir invertir esta enorme cantidad de dinero en el desarrollo de la inteligencia artificial depende mucho de las expectativas que tengan de cuánto beneficio va a traer la inteligencia artificial a corto plazo y a largo plazo a la humanidad. ¿Va a ser suficiente como para justificar esa increíble inversión?
La segunda razón por la que estamos muy interesados en desarrollar estos modelos más sofisticados es porque los modelos extrapolativos no permiten hacer predicciones acerca de cuáles podrían ser las consecuencias de implementar distintas políticas en la sociedad. Hoy en día tenemos una amplia gama de posibles políticas y maneras de incentivar el desarrollo de la inteligencia artificial que podrían desembocar en que el campo vaya en una dirección u otra, por ejemplo, algo que podríamos estar haciendo es de alguna manera limitar el crecimiento de la inteligencia artificial, o podríamos estar introduciendo regulación que impida que algunos trabajos terminen siendo automatizados, o podríamos introducir impuestos a la automatización o el desarrollo de la inteligencia artificial. Entonces, estos son ejemplos de distintas palancas a las que los gobiernos tienen acceso cuyas consecuencias no están muy claras y pueden ser contraintuitivas y muy dañinas si se aplican sin cuidado. Estos modelos cuantitativos no te van a dar una predicción completamente fiable de lo que van a hacer, pero te van a ayudar a construir una historia coherente y consistente acerca de cuáles pueden ser los posibles efectos de implementar determinadas políticas. Y esperamos que, desarrollando estos modelos y trabajando con distintos gobiernos a lo largo y ancho del mundo, les demos estas herramientas de razonamiento que internamente encontramos muy útiles para pensar hacia dónde está yendo el campo y que lo puedan aplicar en el contexto de estas decisiones de gobernanza que van a tener que tomarse en los próximos años.
Pablo: Claro. Durante esta charla estuvimos conversando sobre las principales tendencias en inteligencia artificial y como estas tendencias podrían ayudarnos a predecir el futuro de los modelos de aprendizaje profundo. Para concluir, me gustaría preguntarte ¿qué te parece que se sigue de todo esto? ¿Cuáles son, en tu opinión, las implicancias principales de estas investigaciones, en particular para la gobernanza y para la seguridad de la inteligencia artificial?
Jaime: La principal conclusión y lo que me llevaría de todo esto es que hemos visto mucho avance en los últimos años en inteligencia artificial y, por defecto, deberíamos esperar una cantidad similar de avances en los próximos años. Los principales factores que han permitido el desarrollo de estos increíbles descubrimientos y hazañas en inteligencia artificial son cosas que pueden continuar y existe interés de que continúen en por lo menos los próximos años. Así que deberemos prepararnos para una inteligencia artificial que avance posiblemente a un ritmo similar, tan rápido como lo que hemos visto hasta el momento. A largo plazo, a partir de nuestras investigaciones sobre qué es lo que dirían teorías estándares de crecimiento económico en el contexto de la inteligencia artificial, creo que debemos prepararnos para un cambio muy importante en cómo ocurre en la sociedad y el papel que van a tener los humanos en ella. Estos modelos predicen muy directamente que la labor humana es algo que va a ser una parte más pequeña de la humanidad, si se llega realizar esta promesa de gran automatización. Este es un mundo muy distinto al que existe hoy en día. Una de las principales razones por las que el mundo está empoderado para que se tomen decisiones en su beneficio es a través de su capacidad adquisitiva. Y en el futuro, ese trabajo va a ser menos valioso en comparativa con el valor que va a tener la inteligencia artificial y el papel que va a estar tomando en la toma de decisiones y en la economía. Esto es simplemente lo que se desprende de estos modelos económicos que, como digo, están bien establecidos, aunque no tenemos muy claro hasta donde se pueden extrapolar. Y en esa situación, pues tenemos que empezar a pensar en cuál va a ser el rol de la humanidad en este mundo y qué es lo que va a significar el hecho de que la inteligencia artificial posiblemente tenga un rol mucho mayor de lo que los humanos vamos a tener a largo plazo. Y aquí es una parte en la que tengo más preguntas que respuestas que ofrecer. Pero en Epoch, seguiremos trabajando para contribuir de nuestra parte a ayudar a que el público tenga una visión mejor de qué es lo que está ocurriendo ahora y hacia donde podría desembocar todo.
Pablo: Bueno, muchas gracias, Jaime. Ha sido realmente una conversación muy interesante. Gracias por participar en nuestro pódcast.
Jaime: Por supuesto, Pablo. Ha sido mi placer.