La inteligencia artificial (IA) ha sido uno de los grandes avances tecnológicos de los últimos años, pero el modelo de desarrollo que ha impulsado sus aplicaciones más famosas (como GPT4 o MidJourney) parece haber agotado sus límites de crecimiento...
...por lo que los investigadores científicos y compañías del sector están buscando alternativas al enfoque tradicional de 'escalar' modelos, mientras enfrentan problemas de eficiencia, costos y resultados decrecientes.
Las limitaciones de escalar
Por "escalar", en el ámbito de los modelos de IA, nos referimos a mejorar su rendimiento aumentando su tamaño y capacidad mediante el uso de más datos y de mayor potencia computacional y parámetros, algo que pasa por entrenar redes neuronales más grandes y complejas utilizando cantidades masivas de recursos computacionales.
Pero la formación de estos modelos masivos no sólo es costosa (puede superar las decenas de millones de dólares por "ciclo de entrenamiento") sino también incierta, pues los investigadores no pueden predecir si el resultado justificará la inversión hasta que el proceso finalice, lo cual puede durar meses.
En cualquier caso, a medida que los modelos se hacen más grandes, la tendencia general es que los costos de entrenamiento, la necesidad de datos de alta calidad y los desafíos técnicos aumentan de manera desproporcionada... mientras que la rentabilidad de dicho esfuerzo se reduce progresivamente.
La idea de que la actual IA generativa ha alcanzado un "muro" que limitará su crecimiento no es nueva, pero ha ganado peso recientemente: según Garrison Lovely, analista del sector, los modelos más recientes, como Orion de OpenAI o la nueva versión de Gemini de Google, apenas muestran avances comparados con sus predecesores.
Entre las causas de este fenómeno destaca el agotamiento de datos de alta calidad disponibles para entrenamiento. A medida que los modelos actuales ya han consumido la mayoría de las fuentes de datos accesibles, se recurre a datos sintéticos, lo que puede generar redundancias y limitar el aprendizaje efectivo.
Además, el enfoque tradicional de predicción de la "siguiente palabra" parece tener límites intrínsecos para capturar tareas más complejas, como el razonamiento lógico o la resolución de problemas a largo plazo.
Buscando alternativas
Una de las grandes mentes de la IA que respalda este punto de vista es Ilya Sutskever, cofundador de OpenAI y ahora líder de su propia startup Safe Superintelligence (SSI), si bien
"la década de 2010 fue la era del escalado, ahora estamos de nuevo en una era de 'asombro y descubrimiento': todo el mundo está buscando el siguiente paso".
Y, de hecho, la industria ya ha empezado a explorar enfoques alternativos. Uno de los más prometedores es el llamado "test-time compute", que permite que los modelos piensen de manera más humana al evaluar múltiples respuestas antes de decidir la mejor. Este enfoque, utilizado por el modelo o1 de OpenAI, redefine cómo los modelos de IA enfrentan tareas complejas.
Por ejemplo, en lugar de dar una respuesta inmediata, o1 puede analizar diversos caminos posibles para resolver un problema y elegir el más adecuado, algo similar al razonamiento humano. Según Noam Brown, investigador de OpenAI, esta técnica puede lograr mejoras significativas sin necesidad de escalar masivamente los recursos.
En el contexto del póker, por ejemplo, un modelo que "piensa" durante 20 segundos en cada mano puede obtener resultados equivalentes a un modelo entrenado 100.000 veces más.
El impacto sobre la industria de la IA
El cambio de paradigma también podría alterar el mercado de hardware para IA. Hasta ahora, la demanda ha estado dominada por los chips de entrenamiento, un área donde Nvidia ha mantenido un dominio indiscutido.
Sin embargo, el nuevo enfoque hacia la inferencia podría abrir el mercado a nuevos competidores, ya que los modelos ahora se centrarán en optimizar su rendimiento durante el uso real, en lugar de en su entrenamiento inicial.
Imagen | Marcos Merino mediante IA
En Genbeta | Linus Torvalds dice que la IA es en un 90% marketing, y todavía no le ve un uso claro
Ver 0 comentarios