Parece que fue ayer y ya hace más de dos años que OpenAI lanzó ChatGPT para todo el mundo marcando un antes y un después en la tecnología. Y eso es solo el principio: la meta de OpenAI es conseguir la Inteligencia Artificial General o AGI y ya están muy cerca de lograrlo, o eso dicen: no hay más que ver cómo razona o1. En pocas palabras, cada vez la inteligencia artificial se parece mas al cerebro de una persona en cuanto a capacidad y funcionamiento, si bien será cuestión de tiempo que lo supere.
Sin embargo y desde un punto de vista más mundano y práctico, también ha llovido mucho desde ese despliegue generalizado: nuevas versiones de GPT como GPT -4 o GPT-40, la llegada de Gemini de Google como máximo exponente de la competencia de ChatGPT, entre otros. Y si acostumbras a usar la IA, sabrás que sus resultados se han ido depurando y mejorando, que cada vez es más rápida y admite más formatos (la ventaja de lo multimodal), la conexión a internet... y hace auténticas maravillas si sabes qué prompt escribirle.
Pero además hay trucos para conseguir mejores resultados. Porque como las personas, la IA funciona mejor si apelamos a las emociones. La inteligencia artificial va camino de ser cada vez más humana y conforme más experimentamos con ella, más lo constatamos.
¿Quieres mejores resultados? Dame más tiempo
La velocidad de procesamiento es una herramienta esencial en las personas: es la que nos ayuda a entender lo que nos llega de fuera y ofrecer una respuesta cuanto antes, sirva como ejemplo cuando nos toca hablar con alguien que no habla nuestro idioma o cuando nos dan las vueltas tras una transacción. Pero actuar contrarreloj no siempre es lo mejor. Aunque puede entrenarse, todo el mundo razona mejor cuando nos dan tiempo para pensar.
Pues bien, con la inteligencia artificial pasa lo mismo y da igual que estemos hablando de un modelo de OpenAI que de Google: con más tiempo ofrecen mejores resultados. Sin ir más lejos, el novísimo y aún en fase experiemental Gemini 2.0 Flash Thinking mejora frente a la versión estándar al dedicar tiempo de inferencia a razonar.
Lo que ves sobre estas líneas es la diferencia de rendimiento entre LLaMA 1B frente a LLaMA 8B en pruebas de matemáticas pese a que este último es notablemente más grande (8x): el secreto está en darles tiempo para pensar, o lo que es lo mismo, escalar el tiempo de prueba de la computación. Y mucho más: Llama 3.2 3B también supera el desempeño de Llama 3.1 70B Instruct, pese a ser este último 22 veces más grande simplemente haciendo un escalado óptimo del cálculo.
Más allá de la curiosidad del descubrimiento, esto es esencial ya que pone encima de la mesa la posibilidad de jugar con parámetro para optimizar el rendimiento de un modelo más allá de añadir más capacidad y lo que ello supone. En pocas palabras: los modelos más pequeños, más livianos y asequibles, suben de nivel notablemente ajustando bien el tiempo de cálculo.
Portada | Microsoft Copilot Designer con IA
En Genbeta | Los trucos que siempre funcionan para que ChatGPT te dé las mejores respuestas
Ver 3 comentarios
3 comentarios
glifcolze
Los LLM escupen lo primero que les pasa por la cabeza. Así, que es normal que si les dejas escoger entre 256 (2^8) mierdas que escupen sin pensar, descarte las peores mierdas.
De todos modos, poca gente puede generar 256 opciones a considerar de alguna cosa. Desisten a las primeras 5. Así que se confirma que los LLM pueden generar mucha mierda.
Ya sé que he simplificado y escatologizado bastante, pero creo que se entiende el hecho que están usando la IA para tirar dardos a una diana y coger el mejor resultado.
El test ARC-AGI que pasó o3 con un 87% de aciertos, generó por cada prueba 55.000 millones de tokens. Eso es mucha literatura. Todas las novelas de Harry Potter son 198.227 palabras que serian unos 250.000 tokens. Eso implica que resolver un problemita de cuadritos de colores le implicó leer 220.000 novelas de la dimensión de Harry Potter.
Khellendros
Qué cansinos con las putas IA...
sergiiooo
Esto llega seis meses tarde.
Desde que presentaron O1 ya comunicaron que a más tiempo de "pensamiento" más efectiva y mejores resultados en los test sacaba...