NVIDIA ya reinaba en IA. Ahora ha conseguido algo más sorprendente: lanzar una que supera a GPT-4

  • 'Nemotron' es su nombre, aunque parezca sacado de una película mala de ciencia-ficción

  • Se basa en Llama de Meta, pero la clave está en su entrenamiento

Sin hacer mucho ruido, Nvidia ha lanzado una versión personalizada y optimizada de Llama 3.1, bautizada como 'Nemotron', un modelo de 70.000 millones de parámetros que ha sacudido el ámbito de la IA... al haber superado en varios 'benchmarks' a los modelos de lenguaje GPT-4 y Claude 3.5 Sonic. Y dejando claro, de paso, el potencial de los modelos 'open source'.

Una de las pruebas más destacadas en las que Nemotron ha sobresalido fue el Arena Hard Benchmark, donde Nemotron alcanzó una puntuación de 85, superando a GPT-4 (79.3) y Claude 3.5 Sonic (79.2).

Este modelo ha sido desarrollado utilizando como base el modelo de lenguaje de Meta, pero Nvidia ha añadido un post-entrenamiento (el proceso conocido como 'fine-tuning') que se ha traducido en mejoras sustanciales en lo que respecta a la alineación del modelo con las preferencias humanas.

Este enfoque permite que el modelo proporcione respuestas más útiles y precisas, asignándoles puntuaciones de recompensa basadas en su desempeño. En palabras del experto en IA español Carlos Santana,

"[Mis] conclusiones son que Nemotron mejora sobre Llama, le induce a generar más razonamiento y resuelve algún prompt que GPT-4o o Sonnet falla".
"Imagino que el 'endgame' aquí de NVIDIA es favorecer la llegada de modelos open source [...] porque al final, necesitarás de sus GPUs para ejecutarlos. Recordemos, NVIDIA siempre gana".

Y es que, recordemos, Nvidia es la compañía líder en hardware para IA, y sus unidades de procesamiento gráfico (GPU) son la columna vertebral de la mayoría de los sistemas avanzados de IA utilizados en la actualidad, tanto en investigaciones como en aplicaciones comerciales.

Lo importante no es el tamaño, sino cómo se usa (la IA)

Cabe destacar el hecho de que un modelo de 'sólo' 70 mil millones de parámetros, como Llama 3.1 Nemotron, haya logrado superar en varios benchmarks a gigantes como Claude 3.5 y GPT-4, que cuentan con un número significativamente mayor de parámetros (el de este último se estiman en más de 175 mil millones, más del doble que Nemotron).

Ambos deberían contar con una clara ventaja en términos de capacidad de procesamiento y generación de respuestas más sofisticadas. Sin embargo, lo que Nvidia ha demostrado con Nemotron es que no se trata sólo del tamaño del modelo, sino de cómo se entrena y ajusta.

Esto abre la puerta a nuevas perspectivas en el desarrollo de IA, donde no es necesariamente el tamaño del modelo lo más importante, sino la calidad del entrenamiento, las técnicas de fine-tuning, etc.

Comparando modelos

Nvidia tuvo que afrontar cómo comparar la calidad de los modelos de IA al responder preguntas o seguir instrucciones. El problema es que estos modelos normalmente se entrenan con diferentes tipos de datos, lo que hace difícil compararlos de manera justa.

Para resolver esto, crearon un conjunto de datos llamado Help Steer 2, que básicamente es una herramienta que mezcla dos tipos de información: cómo prefieren las personas que el modelo responda (rankings de preferencias) y puntuaciones numéricas que miden cómo de bien lo hace.

Al usar este conjunto de datos, Nvidia pudo mejorar la forma en que entrenaban a los modelos, específicamente en cómo "recompensan" al modelo cuando da una buena respuesta. Esto, a su vez, hizo que las respuestas de Nemotron fueran de mayor calidad.

El impacto de estas técnicas se puede ver claramente en los resultados obtenidos en varios benchmarks. Además del mencionado Arena Hard Benchmark, Llama 3.1 Nemotron también destacó en pruebas como Apaka Evol 2 LC y MT Benchmark, donde nuevamente superó a modelos líderes como los de OpenAI y Anthropic.

Acceso y uso de Llama 3.1 Nemotron

Actualmente, hay dos formas principales de acceder a este modelo. La primera es a través de Nvidia NeMo, una plataforma de IA que permite a los usuarios interactuar directamente con el modelo. La segunda opción, más sencilla, es a través de Hugging Chat, donde se puede acceder fácilmente creando una cuenta gratuita. Aquellos interesados en experimentar más con Nemotron pueden descargar el modelo y ejecutarlo localmente (sólo necesitas 32 GB de RAM y una buena GPU para ello) utilizando aplicaciones como LM Studio.

¿Qué significa esto para el futuro de la IA?

El éxito de Llama 3.1 Nemotron refleja un avance significativo en los modelos de código abierto, que ahora pueden competir al mismo nivel, o incluso superar, a los modelos de código cerrado de gigantes de la tecnología... aunque eso no significa que los superen en todos los ámbitos. Esto es lo que opina Santana al respecto:

"Para uso general (modo chatbot) está bien. Pero obviamente lo que miden los benchmarks que han publicado no evalúa el uso real que muchos hacemos de los modelos privados (e.g. programación, matemáticas, etc) y en ese sentido los modelos privados siguen siendo superiores".

Imagen | Marcos Merino mediante IA

En Genbeta | "Hizo algo que nunca antes había visto". Esta IA está sorprendiendo con una reacción que muchos ven como un signo de autoconsciencia

Ver todos los comentarios en https://www.genbeta.com

VER 2 Comentarios

Portada de Genbeta