China acaba de lanzar una IA open-source que promete ser superior a la de Meta. Sobre todo en programación

Qwen2 pulveriza al modelo de lenguaje de Meta según los benchmarks publicados por la comunidad que mantiene el modelo

10 junio 2024, 12:20

Antonio Vallejo

En la actualidad, son muchas las grandes tecnológicas que están sumidas en el desarrollo y evolución de sus propios modelos de lenguaje, algo que habilita el funcionamiento de muchas herramientas basadas en inteligencia artificial. OpenAI, Google, Meta, Microsoft, Anthropic y otras tantas, han lanzado multitud de propuestas en estos últimos dos años, aunque el panorama se va a poner todavía más interesante cuando China entre en juego con sus propios modelos.

Uno de los más recientes que hemos conocido es Qwen2, un modelo de lenguaje directo desde China que aterriza en hasta cinco variaciones con distinto número de parámetros y que su versión más completa promete ser hasta mejor que Llama 3, el modelo de Meta. Bajo estas líneas te contamos los detalles.

Un nuevo titán de los modelos de lenguaje open-source llega desde China

China es uno de los países donde la ciudadanía está más acostumbrada a interactuar con la inteligencia artificial. El uso que le dan va más allá de a lo que nosotros estamos acostumbrados. Un ejemplo es en educación, donde ahora más que nunca padres en China confían las clases particulares de sus hijos a una tablet con IA.

Hasta el momento, los modelos de lenguaje desarrollados en China no han sido tan rompedores como los modelos más avanzados de OpenAI. En lo que respecta a rendimiento y capacidad, Estados Unidos le sigue ganando el pulso en la IA a China, pero esto puede cambiar radicalmente en unos años. Ya vimos que China ha desarrollado un superordenador que confía únicamente en hardware y software chino y que va a ser utilizado para entrenar sus modelos de lenguaje.

Comparativa entre el modelo de 72B de Qwen2 y otros modelos de lenguaje. Imagen: Qwen Team

Uno de los modelos de lenguaje más sorprendentes ha sido el de Qwen2, que según sus especificaciones técnicas, promete estar por encima incluso de Llama 3 en su versión más completa. Qwen2 puede ir desde modelos de 0.5B hasta los 72B en cuanto a cantidad de parámetros. Su versión ‘instruct’, que es la que pasa por encima a Llama 3, tiene de hecho casi el mismo tamaño que el modelo de lenguaje de Meta.

Tal y como menciona Carlos Santana, experto en IA, a través de su hilo en X, lo mejor de todo es que dicho modelo de lenguaje también cuenta con Licencia Apache 2.0, lo que quiere decir que cualquier usuario que tenga a mano este modelo podrá usar el software para cualquier propósito, incluida su redistribución o modificación, por lo que es muy posible que el modelo caiga en buenas manos de la comunidad open-source.

La versión instruct de Qwen2 frente a Llama 3. Imagen: Qwen Team

Tal y como vemos en la tabla de especificaciones técnicas, los modelos base de Qwen2 superan ampliamente a Llama 3. La versión instruct también es superior en casi todos los benchmarks al modelo de Meta, por lo que estaríamos hablando de un modelo de lenguaje muy completo que, además es open-source, por lo que da muchas posibilidades para que multitud de herramientas independientes basadas en IA puedan funcionar correctamente.

En Genbeta

Sora es la mejor IA de 2024 y no la podemos usar. Así que en China acaban de copiarla para que generemos vídeos increíbles

El modelo de 7B posiblemente sea el que más utilicemos. Este tiene incluso mejor rendimiento que la versión de 8B de Llama 3, y además todo indica a que será superior en programación y matemáticas. Si ya usabas este modelo de Llama 3 para tus propósitos, Qwen2 puede ser una gran mejora en este sentido.

Rendimiento en Qwen2 en programación y matemáticas. Imagen: Qwen Team

Qwen2 puede alcanzar ventanas de contexto de hasta 128K tokens, cifra que consiguen las versiones de 72B y 7B de Qwen2. El modelo de 57B tiene un total de 64K tokens, mientras que los de 0,5B y 1,5B alcanzan un máximo de 32K tokens. Recordemos que, cuanto mayor sea la ventana de contexto, más capacidad de información puede procesar el modelo de lenguaje.

Qwen2 es, sin lugar a dudas, un paso muy importante en la evolución de los modelos de lenguaje open-source, ya que muchos desarrolladores independientes podrán hacer funcionar sus proyectos mediante herramientas de libre distribución que no están atadas a ninguna empresa. Ya que OpenAI no está muy por la labor de que sus modelos acaben siendo open-source, al menos tenemos otras alternativas con las que apoyarnos.

La fuente y herramientas de este modelo de lenguaje ya se encuentran disponibles en Github, Hugging Face y Modelscope, por lo que cualquier desarrollador puede despertar su curiosidad con este nuevo modelo de lenguaje.

Imagen de portada | Montaje propio y fondo de Possessed Photography

Más información | QwenLM

En Genbeta | La polémica decisión de Adobe en Photoshop: pedir acceso total al contenido que creemos con el programa

Ver todos los comentarios en https://www.genbeta.com

VER 1 Comentario

Portada de Genbeta