Si le pidiéramos a cualquier 'usuario medio' que nos dijera cuál es el mejor modelo de IA (al menos, de IA generadora de texto) la mayoría de la gente respondería "ChatGPT". Al fin y al cabo, lo lleva siendo desde su lanzamiento, pese a la creciente competencia. Y, sin embargo, aunque sin hacer aún mucho ruido, el statu quo de la IA parece estar cambiando.
Hace casi un mes, nos hacíamos eco del lanzamiento del modelo de lenguaje Claude 3, desarrollado por Anthropic, y que desembarcaba en el mercado apuntando maneras... tanto, que se estrenaba superando a GPT-4 en diversas pruebas que medían toda clase de habilidades.
Después, supimos que Claude 3 rivalizaba incluso con los seres humanos en cociente intelectual e, incluso, según la interpretación de algunos expertos, en autoconsciencia.
Chatbot Arena ha hablado
Ahora, el prestigioso ranking Chatbot Arena (que evalúa, como su nombre indica, a las IAs que se usan como 'cerebros' de los chatbots) se ha pronunciado. Y la conclusión es que GPT-4 ya no es el rey de la categoría: ¡larga vida a Claude 3!
Chatbot Arena es una iniciativa de la organización Large Model Systems (LMSYS ORG) en colaboración con varias universidades de renombre, y ya se ha convertido en referencia para la evaluación objetiva de los modelos de lenguaje a gran escala (LLMs).
Gracias a un método interactivo que permite a los usuarios votar por el modelo que mejor responde a sus consultas o tareas (tú también puedes participar, por cierto), este proyecto ha proporcionado una plataforma única que destaca tanto los aspectos técnicos como las impresiones subjetivas que los usuarios perciben al interactuar con estas IA.
Así, los votos de 400.000 usuarios han dado forma a un ranking liderado por Claude, un modelo no sólo ha logrado destacarse en términos de rendimiento técnico, sino que también ha capturado la preferencia de los usuarios gracias a su capacidad para "entender" y responder de manera más coherente y útil, un aspecto que, aunque menos tangible, es crucial para el éxito entre el público...
...si un usuario tiene la 'sensación' de que Claude le proporciona respuestas más útiles que ChatGPT, eso será lo único que realmente importe, al margen de las conclusiones de cualquier clase de tests y papers.
Pero OpenAI no ha dicho su última palabra aún
El ascenso de Claude 3 a la cima representa no sólo una victoria para Anthropic sino también un avance significativo para el conjunto del sector, que demuestra no estar condenado a 'ir a remolque' de OpenAI, sino que posee capacidad competitiva. Esto es algo muy relevante en un momento en el que OpenAI acaba de presentar dos IAs que amenazan con llevar su capacidad monopólica también a la generación de vídeo y a la síntesis de voz.
Por otra parte, no hay que olvidar que GPT-4 lleva ya un año en activo, con todo el mérito que eso supone... y que el lanzamiento de GPT-5 parece ser algo cada vez menos lejano. Tanto, que a finales de marzo algunos clientes empresariales de OpenAI ya habrían recibido algunas muestras de GPT-5 y versiones mejoradas de ChatGPT basadas en este modelo... y las mismas fuentes señalan que este mismo verano tendremos encima de la mesa al modelo.
Imagen | Marcos Merino mediante IA
En Genbeta | Amazon invierte 4.000 millones de dólares en Anthropic para hacer frente a ChatGPT: la lucha por la mejor IA solo acaba de comenzar
Ver 1 comentarios