OpenAI insiste en que GPT-4 no es más tonto que antes. Esta investigación demuestra que sí lo es: así ha empeorado en dos meses

"No, no hemos hecho que GPT-4 sea más tonto. Todo lo contrario: hacemos que cada nueva versión sea más inteligente que la anterior". Esto decía hace una semana Peter Welinder, vicepresidente de producto de OpenAI, ante las quejas crecientes de la comunidad, que aprecia una degradación en la experiencia de usuario.

Welinder no decía que estuvieran mintiendo, sino que proponía una hipótesis: "Cuando lo usas más, empiezas a notar problemas que antes no veías".

"Si tienes ejemplos en los que creas que se ha retrocedido, responde a este hilo y lo investigaremos".

Y varios usuarios respondieron, claro que sí. Así, por ejemplo, uno calificaba su hipótesis de 'razonable', "pero…

"… faltan cosas ahí. Puedo garantizarte que, como mínimo:

En un solo mensaje, sólo acepta un número menor de tokens.

El búfer circular es más pequeño, por lo que olvida los mensajes iniciales con más facilidad.

Es evidente que ChatGPT 4 solía permitir un mayor número de tokens que ChatGPT 3.5, y ahora es al revés".

En Genbeta

“Con GPT-4 puedes ganar 1.000 euros al día sin hacer nada”: qué hay detrás de estos mensajes en redes sociales

¿En qué se traducen estos detalles técnicos? Pues así lo describe otro usuario:

"La calidad se ha reducido, en mi opinión. ChatGPT ahora olvida el contexto proporcionado en mensajes anteriores: tienes que repetirlo, y si quieres un análisis —sobre tres trozos de código por ejemplo— para cuando llegas al tercero ya ha olvidado el primero".

Otros usuarios aprecian una degradación también en aspectos más centrados en la moderación de los contenidos:

"Con el paso del tiempo, el modelo se ha ido adaptando más a la "seguridad" que a la "calidad de los resultados.

Según mi experiencia, con el tiempo se ha vuelto cada vez más vacilante y abarca menos información sobre temas relacionados con la Historia, especialmente en torno a controversias, etc.".

Otros resumen esta misma postura así:

"Puede que todo sea el mismo modelo subyacente "más inteligente", pero da la sensación de que se han insertado capas de moderación".

Pero, ¿acaso sólo se quejan cuatro gatos en las respuestas a un hilo de Twitter? ¿O mucha más gente ha estado experimentando lo mismo? Sintomática es la proliferación de hilos en Reddit planteando el problema con la degradación de ChatGPT sólo en los últimos tres meses:

Un vistazo a…

ZAO, la APP MÓVIL china que a través de DEEPFAKE te convierte en DICAPRIO en SEGUNDOS

Dejad de especular, que ya hay paper

Sin embargo, unos académicos acaban de presentar el paper de una investigación que vendría a confirmar de forma fehaciente y objetiva las acusaciones de degradación de GPT-4 (aunque, curiosamente, muestra una mejora —en algunos campos— en el modelo GPT-3.5).

Titulado "¿Cómo está cambiando el comportamiento de ChatGPT a lo largo del tiempo?" (aquí el PDF), el documento lo firman expertos de las universidades de Stanford y Berkeley.

Los investigadores estaban interesados en determinar si las actualizaciones destinadas a mejorar ciertos aspectos de los LLM podrían comprometer inadvertidamente otras dimensiones del rendimiento.

En Genbeta

ChatGPT y GPT-4 cometen muchos errores. OpenAI ha lanzado una guía para mejorar mucho sus resultados

Para responder a esto, se analizaron los cambios en las respuestas entre marzo y junio de este año. La evaluación se centró en cuatro áreas, seleccionadas por su diversidad, relativa objetividad, su uso frecuente y su facilidad de medición. Son las siguientes:

Resolución de problemas matemáticos.
Respuestas a respondiendo preguntas delicadas.
Generación de código.
Razonamiento visual.

Así, se pudo comprobar que mientras que GPT-4 fue muy competente en la identificación de números primos en marzo (97,6 % de precisión), la versión de junio de 2023 mostró una espectacular caída de la calidad en estas mismas preguntas tan sólo dos meses después (2,4 % de precisión).

Además, tanto GPT-3.5 como GPT-4 experimentaron más errores de formato en la generación de código de programación en junio que en marzo.

Según los investigadores, "en el caso de GPT-4, el porcentaje de respuestas generadas que son directamente ejecutables se redujo del 52,0 % en marzo al 10,0 % en junio. La caída también fue grande para GPT-3.5 (del 22,0 % al 2,0 %)".

Según el análisis del paper realizado por Ethan Mollick, otro académico experto en IA,

"El artículo no explica por qué se está produciendo esta degradación de las capacidades. Ni siquiera sabemos si OpenAI sabe que esto está ocurriendo".

"También creo que es posible que esto sea involuntario o consecuencia de una mayor alineación. Y puede que haya tareas en las que incluso haya mejorado. No lo sabemos".

Imagen | Marcos Merino mediante IA

En Genbeta | Cinco webs para usar GPT-4 gratis sin tener que pagar ChatGPT Plus

Dejad de especular, que ya hay paper

Recibe "Xatakaletter", nuestra newsletter semanal

Explora en nuestros medios