Esta 'revolucionaria' IA prometía cambiarlo todo y ha resultado ser un fraude: toda su revolución era usar otra IA

  • De haberse demostrado cierta, hubiese puesto patas arriba muchas de las cosas que pensábamos sobre el entrenamiento y ajuste de modelos de lenguaje

  • La revelación de que 'Reflection 70B' no existía como tal y que las pruebas se habían hecho con otro modelo ha provocado indignación entre la comunidad

Mascarada IA
Sin comentarios Facebook Twitter Flipboard E-mail

El 5 de septiembre, Matt Shumer, cofundador y CEO de HyperWrite AI, anunciaba en Twitter el lanzamiento de un nuevo modelo de IA llamado 'Reflection 70B'. Según la descripción de Matt, este modelo era una versión ajustada (fine-tuning) del popular modelo Llama 70B desarrollado por Meta.

¿Qué es el 'fine-tuning'? Es el proceso de ajustar un modelo preentrenado en una tarea específica para adaptarlo a otra tarea similar o más especializada sin reentrenarlo desde cero (lo cual es muy costoso en términos de tiempo y recursos), sino ajustándolo con un conjunto más pequeño de datos específicos para la tarea en cuestión.

Lo que diferenciaba a Reflection 70B de Llama, según Matt, era su capacidad mejorada para razonar a través de técnicas complejas de prompting, como

  1. Chain of Thought: una técnica que consiste en hacer que el modelo realice un razonamiento paso a paso antes de llegar a una conclusión o respuesta. En lugar de dar una respuesta inmediata, el modelo desglosa el problema en varias etapas, lo que permite tomar en cuenta más información y generar respuestas más precisas y coherentes, especialmente en problemas matemáticos, de lógica o de múltiples pasos.
  2. Reflection: La técnica de Reflection implica que el modelo revise su propia respuesta o proceso de pensamiento antes de dar una respuesta final. Es como un autoanálisis donde el modelo reflexiona sobre la calidad de su respuesta inicial, lo que aumenta la precisión y minimiza errores.

El mero uso de estas técnicas, según Matt, hacían posible que el modelo superara las limitaciones de Llama 70B, logrando un rendimiento similar al de Llama 405B.

El anuncio, claro está, causó revuelo en la comunidad de UA: al fin y al cabo, si un mero reajuste del modelo Llama podía ofrecer un nivel de razonamiento tan avanzado, esto podría significar un paso importante en la mejora de modelos de IA con menor capacidad en términos de parámetros.

Las primeras pruebas: un éxito aparente

Tras el anuncio, Matt ofreció acceso a la API del modelo, permitiendo que otros usuarios pudieran probar Reflection 70B. Durante las primeras horas, quienes lograron acceder a la API se hicieron eco de unos resultados muy prometedores. Las respuestas del modelo, al menos inicialmente, parecían confirmar lo que Matt había prometido.

Un caso particular destacó: el modelo respondió correctamente una pregunta que muchas IA suelen errar, lo que hizo creer a los primeros usuarios que el modelo realmente representaba un avance significativo.

La pregunta, por cierto, era esta: "De una lista de números del 0 al 100, ¿cuál es el primero en orden alfabético?". La mayoría de los modelos de IA tienden a equivocarse en esta tarea, dando respuestas como "cero" u otro número incorrecto. Sin embargo, Reflection 70B acertó al responder que el primer número alfabéticamente es "14".

El 'hype' en torno al nuevo modelo creció rápidamente, y varios 'influencers' de la comunidad de IA, tanto divulgadores como expertos, comenzaron a compartir sus impresiones positivas sobre Reflection 70B. Sin embargo, este optimismo no duraría mucho.

La caída del castillo de naipes

Poco después, las cosas comenzaron a torcerse: aquellos que lograron descargar el modelo desde el repositorio público de Hugging Face (en lugar de acceder desde la API proporcionada por Shamer) empezaron a notar rápidamente que el rendimiento de Reflection 70B no era el que se había anunciado, y que las pruebas realizadas por terceros no replicaban los resultados iniciales que Matt había compartido.

La situación se volvió aún más confusa cuando Matt afirmó que había subido partes incorrectas del modelo al repositorio, mezclando diferentes versiones de Llama:

Esta explicación fue aceptada inicialmente por algunos, pero a medida que más usuarios reportaban problemas e inconsistencias y el modelo seguía sin funcionar como se esperaba, comenzaron a surgir dudas sobre la autenticidad de Reflection 70B.

La evidencia indica que hubo un intento de engaño al redirigir las pruebas a una API que no correspondía al modelo prometido

La revelación y el fraude

Al interactuar con el modelo y pedirle que identificara su origen, los usuarios obtuvieron respuestas que indicaban que no estaban tratando con un fine-tuning de Llama, sino con una IA diferente. Hasta que, finalmente, descubrieron que el acceso a la API proporcionado por Matt no conectaba a Reflection 70B, sino a Claude 3.5 de Anthropic, un modelo de IA completamente distinto.

Este descubrimiento generó una ola de indignación en la comunidad. Lo que muchos habían creído que era un avance tecnológico resultó ser puro humo. Matt Shamer, que era visto como una figura respetada en el ámbito de la IA, ha visto cómo se multiplican las acusaciones de fraude en su contra. Aunque todavía no se ha pronunciado públicamente tras las revelaciones, es probable que este incidente afecte su carrera de manera significativa.

Imagen | Marcos Merino mediante IA

En Genbeta | Iba de 'Padre de la IA' prometiendo hacer ricos a sus usuarios, pero quien se hizo rico fue él (que ni era experto en el tema)

Inicio