Una de las grandes bondades que nos ha dejado la inteligencia artificial generativa es su capacidad para procesar y sintetizar cualquier tipo de texto, pudiendo pedirle que nos resuma un correo, un artículo que hayamos visto por internet, e incluso todo un documento científico de cientos de páginas.
Ruilei Ma es una periodista china que debe cubrir en su trabajo todo tipo de proyectos y aplicaciones relacionadas con la IA generativa. Como parte de su cobertura en AITechTalk, debe digerir grandes cantidades de información, sobre todo cuando toca desengranar papers científicos e investigaciones profundas sobre un tema que desconoce.
Hay algo que la IA hace muy bien: resumir textos
Hace unos seis meses comenzó a utilizar Kimi AI, el chatbot de Moonshot AI que ya pudimos probar hace unos meses desde Genbeta. Esta inteligencia artificial permitía a dicha periodista sintetizar toda la información que se ofrecía en este tipo de documentos. Y es que una de las especialidades de Kimi AI es resumir extensos documentos con cientos de miles de palabras.
En una captura de pantalla creada por la periodista para su artículo, mostraba haber sintetizado más de 11.830.000 palabras de documentos con Kimi AI. Sin embargo, este chatbot no cuenta aún con la posibilidad de procesar imágenes, algo que aquí sí podemos hacer con un buen número de aplicaciones como ChatGPT, Gemini o Copilot.
Normalmente, la periodista utiliza el siguiente prompt para resumir grandes documentos científicos con cientos de miles de palabras:
Resume el contenido del documento, cuáles son los antecedentes de la investigación, qué métodos se utilizan para la demostración, qué avances positivos se han logrado, qué ventajas tiene en comparación con investigaciones similares. ¿Qué impacto tendrá en la vida de la gente corriente? Si el método técnico es complicado, utiliza analogías o metáforas para ayudarme a entenderlo.
Las gráficas e imágenes son una parte esencial de los documentos científicos, ya que son pruebas gráficas y visuales del tema que se está tratando en la investigación. Por ello mismo, Rulei Ma decidió realizar un test por su cuenta de varias inteligencias artificiales chinas con la habilidad de poder procesar imágenes, ya que es una parte fundamental de su trabajo.
En sus pruebas se encontraban los modelos de lenguaje Tongyi Qianwen de Alibaba, Erniebot de Baidu, Doubao de ByteDance y Yuanbao de Tencent. Además de estos, también prueba de vez en cuando Claude 3.5 de Anthropic, aunque para ella resulta más cómodo usar los chatbots provenientes de empresas chinas, ya que de esta manera garantiza de que siempre los va a poder utilizar.
Una de las primeras pruebas que les dejó a todos estos modelos de lenguaje para comprobar su capacidad de procesamiento de imagen es mostrarles una caricatura de un niño recibiendo un manotazo o un beso, dependiendo de sus notas. El ejercicio debería ser bien sencillo para la gran mayoría de inteligencias artificiales del mercado, aunque no todas pasaron esta prueba.
En su test, Erniebot y Doubao fallaron al interpretar la imagen, mientras que Yuanbao de Tencent acabó respondiendo con eficacia. “Tencent Yuanbao entiende la idea central de la viñeta: que la bofetada significa que la persona no cumplió sus expectativas sobre su nota y que el beso significa que la persona sí superó sus expectativas,” explicaba la periodista.
El siguiente de sus tests ya sí era más complejo, pues la inteligencia artificial debía procesar y sintetizar un documento muy extenso, incluyendo las gráficas. El documento que escogió fue un artículo publicado en la revista Nature sobre: “Un modelo evolutivo de los rasgos de personalidad relacionados con el comportamiento cooperativo utilizando un gran modelo lingüístico”.
Este artículo trata sobre el uso de los modelos de lenguaje para simular el desarrollo de la sociedad durante 1.000 generaciones. La periodista quiso conocer si los modelos de lenguaje utilizados podrían hallar el núcleo central del artículo: un rápido descenso de la cooperación en torno a la generación 900.
Yuanbao de Tencent logró cumplir las expectativas de Rulei Ma, ya que no solamente se trataba de precisión en las respuestas, sino también que la IA lograse identificar y tratar las imágenes y gráficas incluidas en el documento. “El diseño visual de toda la interfaz de usuario es muy coherente con los hábitos de lectura. Hay un esquema del documento a la izquierda, y el texto principal se combina con las imágenes para leer el documento. Si no se entiende, también se pueden hacer preguntas sobre el contenido en tiempo real”, aseguraba la periodista.
Para Rulei Ma, Claude 3.5 hacía resúmenes muy concisos, con los puntos clave, pero sin ser “particularmente sistemáticos”. “Resume principalmente algunos puntos clave del documento. No es especialmente sistemático, pero debo decir que lo he leído por su reducido número de palabras. Pero es demasiado conciso. Después de leerlo, no tengo más con lo que seguir. No es lo ideal para mí, que soy principiante”.
También utilizó los modelos de lenguaje para hacer un resumen de las Olimpiadas. Según la periodista, Yuanbao volvió a destacar sobre el resto, ya que Douyin se centraba en temas más nacionales que sobre el resto de los atletas. Según las experiencias de esta periodista, Yuanbao parece destacar significativamente sobre el resto cuando se trata de hacer resúmenes de documentos largos. Para ella, utilizar estos modelos en su trabajo es esencial, ya que analizar toda esta información en un tiempo limitado puede acabar siendo un problema para la salud mental.
Imagen de portada | Scott Graham
Vía | ChinAI
Ver 0 comentarios