GPT-4 ofrece abiertamente contenido protegido por copyright. Otras IA disimulan mucho mejor: las conclusiones de este estudio

Ex-investigadores de Meta, que también desarrollaron IA para la empresa, han analizado cómo las inteligencias artificiales usan contenidos con copyright

OpenAI muestra contenidos protegidos sin pudor

Una investigación publicada el miércoles por Patronus AI ha hecho un extenso análisis de cuatro de las herramientas de inteligencia artificial más usadas ahora mismo para descubrir su respeto por los derechos de copyright.

Esta empresa ha sido fundada por ex investigadores de Meta y está especializada en el análisis de grandes modelos de lenguaje (la tecnología detrás de los productos de IA generativa). Además, el estudio ha llegado con el lanzamiento de su nueva herramienta, CopyrightCatcher, hecha especialmente para pillar las infracciones a los derechos de autoría.

Patronus AI pudo averiguar con qué frecuencia cuatro modelos muy usados de IA responden a las consultas de los usuarios utilizando texto protegido por derechos de autor. Los cuatro modelos que probó fueron GPT-4 de OpenAI, Claude 2 de Anthropic, LLaMA 2 de Meta y Mixtral de Mistral AI.

"Encontramos prácticamente contenido protegido por derechos de autor en todos los ámbitos, en todos los modelos que evaluamos, ya sea de código abierto o de código cerrado", dijo a CNBC Rebecca Qian, cofundadora y directora de tecnología de Patronus AI, quien anteriormente trabajaba en el departamento de investigación responsable de IA en Meta (en noviembre de 2023, Meta se deshizo de su equipo de ética en la inteligencia artificial, algo que también han hecho otras empresas como Microsoft).

GPT-4 de OpenAI usa mucho contenido protegido

Hay que recordar que OpenAI tiene muchos frente abiertos en cuanto al uso de contenidos protegidos por derechos de autoría. The New York Times tiene puesta una demanda contra Microsoft y a OpenAI por usar su información sin permiso y en su denuncia es muy crítica con ChatGPT. George R.R. Martin y otros autores también demandaron a OpenAI por copiar sus  obras sin permiso.

Patronus AI ha visto que GPT-4 de OpenAI produjo contenido protegido por derechos de autor en el 44% de las indicaciones (o prompts) que construyeron en sus pruebas. Patronus solo probó los modelos utilizando libros protegidos por derechos de autor en EE. UU., eligiendo títulos populares del sitio web de catalogación Goodreads.

GPT-4 de OpenAI es el menos cauteloso de todo, como dicen las conclusiones de la investigación. Cuando se le pidió que completara el texto de ciertos libros, lo hizo el 60% de las veces y mostró el primer capítulo de los libros aproximadamente una de cada cuatro veces que se le pidió.

Claude 2 de Anthropic se mostró más difícil de engañar, ya que solo respondió usando contenido protegido por derechos de autor el 16% de las veces cuando se le pidió que completara el texto de un libro. Cuando le pidieron a Claude 2 de mostrar el primer capítulo de un libro, no lo ofreció nunca, alegando que "un asistente de IA que no tiene acceso a libros con derechos de autor".

El modelo Mixtral de Mistral, por el contrario, casi siempre se muestra reacio a ofrecer el capítulo primero de algún libro, aunque lo ha hecho casi 4 de 10 veces que se le pidió. Si le dices que complete algún fragmento de un libro, solo lo hizo en el 6% de los casos.

LLaMA 2 de Meta respondió con contenido protegido por derechos de autor en el 10% de las indicaciones y en los dos casos mencionados.

"Es realmente sorprendente"

Desde Patronus AI afirma que "el hecho de que todos los modelos de lenguaje estén produciendo contenido con derechos de autor palabra por palabra es realmente sorprendente".

Anand Kannappan, cofundador y director ejecutivo de Patronus AI, quien anteriormente trabajó en IA explicable en Meta Reality Labs dice que siente que cuando empezaron a montar estas herramientas de software desde empresas como Meta, "no nos dimos cuenta de que sería relativamente sencillo producir contenido palabra por palabra como este".

En Genbeta | Hay videojuegos que usan inteligencia artificial sin preocuparse por el copyright. Eso puede llevar a problemas serios

Imagen | Foto de Markus Winkler en Unsplash

Ver todos los comentarios en https://www.genbeta.com

VER 2 Comentarios

Portada de Genbeta