El auge de los chatbots ha abierto un debate sobre el uso que sus empresas desarrolladoras hacen del contenido 'disponible' en Internet
Con el auge de la inteligencia artificial, se ha puesto sobre la mesa el debate sobre el origen de los datos de entrenamiento de los grandes modelos de lenguaje —como GPT-4—… así como sobre el derecho de los creadores de estas IAs a usar dichos datos. En algunos casos, ha llegado a ponerse sobre la mesa de un juzgado.
Estos modelos son entrenados utilizando grandes volúmenes de datos, incluyendo contenido extraído de diversos sitios web. Este proceso, conocido como "scraping web", es una práctica común en investigación, periodismo y archivado digital. Sin embargo, algunos propietarios de sitios web pueden tener reservas sobre cómo se utiliza su contenido en este contexto en particular.
Por ello, recientemente tanto OpenAI como Google han proporcionado indicaciones a aquellos propietarios de sitios web que prefieren evitar que el contenido de sus sitios se incorpore a los enormes datasets de entrenamiento de esta clase de modelos de IA.
Protegiendo nuestro contenido
Gracias a eso, podemos resumir los pasos a dar si quieres excluir a tu sitio web de la 'memoria' de ChatGPT y/o de sus rivales. O, mejor dicho, excluir el contenido futuro que subas a tu sitio web, pues ambas compañías no han ofrecido (ni probablemente ofrezcan nunca) un método para borrar los datos en los que sus IAs ya han sido entrenadas.
Si deseas evitar que el contenido de tu sitio web sea utilizado en futuros 'scrapings' por cualquiera de los dos gigantes de la IA, existe un proceso sencillo, siempre y cuando tu alojamiento web te permita acceder a la estructura de archivos de tu sitio, ya sea a través de la interfaz web de tu proveedor de hosting o mediante un cliente FTP.
Para poner a los bots de estas empresas el equivalente digital a una señal de "Acceso prohibido", debes editar o crear un archivo llamado "robots.txt" en el directorio raíz de tu servidor web. Es decir, sería accesible (sí, cualquiera debe poder verlo) desde "https://www.ejemplo.com/robots.txt".
Así, por ejemplo, el archivo "robots.txt" de The New York Times actualmente bloquea tanto a ChatGPT como a Bard.
Este archivo sirve como un conjunto de instrucciones para bots y rastreadores web. Hasta ahora, se ha utilizado principalmente para dar instrucciones a los motores de búsqueda (también es posible excluir nuestro contenido de los mismos).
Instrucciones para bloquear el scraping de ChatGPT y Google Bard
Para bloquear el acceso de estos modelos a tu sitio, debes incluir en tu archivo robots.txt las siguientes líneas:
- Para ChatGPT:
User-agent: GPTBot
Disallow: /
- Para Google Bard:
User-agent: Google-Extended
Disallow: /
En 'Disallow' puedes especificar sólo ciertas carpetas concretas para su bloqueo, en caso de que no te importe que el resto del contenido de tu sitio sea utilizado (el símbolo '/' indica el directorio raíz y todos los que dependen del mismo… esto es, toda la web).
Por ejemplo, quizás no te importa que la mayoría de los datos de tu sitio se utilicen para el entrenamiento de IAs, pero el sitio incluye un blog que utilizas como un diario personal. No pasa nada: puedes optar por bloquear carpetas específicas. Así, si el blog se encuentra en tu sitio web en la dirección "tusitio.com/blog", utilizarías lo siguiente:
- Para ChatGPT:
User-agent: GPTBot
Disallow: /blog
- Para Google Bard:
User-agent: Google-Extended
Disallow: /blog
Vía | EFF
Imagen | Marcos Merino mediante IA
En Genbeta | Alojamientos web: qué son y cuántas clases existen
Ver todos los comentarios en https://www.genbeta.com
VER 1 Comentario