OpenAI revolucionó la industria tecnológica con el lanzamiento de ChatGPT, un chatbot capaz de interactuar con nosotros en lenguaje natural y que muchos ya han adoptado como herramienta enfocada a la productividad en su día a día. Sin embargo, a no todo el mundo le entusiasma la idea de que esta inteligencia artificial haya sido entrenada con el contenido de infinidad de páginas web sin el consentimiento expreso.
Aunque ya es tarde para hacer algo sobre los datos que ya ha recopilado su modelo de lenguaje, puedes impedir que sus rastreadores afecten a tu sitio web de manera muy sencilla. En este artículo te vamos a enseñar cómo hacerlo.
Cómo impedir el acceso de rastreadores a tu página web
OpenAI utiliza un rastreador web llamado GPTBot. Este rastreador se encarga de recopilar información de sitios web de forma automática para entrenar los modelos de lenguaje de la compañía, entre ellos GPT-4. De hecho, es una práctica muy común y es precisamente uno de los métodos de Google para obtener información sobre el contenido de cualquier página web.
Sin embargo, si quieres impedir que GPTBot se adentre en tu sitio web para obtener información y entrenar con estos datos su modelo de lenguaje, puedes hacerlo de forma muy sencilla. Para ello tan solo tendrás que modificar el fichero ‘robots.txt’ de tu sitio web.
La mayoría de los sitios web disponen de este fichero, y suele ser público. Puedes hacer la prueba si entras a ‘genbeta.com/robots.txt’. Este archivo de texto cuenta con parámetros indicados por el administrador para gestionar la configuración y comportamiento de los bots y rastreadores.
Por ejemplo, si quisieses impedir el acceso al bot de Google en tu página web, lo único que tendrías que hacer es modificar la línea de Googlebot e incluir lo siguiente:
User-agent: Googlebot
Disallow: /
User-agent: *
Allow: /
Las primeras dos líneas bloquean Googlebot para que no pueda acceder a tu sitio web, mientras que las dos últimas líneas restantes permiten a cualquier otro rastreador acceder a tu web. Si tan solo quieres bloquear el acceso a una parte específica de tu página web, tan solo debes indicar en el archivo lo siguiente:
User-agent: Googlebot
Disallow: /actualidad/
De esta forma, podríamos bloquear el acceso a Googlebot para que deje de rastrear cualquier información encontrada en ‘genbeta.com/actualidad’. Si no cuentas con el archivo ‘robots.txt’ en tu página web, puedes crearlo manualmente y subirlo.
Una vez explicado el funcionamiento de este archivo de texto con el ejemplo de Googlebot, lo mismo ocurre para el rastreador GPTBot. Para ello tan solo tienes que añadir las siguientes líneas al archivo ‘robots.txt’ para impedirle el acceso a tu sitio web:
User-agent: GPTBot
Disallow: /
Si por el contrario quieres impedirle el acceso a páginas específicas de tu sitio web, tan solo tienes que jugar con las líneas que te dejamos a continuación:
User-agent: GPTBot
Allow: /página1/
Disallow: /página2/
Según OpenAI, su bot no rastreará fuentes que requieran un pago previo para acceder al contenido, webs que recopilen información personal identificable, o contengan texto que viole sus políticas, por lo que si estabas preocupado por alguno de estos puntos, en teoría no tendrías por qué modificar el comportamiento de GPTBot, ya que no rastreará dicho contenido.
No obstante, OpenAI no es conocida por ser demasiado transparente con sus tecnologías. De hecho, ni siquiera este método garantiza que las versiones web de ChatGPT o sus plugins no puedan acceder a nuestro contenido, ya que no dependen únicamente de GPTBot. Aún así, es una medida útil si quieres prevenir tu web del rastreo de OpenAI para entrenar sus modelos de lenguaje.