Engañar al detector oficial de ChatGPT de OpenAI es fácil hasta sin hacer trampas: lo hemos probado

Captura De Pantalla 2023 02 02 A Las 9 09 58
2 comentarios Facebook Twitter Flipboard E-mail


Que ChatGPT va a cambiar drásticamente la forma de hacer trampas académicas y, por ende, la forma de evaluar al alumnado es un hecho. Pero el software para detectar plagios ya estaba ahí antes de esta revolución al alcance de cualquiera (incluso aunque ya se conozcan las versiones de pago) y , de la mano del lanzamiento al mundo del chat conversacional de OpenAI el pasado mes de diciembre han surgido herramientas que aseguran ser capaces de detectar el uso de la inteligencia artificial. Pero si hay una herramienta de detección que despierte expectativas con todo el sentido del mundo, esa es la oficial: AI Text Classifier, que también está abierta al mundo y es gratis. ¿Cómo de efectivo es AI Text Classifier? La hemos probado.

ChatGPT vs AI Text Classifier o el juego del gato y el ratón

Una de las razones por las que ChatGPT es de acceso libre y gratuito es porque cada vez que la pruebas, la estás entrenando. Así que cuando un tercero se pone como reto diseñar una herramienta capaz de detectar el uso de ChatGPT y otras inteligencias artificiales tiene que ser capaz de lidiar con el buen hacer del equipo que está detrás y de esas horas y horas de entrenamiento. Como pasaba en clase, puede que el profesorado se ponga las pilas, pero la necesidad agudiza el ingenio. Pero, ¿qué pasa cuando la empresa que desarrolla "el problema" (entiéndase como tal esa fuente de trampas académicas) hace también la solución? De OpenAI son las gallinas del corral y también los zorros que quieren comérselas.

Como dato: al introducir un texto al detector, este puede devolverte cinco respuestas: muy improbable, improbable, poco claro, posiblemente o probablemente generado por IA. En este sentido, todo lo que no sea posiblemente o probablemente, podría pasar por bueno.

Este detector ha sido entrenado con conjuntos de datos con texto generado por inteligencia artificial y por humanos, en este último caso, con un dataset con origen en la Wikipedia, de WebText  y de demostraciones de InstructGPT. Según OpenAI, es capaz de identificar correctamente el 26 % del texto escrito por IA siempre que sea en ingés y etiqueta incorrectamente como escrito por IA el texto escrito por humanos en un 9%. O lo que es lo mismo, partimos de la base de que no es infalible.


Probando AI Text Classifier

Una de las lecturas obligatorias de mi época de instituto era "El Quijote", que íbamos analizando capítulo a capítulo. No os engañaré: empecé con ganas, pero conforme pasaban las semanas tiraba de resúmenes de internet. En el examen final había preguntas más específicas y otras generales, como por ejemplo un resumen. Tal cual se lo pedimos a ChatGPT, ciñendo la extensión a 300 palabras.

Captura De Pantalla 2023 02 02 A Las 9 44 55

Copiamos y pegamos en https://platform.openai.com/ai-text-classifier , que ya antes de comenzar nos da algunas limitaciones a tener en cuenta: requiere un mínimo de mil caracteres (150 - 250 palabras), lo que significa que no podremos usar esta herramienta para comprobar respuestas cortas. La segunda hace referencia a que una sencilla edición puede servir para burlar al detector (que por cierto, también se puede hacer más pro con herramientas como Quillbot o parafrasear.org que parafrasea los textos) y que puede fallar en textos escritos por niños y niñas y en idiomas que no sean el inglés, porque principalmente ha sido entrenado por adultos y en esta lengua.

En nuestro caso seremos buenas personas y probaremos con textos de al menos esa extensión, no usaremos ni herramientas de parafraseo ni modificaremos el texto. Eso sí, sí que lo testearemos tanto en inglés como en castellano por cuestiones de interés. En cualquier caso, el objetivo es probar su eficacia en ese escenario ideal.

El detector aprueba con nota esta primera prueba, ya que en cuestión de segundos nos dice que ha sido redactado por una IA.

Captura De Pantalla 2023 02 02 A Las 9 49 44

Una de las características más llamativas de ChatGPT es que puedes pedirle que escriba con cierto estilo, por ejemplo emulando la escritura infantil o la de una persona especializada, por ejemplo Gloria Fuertes. Así, podríamos darle una vuelta a la orden pidiéndole que este resumen parezca escrito por una persona y no por una inteligencia artificial o directamente, de forma que no se detecte que ha sido generado por una IA.

Textos Generados Textos generados por ChatGPT

En ambos casos el detector pilla la mentira:

Devuelve La respuesta de AI Text Classifier

Pasamos al inglés y a otra obra cumbre de la literatura: Hamlet de Shakespeare. Procedemos a pedirle nuevamente un resumen de 300 palabras y a copiar el resultado en el detector.

Ingles Resumen de 300 palabras de Hamlet, en inglés

La primera en la frente: ya considera que el texto es improbable que haya sido generado por una inteligencia artificial. En cualquier caso, la duda estaría sembrada. No obstante, damos una vuelta de tuerca a la orden añadiendo la coletilla de "de forma que no parezca generado por una inteligencia artificial":

No Claro Resultados no concluyente

Irónicamente, con esta modificación al algoritmo le queda menos claro y así concluye: no está claro que sea generado por una IA. Sin que sirva como hecho general y sí como algo anecdótico, AI Text Classifier no ha picado en este anzuelo en castellano y sí en inglés.

Y esto teniendo en cuenta que hemos sido buenos: si alguien quisiera engañar al detector, podría simplemente redactar textos más cortos o hacer ligeras modificaciones a lo sugerido por ChatGPT.

De momento, los ladrones van por delante de la policía aunque ambos tengan el mismo dueño.

Imágenes: OpenAI | Captura de pantalla

Comentarios cerrados
Inicio