Y eso no es todo: este estudio de Stanford demuestra que es facilísimo alterar el origen de un texto… editándolo con el propio ChatGPT
La proliferación de modelos de lenguaje generativos, con ChatGPT como actual buque insignia, ha revolucionado la comunicación digital… y, sin embargo, preocupan cada vez más difusión de información falsa y la falsificación de contenidos académicos.
Se han realizado esfuerzos para desarrollar detectores de contenido para distinguir el contenido generado por IA del contenido escrito por humanos, pero ya sabemos que la fiabilidad de tales detectores todavía resulta, en el mejor de los casos, incierta. Hay soluciones, pero no las utilizamos.
De hecho, un reciente estudio realizado por tres investigadores de la Univ. de Stanford ha detectado graves sesgos un siete de estas aplicaciones 'detectoras' de texto generado por IA. Tras evaluar el rendimiento de las mismas al analizar un dataset con ejemplos de contenido generado por humanos, tanto hablantes nativos como no nativos de inglés, salieron a la luz resultados preocupantes.
¿No anglohablante nativo = no humano?
Si bien estos detectores identificaron con precisión el contenido escrito por humanos de habla inglesa nativa, clasificaron constantemente las muestras de escritura de inglés no nativo como generadas por IA. La tasa promedio de falsos positivos para los no nativos resultó ser, de hecho, altísima: 61,22%.
Además, los siete detectores identificaron por unanimidad 18 de los 91 textos como escritos por IA, mientras que la gran mayoría (97.80%) fue identificada como generada por IA por al menos un detector. Este sesgo se exacerbó por el hecho de que los ensayos mal clasificados mostraban una menor perplejidad, lo que indicaba expresiones lingüísticas limitadas.
Riqueza del vocabulario como medida (manipulable)
Para investigar la fuente de este sesgo, los investigadores emplearon ChatGPT para enriquecer el lenguaje en los ensayos de inglés no nativo, haciéndolos más parecidos al vocabulario y las elecciones de palabras de hablantes nativos.
Sorprendentemente, esta intervención condujo a una reducción significativa en la clasificación errónea, con una disminución del 49,45% en la tasa promedio de falsos positivos. Sólo 1 de cada 91 ensayos fue unánimemente detectado como escrito por IA después de la intervención.
Por otro lado, cuando se ajustaron las elecciones de palabras en los ensayos de inglés nativo para imitar la escritura de hablantes no nativos, la tasa de clasificación errónea aumentó drásticamente,
Pasar por alto este sesgo puede marginar involuntariamente a los hablantes no nativos en entornos educativos y de evaluación, lo que constituye una preocupación ética significativa.
Perplejo me dejas
Pero además, esto último también demostró que —al margen de la discriminación de los no-nativos— los detectores de GPT son susceptibles de ser eludidos mediante prompts de autocorrección simples. Al hacer uso de éstos en ChatGPT-3.5, los investigadores lograron reducir significativamente las tasas de detección.
Por ejemplo, los prompts de los ensayos para la admisión en la universidad —algo típico en el sistema universitario estadounidense— generaron ensayos que inicialmente mostraban una baja 'perplejidad' (una unidad de medida en el ámbito de las IAs que evalúa en qué medida un modelo es capaz de predecir la siguiente palabra en una secuencia de palabras)…
…sin embargo, el uso de un prompt de autoedición condujo a un aumento notable en la perplejidad, lo que los hizo más difíciles de detectar. En otro experimento, se utilizaron prompts para generar resúmenes científicos, y se observaron resultados similares. Esto muestra cuán vulnerables son a la manipulación los métodos de detección basados en la 'perplejidad'.
Imagen | Marcos Merino mediante IA
En Genbeta | Los trucos que siempre funcionan para que ChatGPT te dé las mejores respuestas
Ver todos los comentarios en https://www.genbeta.com
VER 0 Comentario