Prácticamente todo el mundo ha oído hablar ya de alguna IA generativa como ChatGPT y la usa con frecuencia. Estamos en la era de la IA y son muchas las empresas que están trabajando por crear su propia propuesta para tener un trozo de este pastel. Pero esta velocidad por sacar nuevas IA puede provocar que finalmente se terminen colapsando como se ha comprado en un reciente artículo redactado por investigadores de Reino Unido y Canadá.
Y es que las primeras IA fueron entrenadas precisamente con artículos, fotografías o libros redactados completamente con humanos. Pero el problema que se presenta con el uso intensivo de las IA es que la red se está llenando de contenidos que han sido generadas por la propia IA y no por humanos. Y que otra inteligencia artificial utilice esta información para entrenarse puede terminar con "defectos irreversibles".
La IA contaminada puede generar muchas imprecisiones
De esta manera, cuando un modelo de IA se expone a datos generados por IA se van a producir muchos más errores en sus contenidos y respuestas. Sobre todo porque también va a tender a olvidar los primeros aprendizajes. Uno de los investigadores lo explicó así: "Con el tiempo, los errores en los datos generados se combinan y, en última instancia, obligan a los modelos que aprenden de los datos generados a percibir aún más la realidad".
De esta manera estamos hablando de una auténtica contaminación de los contenidos que va a aprender un modelo con los datos de otra IA que pueden ser erróneos. Y es que los investigadores detallan que aunque la información humana también tiene imprecisiones, es más raro que omitan datos de menos relevancia que también tiene su importancia. Por su contra, la AI se queda con los datos populares y los secundarios los termina tergiversando.
Un ejemplo que ponen en este artículo radica en entrenar una IA con datos de 100 gatos, de los cuales 10 son azules y 90 amarillos. La IA va a detectar que el amarillo es más importante, y va a terminar tergiversando a los azules mostrándolos con una mezcla de amarillo dando lugar a gatos verdes. Con el paso de los entrenamientos este cambio se irá agudizando cada vez más, dejando de lado esos 10 gatos azules. Esto es lo que se conoce como contaminación y lo que provoca este colapso al distorsionar la realidad.
Para poder evitar este colapso que va a dar resultados alejados de la realidad, y que nos vamos a creer, los investigadores apuestan por guardar una copia de los datos originales e ir realizando entrenamientos periódicos con ellos. También se podría apostar por entrenar con datos nuevos generados por humanos e incluso hacer uso de Internet Archive para obtener datos que no están contaminados y son generados por humanos.
Esto hace que ahora se tenga un gran reto por delante para los expertos en Machine Learning que deberán crear procedimientos para que la IA siga siendo productiva y que cada vez cuente con una mayor fiabilidad.
Fotos | Bing Imagen Creator por José Alberto Lizana,
Vía | VentureBeat
En Genbeta | Los mejores cursos gratis para aprender a usar ChatGPT desde cero hasta ingeniería de prompts
Ver todos los comentarios en https://www.genbeta.com
VER 2 Comentarios