Extraer combinaciones de contenido/prompt de tu IA rival te permite entrenar la tuya para que ofrezca resultados similares. Pero el proceso se te puede ir de las manos
Habemus polémica en la industria de la IA generativa de imágenes. O dicho de otra forma: rifirrafe entre MidJourney (compañía líder del sector) y Stability AI (desarrolladores de la IA open source Stable Diffusion) a cuenta de un incidente que tuvo lugar el pasado sábado.
Y es que Midjourney acusa a sus rivales, nada menos, que de haber provocado una caída en sus servidores. Según MidJourney, dicha caída fue el resultado de un intento de extracción masiva de datos (lo que habitualmente se denomina 'scrapping') por parte de empleados de Stability.
Si bien el 'ataque' no fue intencionado (para hacer scrapping te interesa que el servidor scrappeado permanezca online), alguien metió la pata al automatizar el proceso, lo cual no sólo interrumpió el funcionamiento de la plataforma, sino que de paso también puso de manifiesto las tensiones entre dos de los actores más prominentes en el ámbito de la IA.
"Nosotros no hemos sido, estamos muy contentos con nuestro dataset"
Según Midjourney, hablamos de una operación sofisticada... vinculada a una cuenta de correo electrónico perteneciente a Stability AI. Y lo que buscaban con ello era obtener grandes cantidades de imágenes generadas por MidJourney junto con sus correspondientes prompts, lo que en teoría hubiera permitido entrenar a futuras versiones de Stability Diffusion para ofrecer resultados más parecidos a los de su rival.
En cualquier casi, como medida inmediata, Midjourney ha cortado por lo sano, procediendo a prohibir el acceso a todos los empleados de Stability AI. Nick St. Pierre, director creativo de Midjourney, confirmó lo ocurrido en Twitter, subrayando así la seriedad con la que la compañía está abordando este presunto intento de plagio/sabotaje.
Por otro lado, Emad Mostaque, fundador de Stability AI, respondió (a través de su cuenta de Twitter) a dichas acusaciones, negando que la empresa haya autorizado tal acción, o que su equipo haya estado scrappeando datos de MidJourney de manera activa porque está "muy contento con nuestro dataset".
Igualmente, dejó claro que de ser cierta la versión de MidJourney, no estaríamos ante un ataque DDoS, sino ante algo no intencionado. En cualquier caso, Mostaque no sólo incidió en su aprecio por David Holz (fundador de la compañía rival), sino que anunció que se había iniciado una investigación interna para esclarecer los hechos.
El propio Holz intervino en ese punto en el debate tuitero con un escueto "Te enviamos información para ayudar con tu investigación interna".
El cielo está scrappeado, ¿quién lo des-scrappeará?
Este enfrentamiento destaca no solo las complejas dinámicas entre empresas en el campo de la IA sino también las preocupaciones éticas y técnicas relacionadas con la práctica del scrapping de datos.
Hace tres meses, ByteDance (la compañía china responsable de TikTok) reconoció haber usado su acceso a la API de ChatGPT para entrenar su propio modelo de IA, lo cual era una violación de los términos de servicio de OpenAI y causó la suspensión de dicha cuenta. El motivo de esto es el mismo que en el caso de las imágenes: enseñar a una IA a generar una cierta salida (de texto o imagen, lo mismo da) ante unas determinadas órdenes permite igualar el funcionamiento de esta con la que generó los datos de origen.
En cualquier caso, muchos consideran estos enfrentamientos notablemente irónicos, pues tanto MidJourney como Stability AI o la propia OpenAI entrenaron en primer lugar sus modelos de IA usando datasets plagados de contenidos derivados del scrapping de páginas web de todo Internet, aspecto por el que dichas compañías ya se han visto sometidos a demandas. "Dice el refrán que scrappeador que scrappea a scrappeador, cien años de perdón. O algo así", decía el divulgador de IA español Carlos Santana (@DotXSV) en Twitter.
Imagen | Marcos Merino mediante IA
Ver todos los comentarios en https://www.genbeta.com
VER 1 Comentario