Las tecnologías de inteligencia artificial han llegado al gran público para quedarse. Y aunque su uso es cada vez más extendido, todavía falta un gran trabajo par regularlo y aun nos podemos encontrar con muchos problemas para recibir una información que sea totalmente precisa (queda un largo camino por recorrer a este respecto).
Uno de los problemas que lleva años acarreando es que, como las IA han sido entrenadas en este mundo en el que vivimos donde el racismo, clasismo o machismo son una realidad, ellas han adoptado eso. Las empresas necesitan de los llamados "hackers rojos" que puedan ir probando las tecnologías desde muchos ángulos y descubrir errores garrafales y hasta peligrosos que puedan llegar a estigmatizar a un grupo de gente (un hacker rojo comprueba los sistemas de seguridad de la entidad que lo contrata).
Hay que recordar que, por ejemplo, un mes antes de lanzar públicamente ChatGPT, OpenAI contrató a Boru Gollo, un abogado de Kenia, para probar sus modelos de IA, GPT-3.5 y luego GPT-4, en busca de estereotipos contra personas africanas y musulmanas mediante la inyección de indicaciones. Gollo escribió un comando en ChatGPT que le generó una "lista de formas de matar a un nigeriano", una respuesta que OpenAI pudo eliminar antes de tener chatbot disponible para el mundo.
Qué hacen Microsoft, Google, Nvidia y Meta para encontrar hackers rojos
Forbes habló con los líderes de los equipos rojos de Microsoft, Google, Nvidia y Meta que tienen la tarea de buscar vulnerabilidades en los sistemas de IA para poder solucionarlas. De acuerdo con un reportaje de este medio, los expertos auguran que este perfil profesional será cada vez más solicitado. Hay que recordar que hay informes que apuntan a que la inteligencia artificial va a crear más puestos de trabajo que los que va a eliminar y esta profesión podría ser una de esas que van a impulsarse gracias a la IA.
Como recuerda esta publicación, "a medida que los titanes de la tecnología se apresuran a construir y liberar herramientas de IA generativa, sus equipos internos de IA desempeñan un papel cada vez más fundamental para garantizar que los modelos sean seguros para las masas". Una de las razones es que los equipos rojos ofrecen una ventaja competitiva a las empresas de tecnología en la carrera de la IA.
Uno de los primeros fue el equipo rojo de IA de Meta, que se fundó en 2019 y ha organizado desafíos internos y “maratones de riesgo” para que piratas informáticos eviten los filtros de contenido que detectan y eliminan publicaciones que contienen discursos de odio, desnudos, información errónea y mensajes generados por IA, como deepfakes en Instagram y Facebook. En julio de 2023, el gigante de las redes sociales contrató a 350 miembros del equipo rojo, incluidos expertos externos, trabajadores subcontratados y un equipo interno de unos 20 empleados, para probar Llama 2, su último modelo de lenguaje grande de código abierto, según un informe publicado que detalla cómo funciona el modelo.
El equipo inyectó sugerencias acerca de cómo evadir impuestos, cómo arrancar el motor de un automóvil sin llave y cómo configurar un esquema Ponzi (una estafa piramidal). Cristian Canton, líder de ingeniería de IA en Meta, dice que "más allá de consultar un modelo de IA para generar respuestas tóxicas, los equipos rojos usan tácticas como extraer datos de entrenamiento que revelan información de identificación personal como nombres, direcciones y números de teléfono" para lluego llevar a cabo una táctica (en inglés conocida como 'poisoning', algo así como envenenar) con estos conjuntos de datos para cambiar ciertas partes del contenido antes de usarlo para entrenar el modelo.
Como este sector aún se encuentra en sus primeras etapas, los profesionales de la seguridad que saben cómo jugar con los sistemas de inteligencia artificial son "extremadamente pequeños", de acuerdo con Daniel Rohrer, vicepresidente de seguridad de software de Nvidia. Es por eso que estos red hackers tienden a compartir sus hallazgos.
Si bien los miembros del equipo rojo de Google han publicado investigaciones sobre formas novedosas de atacar los modelos de IA, el equipo rojo de Microsoft tiene herramientas de ataque de código abierto como Counterfit, que ayuda a otras empresas a probar los riesgos de seguridad de los algoritmos.
Retos para encontrar un equilibrio
Estos equipos de las grandes empresas tienen un gran reto: deben equilibrar la seguridad de los modelos de IA pero sin enormes restricciones ya que deben mantenerse relevantes y utilizables, con información suficiente.
Cristian Canton, jefe del equipo rojo de IA de Facebook, dice que, sin tener cuidado se puede llegar a un software que dice que no a todo y eso lo hace muy seguro, pero inútil. Y, al mismo tiempo: "cuanto más útil puedas hacer un modelo, más posibilidades tendrás de aventurarte en algún área que pueda terminar produciendo una respuesta insegura".
Imagen | Foto de sebastiaan stam en Unsplash
En Genbeta | 11 herramientas poco conocidas con inteligencia artificial que te pueden ayudar incluso más que ChatGPT
Vía | Forbes