En los últimos tiempos, los 'modelos de lenguaje de gran contexto' o LLM (es decir, el cerebro detrás de los chatbots) han comenzado a mostrar habilidades inesperadas, para las que no han sido programados... pero tranquilo, que no estamos ante un 'escenario Skynet' (que sepamos): por ahora, sólo tienen que ver con su capacidad para gestionar grandes cantidades de información.
Imagina que estás utilizando un buscador en Internet: introduces una palabra y el buscador, en milisegundos, encuentra exactamente lo que necesitas entre millones de opciones.
Pues hay un elemento interno de estos modelos de IA, los 'cabezales de recuperación', que funcionan de manera similar, ayudando a encontrar y utilizar información relevante que está esparcida en grandes bloques de texto.
Su activación o desactivación puede llevar a que el modelo "alucine" o genere respuestas infundadas al no poder acceder a la información necesaria.
Pues bien, existe un ejercicio al que se somete a los modelos de IA generadores de texto, llamado 'la aguja en el pajar', en el que se busca que la IA responda a una pregunta utilizando un contexto en el que la respuesta fue inyectada artificialmente. Dicha prueba está pensada para garantizar la solidez de las IAs cuando se enfrentan a ventanas de contexto amplias.
Ya hablamos de dicho ejercicio, y de cómo muchos pensaron que Claude-3 era autoconsciente porque había sido capaz de detectar que estaba siendo sometido al mismo
Una 'caja negra'
La cuestión es que ha sido una investigación científica recién publicada la que ha descubierto que estos cabezales no sólo son universales (están presentes en todos los modelos examinados basados en transformadores), sino también intrínsecos, ya que existen desde la fase de pre-entrenamiento del modelo y no necesitan ser codificadas explícitamente por los diseñadores del modelo.
Mejor aún: su existencia es todo un testimonio de la complejidad de los modelos de IA modernos, pues, al igual que con los humanos, donde el aprendizaje puede llevar a la especialización no intencionada de ciertas áreas del cerebro, los modelos de lenguaje también parecen desarrollar "especializaciones" que mejoran su funcionalidad, sin intervención directa de sus creadores. Según el experto Ahmed Khaled,
"Es fascinante observar cómo partes específicas de la arquitectura neuronal se especializan de manera autónoma. Esto desafía nuestra comprensión tradicional de [cómo funcionan] los sistemas de software".
El descubrimiento de este elemento tiene implicaciones profundas para el futuro de la inteligencia artificial:
- Muestra que hay funciones que pueden surgir sin una programación explícita, una idea que desafía la noción tradicional de diseño de software.
- Sugiere nuevas vías para optimizar los modelos de IA y así reducir alucinaciones y mejorar el razonamiento.
La era de los modelos de lenguaje de gran contexto acaba de empezar, y descubrimientos como éste abren nuevas vías para explorar y entender estos sistemas complejos: hay quien cree que son la clave para asegurarnos de que las máquinas no sólo 'hablen' o 'escriban' sino que 'comprendan' y 'razonen' con una precisión cada vez mayor.
Vía | @emollick
Imagen | Marcos Merino mediante IA