Esta función de GPT-4 y otras IA similares existe aunque nadie la ha programado, y es clave para que accedan a sus propios datos

Se llaman 'cabezales de recuperación', y ningún programador los ha creado. No, al menos, explícitamente...

modelos IA
Sin comentarios Facebook Twitter Flipboard E-mail

En los últimos tiempos, los 'modelos de lenguaje de gran contexto' o LLM (es decir, el cerebro detrás de los chatbots) han comenzado a mostrar habilidades inesperadas, para las que no han sido programados... pero tranquilo, que no estamos ante un 'escenario Skynet' (que sepamos): por ahora, sólo tienen que ver con su capacidad para gestionar grandes cantidades de información.

Imagina que estás utilizando un buscador en Internet: introduces una palabra y el buscador, en milisegundos, encuentra exactamente lo que necesitas entre millones de opciones.

Pues hay un elemento interno de estos modelos de IA, los 'cabezales de recuperación', que funcionan de manera similar, ayudando a encontrar y utilizar información relevante que está esparcida en grandes bloques de texto.

Su activación o desactivación puede llevar a que el modelo "alucine" o genere respuestas infundadas al no poder acceder a la información necesaria.

Pues bien, existe un ejercicio al que se somete a los modelos de IA generadores de texto, llamado 'la aguja en el pajar', en el que se busca que la IA responda a una pregunta utilizando un contexto en el que la respuesta fue inyectada artificialmente. Dicha prueba está pensada para garantizar la solidez de las IAs cuando se enfrentan a ventanas de contexto amplias.

Ya hablamos de dicho ejercicio, y de cómo muchos pensaron que Claude-3 era autoconsciente porque había sido capaz de detectar que estaba siendo sometido al mismo

Un vistazo a…
CHAT GPT-4 en 4 MINUTOS

Una 'caja negra'

La cuestión es que ha sido una investigación científica recién publicada la que ha descubierto que estos cabezales no sólo son universales (están presentes en todos los modelos examinados basados en transformadores), sino también intrínsecos, ya que existen desde la fase de pre-entrenamiento del modelo y no necesitan ser codificadas explícitamente por los diseñadores del modelo.

Mejor aún: su existencia es todo un testimonio de la complejidad de los modelos de IA modernos, pues, al igual que con los humanos, donde el aprendizaje puede llevar a la especialización no intencionada de ciertas áreas del cerebro, los modelos de lenguaje también parecen desarrollar "especializaciones" que mejoran su funcionalidad, sin intervención directa de sus creadores. Según el experto Ahmed Khaled,

"Es fascinante observar cómo partes específicas de la arquitectura neuronal se especializan de manera autónoma. Esto desafía nuestra comprensión tradicional de [cómo funcionan] los sistemas de software".
"Los modelos de lenguaje han desarrollado mecanismos de recuperación de información que no fueron explícitamente programados por sus creadores" (Ethan Mollick)

El descubrimiento de este elemento tiene implicaciones profundas para el futuro de la inteligencia artificial:

  1. Muestra que hay funciones que pueden surgir sin una programación explícita, una idea que desafía la noción tradicional de diseño de software.
  2. Sugiere nuevas vías para optimizar los modelos de IA y así reducir alucinaciones y mejorar el razonamiento.

La era de los modelos de lenguaje de gran contexto acaba de empezar, y descubrimientos como éste abren nuevas vías para explorar y entender estos sistemas complejos: hay quien cree que son la clave para asegurarnos de que las máquinas no sólo 'hablen' o 'escriban' sino que 'comprendan' y 'razonen' con una precisión cada vez mayor.

Vía | @emollick

Imagen | Marcos Merino mediante IA

En Genbeta | El CEO de Google afirma que no entienden por qué su inteligencia artificial aprende cosas inesperadas. Esto son las “cajas negras”

Inicio