OpenAI ha dado un gran paso adelante en la investigación de la inteligencia artificial al descubrir una manera de entender mejor cómo funcionan sus 'modelos de lenguaje' (el tipo de IA en el que se incluye, por ejemplo, GPT-4). Y es que esta tarea ha sido siempre muy complicada debido a la complejidad de estos sistemas, que hasta ahora han sido como una caja negra cuyo interior resultaba imposible de observar... incluso para los propios creadores de dichas IA.
Y es que, mientras que los ingenieros pueden diseñar, evaluar y reparar automóviles basándose en las especificaciones de sus componentes, las redes neuronales no se diseñan directamente: en su lugar, se diseñan los algoritmos que las entrenan, resultando en redes que no se comprenden completamente y que no pueden descomponerse fácilmente en partes identificables.
Esto, claro, complica la tarea de razonar sobre la seguridad de la IA del mismo modo en que se podría hacer con la seguridad de un automóvil.
Para entender mejor la IA, los científicos de OpenAI están buscando "características" o patrones dentro del modelo que puedan interpretarse de manera más fácil. Es como tratar de identificar piezas específicas dentro de una máquina muy compleja.
OpenAI se concentra en una tecnología 'dispersa'
OpenAI ha desarrollado nuevas técnicas para encontrar estas características dentro de sus modelos de IA. Han logrado identificar 16 millones de estos patrones en GPT-4, lo que es un gran avance. Para verificar si estos patrones son comprensibles, han mostrado ejemplos de textos donde estos patrones se activan.
Para ello, OpenAI ha apostado por el uso de autoencoders dispersos, una técnica para identificar un puñado de "características" importantes para producir una salida determinada, similar al pequeño conjunto de conceptos que una persona podría tener en mente al razonar sobre una situación.
Así, por ejemplo, encontraron patrones concretos que se activan con temas como "Imperfección Humana", "Aumentos de Precio" y "Preguntas Retóricas"... es como encontrar piezas específicas de información que podamos reconocer y entender.
Y ahora, OpenAI ha desarrollado nuevas metodologías que permiten escalar sus autoencoders dispersos a decenas de millones de características en modelos de IA avanzados. La compañía espera que los primeros resultados de esta tecnología puedan ser utilizados para monitorizar y ajustar el comportamiento de sus modelos de vanguardia.
Es importante destacar que OpenAI no está sola en este esfuerzo: empresas como Anthropic también están trabajando en impulsar los autoencoders dispersos.
Sin embargo, a pesar de los avances prometedores, la aplicación de esta tecnología se encuentra aún en sus primeras etapas: muchos de los patrones encontrados todavía son difíciles de interpretar y no siempre funcionan de manera consistente; además, el proceso de descomponer la IA en estos patrones no captura todo su comportamiento, lo que significa que aún hay mucho por descubrir.
"Para mapear completamente los conceptos en los modelos de lenguaje avanzados, podría ser necesario escalar a miles de millones o a billones de características, lo que presenta un desafío considerable, incluso con las técnicas mejoradas".
Vía | OpenAI
Imagen | Marcos Merino mediante IA