Tras el nacimiento de la inteligencia artificial como disciplina en los años 50, ésta fue intercalando fases de rápidos avances tecnológicos con otros de desesperanzador estancamiento. Puede parecer extraño, pero en los años 50 existía un gran optimismo sobre las capacidades de la IA... porque ya entonces habían sido capaces de lograr que una computadora jugase a las damas y fuera capaz de aprender de sus propios errores.
Pero en campos como el procesamiento del lenguaje natural (básico para el desarrollo de los chatbots, la traducción automática, la síntesis de voz, etc) el avance fue lento durante mucho tiempo: las redes neuronales recurrentes (RNN) se desarrollaron ya en los 80 pero, además de destacar por su lento proceso de entrenamiento, su arquitectura no era la óptima para manejar grandes secuencias de palabras, pues hacían gala de una memoria a corto plazo que provocaba que las fueran olvidando.
En 1997 llegaron las redes neuronales LTSM (Long Short-Term Memory), que mejoraban el 'recuerdo' de los elementos de la secuencia, sin embargo, las secuencias excesivamente largas (ya no hablemos de conversaciones completas) seguían presentando problemas. Además, tanto las RNN como las LTSM se basaban en el procesamiento palabra a palabra, no en paralelo, lo que complicaba que la IA fuera capaz de 'comprender' el contexto de las frases.
Google lo cambió todo en 2017
Todavía se crearía una arquitectura de red neuronal más avanzada, las redes neuronales convolucionales (CNN), pero seguían sin ofrecer todas las funcionalidades necesarias para lo que los expertos en IA seguían buscando. Hasta que hace tan sólo 6 años algo hizo que eso cambiara. ¿El qué? La publicación de un artículo académico.
Ya, es cierto que no suena muy épico, pero ese documento ('Attention Is All You Need', se titulaba), lleno de gráficos, tablas y fórmulas, ha sido la clave que ha permitido que hoy en día tengamos grandes modelos de lenguaje como GPT-3 y, con ello, chatbots como ChatGPT y modelos generativos de texto a imagen como DALL-2 o Stable Diffusion.
Es decir, que gracias a la innovación aportada por ese paper vivimos en la actual explosión de la IA en que nos hallamos inmersos. Curiosamente, no se lo tenemos que agradecer a investigadores de OpenAI (la compañía que, sin duda, mejor ha sabido aprovechar el nuevo campo que se abrió en 2017)...
...sino de Google, tan denostado ahora por haberse dejado adelantar en este ámbito por sus rivales. Y es que, de los ocho investigadores que participaron en su redacción, seis eran en ese momento empleados de Google Brain o de Google Research, y otro más acababa de dejar la empresa meses antes.
Soy un 'transformer', pero no me llames Optimus Prime
"Vale, muy bien" -os estaréis preguntando- "pero, ¿cuál es esa innovación fantástica que aportaron al mundo esos 8 investigadores?". Pues un nuevo modelo de red neuronal llamado 'transformer' o 'transformador'. Esta nueva arquitectura era capaz de rastrear el emplazamiento de una palabra o frase en una secuencia, lo que facilita la comprensión del significado en base a las palabras que vienen antes o después, es decir, del contexto.
Ahora, en la frase "Visito todos los días en la web de Genbeta: es la mejor página de información tecnológica de Internet", la IA era capaz de 'comprender' que 'la mejor página' se refiere a 'la web de Genbeta' y que no estamos hablando, por tanto de una página de papel.
Sólo un año después de la publicación del artículo, OpenAI desarrolló GPT (Generative Pre-trained Transformer o Transformador Generativo Preentrenado... sí, la 'T' de 'GPT' se refiere a la arquitectura de red neuronal inventada por Google). Rápidamente, combinando los transformers con técnicas de aprendizaje no supervisado (lo cual eliminaba la dependencia de los etiquetadores humanos), GPT fue capaz de superar todas las pruebas de referencia de procesamiento de lenguaje natural existentes en ese momento.
Pocos meses después, en 2019, llegaría GPT-2, y armaría un revuelo mediático por su supuesta capacidad para simular textos escritos por humanos. Pero lo que ya rompió todos los esquemas fue GPT-3, presentada en 2020. En los dos años siguientes, OpenAI se dedicó a reentrenar GPT-3 en el sutil arte de la conversación fluida. Cuando lo tuvieron listo, crearon una plataforma online en torno a esta IA, denominada ChatGPT. Y el resto es historia.
Imagen | Basada en original de Lexica.art
Ver todos los comentarios en https://www.genbeta.com
VER 2 Comentarios