OpenAI ha ganado terreno con ChatGPT y sus modelos de lenguaje, convirtiéndose en la empresa tecnológica que, de momento, lidera con gran margen en el sector de la inteligencia artificial generativa. Esto ha hecho que grandes empresas tecnológicas como Google se hayan visto incapaces de hacer frente de tú a tú a un producto tan atractivo para los usuarios como ChatGPT.
Hasta ahora, Bard ha sido la única herramienta lanzada por Google para intentar apaciguar esas ansias de ver un producto similar desarrollado por los de Montain View. Aunque con gran proyección, su lanzamiento no nos trajo grandes novedades en este sector. Sin embargo, la compañía tenía guardado un as bajo la manga: Gemini. Y si bien ya vimos brevemente las capacidades de este modelo de lenguaje multimodal a través de una demo, cabe destacar que gran parte de lo que vimos en el vídeo no sucede en tiempo real.
Lo que vimos de Gemini en realidad estaba basado en texto
Google asombró en redes con Gemini, su última respuesta ante una industria que cada vez gira en torno a la IA generativa. En el vídeo veíamos cómo este modelo de lenguaje parecía responder a todo lo que hacía el usuario, interactuando con el entorno y echando un vistazo a lo que hacía.
Gemini, de esta manera, interactuaba con el usuario respondiendo correctamente a todo lo que dibujaba, jugando a piedra, papel, tijera, identificando objetos, encontrando dónde el usuario escondía el objeto y situaciones similares. De esta manera, Google nos intentaba mostrar las capacidades de su nuevo modelo de lenguaje a partir de múltiples formas de información.
Sin embargo, lo que parecían ‘múltiples formas de información’, era la respuesta que Gemini daba a un simple prompt en texto, algo que no veíamos en el vídeo y que confirmó un portavoz de Google al medio Bloomberg. Y es que al parecer, el vídeo se elaboró utilizando fotogramas de la grabación y usando estas imágenes para que Gemini pudiera responder vía texto a través de varios prompts.
Así pues, según la información, la persona que habla en el vídeo estaba leyendo algunos de los prompts que fueron utilizados para que Gemini respondiera y la voz del asistente solamente expresaba lo que Gemini generaba en texto. Para alimentar al modelo con la información que aparece en el vídeo se le proveía de algunas imágenes, como el juego de piedra, papel, tijera, de forma que Gemini pudiese responder a la pregunta de a qué juego estaba jugando. En este sentido, es algo similar a lo que hace GPT-4 Vision, donde le podemos enviar una imagen a la IA para que la procese e interprete.
"Como fin de esta demostración, se ha reducido la latencia y se han acortado las respuestas de Gemini por motivos de brevedad," se podía leer en la descripción del vídeo. Oriol Vinyals, vicepresidente de investigación y líder de deep learning en Google DeepMind, también fue uno de los principales responsables de Gemini. Vinyals admite que el vídeo demuestra “cómo podrían ser las experiencias de usuario multimodales construidas con Gemini”. Esto nos indica que puede que todavía falte un buen tiempo hasta poder utilizar Gemini de esta manera.
Gemini se presentó en tres versiones: Ultra, Pro y Nano. De hecho, actualmente Google Bard ya utiliza Gemini Pro como modelo de lenguaje. Según múltiples pruebas de rendimiento, Gemini Ultra sobrepasa a GPT-4 en numerosos tests. No obstante, hay que tener en cuenta que el porcentaje de mejora parece ser ínfimo, además de que lo estamos comparando con un modelo de lenguaje en el que OpenAI lleva más de un año trabajando, por lo que todo podría cambiar en los próximos meses con el lanzamiento de GPT-5.
Cabe destacar que Gemini Ultra está disponible únicamente para desarrolladores e investigadores seleccionados, aunque la compañía prevé un lanzamiento general para el próximo año. De momento, podemos ver las mejoras adquiridas de Bard con Gemini Pro.
Ver 1 comentarios