OpenAI presenta GPT-4o, su nuevo modelo de IA gratis con respuestas en tiempo real y capaz de entender audio y vídeo

Los rumores hablaban de que sacarían su propio buscador, pero OpenAI está a otra cosa. Y esto sólo es un paso intermedio antes de GPT-5

"No es GPT-5 ni un motor de búsqueda, ¡pero hemos trabajado duro en algunas cosas nuevas que creemos que le encantará a la gente!", aclaraba hace unos días Sam Altman sobre la presentación de novedades de esta tarde. Ahora, por fin, sabemos qué guardaba en el cajón la compañía líder en el desarrollo de tecnologías de IA.

Además de una app de escritorio oficial para ChatGPT, su gran novedad es un nuevo modelo de IA generativa llamado GPT-4o (la "o", que es una letra, significa 'omnicanalidad'), que promete revolucionar la forma en que interactuamos con la tecnología al ser capaz de procesar y generar respuestas en tiempo real utilizando combinaciones de texto, audio e imagen.

¿Recuerdas que hace unos días revelábamos la existencia de un misterioso modelo llamado 'GPT2' que, obviamente, no se correspondía con el GPT-2 original, pues mostraba puntuaciones mucho mejores que el propio GPT-4? Pues bien, en realidad era una versión de prueba de este nuevo GPT-4o:

Una nueva experiencia de usuario

"Durante los últimos años, nos hemos centrado en mejorar la inteligencia de estos modelos... pero esta es la primera vez que realmente damos un gran paso adelante en lo que respecta a la facilidad de uso". (Mira Murati, CTO de OpenAI)

Y es que GPT-4o destaca no sólo por su capacidad de integrar múltiples formatos de entrada y salida, sino también por su impresionante velocidad de respuesta, similar a la de un ser humano, con un promedio de 320 milisegundos.

Esto representa una mejora significativa respecto a modelos anteriores, como el GPT-4, que mostraba latencias de hasta 5,4 segundos en el modo de voz.

Ahora, los usuarios podrán hacer una pregunta de voz a ChatGPT e interrumpirle mientras responde. El modelo ofrece también la capacidad de captar matices en la voz de un usuario, y de respondernos sintetizando voz en "una amplia variedad de estilos emotivos diferentes" (incluyendo el canto). 

GPT-4o también actualizará las capacidades de análisis de imagen de ChatGPT: si le proporcionamos una foto, ChatGPT ahora puede responder rápidamente preguntas relacionadas con la misma.

Además de su creciente eficacia en el procesamiento de texto en inglés y código fuente, el GPT-4o muestra una mejora notable en el manejo de textos en otros idiomas, siendo además un 50% más económico y considerablemente más rápido que las versiones anteriores.

GPT-4o ya está disponible en ChatGPT (aunque se irá poniendo a disposición de los usuarios de forma escalonada) y en la API de OpenAI para desarrolladores, con planes de expandir sus capacidades de audio y vídeo en las próximas semanas.

Pero GPT-4o no sólo promete ser el más avanzado hasta la fecha, sino también el primero en ser accesible de manera gratuita para todos los usuarios de ChatGPT: hasta ahora, los modelos de la clase GPT-4 solo estaban al alcance de aquellos dispuestos a pagar una suscripción mensual. En palabras de Altman:

"Esta es una parte importante de nuestra misión; queremos poner herramientas geniales de IA en manos de todos".

Imagen | Marcos Merino mediante IA

En Genbeta | ChatGPT ha cambiado mi forma de ver la tele: así es como lo uso para saber qué ver en Netflix y otras plataformas de streaming

Ver todos los comentarios en https://www.genbeta.com

VER 0 Comentario

Portada de Genbeta