OpenAI tenía que dejarnos con la boca abierta con Sora esta semana. En su lugar lo hizo Google con esta IA gratis que nos adelanta

Los ojos de todos siguen puestos en OpenAI, pero Google está demostrando más ambición

13 diciembre 2024, 22:16

Marcos Merino

En estos últimos días, tanto OpenAI (inmerso en su campaña de 12 días consecutivos de anuncios navideños) como Google han ofrecido novedades relativas a sus principales IAs, ChatGPT (y Sora), por un lado, y Gemini, por otro. Mientras que la compañía liderada por Sam Altman ostenta el liderato en la carrera por la IA, Google está obligado a ser más ambicioso y superar el listón impuesto por su rival.

Y todo indica que el asalto de esta semana se lo lleva Google, que, con el lanzamiento de Gemini 2.0 Flash, logra marcar un hito en la evolución de la IA multimodal (combinando texto, imágenes, vídeo y audio en tiempo real) y redefinir cómo interactuamos con la tecnología.

Y de paso, claro, también intensifica la competencia entre los gigantes del sector.

Gemini 2.0 Flash: La revolución multimodal en tiempo real

El lanzamiento de Gemini 2.0 Flash representa un cambio de paradigma en la IA. Ahora, los usuarios pueden interactuar en tiempo real con vídeos capturados desde sus teléfonos móviles, algo que antes sólo habíamos podido ver en demostraciones. A través de Google AI Studio, cualquiera puede probar esta tecnología, que promete aplicaciones revolucionarias en educación, creación de contenido y más.

¿Qué ofrece Gemini 2.0? ¿Y qué tiene de especial?

Empecemos respondiendo por el final: su sistema de análisis de vídeo en tiempo real es gratis, está disponible en escritorio y se puede usar en la UE... mientras que su función rival para ChatGPT no hace ninguna de esas cosas.

Gemini apunta alto, pero te ayuda con todo tipo de tareas (captura de vídeo de @JonhernandezIA)

¿Qué ofrece? Pues veamos...

Interacción multimodal: Gemini 2.0 permite a los usuarios interactuar con la IA mediante la cámara de su dispositivo, la pantalla compartida e incluso comandos de voz. Desde analizar presentaciones de PowerPoint hasta sugerir mejoras en correos electrónicos, la IA puede interpretar el contexto visual y textual de forma simultánea.
Velocidad: Aunque la versión Flash es la más básica, su rendimiento ya es impresionante. Ofrece rapidez y capacidades avanzadas, como identificar trampas en presentaciones o proporcionar alternativas creativas en tiempo real.
Gratuidad y accesibilidad: En contraste con las herramientas premium de la competencia, Gemini 2.0 está disponible de forma gratuita en Google AI Studio. Esto democratiza el acceso a tecnologías avanzadas que antes estaban limitadas a quienes podían pagar altos costos.

La velocidad y el bajo coste operativo de Gemini 2.0 Flash lo convierten en una herramienta accesible tanto para desarrolladores individuales como para empresas: su API en vivo facilita la integración con aplicaciones empresariales, posicionándose como un recurso clave para industrias que buscan optimizar flujos de trabajo y reducir costos.

En Genbeta

Bill Gates coincide con Sam Altman sobre el futuro de la IA: todos tendremos un asistente de IA que cambiará cómo trabajamos

El lanzamiento de Gemini 2.0 Flash posiciona a Google como líder momentáneo en la carrera por la IA multimodal

La competencia ChatGPT vs. Gemini

El lanzamiento de Gemini 2.0 Flash no ocurre en un vacío. Su rival directo también han dado pasos significativos en el campo multimodal con el lanzamiento de su 'Advanced Voice Mode' con visión en tiempo real, que permite analizar vídeo y compartir pantalla con su ChatGPT.

Las novedades relativas al 'Modo de Voz Avanzado' de OpenAI hablan de un producto intuitivo y práctico, enfocado en la interacción diaria y el uso móvil. Sin embargo, Google se alza por ahora como el ganador, pues Gemini 2.0 Flash parece estar en cabeza en términos de funcionalidad y potencial a largo plazo...

...pues ofrece capacidades de análisis de vídeo similares a las de su rival de OpenAI, pero con mayor profundidad funcional; Gemini puede no solo identificar objetos y describir escenarios, sino también generar imágenes, ejecutar código y realizar acciones más complejas basadas en lo que 've'.

Así, circulan ya vídeos de Gemini 2.0 Flash guiando a creadores de contenido mientras usan software complejo como Adobe Premiere, indicando pasos detallados para realizar ediciones, incluso para usuarios novatos:

En resumen, OpenAI ofrece una experiencia más sencilla para usuarios casuales (amigable y accesible para el usuario promedio, con una interfaz exclusivamente móvil que se asemeja a una videollamada tradicional), mientras que Google apunta a desarrolladores y empresas con herramientas más especializadas.

Imagen | Marcos Merino mediante IA

En Genbeta | La mejor noticia de la llegada de Sora no es Sora, es ver que las IAs alternativas, gratis y open source, están a su altura

Ver todos los comentarios en https://www.genbeta.com

VER 0 Comentario

Portada de Genbeta