La nueva IA de Google impresionó tanto que ya hay quien crea programas con ella: han creado un script que dice todo lo que ve

Un desarrollador creó su propia versión de Gemini 1.5 Pro Flash, pero la quiere hacer "más mágica"

Gemini Hero
Sin comentarios Facebook Twitter Flipboard E-mail

Esta semana ha sido realmente intensa en lo que respecta a los lanzamientos de inteligencia artificial. Uno de los grandes avances ha estado precisamente en Gemini 1.5 Pro y también después en el lanzamiento de Astra. Unos avances que mucha gente "critica" porque parece que nunca llegan a nuestras manos y se quedan en el campo del desarrollo.

Pero con estos nuevos lanzamientos ya son muchas las personas que tienen conocimientos en programación las que han querido ver lo que es capaz de hacer estos lanzamientos de las grandes tecnológicas. Hablamos del Pietro Schirano que a través de X ha lanzado un vídeo donde se muestra todo lo que ha hecho con estas tecnologías.

Un vistazo a…
'Sgroogled.com': cuando MICROSOFT lanzaba anuncios ANTI-GOOGLE

Creó un script usando todo lo nuevo de Google y quedó sorprendido

En su publicación reconoce que quedó impresionado por las demos que enseñó Google con Gemini en la que se podía reconocer todo lo que se captaba por una cámara, por ejemplo. Es por ello que  ha decidido crear su propia versión de Gemini 1.5 Pro Flash en forma de script usando también Python y ha conseguido sorprenderle su potencia.

Kkk Pulsa en la imagen para acceder a la publicación en X.

En concreto, este script hace que activando la cámara de su ordenador esté interpretando todo lo que ve. Por ejemplo, el mismo aparece sujetando su teléfono móvil en la mano y es capaz de describirle en la pantalla de su ordenador a él físicamente y lo que está haciendo en ese momento que es tener el iPhone en mano. Todo de una manera muy rápida. Pero le llega a sorprender mucho que llega a reconocer una puerta que hay en el fondo de la imagen.

Si bien, este script afirma su creador que todavía no está optimizado, ya que lo escribió rápidamente en la puerta de embarque del aeropuerto. Y es que tiene pensamientos de optimizarlo para hacerlo "más mágico" antes de lanzarlo para todos. Además, ahora mismo este script se limita a analizar fotogramas concreto pero no el vídeo en tiempo real. Esto es algo que espera conseguir en un futuro.

Aquí podemos ver la 'magia' que se puede hacer con todo lo nuevo que se está presentando. El problema es pensar las utilidades o las aplicaciones que se pueden sacar con toda esta tecnología, que como vemos son muchas. Por suerte, tenemos gente tan creativa como este programador que en pocos minutos ha conseguido crear algo realmente ingenioso y que puede tener aplicaciones muy interesantes, sobre todo en accesibilidad.

En Genbeta | El Google de toda la vida se acaba muy pronto. Así revoluciona la IA generativa las búsquedas

Inicio