2024 está siendo un año tremendo para la inteligencia artificial, y dentro de las grandes tecnológicas, Meta es la compañía que más ha crecido. De tener versiones poco capaces de LlaMa, su IA open source, los de Zuckerberg pasaron con Llama 3 a competir de tú a tú con ChatGPT de OpenAI y Gemini de Google. Al menos eso es lo que dicen las pruebas que van presentando con cada nueva versión.
Tras un par de meses desde el lanzamiento de Llama 3.1 (con China a la cabeza en explotación), Mark Zuckerberg acaba de anunciar Llama 3.2, su nuevo gran modelo de lenguaje. Pese a ser un cambio pequeño en numeración, esta nueva IA llega con una gran novedad: ahora es multimodal. Eso quiere decir que, como sus grandes competidores, el modelo ahora puede procesar y entender lo que hay en una imagen o en un vídeo. Para texto, eso sí, el modelo más grande seguirá siendo Llama 3.1 405B.
Las novedades de WhatsApp, Instagram y Facebook (que no podremos tener aún en España)
En los mercados donde está disponible, Meta AI ya está integrada en WhatsApp, Instagram o Facebook como bot conversacional de texto. Sin embargo, hasta ahora no permitía mantener una conversación en tiempo real con voz en lenguaje natural, como OpenAI ha demostrado con su app móvil (sí, esa cuya voz recordaba con razón a Scarlett Johansson).
Eso acaba de cambiar, pues con Meta AI Voice la compañía propone hablar con el asistente y distintas voces de famosos como Awkwafina, John Cena, Keegan-Michael Key o Kristen Bell, que de momento solamente estarán disponibles en Estados Unidos.
Gracias a la integración de Llama 3.2, ahora podremos pedir con voz o texto cambios sobre imágenes reales o ya generadas, como cambiar el color de nuestra camiseta, añadir un accesorio u objeto a una imagen o cambiar el fondo, algo que recuerda a la IA vista en los últimos Google Pixel. La integración con Instagram o WhatsApp parece profunda a falta de probarla, y al crear una Storie, por ejemplo, podemos pedir a Meta AI que nos genere un fondo según la imagen elegida.
Según ha mostrado la compañía, el análisis de imágenes de Llama 3.2 permite, por ejemplo, subir una imagen de una tarta, preguntar cómo se hace y que la IA automáticamente sepa que le estamos pidiendo una receta. Tras entenderlo, lo escribirá-
Meta sigue dando a los desarrolladores armas potentísimas sin coste
El factor multimodal de Llama 3.2 implica que ahora los desarrolladores podrán utilizarlo para analizar vídeo o imágenes en tiempo real (siempre que el hardware que mueve el modelo lo permita), lo que le puede acercar a lo visto con GPT-4o o Gemini Flash, capaz de analizar un vídeo y decir todo lo que ve. Eso, unido a hardware libre o propietario como las gafas Ray-Ban Meta lo puede cambiar todo, pues a diferencia de los otros modelos, Llama 3.2 sigue siendo de código abierto. Sí, con grandes matices, pero código abierto.
Según su necesidad, los desarrolladores podrán utilizar Llama 3.2 en dos sabores multimodales. El primero cuenta con 11.000 millones de parámetros, y el segundo, y más potente, con 90.000 millones.
A ello se suman modelos ligeros de texto, con 1.000 millones de parámetros y 3.000 millones de parámetros, más pequeños y rápidos que el modelo de 8.000 millones que tanto se ha explotado en distintos proyectos. La idea con ellos es que puedan funcionar a de forma fluida y localmente en hardware móvil de Qualcomm o Mediatek.
Durante su discurso en el evento, Mark Zuckerberg ha vuelto a poner énfasis en la naturaleza open source de Llama y en lo que genera en el ecosistema de la IA. Afirma que las compañías de IA cerrada han reaccionado a Llama reduciendo costes, y es rotundo: cree que el open source ganará esta batalla por mera economía. La realidad, hasta ahora, es que en innovación han ido siempre por detrás de OpenAI.
Imágenes | Meta
Más información | Meta
Ver 0 comentarios