State of AI es un informe ampliamente reconocido y de publicación anual que proporciona una completa 'instantánea' de diversos aspectos en el campo de la inteligencia artificial. Sus autores mantienen, así mismo, el 'Compute Index', una métrica utilizada para rastrear el crecimiento en el poder de cómputo empleado en la investigación de la IA.
Dos de los aspectos concretos que mide el 'Compute Index' son:
- El tamaño de los sistemas HPC (de computación de alto rendimiento) ya sean públicos (alquilados a proveedores externos), privados (operados por las propias compañías) y nacionales (operados por gobiernos).
- El uso de varios chips de IA (concretamente, los A100 y los H100, ambos de Nvidia) en trabajos de investigación de IA.
La Nvidia A100 y la H100 son dos generaciones consecutivas de GPUs diseñadas por Nvidia, ambas orientadas principalmente a tareas de cómputo intensivo, como la inteligencia artificial (IA) y el aprendizaje profundo.
"La computación es el nuevo petróleo", dicen los autores del State of AI Report; "Nvidia genera ganancias récord y cada vez más empresas usan sus GPU como una ventaja competitiva".
Un liderazgo indiscutible
Lambda, Google A3, Inflection y Oracle Cloud forman parte del TOP5 de compañías con mayor capacidad de computación basada en GPUs H100, con entre 30.000 y 16.000 cada compañía. Pero hay otra empresa que tiene más de diez veces una mayor capacidad que Lambda... de hecho, cuenta con más GPUs H100 que todas las demás empresas del gráfico juntas: Meta, la compañía fundada por Mark Zuckerberg y propietaria de Facebook o Instagram.
Su dominio quizá sea menos arrollador en cuanto a GPUs A100, pero Meta sigue encabezando el ranking, muy por delante de Tesla, la europea Leonardo, Lambda o XTX Markets.
El pasado mes de febrero, Zuckerberg mencionó la magnitud de la infraestructura de inteligencia artificial de Meta en su publicación periódica de resultados de la compañía:
"El primero es la infraestructura informática de clase mundial. Hace poco compartí que, para finales de este año, tendremos alrededor de 350.000 H100 e incluidas otras GPU, que sumarán alrededor de 600.000 equivalentes a la computación H100. Estamos bien posicionados ahora gracias a las lecciones que aprendimos de Reels.
Inicialmente, diseñamos menos nuestros clústeres de GPU para Reels, y cuando estábamos pasando por eso, decidí que deberíamos desarrollar suficiente capacidad para soportar tanto Reels como otro servicio de IA del mismo tamaño que esperábamos que surgiera.
Y en ese momento la decisión fue algo controvertida y enfrentamos muchas preguntas sobre el gasto de capital, pero estoy muy contento de haberlo hecho".
Esto convierte a Meta en uno de los mayores operadores de clústeres de GPU del mundo, ampliando aún más sus inversiones en AI Research SuperCluster de hace 2 años. Según explica Eric Seufert,
"El aumento de los gastos de capital en 'IA' no debe considerarse análogo a las inversiones en el metaverso. Los sistemas de clasificación y recomendación de Meta se benefician significativamente de la infraestructura de inteligencia artificial de la compañía".
Emad Mostaque (fundador de Stability AI, los desarrolladores de Stable Diffusion), nos recuerda que, de los 350.000 H100 de Meta, "está usando aproximadamente 35.000 de ellos para entrenar modelos de Llama [...] Hacer que Llama sea de código abierto significa que, si la comunidad consigue que éste sea un 10% más eficiente, entonces la capacitación es básicamente gratuita".
Por su parte, Andriy Burkov, autor de 'The Hundred-Page Machine Learning Book', resume el gráfico en pocas palabras: "Así se gana la carrera de la IA".
Imagen | Marcos Merino mediante IA
Ver 7 comentarios