Justo cuando OpenAI parecía haber dado un golpe sobre la mesa en el sector de los chatbots, la industria de la IA china -que, recordemos, lleva tiempo intentando ganar la carrera a sus rivales estadounidenses- ha contestado lanzando DeepSeek-V3, un modelo de lenguaje que no solo promete superar a gigantes como ChatGPT, sino que también ha sorprendido a la comunidad tecnológica por el bajo costo de su desarrollo y entrenamiento.
DeepSeek: de las finanzas a la computación
DeepSeek proviene de una fuente poco convencional: High-Flyer Capital Management, un fondo de inversiones que ha dominado el sector financiero chino desde su creación en 2015. Con activos gestionados de aproximadamente 8.000 millones de dólares, High-Flyer viene utilizando IA y algoritmos para identificar patrones que afectan los precios de las acciones.
Esta experiencia ha sido la base para desarrollar ahora un modelo de IA que ha captado la atención de los expertos: diversos tests ya posicionaban a DeepSeek-V2 entre los mejores modelos de lenguaje a nivel mundial. Investigadores de la Universidad de Waterloo (Canadá) lo clasificaron dentro de los diez mejores modelos, solo por detrás de GPT-4 de OpenAI, Claude de Anthropic y de su rival chino 01.AI.
La compañía ha invertido cerca de 25,42 millones de euros en su primer clúster de computación y está destinando aproximadamente 127,1 millones de euros para la construcción de un segundo clúster que ocupa un área similar al tamaño de un campo de fútbol: conecta más de 10.000 procesadores Nvidia de última generación, proporcionando la potencia computacional necesaria para entrenar modelos de gran envergadura.
A pesar de las restricciones impuestas por Washington en 2022 sobre la exportación de chips Nvidia a China, High-Flyer logró adquirir los chips A100 antes de la prohibición, asegurándose así una ventaja tecnológica crucial para el desarrollo de DeepSeek.
Alto rendimiento, bajo coste
Ahora, DeepSeek ha lanzado su modelo V3 con 671.000 millones de parámetros, y basado en la técnica MoE ('mezcla de expertos diversos'), con lo que ha mejorado claramente su velocidad de procesamiento y capacidades con respecto a la versión V-2. A pesar de entrenar este modelo con sólo 2.048 GPUs durante dos meses y un presupuesto de 6 millones de dólares, DeepSeek-V3 ha demostrado un rendimiento impresionante, acercándose a modelos desarrollados con recursos mucho mayores.
Cabe señalar que Andrej Karpathy, cofundador de Tesla, ha definido dicha cantidad como "un presupuesto de risa".
Otra de las características más llamativas de DeepSeek es su costo operativo, significativamente menor que el de sus competidores: con un precio de aproximadamente 13 céntimos de euro por cada millón de tokens de salida (palabras generadas por consulta), DeepSeek ha desencadenado una guerra de precios entre los proveedores chinos de IA. En respuesta, gigantes tecnológicos como ByteDance, Alibaba y Baidu han reducido drásticamente sus precios, haciendo que los modelos de IA sean más accesibles para desarrolladores y empresas.
Desafíos y futuro de DeepSeek
A pesar de sus éxitos, DeepSeek enfrenta varios desafíos. La estrategia de precios bajos ha llevado a la empresa a operar con márgenes reducidos, que plantean dudas sobre su sostenibilidad a largo plazo. Además, la continua evolución de las tecnologías de Nvidia mientras se mantienen las limitaciones en el acceso a hardware avanzado podrían afectar la capacidad de DeepSeek para mantenerse a la vanguardia.
No obstante, High-Flyer ha declarado que sus ingenieros están decididos a ser los primeros en alcanzar la IA general (AGI) y superar las capacidades cognitivas humanas.
Imagen | Marcos Merino mediante IA
En Genbeta | China tiene cientos de IAs que podemos probar gratis desde España: cómo acceder a ellas y todo lo que necesitas
Ver 0 comentarios