Hay quien pueda pensar que el entrenamiento y desarrollo de los modelos extensos de lenguaje que alimentan las herramientas de inteligencia artificial generativa necesiten de ordenadores y equipos de gran potencia para cumplir con su tarea. Esto, desde luego, es así, pero un equipo de investigadores ha demostrado lo contrario.
Desde EXO Labs, organización formada por investigadores e ingenieros de la Universidad de Oxford, han demostrado cómo un ordenador con Windows 98 ha ejecutado un potente modelo de lenguaje. El PC en cuestión contaba con un Pentium II de CPU y una memoria de 128 MB de RAM.
BitNet, una arquitectura pensada para 'democratizar el acceso a la IA'
El vídeo publicado en X demuestra cómo estos investigadores se las han ingeniado para ejecutar un modelo de lenguaje en esta antigualla de PC. El equipo disponía de un Elonex Pentium II con una frecuencia de 350 MHz y Windows 98 como sistema operativo. La tarea que se le había encomendado al PC fue la de ejecutar un modelo basado en Llama 2.
El modelo estaba basado en el código de Llama2.c de Andrej Karpathy, uno de los científicos de datos más influyentes e innovadores que ha trabajado en empresas tales como OpenAI o Tesla. Contra todo pronóstico, el PC logró ejecutar este modelo de lenguaje y generar una historia sorprendentemente coherente, todo a una velocidad realmente decente para ser un modelo de lenguaje ejecutándose en local en dicha máquina.
Si bien el ritmo ya era un reto bastante grande en esta situación, otro obstáculo que el equipo tuvo que superar fue el de conseguir que el código moderno pudiese compilar y funcionara en un sistema operativo de 1998. Con el tiempo, lograron que el rendimiento fuese de unos 39,31 tokens por segundo ejecutando un modelo basado en Llama 2 con alrededor de 260.000 parámetros.
Sin embargo, al aumentar el tamaño del modelo, el rendimiento se vio afectado significativamente. Por ejemplo, según cuentan desde TechSpot, el modelo Llama 3.2 con 1.000 millones de parámetros apenas alcanzó 0,0093 tokens por segundo en el antiguo equipo.
El motivo de este experimento no es más que conseguir que modelos de lenguaje extensos como el de Llama 2 puedan ejecutarse en dispositivos tan modestos como el PC mencionado. De esta manera, EXO Labs busca ‘democratizar el acceso a la IA’, y evitar así que este tipo de herramientas solo estén a disposición de tan solo un puñado de gigantes tecnológicos.
Este grupo está sumergido en la creación de BitNet, una disruptiva arquitectura que utiliza sistemas ternarios para reducir drásticamente el tamaño del modelo. Según el equipo, con esta arquitectura, un modelo de 7.000 millones de parámetros solo necesitaría 1,38 GB de almacenamiento, algo factible para su ejecución en la mayoría de equipos modestos.
BitNet ha sido desarrollado para su funcionamiento en CPUs, eliminando la necesidad de adquirir tarjetas gráficas con precios desorbitados para su cometido. Y lo que es más sorprendente: esta arquitectura puede aprovechar hasta modelos de 100.000 millones de parámetros en una sola CPU manteniendo velocidades de lectura humanas de entre 5 y 7 tokens por segundo.
Imagen de portada | Alex Cheema
Ver 0 comentarios