Como lo de MacGyver, el chicle y el clip: 14 líneas de código y un compresor ZIP rivalizan con las más complejas redes neuronales

La clasificación de textos es una de las tareas más básicas del campo de la inteligencia artificial conocido como 'procesamiento del lenguaje natural', uno de los beneficiados por la aparición y evolución de las redes neuronales. Sin embargo, si bien las 'redes neuronales profundas' son capaces de grandes logros a la hora de reconocer patrones…

para realizar tareas simples como la clasificación temática, suelen resultar innecesariamente complejas, además de demandar enormes cantidades de datos de entrenamiento (más cuanto más aumenta el número de parámetros). Esto obliga a usar niveles de potencia computacional que en ocasiones resultan innecesariamente altos.

Un vistazo a…
ZAO, la APP MÓVIL china que a través de DEEPFAKE te convierte en DICAPRIO en SEGUNDOS

Y es que no siempre 'más' es necesariamente 'mejor'. De hecho, no siempre 'más' (potencia) es necesariamente 'más' (rapidez). "No estamos aquí para masturbarnos por el número de parámetros" fue la chocante frase proferida hace unas semanas por Sam Altman, CEO de OpenAI. Pero resulta interesante, también, lo que dijo justo antes de eso:

"La mayoría de vosotros no sabe cuántos gigahercios tiene su iPhone, pero sí que es rápido. Lo que realmente nos importa son las capacidades, y creo que es importante que nos mantengamos centrado en aumentar rápidamente la capacidad [de los modelos grandes de lenguaje]".
"Y si hubiera alguna razón para preferir la progresiva disminución de parámetros o para apostar por tener múltiples modelos trabajando simultáneamente, lo haríamos. [Los proyectos open source] están logrando cosas con 100 dólares 13.000 millones de parámetros que a nosotros nos costaron [lograr] con 10 millones de dólares y 540.000 millones de párametros".

Pero, ¿y si no hiceran falta parámetros en absoluto? Es decir, ¿y si no hicieran falta las redes neuronales? Lo decimos porque un tuit de un programador llamado Stephen Diehl nos ha puesto sobre la pista de un proyecto que podría lograr exactamente eso:

"Un script de Python de sólo 14 líneas que utiliza gzip y supera un modelo transformer de 345 millones de parámetros es probablemente el resultado más hilarante que he visto en todo el año".

Catorce líneas, sí. Suficientemente breve como para meterlo completo en un tuit:

Así funciona

Efectivamente, hasta ahora existían numerosas alternativas más ligeras que, sin embargo, rara vez lograban igualar la calidad de las redes neuronales.

Sin embargo, un reciente paper académico propone un método de clasificación de texto basado en el uso de un compresor sin pérdida simple (gzip, el compresor de ficheros ZIP estándar en Linux) para capturar regularidades que luego se traducen en puntuaciones de similitud mediante una métrica de distancia.

Este método —ligero, fácil de usar y que no requiere parámetros de entrenamiento— ha logrado resultados competitivos con respecto a las redes neuronales en seis de las pruebas realizadas con siete conjuntos de datos y supera a todos los métodos, incluido BERT, en todos los conjuntos de datos externos:

También supera a todos los modelos por un margen amplio en situaciones de poca cantidad de datos etiquetados.

Imagen | Pete Linforth en Pixabay + Pixnio

En Xataka | Edge Computing: qué es y por qué hay gente que piensa que es el futuro

Ver todos los comentarios en https://www.genbeta.com

VER 2 Comentarios

Portada de Genbeta