Pensábamos que la IA era muy buena en matemáticas: este nuevo test acaba de demostrar que no es así. Nosotros tampoco lo somos

Las matemáticas avanzadas son un terreno complicado porque no sólo requieren cálculo o reglas, sino también pensamiento lógico preciso y creativo. Además, los problemas matemáticos suelen requerir de una comprensión profunda del contexto, algo que las IA actuales no logran dominar.

Por eso, los actuales modelos de IA (como GPT-4) son muy buenos generando código, textos e imágenes, pero cuando se trata de abordar problemas matemáticos que vayan más allá de lo básico, por requerir de razonamiento avanzado, la prometedora inteligencia artificial naufraga bastante rápido.

Las soluciones matemáticas exigen pensar paso a paso, y un único error puede invalidar todo el trabajo

Por qué FrontierMath es un desafío tan notable

Sí, es cierto: ya existen pruebas como GSM/8K, en las que las IA logran puntuaciones superiores al 90%, pero muchas veces la clave radica en que los resuelven meramente por haber practicado antes con problemas similares (un mero caso de 'contaminación de datos').

Ahora, un nuevo e innovador punto de referencia, FrontierMath, está exponiendo lo lejos que está la IA a la hora de estar en condiciones de suplir a los matemáticos.

En Genbeta

Bill Gates tenía casi decidido ser matemático. Esto fue lo que le hizo apostar por los ordenadores

Esta prueba fue diseñada por Epoch AI con el objetivo específico de exponer estas limitaciones. Los problemas no se parecen a ningún conjunto de datos de entrenamiento existente y requieren razonamiento profundo, no memorización.

Además, las respuestas suelen ser complejas y no pueden adivinarse. Esto evita que las IA utilicen atajos, como el reconocimiento de patrones superficiales, y obliga a demostrar una comprensión matemática genuina.

Por todo esto, incluso los modelos más avanzados, como GPT-4o y Gemini 1.5 Pro, tan sólo han sido capaces de resolver menos del 2% de los problemas usados para dar forma a FrontierMath.

Matemáticos de renombre, como Terence Tao y Timothy Gowers, han reconocido que los problemas son mucho más complicados que los de competencias internacionales como la Olimpiada Matemática. Matthew Barnett, un experto en IA, definió así la importancia de FrontierMat:

"Lo primero que hay que entender sobre FrontierMath es que es realmente muy difícil. Casi todo el mundo en la Tierra obtendría una puntuación de aproximadamente el 0%, incluso si se les diera un día completo para resolver cada problema. Afirmo que, una vez que FrontierMath esté completamente resuelto, los humanos compartiremos esta Tierra con mentes artificiales que serán tan inteligentes como nosotros".

Limitaciones actuales de la IA frente a las matemáticas

Falta de razonamiento estructurado: Las IA procesan datos de manera lineal y están entrenadas para identificar patrones en grandes cantidades de información. Sin embargo, los problemas matemáticos muchas veces requieren conexiones lógicas que no siguen un patrón obvio.
Dependencia de datos previos: Los modelos de IA como GPT-4o han sido entrenados con grandes cantidades de información, pero esta incluye ejemplos específicos que pueden no generalizar bien. Si los problemas son nuevos, como los de FrontierMath, no pueden depender de lo que ya han "visto".
Dificultades con cadenas largas de razonamiento: Resolver un problema matemático suele implicar múltiples pasos que deben ser correctos. Los modelos actuales suelen cometer errores en pasos intermedios, lo que invalida el resultado final.
Creatividad limitada: Muchos problemas matemáticos avanzados requieren soluciones innovadoras, no solo repetir procesos conocidos. Aunque las IA son buenas imitando patrones, tienen dificultades para encontrar enfoques realmente nuevos.

En Genbeta

China se acaba de llevar el primer puesto en cuanto a la mejor IA para matemáticas. Lo mejor de todo es que es open-source

El camino hacia la mejora

Para que las IA mejoren en matemáticas, será necesario que desarrollen capacidades avanzadas de razonamiento lógico y abstracción. Esto podría incluir:

Integrar modelos especializados: Combinar herramientas específicas de matemáticas con modelos de lenguaje podría ayudar a manejar mejor ciertos problemas.
Aprender de retroalimentación: Diseñar IA que puedan aprender de errores en tiempo real para ajustar sus estrategias.
Mayor comprensión del contexto: Entrenar modelos para interpretar el significado profundo detrás de los problemas, en lugar de depender solo de patrones.

Vía | VentureBeat

Imagen | Marcos Merino mediante IA

En Genbeta | “No son lo bastante inteligentes”: un profesor de matemáticas comparte un truco infalible para pillar deberes hechos con IA