Las matemáticas avanzadas son un terreno complicado porque no sólo requieren cálculo o reglas, sino también pensamiento lógico preciso y creativo. Además, los problemas matemáticos suelen requerir de una comprensión profunda del contexto, algo que las IA actuales no logran dominar.
Por eso, los actuales modelos de IA (como GPT-4) son muy buenos generando código, textos e imágenes, pero cuando se trata de abordar problemas matemáticos que vayan más allá de lo básico, por requerir de razonamiento avanzado, la prometedora inteligencia artificial naufraga bastante rápido.
Por qué FrontierMath es un desafío tan notable
Sí, es cierto: ya existen pruebas como GSM/8K, en las que las IA logran puntuaciones superiores al 90%, pero muchas veces la clave radica en que los resuelven meramente por haber practicado antes con problemas similares (un mero caso de 'contaminación de datos').
Ahora, un nuevo e innovador punto de referencia, FrontierMath, está exponiendo lo lejos que está la IA a la hora de estar en condiciones de suplir a los matemáticos.
Esta prueba fue diseñada por Epoch AI con el objetivo específico de exponer estas limitaciones. Los problemas no se parecen a ningún conjunto de datos de entrenamiento existente y requieren razonamiento profundo, no memorización.
Además, las respuestas suelen ser complejas y no pueden adivinarse. Esto evita que las IA utilicen atajos, como el reconocimiento de patrones superficiales, y obliga a demostrar una comprensión matemática genuina.
Por todo esto, incluso los modelos más avanzados, como GPT-4o y Gemini 1.5 Pro, tan sólo han sido capaces de resolver menos del 2% de los problemas usados para dar forma a FrontierMath.
Matemáticos de renombre, como Terence Tao y Timothy Gowers, han reconocido que los problemas son mucho más complicados que los de competencias internacionales como la Olimpiada Matemática. Matthew Barnett, un experto en IA, definió así la importancia de FrontierMat:
"Lo primero que hay que entender sobre FrontierMath es que es realmente muy difícil. Casi todo el mundo en la Tierra obtendría una puntuación de aproximadamente el 0%, incluso si se les diera un día completo para resolver cada problema. Afirmo que, una vez que FrontierMath esté completamente resuelto, los humanos compartiremos esta Tierra con mentes artificiales que serán tan inteligentes como nosotros".
Limitaciones actuales de la IA frente a las matemáticas
- Falta de razonamiento estructurado: Las IA procesan datos de manera lineal y están entrenadas para identificar patrones en grandes cantidades de información. Sin embargo, los problemas matemáticos muchas veces requieren conexiones lógicas que no siguen un patrón obvio.
- Dependencia de datos previos: Los modelos de IA como GPT-4o han sido entrenados con grandes cantidades de información, pero esta incluye ejemplos específicos que pueden no generalizar bien. Si los problemas son nuevos, como los de FrontierMath, no pueden depender de lo que ya han "visto".
- Dificultades con cadenas largas de razonamiento: Resolver un problema matemático suele implicar múltiples pasos que deben ser correctos. Los modelos actuales suelen cometer errores en pasos intermedios, lo que invalida el resultado final.
- Creatividad limitada: Muchos problemas matemáticos avanzados requieren soluciones innovadoras, no solo repetir procesos conocidos. Aunque las IA son buenas imitando patrones, tienen dificultades para encontrar enfoques realmente nuevos.
El camino hacia la mejora
Para que las IA mejoren en matemáticas, será necesario que desarrollen capacidades avanzadas de razonamiento lógico y abstracción. Esto podría incluir:
- Integrar modelos especializados: Combinar herramientas específicas de matemáticas con modelos de lenguaje podría ayudar a manejar mejor ciertos problemas.
- Aprender de retroalimentación: Diseñar IA que puedan aprender de errores en tiempo real para ajustar sus estrategias.
- Mayor comprensión del contexto: Entrenar modelos para interpretar el significado profundo detrás de los problemas, en lugar de depender solo de patrones.
Vía | VentureBeat
Imagen | Marcos Merino mediante IA
Ver 1 comentarios