Una nueva prueba comparativa que enfrenta a la IA con problemas matemáticos nunca antes vistos demuestra que los sistemas aún no alcanzan el nivel de la pericia humana más avanzada
El modelo de inteligencia artificial con mejor rendimiento obtuvo una puntuación de 6 sobre 10 en el conjunto de desafíos matemáticos First Proof. Crédito: vitacopS/Getty
Davide Castelvecchi
Nature.com
La inteligencia artificial ha superado su prueba matemática más rigurosa hasta la fecha. Ya se conocen los resultados, y los modelos de IA que participaron no estuvieron a la altura de las habilidades de resolución de problemas de los mejores matemáticos.
La prueba —parte del proyecto First Proof, cuyo objetivo es evaluar la capacidad de la IA para resolver problemas matemáticos complejos— planteó diez problemas matemáticos de nivel de investigación a cuatro sistemas de IA. Un jurado anónimo de especialistas humanos en los campos matemáticos pertinentes evaluó las respuestas de los modelos. Esta prueba fue la primera de su tipo en cumplir tres condiciones clave simultáneamente: primero, consistía en problemas matemáticos de nivel de investigación; segundo, incluía problemas que no aparecían en los datos de entrenamiento; y tercero, fue calificada formalmente por matemáticos. Los resultados se publicaron en el sitio web de First Proof el 10 de junio.
Estos hallazgos se suman a los recientes avances de la IA en la resolución de problemas matemáticos. El mes pasado, por ejemplo, un chatbot creado por la empresa tecnológica OpenAI, con sede en San Francisco, California, resolvió un problema matemático de hace 80 años planteado por el difunto matemático Paul Erdős. El equipo de First Proof afirma que futuras iteraciones de la prueba podrían ayudar a los investigadores a evaluar la utilidad de los modelos de IA para los matemáticos; por ejemplo, para resolver problemas de forma autónoma, verificar demostraciones o actuar como asistentes de investigación.
Demuéstralo
Una importante innovación de la prueba First Proof fue que las preguntas no se habían mencionado previamente en ninguna publicación ni en internet, lo que redujo el riesgo de que los modelos simplemente repitieran información aprendida durante su entrenamiento. En cambio, diez investigadores de diversas especialidades matemáticas aportaron cada uno una pregunta que habían resuelto en el transcurso de su propia investigación, pero que aún no habían publicado.
En febrero, First Proof realizó una prueba piloto con un conjunto diferente de problemas novedosos. En esa ronda, cualquiera podía probar sus sistemas de IA favoritos con los problemas, y muchos grupos lo hicieron, pero el equipo de First Proof no verificó oficialmente los resultados. Tampoco había forma de comprobar de forma independiente que las IA no hubieran recibido ayuda humana.
En esta ocasión, First Proof realizó la prueba por sí mismo: el equipo pidió a los modelos que resolvieran problemas de forma totalmente autónoma y contó con un grupo de 30 matemáticos para revisar las respuestas. «Los organizadores han planificado con mayor detenimiento esta segunda tanda para que sea más controlada y sistemática», afirma el matemático Jeremy Avigad, director del Instituto de Razonamiento Asistido por Computadora en Matemáticas de la Universidad Carnegie Mellon en Pittsburgh, Pensilvania.
Otra regla era que los modelos participantes debían ser de acceso público. Esto significaba que Aletheia de Google —un sistema diseñado específicamente para resolver problemas matemáticos— y la versión completa e inédita de Claude Mythos, un modelo creado por Anthropic en San Francisco, California, no podían utilizarse. OpenAI fue la única gran empresa que participó, con su modelo ChatGPT 5.5 Pro.
Los demás sistemas fueron proporcionados por tres grupos académicos de la Universidad de California en Los Ángeles (UCLA), la Universidad de Princeton en Nueva Jersey y el Instituto Federal Suizo de Tecnología (ETH) en Zúrich. Los tres desarrollaron "sistemas automatizados" sobre chatbots existentes, como ChatGPT, Gemini de Google y la versión pública de Claude de Anthropic. (Un sistema automatizado consiste en formular una pregunta a un chatbot y que otro chatbot verifique la respuesta, a menudo mediante un intercambio repetido de información).
Resultados de matemáticas
El modelo del equipo de ETH obtuvo el mejor rendimiento, resolviendo seis de cada diez problemas con un sistema en el que las respuestas de ChatGPT fueron revisadas o mejoradas por un "consejo asesor" compuesto por los tres principales chatbots. El equipo de UCLA, que desarrolló una plataforma basada en ChatGPT, quedó en segundo lugar, seguido por el equipo de OpenAI (ChatGPT sin plataforma) y Princeton (una plataforma que utiliza principalmente Gemini 3.1 Pro como backend).
doi: https://doi.org/10.1038/d41586-026-01888-9
______________
Fuente:
