LOS HUMANOS SUPERAN A LA IA EN ESTA PRUEBA MATEMÁTICA ALTAMENTE RIGUROSA

Una nueva prueba comparativa que enfrenta a la IA con problemas matemáticos nunca antes vistos demuestra que los sistemas aún no alcanzan el nivel de la pericia humana más avanzada

El modelo de inteligencia artificial con mejor rendimiento obtuvo una puntuación de 6 sobre 10 en el conjunto de desafíos matemáticos First Proof. Crédito: vitacopS/Getty

Davide Castelvecchi

Nature.com

La inteligencia artificial ha superado su prueba matemática más rigurosa hasta la fecha. Ya se conocen los resultados, y los modelos de IA que participaron no estuvieron a la altura de las habilidades de resolución de problemas de los mejores matemáticos.

La prueba —parte del proyecto First Proof, cuyo objetivo es evaluar la capacidad de la IA para resolver problemas matemáticos complejos— planteó diez problemas matemáticos de nivel de investigación a cuatro sistemas de IA. Un jurado anónimo de especialistas humanos en los campos matemáticos pertinentes evaluó las respuestas de los modelos. Esta prueba fue la primera de su tipo en cumplir tres condiciones clave simultáneamente: primero, consistía en problemas matemáticos de nivel de investigación; segundo, incluía problemas que no aparecían en los datos de entrenamiento; y tercero, fue calificada formalmente por matemáticos. Los resultados se publicaron en el sitio web de First Proof el 10 de junio.

Estos hallazgos se suman a los recientes avances de la IA en la resolución de problemas matemáticos. El mes pasado, por ejemplo, un chatbot creado por la empresa tecnológica OpenAI, con sede en San Francisco, California, resolvió un problema matemático de hace 80 años planteado por el difunto matemático Paul Erdős. El equipo de First Proof afirma que futuras iteraciones de la prueba podrían ayudar a los investigadores a evaluar la utilidad de los modelos de IA para los matemáticos; por ejemplo, para resolver problemas de forma autónoma, verificar demostraciones o actuar como asistentes de investigación.

Demuéstralo

Una importante innovación de la prueba First Proof fue que las preguntas no se habían mencionado previamente en ninguna publicación ni en internet, lo que redujo el riesgo de que los modelos simplemente repitieran información aprendida durante su entrenamiento. En cambio, diez investigadores de diversas especialidades matemáticas aportaron cada uno una pregunta que habían resuelto en el transcurso de su propia investigación, pero que aún no habían publicado.

En febrero, First Proof realizó una prueba piloto con un conjunto diferente de problemas novedosos. En esa ronda, cualquiera podía probar sus sistemas de IA favoritos con los problemas, y muchos grupos lo hicieron, pero el equipo de First Proof no verificó oficialmente los resultados. Tampoco había forma de comprobar de forma independiente que las IA no hubieran recibido ayuda humana.

En esta ocasión, First Proof realizó la prueba por sí mismo: el equipo pidió a los modelos que resolvieran problemas de forma totalmente autónoma y contó con un grupo de 30 matemáticos para revisar las respuestas. «Los organizadores han planificado con mayor detenimiento esta segunda tanda para que sea más controlada y sistemática», afirma el matemático Jeremy Avigad, director del Instituto de Razonamiento Asistido por Computadora en Matemáticas de la Universidad Carnegie Mellon en Pittsburgh, Pensilvania.

Otra regla era que los modelos participantes debían ser de acceso público. Esto significaba que Aletheia de Google —un sistema diseñado específicamente para resolver problemas matemáticos— y la versión completa e inédita de Claude Mythos, un modelo creado por Anthropic en San Francisco, California, no podían utilizarse. OpenAI fue la única gran empresa que participó, con su modelo ChatGPT 5.5 Pro.

Los demás sistemas fueron proporcionados por tres grupos académicos de la Universidad de California en Los Ángeles (UCLA), la Universidad de Princeton en Nueva Jersey y el Instituto Federal Suizo de Tecnología (ETH) en Zúrich. Los tres desarrollaron "sistemas automatizados" sobre chatbots existentes, como ChatGPT, Gemini de Google y la versión pública de Claude de Anthropic. (Un sistema automatizado consiste en formular una pregunta a un chatbot y que otro chatbot verifique la respuesta, a menudo mediante un intercambio repetido de información).

Resultados de matemáticas

El modelo del equipo de ETH obtuvo el mejor rendimiento, resolviendo seis de cada diez problemas con un sistema en el que las respuestas de ChatGPT fueron revisadas o mejoradas por un "consejo asesor" compuesto por los tres principales chatbots. El equipo de UCLA, que desarrolló una plataforma basada en ChatGPT, quedó en segundo lugar, seguido por el equipo de OpenAI (ChatGPT sin plataforma) y Princeton (una plataforma que utiliza principalmente Gemini 3.1 Pro como backend).

doi: https://doi.org/10.1038/d41586-026-01888-9

______________

Fuente:

https://www.nature.com/articles/d41586-026-01888-9

A PROPÓSITO DE LA “POLARIZACIÓN” DEL PAÍS

Son miles y miles los logros alcanzados en este gobierno, que han sido intencionalmente invisibilizados, no se ven, o desprestigiados por los grandes medios de comunicación ya señalados, negándosele a la ciudadanía el derecho a recibir una información veraz y oportuna para que pueda decidir libremente y democráticamente frente al presente y futuro de la nación Imagen domio público Néstor Raúl Ramírez Moreno* labagatela.org Desde la llegada de Gustavo Petro a la Presidencia de la República, con una propuesta política progresista, de cambio social, los grandes medios de comunicación (RCN, Caracol, City TV, Blu Radio, El Tiempo, El Espectador, Semana, entre otros) y junto con ellos muchos de los dirigentes que hacen parte de la política tradicional del país, han venido manipulando ideológicamente a la ciudadanía con el cuento de que los discursos de Petro “polarizan” el país, que el país está “polarizado”, por un lado la izquierda y por el otro la derecha. Este relato malintencionado va a...

Sponsor

Recent

LOS HUMANOS SUPERAN A LA IA EN ESTA PRUEBA MATEMÁTICA ALTAMENTE RIGUROSA

EMANCIPACIÓN, OTRA MANERA DE VER LA ACTUALIDAD

ENTRADA DESTACADA

LOS HUMANOS SUPERAN A LA IA EN ESTA PRUEBA MATEMÁTICA ALTAMENTE RIGUROSA

LO MÁS VISTO

UNA GUERRA EN LA QUE (CASI) TODOS PIERDEN

MERCENARIOS DE LA COMUNICACIÓN (I y II)

A PROPÓSITO DE LA “POLARIZACIÓN” DEL PAÍS

Emancipación Audio. Geopolítica, Ciencia y actualidad en audio

INDICE GENERAL

Vistas de página en total

GRILLA DE CANALES GRATIS: NOTICIAS, ENTRETENIMIENTO

Revistas Emancipación N° 1045 - 1044

PÁGINAS

Biblioteca Emancipación

Revista Pedagógica Nueva Escuela

Sponsor

Recent

Entradas que pueden interesarte

EMANCIPACIÓN, OTRA MANERA DE VER LA ACTUALIDAD

ENTRADA DESTACADA

LOS HUMANOS SUPERAN A LA IA EN ESTA PRUEBA MATEMÁTICA ALTAMENTE RIGUROSA

LO MÁS VISTO

UNA GUERRA EN LA QUE (CASI) TODOS PIERDEN

MERCENARIOS DE LA COMUNICACIÓN (I y II)

A PROPÓSITO DE LA “POLARIZACIÓN” DEL PAÍS

Emancipación Audio. Geopolítica, Ciencia y actualidad en audio

INDICE GENERAL

Vistas de página en total

Últimos Artículos Relacionados:

GRILLA DE CANALES GRATIS: NOTICIAS, ENTRETENIMIENTO

Revistas Emancipación N° 1045 - 1044

PÁGINAS

Biblioteca Emancipación

Revista Pedagógica Nueva Escuela