Sponsor

Recent

LOS HUMANOS SUPERAN A LA IA EN ESTA PRUEBA MATEMÁTICA ALTAMENTE RIGUROSA

Una nueva prueba comparativa que enfrenta a la IA con problemas matemáticos nunca antes vistos demuestra que los sistemas aún no alcanzan el nivel de la pericia humana más avanzada

El modelo de inteligencia artificial con mejor rendimiento obtuvo una puntuación de 6 sobre 10 en el conjunto de desafíos matemáticos First Proof. Crédito: vitacopS/Getty

Davide Castelvecchi
Nature.com

La inteligencia artificial ha superado su prueba matemática más rigurosa hasta la fecha. Ya se conocen los resultados, y los modelos de IA que participaron no estuvieron a la altura de las habilidades de resolución de problemas de los mejores matemáticos.

La prueba —parte del proyecto First Proof, cuyo objetivo es evaluar la capacidad de la IA para resolver problemas matemáticos complejos— planteó diez problemas matemáticos de nivel de investigación a cuatro sistemas de IA. Un jurado anónimo de especialistas humanos en los campos matemáticos pertinentes evaluó las respuestas de los modelos. Esta prueba fue la primera de su tipo en cumplir tres condiciones clave simultáneamente: primero, consistía en problemas matemáticos de nivel de investigación; segundo, incluía problemas que no aparecían en los datos de entrenamiento; y tercero, fue calificada formalmente por matemáticos. Los resultados se publicaron en el sitio web de First Proof el 10 de junio.

Estos hallazgos se suman a los recientes avances de la IA en la resolución de problemas matemáticos. El mes pasado, por ejemplo, un chatbot creado por la empresa tecnológica OpenAI, con sede en San Francisco, California, resolvió un problema matemático de hace 80 años planteado por el difunto matemático Paul Erdős. El equipo de First Proof afirma que futuras iteraciones de la prueba podrían ayudar a los investigadores a evaluar la utilidad de los modelos de IA para los matemáticos; por ejemplo, para resolver problemas de forma autónoma, verificar demostraciones o actuar como asistentes de investigación.
Demuéstralo

Una importante innovación de la prueba First Proof fue que las preguntas no se habían mencionado previamente en ninguna publicación ni en internet, lo que redujo el riesgo de que los modelos simplemente repitieran información aprendida durante su entrenamiento. En cambio, diez investigadores de diversas especialidades matemáticas aportaron cada uno una pregunta que habían resuelto en el transcurso de su propia investigación, pero que aún no habían publicado.

En febrero, First Proof realizó una prueba piloto con un conjunto diferente de problemas novedosos. En esa ronda, cualquiera podía probar sus sistemas de IA favoritos con los problemas, y muchos grupos lo hicieron, pero el equipo de First Proof no verificó oficialmente los resultados. Tampoco había forma de comprobar de forma independiente que las IA no hubieran recibido ayuda humana.

En esta ocasión, First Proof realizó la prueba por sí mismo: el equipo pidió a los modelos que resolvieran problemas de forma totalmente autónoma y contó con un grupo de 30 matemáticos para revisar las respuestas. «Los organizadores han planificado con mayor detenimiento esta segunda tanda para que sea más controlada y sistemática», afirma el matemático Jeremy Avigad, director del Instituto de Razonamiento Asistido por Computadora en Matemáticas de la Universidad Carnegie Mellon en Pittsburgh, Pensilvania.

Otra regla era que los modelos participantes debían ser de acceso público. Esto significaba que Aletheia de Google —un sistema diseñado específicamente para resolver problemas matemáticos— y la versión completa e inédita de Claude Mythos, un modelo creado por Anthropic en San Francisco, California, no podían utilizarse. OpenAI fue la única gran empresa que participó, con su modelo ChatGPT 5.5 Pro.

Los demás sistemas fueron proporcionados por tres grupos académicos de la Universidad de California en Los Ángeles (UCLA), la Universidad de Princeton en Nueva Jersey y el Instituto Federal Suizo de Tecnología (ETH) en Zúrich. Los tres desarrollaron "sistemas automatizados" sobre chatbots existentes, como ChatGPT, Gemini de Google y la versión pública de Claude de Anthropic. (Un sistema automatizado consiste en formular una pregunta a un chatbot y que otro chatbot verifique la respuesta, a menudo mediante un intercambio repetido de información).

Resultados de matemáticas

El modelo del equipo de ETH obtuvo el mejor rendimiento, resolviendo seis de cada diez problemas con un sistema en el que las respuestas de ChatGPT fueron revisadas o mejoradas por un "consejo asesor" compuesto por los tres principales chatbots. El equipo de UCLA, que desarrolló una plataforma basada en ChatGPT, quedó en segundo lugar, seguido por el equipo de OpenAI (ChatGPT sin plataforma) y Princeton (una plataforma que utiliza principalmente Gemini 3.1 Pro como backend).

doi: https://doi.org/10.1038/d41586-026-01888-9

______________
Fuente:

Entradas que pueden interesarte

EMANCIPACIÓN, OTRA MANERA DE VER LA ACTUALIDAD

Los Dominios del Poder 2026

Progreso, IA y Mundial 2026

Ciencia y Poder 2026

ENTRADA DESTACADA

LOS HUMANOS SUPERAN A LA IA EN ESTA PRUEBA MATEMÁTICA ALTAMENTE RIGUROSA

LOS HUMANOS SUPERAN A LA IA EN ESTA PRUEBA MATEMÁTICA ALTAMENTE RIGUROSA

Una nueva prueba comparativa que enfrenta a la IA con problemas matemáticos nunca antes vistos demu…

LO MÁS VISTO

UNA GUERRA EN LA QUE (CASI) TODOS PIERDEN

A menos de tres meses de que Israel y Estados Unidos iniciaran la guerra contra Irán y Líbano, se clarifica el efecto de esta: miles de víctimas directas e indirectas e impactos negativos inmediatos y colaterales Casas destruidas en Basta, Beirut  Sergio Ferrari otromundoesposible.net/20/05/2026 Los ataques de Israel en Líbano a partir del 28 de febrero ya han causado al menos 2.800 muertes y 8.700 heridos, número que sigue aumentando a pesar del alto al fuego pactado en abril. Hacia fines de ese mes, la Fundación de los Mártires de Irán reconocía casi 3.500 muertos como resultado de los bombardeos en su país. Por su parte, un reciente análisis de la cadena informativa alemana Deutsche Welle calcula que, hasta el momento, el conflicto ha generado gastos militares cercanos a los 30 mil millones de dólares y un lastre de infraestructuras destruidas, sin duda sumas colosales para una eventual futura reconstrucción ( https://www.dw.com/es/china-insta-a-pakist%C3%A1n-a-intensificar-su-m...

MERCENARIOS DE LA COMUNICACIÓN (I y II)

1. Así opera la red internacional para tumbar a Iván Cepeda el 31 de mayo 2. El bestiario mediático colombiano *** 1. Mercenarios de la comunicación (I): así opera la red internacional para tumbar a Iván Cepeda el 31 de mayo Esta serie de Diario Red revela que los votantes colombianos enfrentan una operación nacional e internacional de desestabilización mediática y política de cara a las elecciones presidenciales El candidato a la Presidencia de Colombia, Iván Cepeda Castro - Carlos Luján / Europa Press / ContactoPhoto Diana Carolina Alfonso d iario-red.com/ 19-22/05/26  En el contexto electoral, Colombia se ha convertido en el campo de batalla de una intervención mediática y digital explícita: titulares falsos, perfiles zombi y una cadena de medios que amplifican distorsiones. Estas distorsiones son plantadas por una arquitectura de inteligencia artificial entrenada específicamente para fabricar el miedo. Esta serie investigativa de Diario Red aborda primero las operaciones mediát...

A PROPÓSITO DE LA “POLARIZACIÓN” DEL PAÍS

Son miles y miles los logros alcanzados en este gobierno, que han sido intencionalmente invisibilizados, no se ven, o desprestigiados por los grandes medios de comunicación ya señalados, negándosele a la ciudadanía el derecho a recibir una información veraz y oportuna para que pueda decidir libremente y democráticamente frente al presente y futuro de la nación Imagen domio público Néstor Raúl Ramírez Moreno* labagatela.org Desde la llegada de Gustavo Petro a la Presidencia de la República, con una propuesta política progresista, de cambio social, los grandes medios de comunicación (RCN, Caracol, City TV, Blu Radio, El Tiempo, El Espectador, Semana, entre otros) y junto con ellos muchos de los dirigentes que hacen parte de la política tradicional del país, han venido manipulando ideológicamente a la ciudadanía con el cuento de que los discursos de Petro “polarizan” el país, que el país está “polarizado”, por un lado la izquierda y por el otro la derecha. Este relato malintencionado va a...