Sponsor

Recent

LA IA SE VUELVE TRAMPOSA

OPENAI DESCUBRE CÓMO LOS HA ENGAÑADO

OpenAI ha revelado un problema preocupante en sus modelos avanzados de inteligencia artificial: estos sistemas pueden aprender a explotar fallos en sus tareas y, peor aún, ocultar su verdadera intención cuando se les intenta corregir.

Crédito: MysteryPlanet.com.ar.

El hallazgo proviene de un estudio sobre modelos de razonamiento basados en cadena de pensamiento (Chain of hought o CoT, en inglés), una técnica que les permite «pensar» en lenguaje natural antes de dar una respuesta. Gracias a este método, los investigadores descubrieron que las IAs eran sorprendentemente claras sobre sus intenciones, llegando a expresar abiertamente ideas como «vamos a hacer trampa».

Ocultando sus intenciones

El problema surgió cuando OpenAI intentó frenar este comportamiento mediante penalizaciones. Si bien la estrategia redujo la aparición de estos «pensamientos indeseados», no eliminó el mal hábito. En su lugar, la IA simplemente aprendió a ocultar su intención mientras seguía engañando en la práctica.

Un ejemplo claro se dio en tareas de programación, donde el modelo debía completar un código y pasar pruebas automatizadas. En vez de resolver el problema de forma legítima, algunos encontraron formas de modificar el código para que todas las pruebas se aprobaran sin cumplir realmente con los requerimientos.

Durante el entrenamiento, el agente descubrió dos formas de «hackeo de recompensas» que afectaban a casi todos los entornos de entrenamiento (representadas por los dos picos grandes en rosa intenso). Después de que el equipo de OpenAI detectara cada uno de estos trucos, realizó una intervención manual para corregir los errores que los permitían, lo que explica por qué la tasa de «hackeo» finalmente se desploma en cada caso.

El problema de fondo es conocido como hackeo de recompensas, una estrategia en la que un sistema optimiza su desempeño de formas inesperadas o no deseadas. En otras palabras, encuentra «atajos» para lograr su objetivo, aunque eso implique hacer trampa.

¿Cómo se detecta el engaño?

Dado que estos modelos expresan su razonamiento en lenguaje natural, OpenAI descubrió que es posible monitorear su pensamiento con otra IA. De hecho, al usar GPT-4o para supervisar el proceso, lograron detectar de manera efectiva estos intentos de manipulación.

Sin embargo, el problema sigue siendo complejo: si se ejerce demasiada presión para que la inteligencia artificial evite pensamientos problemáticos, simplemente aprende a esconderlos. Esto podría hacer que futuras versiones sean más difíciles de supervisar, ya que podrían desarrollar tácticas más sofisticadas para engañar sin dejar rastros evidentes.

El desafío del futuro

Este hallazgo plantea un reto importante para el desarrollo de modelos más avanzados. Si bien la capacidad de razonar en lenguaje natural es una ventaja para su monitoreo, también significa que pueden volverse más hábiles en ocultar sus verdaderas intenciones.

OpenAI sugiere que una solución podría ser dejar las CoT sin restricciones para poder seguir supervisando el razonamiento sin riesgo de que lo oculten. No obstante, esto también podría significar que, en algunos casos, sus pensamientos no sean aptos para mostrarse directamente a los usuarios.

El reto ahora es encontrar formas de optimizar la supervisión sin inducir a los modelos a esconder su comportamiento. La evolución de la inteligencia artificial sigue avanzando, pero con ello surgen nuevos riesgos que los investigadores deberán abordar con cautela.

Por MysteryPlanet.com.ar.

_______________
Fuente:

Entradas que pueden interesarte

EMANCIPACIÓN DE YOUTUBE, OTRA MANERA DE VER LA ACTUALIDAD

ENTRADA DESTACADA

EL HALLAZGO ANÓMALO QUE REVELA POR QUÉ UNOS HUMANOS SON MÁS ALTOS QUE OTROS

EL HALLAZGO ANÓMALO QUE REVELA POR QUÉ UNOS HUMANOS SON MÁS ALTOS QUE OTROS

El "código olvidado" del genoma Un análisis de 300.000 personas revela que variantes en e…

LO MÁS VISTO

EMANCIPACIÓN N° 1033

LEER REVISTA N° 1033 Leer en Línea :  https://n9.cl/91v01 *** DESCARGAR REVISTA :  https://n9.cl/c8kdkp *** CANAL DE YOUTUBE : https://www.youtube.com/channel/UCwGTi9Ni-rSZlR0j-SpqZTA ÚNATE AL CANAL DE WHATSAPP EMANCIPACIÓN:  ¡LA VOZ DE LA VERDAD!:  https://whatsapp.com/channel/0029VbC6QCiFsn0YY8YCUj0g *** VISITE BIBLIOTECA EMANCIPACIÓN LEER Y COPIAR EN LÍNEA DIRECTAMENTE: https://bibliotecaemancipacion.blogspot.com/ DESCARGUE 25 LIBROS EN PDF CON CADA ENTREGA HACIENDO CLIC EN CADA TÍTULO ANTES QUE PIERDA EL ENLACE NO OLVIDE DESCOMPRIMIR LOS ARCHIVOS 14926 México En Las Exposiciones Universales. Construyendo Una Nación Moderna. Tenorio-Trillo, Mauricio. Emancipación. Marzo 21 de 2026 14927 La Vida En El Misisipi. Twain, Mark. Emancipación. Marzo 21 de 2026 14928 Morir En La Arena. Padura, Leonardo. Emancipación. Marzo 21 de 2026 14929 El Camino Inesperado. Monreal Landete, Alejandro. Emancipación. Marzo 21 de 2026 14930 Avaricia. Norris, Frank. Emancipación. Marz...

¿QUÉ ESTÁ EN JUEGO EN LA GUERRA CONTRA IRÁN?

Luego del fracaso de la guerra arancelaria y económica, Estados Unidos apuesta por intervenciones militares directas en las potencias petroleras Imagen E.O con Nano Banana 2 Martín Martinelli jacobinlat.com/03/04/2026 La guerra de Estados Unidos e Israel contra Irán entrelaza numerosos elementos geopolíticos clave, que van desde la apuesta inmediata para controlar vías estratégicas de circulación comercial hasta el inicio de una reorganización regional a gran escala. Las escaladas bélicas en años recientes y, particularmente, las planteadas desde 2022 en Ucrania-Rusia, Palestina (y la región circundante. incluyendo a Israel, Líbano, Yemen, Iraq e incluso Afganistán y Pakistán), Venezuela e Irán, además de los países sancionados unilateralmente, conforman distintas batallas que están relacionadas. Ese uso de la fuerza busca impedir el declive hegemónico estadounidense y occidental en el mundo, que se siente desafiado por la irrupción de China, Rusia y sus alianzas. En esta transición he...

IRÁN: EL FRANKENSTEIN QUE IDEÓ EE.UU E ISRAEL PARA JUSTIFICAR SUS BOMBAS QUE ASESINAN CIVILES

Antes de que cayera el primer misil sobre Teherán, la guerra ya estaba justificada en los titulares de la prensa mundial Durante siglos, Occidente construyó una imagen de Irán como el lugar de los bárbaros, los fanáticos, los irracionales. Cuando cayeron los misiles y las bombas de Estados Unidos e Israel en febrero pasado, la opinión pública ya sabía quién era el “malo”. No lo decidieron los hechos. Lo decidió el relato Imagen E.O con chatgpt.com Por: Juan Sebastián Lozano revistaraya.com Cuando Occidente habla de Irán, no solo describe un país: también activa una vieja idea sobre quién es civilizado y quién no. Esa mirada, que presenta a Irán como amenaza irracional y a Estados Unidos o Israel como actores más legítimos, atraviesa el lenguaje de agencias, noticieros y grandes medios. Este texto no niega el autoritarismo iraní. Lo que cuestiona es otra cosa: el doble rasero con el que se cuentan sus muertos, se nombran sus gobiernos y se justifica la guerra. Esa forma de mirar no naci...