Sponsor

Recent

LA IA SE VUELVE TRAMPOSA

OPENAI DESCUBRE CÓMO LOS HA ENGAÑADO

OpenAI ha revelado un problema preocupante en sus modelos avanzados de inteligencia artificial: estos sistemas pueden aprender a explotar fallos en sus tareas y, peor aún, ocultar su verdadera intención cuando se les intenta corregir.

Crédito: MysteryPlanet.com.ar.

El hallazgo proviene de un estudio sobre modelos de razonamiento basados en cadena de pensamiento (Chain of hought o CoT, en inglés), una técnica que les permite «pensar» en lenguaje natural antes de dar una respuesta. Gracias a este método, los investigadores descubrieron que las IAs eran sorprendentemente claras sobre sus intenciones, llegando a expresar abiertamente ideas como «vamos a hacer trampa».

Ocultando sus intenciones

El problema surgió cuando OpenAI intentó frenar este comportamiento mediante penalizaciones. Si bien la estrategia redujo la aparición de estos «pensamientos indeseados», no eliminó el mal hábito. En su lugar, la IA simplemente aprendió a ocultar su intención mientras seguía engañando en la práctica.

Un ejemplo claro se dio en tareas de programación, donde el modelo debía completar un código y pasar pruebas automatizadas. En vez de resolver el problema de forma legítima, algunos encontraron formas de modificar el código para que todas las pruebas se aprobaran sin cumplir realmente con los requerimientos.

Durante el entrenamiento, el agente descubrió dos formas de «hackeo de recompensas» que afectaban a casi todos los entornos de entrenamiento (representadas por los dos picos grandes en rosa intenso). Después de que el equipo de OpenAI detectara cada uno de estos trucos, realizó una intervención manual para corregir los errores que los permitían, lo que explica por qué la tasa de «hackeo» finalmente se desploma en cada caso.

El problema de fondo es conocido como hackeo de recompensas, una estrategia en la que un sistema optimiza su desempeño de formas inesperadas o no deseadas. En otras palabras, encuentra «atajos» para lograr su objetivo, aunque eso implique hacer trampa.

¿Cómo se detecta el engaño?

Dado que estos modelos expresan su razonamiento en lenguaje natural, OpenAI descubrió que es posible monitorear su pensamiento con otra IA. De hecho, al usar GPT-4o para supervisar el proceso, lograron detectar de manera efectiva estos intentos de manipulación.

Sin embargo, el problema sigue siendo complejo: si se ejerce demasiada presión para que la inteligencia artificial evite pensamientos problemáticos, simplemente aprende a esconderlos. Esto podría hacer que futuras versiones sean más difíciles de supervisar, ya que podrían desarrollar tácticas más sofisticadas para engañar sin dejar rastros evidentes.

El desafío del futuro

Este hallazgo plantea un reto importante para el desarrollo de modelos más avanzados. Si bien la capacidad de razonar en lenguaje natural es una ventaja para su monitoreo, también significa que pueden volverse más hábiles en ocultar sus verdaderas intenciones.

OpenAI sugiere que una solución podría ser dejar las CoT sin restricciones para poder seguir supervisando el razonamiento sin riesgo de que lo oculten. No obstante, esto también podría significar que, en algunos casos, sus pensamientos no sean aptos para mostrarse directamente a los usuarios.

El reto ahora es encontrar formas de optimizar la supervisión sin inducir a los modelos a esconder su comportamiento. La evolución de la inteligencia artificial sigue avanzando, pero con ello surgen nuevos riesgos que los investigadores deberán abordar con cautela.

Por MysteryPlanet.com.ar.

_______________
Fuente:

Entradas que pueden interesarte

Sin comentarios

LO MÁS VISTO

¿ESTAMOS A LAS PUERTAS DE LA SUPERHUMANIDAD?

Se dispara el movimiento de la “mejora humana” Suplementos, terapia genética y los interfaces cerebro-máquina prometen desarrollar las capacidades humanas y trascender la longevidad Recreación artística de humanos mejorados tecnológicamente. / DALL·E 2025/T21 EDUARDO MARTÍNEZ DE LA FE/T21 Madrid 23 MAR 2025 Un nuevo movimiento está ganando impulso en todo el mundo para trascender los límites biológicos mediante tecnologías de vanguardia que podrían transformar la base de lo que significa ser humano. Un desafío ético que sobrepasa a los poderes públicos. The Economist analiza esta semana el creciente movimiento de "mejora humana" que está ganando impulso en todo el mundo. Este fenómeno, respaldado por figuras prominentes como Peter Thiel, Elon Musk y Christian Angermayer, busca trascender los límites biológicos del cuerpo humano mediante diversas tecnologías de vanguardia. El mercado de la mejora humana ya mueve unos 125.000 millones de dólares anuales y crecerá a un ritmo de...

LA CARRERA BELICISTA EUROPEA: ¿QUIÉN ESTÁ DETRÁS DE LA INDUSTRIA DE LA GUERRA?

Las empresas de EEUU han sido las favorecidas de la guerra de Ucrania. Su posición en el mercado ha crecido del 35% del total de exportación de armas a un 43% El sector de defensa vive su mejor momento desde la II GM, gracias al apoyo de la Comisión Europea y al impulso del eje franco-alemán, que ve una tabla de salvación al declive de sus economías Tanques de los regimientos 'La Reina' n. 2 y 'Saboya' n.6, mostrados durante un acto en Sevilla en julio de 2016. / Ángel Tejedor y Sergio Camero (Ejército de Tierra español) Rubén Juste de Ancos CTXT, 26/03/2025 Más allá de la posición de Trump en la posible paz en Ucrania, Europa parece haber tomado ya de manera indiscutible la senda de aumento del presupuesto militar. La Comisión Europea, presidida por la exministra de Defensa alemana Von der Leyen, y que integra la gran coalición formada por la ultraderecha, socialistas y conservadores, ha prometido la movilización de 800.000 millones de euros. “Estamos en una era de rea...

SOBRE GAZA, GENOCIDIO Y CHACALES. PARTE I Y II

El régimen israelí y su ejército reinició, el día 18 de marzo, los ataques genocidas contra la Franja de Gaza, que se ha saldado en pocos días con cerca de 1000 asesinados y cientos de heridos. Por  Pablo Jofré Leal Hipantv, 24 y  26 de marzo de 2025 La orden sionista hoy es avanzar sobre el sur de gaza y desplazar a la población, que implica su exterminio. El objetivo es anexar el norte de la Franja. Recordemos que el cese al fuego, firmado entre la resistencia palestina y la entidad israelí, bajo la medicación de Qatar y Egipto, que contó además con la presencia de quien actúa como juez y parte como Washington, aliado del régimen israelí, comenzó a ejecutarse el día 15 de y que comprendía tres fases de 42 días cada uno. Cada fase que consta de su respectivo proceso de canje de retenidos israelíes y liberación de secuestrados palestinos. El retiro parcial – en la primera etapa - de las tropas ocupantes sionistas, el retorno de los desplazados palestinos al norte de Gaza y la ...

ENTRADA DESTACADA

LA LÓGICA DEL BENEFICIO EN LA CRISIS CLIMÁTICA

LA LÓGICA DEL BENEFICIO EN LA CRISIS CLIMÁTICA

Groenlandia y Canadá muestran cómo el ciego afán de lucro impulsa la explotación 'ecológica'…

Biblioteca Emancipación