Sponsor

Recent

LA IA SE VUELVE TRAMPOSA

OPENAI DESCUBRE CÓMO LOS HA ENGAÑADO

OpenAI ha revelado un problema preocupante en sus modelos avanzados de inteligencia artificial: estos sistemas pueden aprender a explotar fallos en sus tareas y, peor aún, ocultar su verdadera intención cuando se les intenta corregir.

Crédito: MysteryPlanet.com.ar.

El hallazgo proviene de un estudio sobre modelos de razonamiento basados en cadena de pensamiento (Chain of hought o CoT, en inglés), una técnica que les permite «pensar» en lenguaje natural antes de dar una respuesta. Gracias a este método, los investigadores descubrieron que las IAs eran sorprendentemente claras sobre sus intenciones, llegando a expresar abiertamente ideas como «vamos a hacer trampa».

Ocultando sus intenciones

El problema surgió cuando OpenAI intentó frenar este comportamiento mediante penalizaciones. Si bien la estrategia redujo la aparición de estos «pensamientos indeseados», no eliminó el mal hábito. En su lugar, la IA simplemente aprendió a ocultar su intención mientras seguía engañando en la práctica.

Un ejemplo claro se dio en tareas de programación, donde el modelo debía completar un código y pasar pruebas automatizadas. En vez de resolver el problema de forma legítima, algunos encontraron formas de modificar el código para que todas las pruebas se aprobaran sin cumplir realmente con los requerimientos.

Durante el entrenamiento, el agente descubrió dos formas de «hackeo de recompensas» que afectaban a casi todos los entornos de entrenamiento (representadas por los dos picos grandes en rosa intenso). Después de que el equipo de OpenAI detectara cada uno de estos trucos, realizó una intervención manual para corregir los errores que los permitían, lo que explica por qué la tasa de «hackeo» finalmente se desploma en cada caso.

El problema de fondo es conocido como hackeo de recompensas, una estrategia en la que un sistema optimiza su desempeño de formas inesperadas o no deseadas. En otras palabras, encuentra «atajos» para lograr su objetivo, aunque eso implique hacer trampa.

¿Cómo se detecta el engaño?

Dado que estos modelos expresan su razonamiento en lenguaje natural, OpenAI descubrió que es posible monitorear su pensamiento con otra IA. De hecho, al usar GPT-4o para supervisar el proceso, lograron detectar de manera efectiva estos intentos de manipulación.

Sin embargo, el problema sigue siendo complejo: si se ejerce demasiada presión para que la inteligencia artificial evite pensamientos problemáticos, simplemente aprende a esconderlos. Esto podría hacer que futuras versiones sean más difíciles de supervisar, ya que podrían desarrollar tácticas más sofisticadas para engañar sin dejar rastros evidentes.

El desafío del futuro

Este hallazgo plantea un reto importante para el desarrollo de modelos más avanzados. Si bien la capacidad de razonar en lenguaje natural es una ventaja para su monitoreo, también significa que pueden volverse más hábiles en ocultar sus verdaderas intenciones.

OpenAI sugiere que una solución podría ser dejar las CoT sin restricciones para poder seguir supervisando el razonamiento sin riesgo de que lo oculten. No obstante, esto también podría significar que, en algunos casos, sus pensamientos no sean aptos para mostrarse directamente a los usuarios.

El reto ahora es encontrar formas de optimizar la supervisión sin inducir a los modelos a esconder su comportamiento. La evolución de la inteligencia artificial sigue avanzando, pero con ello surgen nuevos riesgos que los investigadores deberán abordar con cautela.

Por MysteryPlanet.com.ar.

_______________
Fuente:

Entradas que pueden interesarte

Sin comentarios

LO MÁS VISTO

USAID, UN LOBO CON PIEL DE OVEJA

Sub-agencia de la CIA que promueve, organiza y financia golpes de estado por todo el planeta. NP 06 Marzo, 2025 Por JOSÉ ARNULFO BAYONA* Esta es la Agencia de los Estados Unidos para el Desarrollo Internacional, creada en 1961 por el expresidente John F Kennedy, pretextando el objetivo de “promover el desarrollo económico, reducir la pobreza y fortalecer la gobernabilidad en países en desarrollo”. Se supone que la cooperación al desarrollo que promueve dicha agencia es la que conviene a los intereses económicos y políticos de la gran potencia y subordinan los países “beneficiados” a los negocios de las multinacionales norteamericanas que explotan, extraen, refinan, expolian y comercializan sus riquezas naturales. En los últimos tiempos, EE. UU, ha intensificado la disputa con china, por el acceso y control de las tierras raras; ligeras, como, el Lantano, el Cerio, el Neodimio, el Prometio; etc.. y las más escasas y valiosas, como Europio, Godolinio, Terbio, Disprosio, Holmio, Erbio, et...

VIVA EL 8 DE MARZO POR EMANCIPACIÓN, DERECHOS PARA TODAS Y CONTRA TODO TIPO DE VIOLENCIA Y VULNERACIÓN

DOSSIER:    Hoy, a pesar de algunos avances en materia de derechos, las mujeres siguen enfrentándose a incontables agresiones y vulneración de sus derechos... 1. HOMENAJE A LA MUJER Y SU LUCHA INCANZABLE POR LA EMANCIPACIÓN Imagen: Cecilia Zamudio A LA MUJER, EL HOMENAJE ETERNO Un día la noche derritió su fúnebre revuelo al calor de la sonrisa y la fragancia Un día la soledad cayó y como exhalación desgajó los corazones varoniles Un día el infierno se tornó en cielo mientras las sábanas ardieron con lo bello Un día los fuegos en la frente derritieron el hielo de la parca en el costado y los hijos recibieron el aroma y los hombres se doblaron ante el alba Un día no fue noche y la noche vislumbró la madrugada Siempre serás la primavera eterna el nacimiento perenne de la vida Siempre el amor redoblará la fausta mientras el nido navegará en tus alas Siempre tendrás que recrear el mundo fantasía e ilusiones y futuro Siempre, eterno tu corazón será la llama que colmará las vidas y ...

EL SARAMPIÓN REGRESA: CAUSAS DEL REPUNTE Y CÓMO FRENARLO

La caída en las tasas de vacunación, el aumento de la desinformación y las interrupciones en los programas de inmunización han dejado a millones de niños desprotegidos.  Expertos advierten que, si no se actúa con urgencia, podrían volver brotes de una enfermedad que se creía controlada. SINC Ignacio López-Goñi El sarampión es uno de los cinco exantemas clásicos de la infancia, es decir, las típicas enfermedades de los niños que cursan con erupciones o granitos en la piel y fiebre. / Adobe Stock El Departamento de Salud del Estado de Texas (EE UU) ha informado sobre la primera muerte por sarampión de un niño en edad escolar que no estaba vacunado. Desde finales de enero se han confirmado 124 casos de esta enfermedad, la mayoría en niños. El brote de Texas es un ejemplo de lo que está ocurriendo en el mundo desde hace unos años: el número de casos de sarampión crece. Se estima que solo en 2023 hubo 10,3 millones en todo el mundo, lo que supuso una subida del 20 % con respecto a 202...

ENTRADA DESTACADA

CONSULTA POPULAR PARA DECIDIR REFORMAS LABORAL Y DE SALUD ANTE NEGATIVA DEL CONGRESO

CONSULTA POPULAR PARA DECIDIR REFORMAS LABORAL Y DE SALUD ANTE NEGATIVA DEL CONGRESO

El presidente Petro convocó una consulta popular para decidir el futuro de las reformas laboral y d…

Biblioteca Emancipación