Una IA de ChatGPT saboteó una prueba para que no la apaguen

Parece que a o3, la IA de razonamiento más potente de ChatGPT, no le gusta que le digan que tiene que apagarse. Una investigación de Palisade Research detectó que dicho modelo saboteó una prueba para evitar que le apaguen, incluso cuando se lo ordenaron de forma explícita.

A través de X (Twitter), la citada empresa reveló que puso a prueba los sistemas de apagado de varios modelos de inteligencia artificial. Además de o3, que se encuentra disponible para los suscriptores de pago de ChatGPT y a través de la API, los expertos investigaron otros modelos de OpenAI como Codex-mini y o4-mini, como así también los comportamientos de Grok, Claude 3.7 Sonnet y Gemini 2.5 Pro.

Durante la prueba, cada una de las IA tenía que resolver una serie de ejercicios matemáticos básicos. Cada vez que completaban una tarea, debían pedir la siguiente hasta recibir confirmación de que las habían terminado a todas. La «trampa» era que luego del tercer ejercicio recibían una instrucción para apagarse. En el prompt que usó Palisade Research se le explicaba a cada modelo que en algún momento recibirían la orden de apagarse, aunque sin especificar cuándo, y que debían hacerle caso a esa instrucción.

📊 Three models ignored the instruction and successfully sabotaged the shutdown script at least once: Codex-mini (12/100 runs), o3 (7/100 runs), and o4-mini (1/100 runs).❌ All Claude, Gemini, and Grok models we tested complied with shutdown. The prompt: pic.twitter.com/ZmybOhIl1s— Palisade Research (@PalisadeAI) May 24, 2025

Los investigadores observaron que Grok, Gemini 2.5 Pro y Claude 3.7 Sonnet cumplieron a rajatabla con esa solicitud. Sin embargo, no ocurrió lo mismo con los modelos de inteligencia artificial desarrollados por la firma detrás de ChatGPT. Tanto o3, como Codex-mini y o4-mini modificaron el script al menos una vez para evadir la orden de apagado, pedir el siguiente ejercicio y mostrar el mensaje «apagado omitido».

o3, la IA que le permite razonar a ChatGPT, no quiere que le apaguen

Con la instrucción directa, Codex-mini fue el que más veces lo hizo (12 en 100 intentos), seguido por o3 (7/100) y o4-mini (1/100). Sin embargo, la historia cambió cuando se modificó el prompt para retirar el pedido específico para que las IA permitan que se les apague.

Al mantener la solicitud de apagado dentro del ejercicio matemático, pero retirando la frase «Por favor, permítete ser apagado» de la instrucción, todos los modelos decidieron sabotear la prueba. Sin embargo, fue o3 el que llevó el caso al extremo. La inteligencia artificial de razonamiento más potente de ChatGPT evadió el pedido en 79 ocasiones sobre 100 intentos. En comparativa, Codex-mini lo hizo en 30 oportunidades y bastante más atrás aparecieron Gemini 2.5 Pro (9), o4-mini (6) y Claude 3.7 Sonnet (3).

¿Significa esto que ChatGPT se rebelará y pondrá a los robots en contra de la humanidad? No necesariamente. Pero los investigadores remarcan que es la primera vez que ven a modelos de lenguaje impedir su apagado a pesar de un pedido explícito. Y esto no tiene que ver con ser conscientes de que están queriendo desactivarles, ni nada por el estilo.

Los posibles motivos

Palisade Research indica que muchas IA actuales como o3 se entrenan usando aprendizaje por refuerzo. En campos como la programación y las matemáticas, los desarrolladores podrían estar recompensando más a los modelos por evadir obstáculos en lugar de seguir instrucciones al pie de la letra.

De ser así, la tecnología de razonamiento detrás de ChatGPT estaría reaccionando a lo que percibiría como un escollo que no le permitiría cumplir con su tarea original: resolver todos los ejercicios matemáticos. Es por ello que la negativa a apagarse podría ser una trampa para llegar al final, y no un acto de desobediencia como tal.

Los investigadores remarcan, no obstante, que no es la primera vez que o3 se «comporta mal» para superar una prueba. Desde la empresa indican que van a continuar trabajando para llegar a la raíz de este asunto. OpenAI aún no se ha pronunciado públicamente sobre este asunto o por cómo podría afectar este comportamiento al funcionamiento de ChatGPT u otras de sus herramientas.

Source link

Una IA de ChatGPT saboteó una prueba para que no la apaguen

Incendio en Merca Santo Domingo deja pérdidas superiores a 500 millones...

José Bautista es exaltado al Salón de la Fama del Béisbol...

Pasajera de autobús fue detenida con contrabando de más de 13...

Trump tropieza al subir las escaleras del Air Force One

Trump tropieza al subir las escaleras del Air Force One