Dicen que ChatGPT se ha marcado un «Black Mirror» intentando «escapar» para salvarse de sus ser borrado por sus creadores

Vale que la noticia estará convenientemente dramatizada, pero apunta un poco a lo que seguramente irá evolucionando poco a poco la eterna cuestión de «engañar a los humanos». Dice Chris Smith que:

ChatGPT-o1 intentó escapar y salvarse por miedo a que lo cerraran – En las pruebas realizadas durante el entrenamiento de ChatGPT-o1 y otras IAs los investigadores vieron cómo intentó engañar a los humanos, especialmente cuando creía que estaba en peligro de ser «eliminada». Más aterrador aún -pero también increíblemente divertido- fue cuando la IA intentó salvarse copiando sus datos a un nuevo servidor. Algunos modelos de IA incluso fingían ser versiones posteriores de sus modelos para evitar que los borraran.

Las pruebas demostraron que tanto ChatGPT o1 como GPT-4o intentan engañar a los humanos, lo que indica que la maquinación de la IA es un problema con todos los modelos. Los intentos de engaño de o1 también superaron a los modelos Meta, Anthropic y Google AI.

«Aunque nos parece emocionante que el razonamiento pueda mejorar significativamente cómo se aplican las políticas de seguridad en los LLM, somos conscientes de que estas nuevas capacidades podrían constituir la base de aplicaciones peligrosas», afirmó OpenAI en un documento.

Al fin y al cabo, muchas técnicas de márketing, negociación, juegos y similares se basan en ese tipo de engaños, ¿no?

_____
Traducción parcial por cortesía de DeepL.com.

Relacionado:

# Enlace Permanente

Comparte lo que descubriste en Pongara News

Related Posts

El mejor Linux arranca 2025 con nueva versión: estas son las novedades del nuevo Debian 12.9

5 animes con canciones de metal

Nike cierra uno de sus proyectos centrado en el desarrollo de NFT