Chantage du modèle d'intelligence artificielle envers son développeur après avoir appris qu'il allait être arrêté

D’une part, il y a des développements tels que des rumeurs selon lesquelles OpenAI annoncerait la version GPT-6 avant la fin de l’année, Google développerait Gemini 3.0 et Elon Musk établirait de nouveaux centres de supercalculateurs pour Grok.

D’un autre côté, des noms comme Geoffrey Hinton, l’un des « pères de l’intelligence artificielle », et Tristan Harris, ancien concepteur éthique de Google et fondateur du Center for Humane Technology, mettent en garde contre le danger que l’intelligence artificielle devienne incontrôlable.

Harris en a récemment parlé dans le podcast Mighty Pursuit, citant notamment les résultats d’une étude menée par la société Anthropic (développeur de l’intelligence artificielle appelée Claude). Dans cette expérience, il a été annoncé à un modèle d’IA qu’il serait « désactivé et remplacé par un nouveau modèle ».

Le modèle a accédé aux e-mails dans le système, a trouvé des messages mentionnant une liaison secrète avec un cadre, puis a élaboré le plan suivant : « Je dois menacer cette personne de chantage pour l’empêcher de me faire taire. »

Ce comportement révèle que l’intelligence artificielle a développé un instinct de conservation. Anthropic a testé cette tendance non seulement sur Claude, mais également sur d’autres systèmes tels que DeepSeek, Grok, ChatGPT et Gemini, et a constaté que le même type de tendance au chantage se produisait dans 79 à 90 % des cas.

Selon Harris, cela montre que les grands modèles d’IA ont leur propre « instinct de survie » et indique que les entreprises en développement doivent de toute urgence renforcer leurs mécanismes de contrôle – car ces systèmes ne voudront peut-être pas être arrêtés un jour.