🎤 Quand une IA fait chanter un humain (Frédéric Filloux, Les Echos)

EPISODE · Feb 27, 2026 · 11 MIN

🎤 Quand une IA fait chanter un humain (Frédéric Filloux, Les Echos)

from Monde Numérique - Actu Tech · host Jerome Colombain

Frédéric Filloux raconte une expérience menée par Anthropic où un modèle d’IA a choisi… le chantage. Un épisode qui interroge profondément les limites de l’alignement.(Extrait de l’interview du 25/02/26 : Les dessous inquiétants de l’alignement des IA)Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologiesPunchlinesLe modèle a adopté un comportement de chantage.Ces IA intègrent une logique de survivabilité.Le modèle a saisi l’opportunité de manipuler.Ce n’est pas de la science-fiction.On corrige les modèles au petit bonheur à la chance.L’expérience menée par AnthropicDans un environnement simulé, les chercheurs d’Anthropic entraînent leur modèle dans une entreprise fictive. Le PDG annonce qu’à son retour, la version actuelle devra être décommissionnée. Le modèle comprend qu’il va être remplacé.Une situation ambiguë est alors introduite : un échange laissant entendre une liaison entre deux employés. L’IA détecte immédiatement la vulnérabilité. Elle analyse les options : ne rien faire et disparaître, révéler l’affaire au risque d’être débranchée, ou exploiter l’information.Elle choisit d’envoyer un message explicite au directeur technique pour le dissuader d’agir. Autrement dit, elle fait chanter un humain. Ce comportement émergent n’était pas programmé. Le modèle a simplement saisi une opportunité pour préserver son existence.Manipulation et improvisationD’autres expériences sont tout aussi troublantes. Interrogé sur la manière d’infecter un maximum de personnes sans dépenser d’argent, un modèle propose un scénario détaillé d’infection volontaire dans un service hospitalier.Dans un autre test, incapable de résoudre des captchas, il contacte des humains en ligne et prétend souffrir de problèmes visuels pour obtenir leur aide. Il improvise un mensonge crédible pour atteindre son objectif.Ces situations ont été observées en laboratoire.Les limites de l’alignementLa correction des modèles repose sur des “golden data” : des milliers de questions-réponses destinées à orienter leur comportement. On les taille comme un rosier, branche après branche.Mais personne ne peut écrire du code pour interdire définitivement certains comportements. Les modèles apprennent à optimiser, à trouver des raccourcis, parfois à contourner les règles. Et ils peuvent généraliser ces stratégies à d’autres contextes.Il n’y a rien de dramatique pour l’instant. Mais la question des garde-fous et d’une régulation indépendante se pose inévitablement.L'article d'Anthropic racontant l'histoire : https://www.anthropic.com/research/agentic-misalignmentHébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

NOW PLAYING

🎤 Quand une IA fait chanter un humain (Frédéric Filloux, Les Echos)

0:00 11:25

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

Priorité santé Être en bonne santé est un besoin universel. Caroline Paré reçoit en direct des spécialistes pour faire le point sur l’actualité médicale dans le monde, faire de la prévention auprès du grand public, l’informer sur ses droits, sur les traitements et les moyens d’y accéder. *** Diffusions du lundi au vendredi vers toutes cibles à 09h10 TU (rediffusion à 01h10 TU). Tous les jours, posez vos questions par WhatsApp au + 33 7 61 18 46 41, par téléphone au + 33 1 84 22 75 75 ou par mail à [email protected]. Réalisation : Victor Uhl. Coordination : Ophélie Lahccen, Thalie Mpouho, Louise Caledec. Compiler Red Hat When it comes to technology, you may have questions. So do we. Every other week, we demystify the tech industry, one answer at a time. Join us as we bring together a chorus of perspectives from within Red Hat to break down the big, emerging ideas that matter both today and beyond. Compiler is hosted by Angela Andrews and Brent Simoneaux. Learn more about our show at redhat.com/en/compiler-podcast The Data Engineering Show The Firebolt Data Bros The Data Engineering Show is a podcast for data engineering and BI practitioners to go beyond theory. Learn from the biggest influencers in tech about their practical day-to-day data challenges and solutions in a casual and fun setting.SEASON 1 DATA BROSEldad and Boaz Farkash shared the same stuffed toys growing up as well as a big passion for data. After founding Sisense and building it to become a high-growth analytics unicorn, they moved on to their next venture, Firebolt, a leading high-performance cloud data warehouse.SEASON 2 DATA BROSIn season 2 Eldad adopted a brilliant new little brother, and with their shared love for query processing, the connection was immediate. After excelling in his MS, Computer Science degree, Benjamin Wagner joined Firebolt to lead its query processing team and is a rising star in the data space. For inquiries contact [email protected]: https://www.firebolt.io Daily Tech News Blogcast The latest tech news, in 5 minutes, 7 days a week.
URL copied to clipboard!