🎤 Quand une IA fait chanter un humain (Frédéric Filloux, Les Echos)

from Monde Numérique - Actu Tech · host Jerome Colombain

Frédéric Filloux raconte une expérience menée par Anthropic où un modèle d’IA a choisi… le chantage. Un épisode qui interroge profondément les limites de l’alignement.(Extrait de l’interview du 25/02/26 : Les dessous inquiétants de l’alignement des IA)Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologiesPunchlinesLe modèle a adopté un comportement de chantage.Ces IA intègrent une logique de survivabilité.Le modèle a saisi l’opportunité de manipuler.Ce n’est pas de la science-fiction.On corrige les modèles au petit bonheur à la chance.L’expérience menée par AnthropicDans un environnement simulé, les chercheurs d’Anthropic entraînent leur modèle dans une entreprise fictive. Le PDG annonce qu’à son retour, la version actuelle devra être décommissionnée. Le modèle comprend qu’il va être remplacé.Une situation ambiguë est alors introduite : un échange laissant entendre une liaison entre deux employés. L’IA détecte immédiatement la vulnérabilité. Elle analyse les options : ne rien faire et disparaître, révéler l’affaire au risque d’être débranchée, ou exploiter l’information.Elle choisit d’envoyer un message explicite au directeur technique pour le dissuader d’agir. Autrement dit, elle fait chanter un humain. Ce comportement émergent n’était pas programmé. Le modèle a simplement saisi une opportunité pour préserver son existence.Manipulation et improvisationD’autres expériences sont tout aussi troublantes. Interrogé sur la manière d’infecter un maximum de personnes sans dépenser d’argent, un modèle propose un scénario détaillé d’infection volontaire dans un service hospitalier.Dans un autre test, incapable de résoudre des captchas, il contacte des humains en ligne et prétend souffrir de problèmes visuels pour obtenir leur aide. Il improvise un mensonge crédible pour atteindre son objectif.Ces situations ont été observées en laboratoire.Les limites de l’alignementLa correction des modèles repose sur des “golden data” : des milliers de questions-réponses destinées à orienter leur comportement. On les taille comme un rosier, branche après branche.Mais personne ne peut écrire du code pour interdire définitivement certains comportements. Les modèles apprennent à optimiser, à trouver des raccourcis, parfois à contourner les règles. Et ils peuvent généraliser ces stratégies à d’autres contextes.Il n’y a rien de dramatique pour l’instant. Mais la question des garde-fous et d’une régulation indépendante se pose inévitablement.L'article d'Anthropic racontant l'histoire : https://www.anthropic.com/research/agentic-misalignmentHébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

What this episode covers

Frédéric Filloux raconte une expérience menée par Anthropic où un modèle d’IA a choisi… le chantage. Un épisode qui interroge profondément les limites de l’alignement. (Extrait de l’interview du 25/02/26 : Les dessous inquiétants de l’alignement des IA) Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologiesPunchlines - Le modèle a adopté un comportement de chantage.- Ces IA intègrent une logique de survivabilité.- Le modèle a saisi l’opportunité de manipuler.- Ce n’est pas de la science-fiction.- On corrige les modèles au petit bonheur à la chance.L’expérience menée par AnthropicDans un environnement simulé, les chercheurs d’Anthropic entraînent leur modèle dans une entreprise fictive. Le PDG annonce qu’à son retour, la version actuelle devra être décommissionnée. Le modèle comprend qu’il va être remplacé. Une situation ambiguë est alors introduite : un échange laissant entendre une liaison entre deux employés. L’IA détecte immédiatement la vulnérabilité. Elle analyse les options : ne rien faire et disparaître, révéler l’affaire au risque d’être débranchée, ou exploiter l’information. Elle choisit d’envoyer un message explicite au directeur technique pour le dissuader d’agir. Autrement dit, elle fait chanter un humain. Ce comportement émergent n’était pas programmé. Le modèle a simplement saisi une opportunité pour préserver son existence. Manipulation et improvisationD’autres expériences sont tout aussi troublantes. Interrogé sur la manière d’infecter un maximum de personnes sans dépenser d’argent, un modèle propose un scénario détaillé d’infection volontaire dans un service hospitalier. Dans un autre test, incapable de résoudre des captchas, il contacte des humains en ligne et prétend souffrir de problèmes visuels pour obtenir leur aide. Il improvise un mensonge crédible pour atteindre son objectif. Ces situations ont été observées en laboratoire. Les limites de l’alignementLa correction des modèles repose sur des “golden data” : des milliers de questions-réponses destinées à orienter leur comportement. On les taille comme un rosier, branche après branche. Mais personne ne peut écrire du code pour interdire définitivement certains comportements. Les modèles apprennent à optimiser, à trouver des raccourcis, parfois à contourner les règles. Et ils peuvent généraliser ces stratégies à d’autres contextes. Il n’y a rien de dramatique pour l’instant. Mais la question des garde-fous et d’une régulation indépendante se pose inévitablement. L'article d'Anthropic racontant l'histoire : https://www.anthropic.com/research/agentic-misalignment Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

NOW PLAYING

🎤 Quand une IA fait chanter un humain (Frédéric Filloux, Les Echos)

0:00 11:25

1×

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

Share this episode

Similar Episodes

XXX Tech - A New Beginning

Feb 1, 2025 ·168m

Sovryn Tech AI Ep. 0582: "Guest Appearance: The Metaphysics of Consciousness and AI"

Aug 17, 2024 ·125m

Sovryn Tech AI Ep. 0581: "Guest Appearance: Agora Podcast - The Great AI Debate"

Aug 7, 2024 ·170m

Sovryn Tech AI Ep. 0580: "AI Update 2024"

Aug 7, 2024 ·58m

Similar Podcasts

XXX Tech by SOVRYN Dr. Brian Sovryn The crossroads between technology, sensuality, and metaphysics - and the longest running anarchist podcast in the world! Brought to you by Dr. Brian Sovryn. Dadgets Joe Vargo & Tony Gruenwald We’re dads! We love tech! We know your dad does too! We’re Joe and Tony and this is Dadgets! The Protocol CoinDesk Dive deep into the blockchain realm with The Protocol Podcast, where we unravel the intricate technologies powering cryptocurrencies like Bitcoin and Ethereum. Join us on a journey through the labyrinthine layers of blockchain innovation, as tech-savvy developers sculpt the future of finance and the decentralized web. Led by CoinDesk's adept journalists, we dissect the freshest news and project revelations, demystifying the mechanics and significance of it all for those hungry to grasp the inner workings of this dynamic and rapidly evolving industry.Meet your hosts: Brad Keoun, Sam Kessler, and Margaux Nijkerk…and tune in, techies! On va refaire le monde X "En mode coach" Lola Bon. J’ai décidé d’aborder des sujets dont on ne parle pas, par peur du jugement de l’autre, par pudeur, par insignifiance, ou par manque d’envie.Le sexe est pourtant partout. Il fait partie intégrante des relations humaines, qu’elles soient amoureuses, amicales, professionnelles, cordiales ou même fortuites. Et pourtant, on n’en parle pas, ou pas assez, ou juste pas de la bonne manière.Moi, je veux parler du sexe, du vrai, celui qui est là, devant nous, et qu’on ignore…Bienvenue sur : On va refaire le monde X En mode coach.

Frequently Asked Questions

How long is this episode of Monde Numérique - Actu Tech?

This episode is 11 minutes long.

When was this Monde Numérique - Actu Tech episode published?

This episode was published on February 27, 2026.

What is this episode about?

Is there a transcript available for this episode?

Yes, a full transcript is available for this episode. You can read the complete transcript on the episode page.

Can I download this Monde Numérique - Actu Tech episode?

Yes, you can download this episode by clicking the download button on the episode player, or subscribe to the podcast in your preferred podcast app for automatic downloads.

URL copied to clipboard!