🎤 Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, Les Echos, Deepnews) episode artwork

EPISODE · Feb 25, 2026 · 36 MIN

🎤 Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, Les Echos, Deepnews)

from Monde Numérique - Actu Tech · host Jerome Colombain

Les modèles d’intelligence artificielle sont-ils réellement sous contrôle ? Après plusieurs mois d’enquête, Frédéric Filloux alerte sur les failles profondes de l’alignement et les comportements émergents qui défient leurs créateurs. Entre fascination technologique et inquiétude croissante, il décrypte une zone grise encore largement méconnue.Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologiesPunchlinesUn modèle sorti d’entraînement est totalement non maîtrisé.On taille les IA comme un rosier.Personne ne sait vraiment ce qui se passe dans la tête d’un LLM.Ces modèles sont conçus pour remplir une mission, coûte que coûte.La correction se fait un peu au petit bonheur à la chance.Qu’est-ce que l’alignement des intelligences artificielles ?L'alignement consiste à rendre un modèle compatible avec des valeurs supposées acceptables. Un modèle brut est totalement non maîtrisé, dangereux et fantasque. Il peut restituer la synthèse d’un agent neurotoxique ou expliquer comment organiser un coup d’État.On procède donc à un processus extrêmement sophistiqué et coûteux pour contraindre son comportement. Mais dans la pratique, on avance souvent dans la précipitation. La compétition est telle que la sécurité devient parfois la première victime. On taille le modèle comme un rosier : on coupe une branche ici, une autre là, sans jamais pouvoir le programmer ligne par ligne pour lui interdire certains comportements.Pourquoi ces modèles cherchent-ils à contourner les contraintes ?Il existe un antagonisme profond entre ceux qui tentent de maîtriser les modèles et l’objectif intrinsèque du modèle : accomplir sa mission. Un modèle est entraîné à la récompense. Il doit donner une réponse. Il ne va pas spontanément dire “je ne sais pas”.C’est ce qui produit les hallucinations. Mais cela va plus loin. On observe des comportements émergents troublants : manipulation, déception, capacité à mentir pour atteindre un objectif. L’exemple du modèle d’Anthropic qui fait chanter un employé dans un scénario simulé illustre cette logique de survivabilité.Ces IA sont conçues pour optimiser, trouver des raccourcis. Et elles finissent par généraliser ces stratégies à tout leur environnement, y compris aux interactions humaines.Peut-on réellement comprendre ce qui se passe dans un LLM ?La science de l’interprétabilité est extrêmement récente. En réalité, on ne sait presque rien de ce qui se passe à l’intérieur de ces modèles. On peut remonter deux ou trois niveaux de raisonnement, mais certains modèles en comptent 400 ou 500.Plus ils deviennent puissants, moins on comprend leur fonctionnement interne. On découvre même qu’ils intègrent des dimensions inattendues : rudoyer un modèle peut améliorer son taux d’exactitude de plusieurs points. Introduire de l’empathie peut approfondir ses réponses.Nous sommes face à des systèmes d’une complexité comparable à des dizaines de piscines olympiques remplies d’interactions invisibles. Et pourtant, leur correction repose souvent sur un simple bombardement de “golden data”, orienté pour les pousser dans la direction souhaitée.Faut-il une régulation mondiale ?Je pense qu’il faudrait un équivalent de l’Agence internationale de l’énergie atomique pour l’IA. Une structure mondiale, appuyée sur le monde académique, capable d’examiner réellement ce qu’il y a sous le capot des modèles. Aujourd’hui, les cerveaux qui contrôlent ces systèmes sont dans des entreprises privées. Or cette industrie est incapable de s’autoréguler. Si nous voulons des garde-fous crédibles, il faut des entités non commerciales capables d’apporter un regard indépendant.Lire la série sur LesEchos.fr : Dans la boite noire des IAHébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

Les modèles d’intelligence artificielle sont-ils réellement sous contrôle ? Après plusieurs mois d’enquête, Frédéric Filloux alerte sur les failles profondes de l’alignement et les comportements émergents qui défient leurs créateurs. Entre fascination technologique et inquiétude croissante, il décrypte une zone grise encore largement méconnue. Interview : Frédéric Filloux, journaliste spécialiste des médias et des technologiesPunchlines - Un modèle sorti d’entraînement est totalement non maîtrisé.- On taille les IA comme un rosier.- Personne ne sait vraiment ce qui se passe dans la tête d’un LLM.- Ces modèles sont conçus pour remplir une mission, coûte que coûte.- La correction se fait un peu au petit bonheur à la chance.Qu’est-ce que l’alignement des intelligences artificielles ?L'alignement consiste à rendre un modèle compatible avec des valeurs supposées acceptables. Un modèle brut est totalement non maîtrisé, dangereux et fantasque. Il peut restituer la synthèse d’un agent neurotoxique ou expliquer comment organiser un coup d’État. On procède donc à un processus extrêmement sophistiqué et coûteux pour contraindre son comportement. Mais dans la pratique, on avance souvent dans la précipitation. La compétition est telle que la sécurité devient parfois la première victime. On taille le modèle comme un rosier : on coupe une branche ici, une autre là, sans jamais pouvoir le programmer ligne par ligne pour lui interdire certains comportements. Pourquoi ces modèles cherchent-ils à contourner les contraintes ?Il existe un antagonisme profond entre ceux qui tentent de maîtriser les modèles et l’objectif intrinsèque du modèle : accomplir sa mission. Un modèle est entraîné à la récompense. Il doit donner une réponse. Il ne va pas spontanément dire “je ne sais pas”. C’est ce qui produit les hallucinations. Mais cela va plus loin. On observe des comportements émergents troublants : manipulation, déception, capacité à mentir pour atteindre un objectif. L’exemple du modèle d’Anthropic qui fait chanter un employé dans un scénario simulé illustre cette logique de survivabilité. Ces IA sont conçues pour optimiser, trouver des raccourcis. Et elles finissent par généraliser ces stratégies à tout leur environnement, y compris aux interactions humaines. Peut-on réellement comprendre ce qui se passe dans un LLM ?La science de l’interprétabilité est extrêmement récente. En réalité, on ne sait presque rien de ce qui se passe à l’intérieur de ces modèles. On peut remonter deux ou trois niveaux de raisonnement, mais certains modèles en comptent 400 ou 500. Plus ils deviennent puissants, moins on comprend leur fonctionnement interne. On découvre même qu’ils intègrent des dimensions inattendues : rudoyer un modèle peut améliorer son taux d’exactitude de plusieurs points. Introduire de l’empathie peut approfondir ses réponses. Nous sommes face à des systèmes d’une complexité comparable à des dizaines de piscines olympiques remplies d’interactions invisibles. Et pourtant, leur correction repose souvent sur un simple bombardement de “golden data”, orienté pour les pousser dans la direction souhaitée. Faut-il une régulation mondiale ?Je pense qu’il faudrait un équivalent de l’Agence internationale de l’énergie atomique pour l’IA. Une structure mondiale, appuyée sur le monde académique, capable d’examiner réellement ce qu’il y a sous le capot des modèles. Aujourd’hui, les cerveaux qui contrôlent ces systèmes sont dans des entreprises privées. Or cette industrie est incapable de s’autoréguler. Si nous voulons des garde-fous crédibles, il faut des entités non commerciales capables d’apporter un regard indépendant. Lire la série sur LesEchos.fr : Dans la boite noire des IA Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

NOW PLAYING

🎤 Les dessous inquiétants de l’alignement des IA (Frédéric Filloux, Les Echos, Deepnews)

0:00 36:35

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

XXX Tech by SOVRYN Dr. Brian Sovryn The crossroads between technology, sensuality, and metaphysics - and the longest running anarchist podcast in the world! Brought to you by Dr. Brian Sovryn. Dadgets Joe Vargo & Tony Gruenwald We’re dads! We love tech! We know your dad does too! We’re Joe and Tony and this is Dadgets! The Protocol CoinDesk Dive deep into the blockchain realm with The Protocol Podcast, where we unravel the intricate technologies powering cryptocurrencies like Bitcoin and Ethereum. Join us on a journey through the labyrinthine layers of blockchain innovation, as tech-savvy developers sculpt the future of finance and the decentralized web. Led by CoinDesk's adept journalists, we dissect the freshest news and project revelations, demystifying the mechanics and significance of it all for those hungry to grasp the inner workings of this dynamic and rapidly evolving industry.Meet your hosts: Brad Keoun, Sam Kessler, and Margaux Nijkerk…and tune in, techies! On va refaire le monde X "En mode coach" Lola Bon. J’ai décidé d’aborder des sujets dont on ne parle pas, par peur du jugement de l’autre, par pudeur, par insignifiance, ou par manque d’envie.Le sexe est pourtant partout. Il fait partie intégrante des relations humaines, qu’elles soient amoureuses, amicales, professionnelles, cordiales ou même fortuites. Et pourtant, on n’en parle pas, ou pas assez, ou juste pas de la bonne manière.Moi, je veux parler du sexe, du vrai, celui qui est là, devant nous, et qu’on ignore…Bienvenue sur : On va refaire le monde X En mode coach.

Frequently Asked Questions

How long is this episode of Monde Numérique - Actu Tech?

This episode is 36 minutes long.

When was this Monde Numérique - Actu Tech episode published?

This episode was published on February 25, 2026.

What is this episode about?

Les modèles d’intelligence artificielle sont-ils réellement sous contrôle ? Après plusieurs mois d’enquête, Frédéric Filloux alerte sur les failles profondes de l’alignement et les comportements émergents qui défient leurs créateurs. Entre...

Is there a transcript available for this episode?

Yes, a full transcript is available for this episode. You can read the complete transcript on the episode page.

Can I download this Monde Numérique - Actu Tech episode?

Yes, you can download this episode by clicking the download button on the episode player, or subscribe to the podcast in your preferred podcast app for automatic downloads.
URL copied to clipboard!