🎤 Interview – L’IA qui parle (et écoute) en temps réel (Patrick Pérez, Kyutai)

EPISODE · Oct 29, 2025 · 33 MIN

🎤 Interview – L’IA qui parle (et écoute) en temps réel (Patrick Pérez, Kyutai)

from Monde Numérique - Actu Tech · host Jerome Colombain

Le patron du laboratoire français Kyutai détaille les avancées spectaculaires de ses IA vocales open source : interaction fluide, traduction en temps réel et synthèse vocale à la volée.Interview : Patrick Pérez, directeur général de KyutaiUn laboratoire à but non lucratif pour une IA ouverteKyutai est un centre de recherche sur l’intelligence artificielle à but non lucratif, fondé en 2023 grâce au mécénat de Xavier Niel, Rodolphe Saadé et Eric Schmidt, ancien CEO de Google.L’objectif : faire progresser la recherche fondamentale sur les grands modèles d’IA et partager les résultats en open source, du code aux modèles, pour stimuler l’écosystème scientifique mondial.Patrick Pérez, son directeur, le souligne : « nous ne faisons pas de produit, mais de la science ».Moshi : la première IA vocale vraiment naturelleLe premier projet emblématique de Kyutai, Moshi, est une IA conversationnelle sans tour de parole imposé. Elle comprend et répond en temps réel, peut couper la parole à bon escient et saisit les nuances émotionnelles de la voix.Une innovation majeure : Moshi ne passe pas par une transcription textuelle, préservant ainsi le timbre, l’émotion et les intonations. Open-sourcé en 2024, le modèle a déjà été téléchargé plusieurs millions de fois et inspire de nouveaux projets comme Sésame, qui réutilise certaines de ses briques.Ibiki : la traduction simultanée façon interprèteDévoilé au Sommet mondial de l’IA au Grand Palais en 2025, Ibiki traduit une conversation en simultané, tout en préservant la voix originale de l’orateur.Ce modèle, capable de fonctionner sur un smartphone, représente une avancée majeure face aux systèmes propriétaires comme Meta AI ou OpenAI.Encore au stade de prototype, Ibiki démontre la maturité de la recherche française en matière d’IA vocale temps réel et de traduction instantanée expressive.Unmute : la synthèse vocale à la voléeAvec Unmute, Kyutai repousse encore les limites : la synthèse vocale s’effectue en même temps que le texte est généré par un modèle de langage (LLM).Ce procédé permet une réponse instantanée et naturelle, sans latence perceptible. Ces avancées ouvrent la voie à de nouvelles expériences immersives — assistants vocaux, médias parlants ou interfaces interactives.C’est aussi l’un des chantiers clés de l’IA « multimodale », qui marie texte, son et vision dans un même flux de communication.Le futur : multimodalité et accessibilitéKyutai poursuit ses recherches sur la multimodalité, visant à créer des IA capables d’interpréter voix, texte, images et vidéos en temps réel.Certaines de ces briques sont déjà utilisées par le média La Provence pour convertir ses articles en audio expressif.Une application concrète de la mission de Kyutai : rendre la recherche ouverte, utile et inclusive, tout en démontrant que l’innovation européenne peut rivaliser avec les géants américains.Hébergé par Audiomeans. Visitez audiomeans.fr/politique-de-confidentialite pour plus d'informations.

NOW PLAYING

🎤 Interview – L’IA qui parle (et écoute) en temps réel (Patrick Pérez, Kyutai)

0:00 33:54

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

Priorité santé Être en bonne santé est un besoin universel. Caroline Paré reçoit en direct des spécialistes pour faire le point sur l’actualité médicale dans le monde, faire de la prévention auprès du grand public, l’informer sur ses droits, sur les traitements et les moyens d’y accéder. *** Diffusions du lundi au vendredi vers toutes cibles à 09h10 TU (rediffusion à 01h10 TU). Tous les jours, posez vos questions par WhatsApp au + 33 7 61 18 46 41, par téléphone au + 33 1 84 22 75 75 ou par mail à [email protected]. Réalisation : Victor Uhl. Coordination : Ophélie Lahccen, Thalie Mpouho, Louise Caledec. Compiler Red Hat When it comes to technology, you may have questions. So do we. Every other week, we demystify the tech industry, one answer at a time. Join us as we bring together a chorus of perspectives from within Red Hat to break down the big, emerging ideas that matter both today and beyond. Compiler is hosted by Angela Andrews and Brent Simoneaux. Learn more about our show at redhat.com/en/compiler-podcast The Data Engineering Show The Firebolt Data Bros The Data Engineering Show is a podcast for data engineering and BI practitioners to go beyond theory. Learn from the biggest influencers in tech about their practical day-to-day data challenges and solutions in a casual and fun setting.SEASON 1 DATA BROSEldad and Boaz Farkash shared the same stuffed toys growing up as well as a big passion for data. After founding Sisense and building it to become a high-growth analytics unicorn, they moved on to their next venture, Firebolt, a leading high-performance cloud data warehouse.SEASON 2 DATA BROSIn season 2 Eldad adopted a brilliant new little brother, and with their shared love for query processing, the connection was immediate. After excelling in his MS, Computer Science degree, Benjamin Wagner joined Firebolt to lead its query processing team and is a rising star in the data space. For inquiries contact [email protected]: https://www.firebolt.io Daily Tech News Blogcast The latest tech news, in 5 minutes, 7 days a week.
URL copied to clipboard!