EPISODE · Feb 17, 2026 · 1H 17M
IA: Comprendre les SLM (Small Model Language)
from A la French
Peut-on battre les modèles de Google ou Meta avec seulement 4 GPU et une disquette Zip ? C’est le pari fou de notre invité.e qui nous explique comment le "Data Design" est en train de ringardiser le scraping massif du web.🥖 L'IA qui tient sur une disquette : La fin du gigantisme ?Dans cet épisode, on plonge dans le coeur de l'IA souveraine : pourquoi la qualité des données (tokens) prime sur la quantité, et comment les Small Language Models (SLM) vont permettre de décentraliser l'intelligence.🚀 Ce que vous allez apprendre :- Baguette-o-tron : Le modèle de 320M de paramètres qui raisonne mieux que des géants.- Data Design vs Scraping : Pourquoi "nettoyer" la donnée ne suffit plus, il faut la concevoir.- Le secret des données synthétiques : Comment éviter le "Model Collapse" (l'appauvrissement de l'IA).- Souveraineté : L'enjeu des bibliothèques nationales et de l'Open Data face au pillage des "Shadow Libraries".⏳ Timestamps pour naviguer :00:00 - Intro : Le format Pionnier/Pionnière de la tech04:20 - Indice 4 points : Qui est la chercheuse secrète ? 11:50 - Pourquoi le "Common Crawl" est pollué (cookies, copyright) 18:30 - Le crash des données : Le cas New York Times vs OpenAI 27:15 - Baguette-o-tron : Une IA performante sur disque Zip ! 35:40 - Données synthétiques : Ancrer l'IA dans le réel (Code & Math) 45:10 - L'IA comme "Primitive" : Pourquoi le local est l'avenir 52:00 - Les modèles hiérarchiques (HRM) et le système de pensée 1 & 2🔗 Liens et ressources :Playas : https://playas.frModèles & Datasets : Retrouvez "Common Corpus" sur Hugging Face.Vous préférez une IA géante dans le Cloud ou une IA agile sur votre téléphone ? On attend votre avis en commentaire ! 👇#IntelligenceArtificielle #SLM #OpenSource #TechFrançaise #ALaFrench #MachineLearning #SouverainetéNumériqueCréditsProductrice- Fatima IdhammouProduction exécutive : BKERéalisateur : Nicolas JaluCadreurs : Florian Kuenemann, Fairooze ShariffIngénieur du son : Quentin GomezChef monteur : Victor BourdonGénérique (images assistées par IA)Production : AurevoircharlieProduit par : Anne-Lise LanglaisRéalisateur / DA image : Olivier LelardouxMusique originale : Keryan SerrainConseillers éditoriaux : Ronan Letoqueux, NES ProductionRéseaux sociaux : Samir AkachaRemerciements : l’équipe de Néon Noir, Camille Hamez, Natacha Holtzhausser, , Elie Séonnet, Abdel-Hafid Cherrab, Paguy Shako Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.
What this episode covers
Peut-on battre les modèles de Google ou Meta avec seulement 4 GPU et une disquette Zip ? C’est le pari fou de notre invité.e qui nous explique comment le "Data Design" est en train de ringardiser le scraping massif du web.🥖 L'IA qui tient sur une disquette : La fin du gigantisme ?Dans cet épisode, on plonge dans le coeur de l'IA souveraine : pourquoi la qualité des données (tokens) prime sur la quantité, et comment les Small Language Models (SLM) vont permettre de décentraliser l'intelligence.🚀 Ce que vous allez apprendre :- Baguette-o-tron : Le modèle de 320M de paramètres qui raisonne mieux que des géants.- Data Design vs Scraping : Pourquoi "nettoyer" la donnée ne suffit plus, il faut la concevoir.- Le secret des données synthétiques : Comment éviter le "Model Collapse" (l'appauvrissement de l'IA).- Souveraineté : L'enjeu des bibliothèques nationales et de l'Open Data face au pillage des "Shadow Libraries".⏳ Timestamps pour naviguer :00:00 - Intro : Le format Pionnier/Pionnière de la tech04:20 - Indice 4 points : Qui est la chercheuse secrète ? 11:50 - Pourquoi le "Common Crawl" est pollué (cookies, copyright) 18:30 - Le crash des données : Le cas New York Times vs OpenAI 27:15 - Baguette-o-tron : Une IA performante sur disque Zip ! 35:40 - Données synthétiques : Ancrer l'IA dans le réel (Code & Math) 45:10 - L'IA comme "Primitive" : Pourquoi le local est l'avenir 52:00 - Les modèles hiérarchiques (HRM) et le système de pensée 1 & 2🔗 Liens et ressources :Playas : https://playas.frModèles & Datasets : Retrouvez "Common Corpus" sur Hugging Face.Vous préférez une IA géante dans le Cloud ou une IA agile sur votre téléphone ? On attend votre avis en commentaire ! 👇#IntelligenceArtificielle #SLM #OpenSource #TechFrançaise #ALaFrench #MachineLearning #SouverainetéNumériqueCréditsProductrice- Fatima IdhammouProduction exécutive : BKERéalisateur : Nicolas JaluCadreurs : Florian Kuenemann, Fairooze ShariffIngénieur du son : Quentin GomezChef monteur : Victor BourdonGénérique (images assistées par IA)Production : AurevoircharlieProduit par : Anne-Lise LanglaisRéalisateur / DA image : Olivier LelardouxMusique originale : Keryan SerrainConseillers éditoriaux : Ronan Letoqueux, NES ProductionRéseaux sociaux : Samir AkachaRemerciements : l’équipe de Néon Noir, Camille Hamez, Natacha Holtzhausser, , Elie Séonnet, Abdel-Hafid Cherrab, Paguy Shako Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.
NOW PLAYING
IA: Comprendre les SLM (Small Model Language)
No transcript for this episode yet
Similar Episodes
Oct 3, 2025 ·28m
Sep 16, 2025 ·29m
Sep 16, 2025 ·47m
Sep 12, 2025 ·37m
Sep 11, 2025 ·40m
Sep 10, 2025 ·40m