EPISODE · May 11, 2026 · 46 MIN
LLM as a judge : pourquoi l’évaluation par l’IA ne suffit pas, Laurent Zhang
from Just a Click
Comment évaluer un agent IA quand il ne se contente plus de répondre, mais choisit ses outils, manipule des données et déclenche des actions ?Laurent Zhang est le cofondateur de Mankinds, une plateforme d’évaluation d’applications IA incubée à Station F dans le programme F/ai.Dans cet épisode, il partage son expérience sur l'évaluation des applications d’IA générative et les systèmes agentiques.Nous discutons notamment des alternatives au "LLM as a judge" avec des tests plus déterministes, auditables et adaptés aux secteurs régulés.Il explique :La différence entre un workflow IA séquentiel vs un agent autonome.Les limites de la méthode d'évaluation avec un LLM (LLM as a judge) et les alternatives.L'approche d'évaluation que propose Mankind avec des scoreurs déterministes et des datasets contextualisés.Pourquoi la conformité n'est pas un frein mais un accélérateur à l'innovation.(00:00:00) Parcours de Laurent et mission de Mankind(00:06:21) Systèmes agentiques et limites du LLM as a judge(00:15:27) Du contexte aux tests déterministes(00:25:31) Orchestration, modèles et mise en production(00:36:03) RAG, graphes et adoption de l’IA agentique Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.
What this episode covers
Comment évaluer un agent IA quand il ne se contente plus de répondre, mais choisit ses outils, manipule des données et déclenche des actions ?Laurent Zhang est le cofondateur de Mankinds, une plateforme d’évaluation d’applications IA incubée à Station F dans le programme F/ai.Dans cet épisode, il partage son expérience sur l'évaluation des applications d’IA générative et les systèmes agentiques.Nous discutons notamment des alternatives au "LLM as a judge" avec des tests plus déterministes, auditables et adaptés aux secteurs régulés.Il explique :La différence entre un workflow IA séquentiel vs un agent autonome.Les limites de la méthode d'évaluation avec un LLM (LLM as a judge) et les alternatives.L'approche d'évaluation que propose Mankind avec des scoreurs déterministes et des datasets contextualisés.Pourquoi la conformité n'est pas un frein mais un accélérateur à l'innovation.(00:00:00) Parcours de Laurent et mission de Mankind(00:06:21) Systèmes agentiques et limites du LLM as a judge(00:15:27) Du contexte aux tests déterministes(00:25:31) Orchestration, modèles et mise en production(00:36:03) RAG, graphes et adoption de l’IA agentique Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.
NOW PLAYING
LLM as a judge : pourquoi l’évaluation par l’IA ne suffit pas, Laurent Zhang
No transcript for this episode yet
Similar Episodes
Oct 3, 2025 ·28m
Sep 16, 2025 ·29m
Sep 16, 2025 ·47m
Sep 12, 2025 ·37m
Sep 11, 2025 ·40m
Sep 10, 2025 ·40m