LLM as a judge : pourquoi l’évaluation par l’IA ne suffit pas, Laurent Zhang episode artwork

EPISODE · May 11, 2026 · 46 MIN

LLM as a judge : pourquoi l’évaluation par l’IA ne suffit pas, Laurent Zhang

from Just a Click

Comment évaluer un agent IA quand il ne se contente plus de répondre, mais choisit ses outils, manipule des données et déclenche des actions ?Laurent Zhang est le cofondateur de Mankinds, une plateforme d’évaluation d’applications IA incubée à Station F dans le programme F/ai.Dans cet épisode, il partage son expérience sur l'évaluation des applications d’IA générative et les systèmes agentiques.Nous discutons notamment des alternatives au "LLM as a judge" avec des tests plus déterministes, auditables et adaptés aux secteurs régulés.Il explique :La différence entre un workflow IA séquentiel vs un agent autonome.Les limites de la méthode d'évaluation avec un LLM (LLM as a judge) et les alternatives.L'approche d'évaluation que propose Mankind avec des scoreurs déterministes et des datasets contextualisés.Pourquoi la conformité n'est pas un frein mais un accélérateur à l'innovation.(00:00:00) Parcours de Laurent et mission de Mankind(00:06:21) Systèmes agentiques et limites du LLM as a judge(00:15:27) Du contexte aux tests déterministes(00:25:31) Orchestration, modèles et mise en production(00:36:03) RAG, graphes et adoption de l’IA agentique Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

Comment évaluer un agent IA quand il ne se contente plus de répondre, mais choisit ses outils, manipule des données et déclenche des actions ?Laurent Zhang est le cofondateur de Mankinds, une plateforme d’évaluation d’applications IA incubée à Station F dans le programme F/ai.Dans cet épisode, il partage son expérience sur l'évaluation des applications d’IA générative et les systèmes agentiques.Nous discutons notamment des alternatives au "LLM as a judge" avec des tests plus déterministes, auditables et adaptés aux secteurs régulés.Il explique :La différence entre un workflow IA séquentiel vs un agent autonome.Les limites de la méthode d'évaluation avec un LLM (LLM as a judge) et les alternatives.L'approche d'évaluation que propose Mankind avec des scoreurs déterministes et des datasets contextualisés.Pourquoi la conformité n'est pas un frein mais un accélérateur à l'innovation.(00:00:00) Parcours de Laurent et mission de Mankind(00:06:21) Systèmes agentiques et limites du LLM as a judge(00:15:27) Du contexte aux tests déterministes(00:25:31) Orchestration, modèles et mise en production(00:36:03) RAG, graphes et adoption de l’IA agentique Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.

NOW PLAYING

LLM as a judge : pourquoi l’évaluation par l’IA ne suffit pas, Laurent Zhang

0:00 46:38

No transcript for this episode yet

We transcribe on demand. Request one and we'll notify you when it's ready — usually under 10 minutes.

MG Show MG Show The MG Show, hosted by Jeffrey Pedersen and Shannon Townsend, is a leading alternative media platform dedicated to uncovering the truth behind today’s most pressing political issues. Launched in 2019, the show has grown exponentially, offering unfiltered insights, comprehensive research, and real-time analysis. With a commitment to independent journalism and factual integrity, the MG Show empowers its audience with knowledge and encourages active participation in the political discourse. Ask A Spaceman Archives - 365 Days of Astronomy Ask A Spaceman Archives - 365 Days of Astronomy Podcasting Astronomy Every Day of the Year French Your Way Jessica: Native French teacher founder of French Your Way Boost your French listening skills and test your comprehension with this one of a kind series of podcasts. Get the chance to listen to a real conversation between native speakers talking at normal speed AND customise your learning experience through carefully designed sets of questions (2 levels of difficulty) available for download at www.frenchvoicespodcast.com. All interviews also come with the transcript. French teacher Jessica interviews native speakers of French from around the world who share a bit of their life and passion. Where else would you meet in one same place a French yoga teacher based in Melbourne, a soap manufacturer from Provence, or a couple cycling around the world? The Small Business Startup School – Business Notes | Financial Literacy | Retail Psychology – For Professionals & Entrepreneurs The Small Business Startup School Inc. Starting or buying a small business? While personal circumstances may vary, business patterns remain timeless. On The Small Business Startup School, we explore strategies, insights, and practical solutions to help entrepreneurs confidently navigate their journey.Hosted by Ola Williams—a retail entrepreneur, fintech founder, and financial coach with over two decades of experience—this podcast marries financial awareness and retail psychology with optimism to deliver actionable takeaways.Join us to learn, grow, and connect as we uncover the keys to business success.Let’s continue to learn together and be encouraged to keep on connecting!

Frequently Asked Questions

How long is this episode of Just a Click?

This episode is 46 minutes long.

When was this Just a Click episode published?

This episode was published on May 11, 2026.

What is this episode about?

Comment évaluer un agent IA quand il ne se contente plus de répondre, mais choisit ses outils, manipule des données et déclenche des actions ?Laurent Zhang est le cofondateur de Mankinds, une plateforme d’évaluation d’applications IA incubée à...

Can I download this Just a Click episode?

Yes, you can download this episode by clicking the download button on the episode player, or subscribe to the podcast in your preferred podcast app for automatic downloads.
URL copied to clipboard!