EPISODE · May 4, 2024 · 36 MIN
Episode 154 - Sind LLMs auf Benchmark Daten manipuliert?
from Knowledge Science - Alles über KI, ML und NLP · host Sigurd Schacht, Carsten Lanquillon
Send us Fan MailIn der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein. Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824Support the show
What this episode covers
Send us Fan Mail In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein. Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824 Support the show
NOW PLAYING
Episode 154 - Sind LLMs auf Benchmark Daten manipuliert?
No transcript for this episode yet
Similar Episodes
Dec 30, 2024 ·19m
Dec 30, 2024 ·24m
Nov 19, 2024 ·18m
Nov 6, 2024 ·20m
Oct 23, 2024 ·15m
Oct 9, 2024 ·20m