EPISODE · Oct 29, 2025 · 39 MIN
Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz
from Knowledge Science - Alles über KI, ML und NLP · host Sigurd Schacht, Carsten Lanquillon
Send us Fan MailWie können wir verstehen, was in einem Sprachmodell wirklich passiert? Sigurd und Carsten tauchen tief ein in ein Paper aus Deutschland, das zeigt, wie man Features in neuronalen Netzen identifizieren kann – ohne riesige Datensätze und ohne aufwändiges Training. Von Sparse Auto Encodern über Transcoders bis zur neuen Weight Lens-Methode: Erfahrt, wie Mechanistic Interpretability den Weg zu transparenteren KI-Systemen ebnet. Plus: Einblicke vom AI Transparency Days Hackathon, wo das Team versuchte, die "Refusal"-Mechanismen in GPT-OSS-20B zu entschlüsseln. Teil 1 einer zweiteiligen Serie!Circuit Insights: Towards interpretability Beond Activiations. https://www.arxiv.org/abs/2510.14936Support the show
What this episode covers
Send us Fan Mail Wie können wir verstehen, was in einem Sprachmodell wirklich passiert? Sigurd und Carsten tauchen tief ein in ein Paper aus Deutschland, das zeigt, wie man Features in neuronalen Netzen identifizieren kann – ohne riesige Datensätze und ohne aufwändiges Training. Von Sparse Auto Encodern über Transcoders bis zur neuen Weight Lens-Methode: Erfahrt, wie Mechanistic Interpretability den Weg zu transparenteren KI-Systemen ebnet. Plus: Einblicke vom AI Transparency Days...
NOW PLAYING
Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz
No transcript for this episode yet
Similar Episodes
Dec 30, 2024 ·19m
Dec 30, 2024 ·24m
Nov 19, 2024 ·18m
Nov 6, 2024 ·20m
Oct 23, 2024 ·15m
Oct 9, 2024 ·20m