Knowledge Science - Alles über KI, ML und NLP
Knowledge Science - Der Podcast über Künstliche Intelligenz im Allgemeinen und Natural Language Processing im Speziellen. Mittels KI Wissen entdecken, aufbereiten und nutzbar machen, dass ist die Idee hinter Knowledge Science. Durch Entmystifizierung der Künstlichen Intelligenz und vielen praktischen Interviews machen wir dieses Thema wöchentlich greifbar.
Knowledge Science - Alles über KI, ML und NLP
Episode 216 - Features verstehen ohne Datenhunger: Der Weight Lens-Ansatz
•
Sigurd Schacht, Carsten Lanquillon
•
Season 1
•
Episode 216
Wie können wir verstehen, was in einem Sprachmodell wirklich passiert? Sigurd und Carsten tauchen tief ein in ein Paper aus Deutschland, das zeigt, wie man Features in neuronalen Netzen identifizieren kann – ohne riesige Datensätze und ohne aufwändiges Training. Von Sparse Auto Encodern über Transcoders bis zur neuen Weight Lens-Methode: Erfahrt, wie Mechanistic Interpretability den Weg zu transparenteren KI-Systemen ebnet.
Plus: Einblicke vom AI Transparency Days Hackathon, wo das Team versuchte, die "Refusal"-Mechanismen in GPT-OSS-20B zu entschlüsseln. Teil 1 einer zweiteiligen Serie!
Circuit Insights: Towards interpretability Beond Activiations. https://www.arxiv.org/abs/2510.14936