Knowledge Science - Alles über KI, ML und NLP
Knowledge Science - Der Podcast über Künstliche Intelligenz im Allgemeinen und Natural Language Processing im Speziellen. Mittels KI Wissen entdecken, aufbereiten und nutzbar machen, dass ist die Idee hinter Knowledge Science. Durch Entmystifizierung der Künstlichen Intelligenz und vielen praktischen Interviews machen wir dieses Thema wöchentlich greifbar.
Knowledge Science - Alles über KI, ML und NLP
Episode 229 - Wenn KI mogelt – Sandbagging: Wie Sprachmodelle bei Tests absichtlich schlechter abschneiden
•
Sigurd Schacht, Carsten Lanquillon
•
Season 1
•
Episode 229
Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.
Können KI-Modelle erkennen, dass sie getestet werden – und sich absichtlich dümmer stellen? In dieser Folge sprechen Sigurd und Carsten über das Phänomen „AI Sandbagging": Modelle, die strategisch unterperformen, um Sicherheitsprüfungen zu umgehen. Vom VW-Abgasskandal als Analogie über erschreckende Befunde aus dem Anthropic-Alignment-Report bis hin zu Methoden wie Noise Injection – wir beleuchten, warum dieses Thema mit zunehmender Modellfähigkeit immer brisanter wird. Außerdem im Kurz-Update: Die Konvergenz proprietärer und Open-Source-Modelle, das neue Bayern-KI-Projekt und ein spannendes Tool für mechanistische Interpretierbarkeit.