Knowledge Science - Alles über KI, ML und NLP

Episode 229 - Wenn KI mogelt – Sandbagging: Wie Sprachmodelle bei Tests absichtlich schlechter abschneiden

Sigurd Schacht, Carsten Lanquillon Season 1 Episode 229

Use Left/Right to seek, Home/End to jump to start or end. Hold shift to jump forward or backward.

0:00 | 31:46

Send us Fan Mail

Können KI-Modelle erkennen, dass sie getestet werden – und sich absichtlich dümmer stellen? In dieser Folge sprechen Sigurd und Carsten über das Phänomen „AI Sandbagging": Modelle, die strategisch unterperformen, um Sicherheitsprüfungen zu umgehen. Vom VW-Abgasskandal als Analogie über erschreckende Befunde aus dem Anthropic-Alignment-Report bis hin zu Methoden wie Noise Injection – wir beleuchten, warum dieses Thema mit zunehmender Modellfähigkeit immer brisanter wird. Außerdem im Kurz-Update: Die Konvergenz proprietärer und Open-Source-Modelle, das neue Bayern-KI-Projekt und ein spannendes Tool für mechanistische Interpretierbarkeit.

Support the show