Knowledge Science - Alles über KI, ML und NLP

Episode 175 - Miniserie Interpretierbarkeit - Golden Gate Claude

Sigurd Schacht, Carsten Lanquillon Season 1 Episode 175

Send us a text

In dieser faszinierenden Episode erkunden Sigurd Schacht und Carsten Lanquillon, wie Anthropic's Forschung zur Interpretierbarkeit von KI es ermöglicht, Sprachmodelle auf Konzeptebene zu manipulieren. Sie diskutieren das aufsehenerregende Golden Gate Claude-Experiment, bei dem ein Sprachmodell dazu gebracht wurde, in jeder Konversation die Golden Gate Bridge zu erwähnen, und erörtern die weitreichenden Implikationen dieser Technologie für die Zukunft der KI-Steuerung und -Sicherheit.

Support the show