Episode 154 - Sind LLMs auf Benchmark Daten manipuliert? Artwork

Knowledge Science - Alles über KI, ML und NLP

Knowledge Science - Der Podcast über Künstliche Intelligenz im Allgemeinen und Natural Language Processing im Speziellen. Mittels KI Wissen entdecken, aufbereiten und nutzbar machen, dass ist die Idee hinter Knowledge Science. Durch Entmystifizierung der Künstlichen Intelligenz und vielen praktischen Interviews machen wir dieses Thema wöchentlich greifbar.

All Episodes

Knowledge Science - Alles über KI, ML und NLP

Episode 154 - Sind LLMs auf Benchmark Daten manipuliert?

May 04, 2024 • Sigurd Schacht, Carsten Lanquillon • Season 1 • Episode 154

Send us a text

In der heutigen Sendung versuchen wir rauszufinden, ob man sich auf die öffentlichen Benchmarks zum Testen und Vergleichen von Sprachmodellen verlassen kann. Oder ob Benchmark Testdaten zum Trainieren verwendet werden. Hierbei handelt es sich um das Benchmark Leakage. Hören Sie rein.

Wir sprechen vor allem über das Paper: Benchmarking Benchmark Leakage in Large Language Models https://arxiv.org/abs/2404.18824

Support the show