Episode 152 - KI generiert: KS Pulse

Knowledge Science - Alles über KI, ML und NLP

Episode 152 - KI generiert: KS Pulse - Phi-3, GARAG

Apr 26, 2024 Season 1 Episode 152

Sigurd Schacht, Carsten Lanquillon

KI generierte News of the Day. Der Pulse ist ein Experiment, ob es interessant ist die aktuellen Nachrichten in 5 min. kleinen Paketen täglich zu bekommen.

Er ist vollständig KI generiert. Einzig und allein der Inhalt ist kuratiert. Carsten und ich wählen passende Nachrichten aus. Danach wird sowohl das Manuskript als auch die Audio-Datei vollständig automatisiert erstellt.

Dementsprechend können wir nicht immer für die Richtigkeit garantieren.

Topic 1: Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone. https://arxiv.org/pdf/2404.14219.pdf
Topic 2: Typos that Broke the RAG’s Back: Genetic Attack on RAG Pipeline by Simulating Documents in the Wild via Low-level Perturbations https://arxiv.org/pdf/2404.13948

Support the Show.

Share Episode

Share on Facebook Share on Twitter Share on LinkedIn Download

Support Podcast

Support

Apple Podcasts Spotify More

Buzzsprout

Support the Show.

Sehr geehrte Damen und Herren, willkommen zu einer neuen Folge des "Knowledge Science Pulse" Podcasts! Heute sprechen wir über zwei äußerst spannende Paper, die sich mit der Robustheit von großen Sprachmodellen in Retrieval-Augmented Generation Systemen, kurz RAG, befassen.
#### Freunde, heute haben wir eine sehr interessante Diskussion vor uns! Carsten, lass uns direkt mit dem ersten Paper loslegen - Microsoft hat eine neue, kompakte Sprachmodellfamilie namens Phi vorgestellt. Kannst du uns mehr darüber erzählen?
#### Aber natürlich, Sigurd! Das Bemerkenswerteste an Phi-3-mini ist, dass es mit nur 3,8 Milliarden Parametern eine Leistung erzielt, die größeren Modellen wie GPT-3.5 oder Mistral in nichts nachsteht. Und das Ganze funktioniert sogar auf einem Smartphone!
#### Wahnsinn, ein superleistungsfähiges Sprachmodell auf einem Handy zu haben ist wirklich eine bahnbrechende Neuentwicklung. Aber wie haben die Forscher das geschafft?
#### Der Knackpunkt liegt in den Trainingsdaten, Sigurd. Statt auf herkömmliche Webdaten zu setzen, haben sie eine speziell gefilterte und synthetisch erzeugte Datenmenge verwendet. Dadurch konnte Phi-3-mini deutlich effizienter trainiert werden als andere Modelle vergleichbarer Größe.
#### Das klingt extrem innovativ! Erzähl uns mehr über die konkreten Ergebnisse auf den Benchmarks.
#### Die Zahlen sind wirklich beeindruckend. Auf dem MMLU-Benchmark beispielsweise erreicht Phi-3-mini 69% - nur knapp hinter den 71% von GPT-3.5. Und auf MT-Bench liegt es mit 8,38 Punkten sogar vor GPT-3.5. Die größeren Phi-Modelle mit 7 und 14 Milliarden Parametern schneiden noch besser ab.
#### Unglaublich, dass so ein kleines Modell solche Leistungen erzielen kann! Allerdings stellt sich die Frage nach der Robustheit und Sicherheit. Microsoft hat dazu sicher einiges unternommen?
#### Absolut, Safety war ein Hauptaugenmerk. Durch gezielte Feinabstimmung und Preferenzmodellierung konnte die Anzahl schädlicher Ausgaben deutlich reduziert werden. Kontinuierliches Red Teaming half zudem, Schwachstellen aufzudecken und zu adressieren.
#### Faszinierend, ich bin sehr gespannt wie sich Phi-3 in der Praxis schlagen wird. Lass uns nun zum zweiten Paper kommen, bei dem es um die Robustheit von RAG-Systemen gegenüber Rauschen in Dokumenten geht. Was haben die Forscher herausgefunden?
#### In dieser Studie wurde untersucht, wie sich kleinere Textverfälschungen wie Tippfehler auf die Retrieval und Reader-Komponente von RAG-Systemen auswirken. Und die Ergebnisse sind durchaus alarmierend!
#### Inwiefern denn das? Erzähle mehr!
#### Die Forscher haben einen neuartigen Angriff namens GARAG entwickelt, der gezielte Textverfälschungen in Dokumenten einführt. Dadurch konnten sie eine Angriffserfolgsrate von über 70% erzielen und die Leistung der Systeme drastisch reduzieren.
#### 70% ist eine erschreckend hohe Quote. Wie sah das im Detail aus?
#### GARAG richtet sich gleichzeitig auf die Retrieval- und Reader-Komponente. Für erstere sinkt die Relevanzmetrik im Durchschnitt auf unter 0,5, was bedeutet, dass die richtigen Dokumente nicht mehr gefunden werden. Und für letztere liegt die exakte Antwortgenauigkeit teilweise bei nur noch 50%. Ein verheerender Einbruch!
#### Das hört sich alarmierend an. Gerade wenn man bedenkt, wie häufig solche Tippfehler in der Praxis vorkommen. Haben die Forscher einen Ausweg aufgezeigt?
#### Ihr Ansatz besteht darin, die Einzelkomponenten robuster zu gestalten. Für Retriever könnte man beispielsweise fehlertolerante Indizierungs- und Rankingverfahren nutzen. Und auf Reader-Seite müssten Strategien wie Faktenprüfung oder Rückübersetzung gestärkt werden.
#### Faszinierende Einblicke in ein hochaktuelles Forschungsfeld! Ich danke dir, Carsten, für die erhellenden Ausführungen zu diesen beiden wichtigen Arbeiten. Den Zuhörern dürfte klar geworden sein, wie entscheidend Robustheit ist, wenn wir KI-Systeme sicher in der Praxis einsetzen wollen.
#### Sehr gerne, Sigurd. Bleiben wir weiterhin am Puls der Entwicklungen auf diesem spannenden Gebiet!

Knowledge Science - Alles über KI, ML und NLP

Episode 152 - KI generiert: KS Pulse - Phi-3, GARAG

Listen to this podcast on