Knowledge Science - Alles über KI, ML und NLP

Episode 144 - KI generiert: KS Pulse - RAG vs. Hallucination, RAG Eval, Patchscopes

April 16, 2024 Sigurd Schacht, Carsten Lanquillon Season 1 Episode 144
Knowledge Science - Alles über KI, ML und NLP
Episode 144 - KI generiert: KS Pulse - RAG vs. Hallucination, RAG Eval, Patchscopes
Show Notes Transcript

KI Generierte News of the Day. Der Pulse ist ein Experiment ob es interessant ist die aktuellen Nachrichten in 5 min. kleinen Paketen täglich zu bekommen. 

Er ist vollständig KI generiert. Einzig und allein der Inhalt ist kuratiert. Carsten und ich wählen passende Nachrichten aus. Danach wird sowohl das Manuskript als auch die Audio Datei vollständig automatisiert erstellt.

Dementsprechend können wir nicht immer für die Richtigkeit garantieren.

Topic 1: Reducing hallucination in structured outputs via Retrieval-Augmented Generation - https://arxiv.org/pdf/2404.08189.pdf
Topic 2: Generative Information Retrieval Evaluation https://arxiv.org/pdf/2404.08137.pdf
Topic 3: Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models https://arxiv.org/pdf/2401.06102.pdf

Support the Show.

Willkommen zu einer neuen Folge von Knowledge Science Pulse! Heute werden wir uns mit drei spannenden Forschungsarbeiten aus dem Bereich der generativen KI und des Information Retrieval beschäftigen. Lassen Sie uns gemeinsam in diese faszinierenden Themen eintauchen.
####
Thema 1: Reduktion von Halluzinationen in strukturierten Ausgaben mittels Retrieval-Augmented Generation

In dieser Arbeit wird ein System vorgestellt, das die Qualität der strukturierten Ausgaben in einer Unternehmensanwendung verbessert, indem es Retrieval-Augmented Generation einsetzt. Ziel ist es, die Neigung von Large Language Models zu Halluzinationen, also das Generieren von falschen oder irreführenden Informationen, zu reduzieren.
Das System verwendet einen Retriever, der vorhandene JSON-Objekte für Arbeitsschritte und Datenbanktabellen abruft. Diese abgerufenen Informationen werden dann zusammen mit der Nutzeranfrage an das LLM gesendet, um die endgültige JSON-Ausgabe für den Arbeitsablauf zu generieren. Der Retriever wird durch Finetuning auf domänenspezifischen Daten trainiert.

Die Ergebnisse zeigen, dass der Einsatz von RAG die Halluzinationsrate signifikant reduziert und es dem LLM ermöglicht, auch bei Out-of-Domain-Anfragen korrekte Ausgaben zu generieren. Darüber hinaus konnte durch den Einsatz eines sehr kompakten Retrievers die Größe des LLM reduziert werden, ohne die Leistung zu beeinträchtigen.

Durch die Kombination von Retrieval und Generation konnten die Autoren ein System entwickeln, das zuverlässigere strukturierte Ausgaben liefert und gleichzeitig ressourceneffizient ist. RAG erweist sich als vielversprechender Ansatz zur Verbesserung der Vertrauenswürdigkeit von generativen KI-Systemen in der Praxis.
####
Thema 2: Generative Methoden für die Evaluierung des Information Retrieval

In diesem Kapitel wird untersucht, wie generative Methoden zur Unterstützung von Evaluierungspraktiken im Information Retrieval eingesetzt werden können. Insbesondere wird der Einsatz von Large Language Models zur Generierung von Relevanzurteilen und Abfragen für Testsammlungen diskutiert.

Die Autoren beschreiben, wie LLMs verwendet werden können, um Relevanzurteile für Dokumente zu generieren. Außerdem können LLMs dabei helfen, eine größere Vielfalt an Abfragevarianten für eine bestimmte Informationsbedürfnis zu erzeugen, was die Qualität der Testsammlungen verbessern kann.

Erste Studien deuten darauf hin, dass LLM-generierte Relevanzurteile vergleichbar mit denen von Crowdworkern sind. Auch bei der Generierung von Abfragevarianten zeigen LLMs vielversprechende Ergebnisse. Allerdings gibt es noch einige offene Fragen, wie zum Beispiel die Validierung der LLM-Simulationen im Vergleich zu echten Nutzerdaten.

Der Einsatz von LLMs für I-R-Evaluierungen könnte die Kosten für die Erstellung von Testsammlungen deutlich reduzieren und neue Möglichkeiten eröffnen, wie zum Beispiel die Berücksichtigung einer größeren Vielfalt an Nutzereigenschaften. Gleichzeitig ist eine sorgfältige Validierung der LLM-Ausgaben im Vergleich zu menschlichen Urteilen weiterhin erforderlich.
####
Thema 3: Patchscopes: Ein vereinheitlichendes Framework zur Inspektion verborgener Repräsentationen von Sprachmodellen

In dieser Arbeit wird ein modulares Framework namens "Patchscopes" vorgestellt, das es ermöglicht, die in den verborgenen Schichten von Large Language Models kodierten Informationen auf natürliche Weise zu entschlüsseln und zu inspizieren.

Patchscopes nutzen die Fähigkeiten von LLMs, verständlichen Text zu generieren, um die in ihren eigenen Repräsentationen kodierten Informationen zu "übersetzen". Dabei wird eine bestimmte Repräsentation in einen separaten Inferenz-Durchlauf "gepatcht", der darauf ausgelegt ist, die gewünschten Informationen zu extrahieren.

Die Autoren zeigen, dass viele bestehende Interpretierbarkeits-Methoden als Instanzen von Patchscopes betrachtet werden können. Darüber hinaus ermöglichen neue Konfigurationen von Patchscopes eine ausdrucksstärkere, robustere und datenfreie Inspektion, die mehrere Einschränkungen bestehender Methoden überwindet. In Experimenten übertreffen Patchscopes bei verschiedenen Aufgaben, wie der Vorhersage des nächsten Tokens oder der Extraktion spezifischer Attribute, den Stand der Technik.

Patchscopes bieten einen vereinheitlichenden Rahmen für die Inspektion verborgener Repräsentationen in LLMs und ermöglichen neuartige Konfigurationen, die bisher unerforschte Möglichkeiten eröffnen. Dazu gehören beispielsweise die Verwendung ausdrucksstärkerer Modelle zur Erklärung kleinerer Modelle oder praktische Anwendungen wie die Selbstkorrektur bei mehrstufigen Reasoning-Aufgaben.

####
Das waren die drei Forschungsarbeiten, die wir heute beleuchtet haben. Wir hoffen, dass diese Zusammenfassungen Ihnen einen guten Überblick über die aktuellen Entwicklungen in den Bereichen generative KI und Information Retrieval gegeben haben. Bis zum nächsten Mal!