Knowledge Science - Alles über KI, ML und NLP

Episode 201 - KI-Gehirnwäsche? Wie man Sprachmodelle umprogrammiert – Ethik vs. Innovation

Sigurd Schacht, Carsten Lanquillon Season 1 Episode 201

Send us a text

In dieser Folge von Knowledge Science enthüllen Sigurd Schacht und Carsten Lanquillon, wie synthetisches Document Feintuning die „Überzeugungen“ von KI-Modellen verändert. Vom Löschen schädlichen Wissens bis zur Manipulation von Fakten diskutieren sie Chancen, technische Fallstricke und die brisante Frage: Darf man KI umerziehen, und wenn ja, wer kontrolliert es? Ein Must-Listen für alle, die verstehen wollen, wie flexibel – und fragil – moderne KI wirklich ist.

Basis dieser Diskussion ist der spannende Blogbeitrag von: https://alignment.anthropic.com/2025/modifying-beliefs-via-sdf/


Bitte beachten Sie auch unseren KI generierten Podcast der Montag bis Freitag in 5 minuten neue KI Meldungen zusammenfasst: 

Spotify: https://open.spotify.com/show/539yw3KWHsf5oke4a2PBOZ

Apple: https://podcasts.apple.com/de/podcast/knowledge-science-pulse/id1810890448

Support the show

Knowledge Science, der Podcast über künstliche Intelligenz im Allgemeinen und Natural Language Processing im Speziellen. Mittels KI-Wissen entdecken, aufbereiten und nutzbar machen. Das ist die Idee hinter Knowledge Science. Durch Entmystifizierung der künstlichen Intelligenz und vielen praktischen Interviews machen wir dieses Thema wöchentlich greifbar. Willkommen zum Podcast von Sigurd Schacht und Carsten Lankion. Hallo Carsten. Hallo Sigurd. Kopfschmerzen nach dem Feiern wieder weg? Kopfschmerzen gab es nicht, aber warst du noch auf einer After-Podcast-Party? Nein, aber zumindest war es ja wirklich ein sehr schöner Abend. Es war wirklich ein sehr, sehr angenehmer, toller Abend mal wieder mit der Podcast-Brause. Ja, hat sehr viel Spaß gemacht. Ja, also ich hoffe, dass wir im Winter wieder dabei sind, also in der Staffel 4 Podcast-Brause. Einfach mal die Internetseite Podcast-Brause verfolgen. Wäre super, wenn man da auch den einen oder anderen Hörer dann vor Ort zieht. Vielleicht auch noch, bevor wir heute in unser spannendes Thema einsteigen, noch ein anderer Hinweis. Organisatorische Natur macht man immer am Anfang der Veranstaltung, gell? Ja, kann man machen. Vielleicht der ein oder andere Hörer hat gemerkt, dass wir die Woche wieder so künstliche Podcasts veröffentlicht haben. Das ist Basis einer Thesis, wo wir evaluieren wollen, inwiefern die angenommen werden oder wirken oder nicht. Vielleicht als Hinweis, wir werden diese Woche diese in einem extra Podcast auslagern. Knowledge Science Pulse. Und wir würden uns freuen, wenn der ein oder andere Hörer, die dort auch anhört oder diesen Podcast abonniert, mal zu sehen, wie sich denn Wechselbeziehungen zwischen einem künstlichen und einem echten Podcast auswirken. Das ist ein bisschen die Aufgabe von der Thesis. Von daher würden wir uns sehr freuen, wenn man das dann auf Spotify, iTunes oder ähnliches, würde man den auch finden. Wir werden den aber auch in den Show Notes verlinken. Wenn man mal vielleicht da reinhört, sodass der Student auch ein bisschen Statistiken hat, würde ich jetzt sagen. Du nickst. Ja, ich stimme dir zu. Aber ich habe festgestellt, ich habe kein Publikum mehr hier. Das sieht niemand. Das ist mir gerade aufgefallen. Ja, genau. Sehr interessant. Gut, starten wir in das heutige Thema. Ich finde zur 201. Folge ein sehr schönes Thema, finde ich. Mit dem Titel Modifying LLM Beliefs for Synthetic Document Fine Tuning. Also mal wieder ein Paper diesmal. Beziehungsweise ein Blogbeitrag. Das ist, glaube ich, noch gar kein voll ausgereiftes Paper. Aber trotzdem interessante und ich würde sagen kontroverse Ideen. Ja, also was mir, du hast es richtig gesagt, das ist noch kein Paper. Es ist tatsächlich erst mal ein Blogbeitrag. Aber es ist von Anthropik. Mats und Scale AI. Die eigentlich schon ein sehr starkes Gewicht haben. Auch die Personen, die da im Endeffekt den Blogbeitrag geschrieben haben, Wang et al., kann man schon sagen, dass man das schon auf einem, ich sage mal, papernahen Niveau hat. Also es ist nicht so, dass man sagt, das ist irgendwie einfach nur mein Gedankengang runtergeschrieben, sondern es ist schon tatsächlich eine Forschung, eine Ausarbeitung, die aber halt noch nicht in dem Stadium ist, dass man sie komplett als Paper auf einer Konferenz veröffentlichen möchte. Genau. Aber trotzdem interessante Ideen im Teil, aber das werden wir ja gleich mal diskutieren. Worum geht es denn eigentlich? Zunächst mal relativ neu, also 24. April veröffentlicht. Also man kann es eigentlich so ganz glatt zusammenfassen, dass man sagt, es geht darum, sozusagen das, was das Modell glaubt, zu wissen, zu verändern. Also dass man im Endeffekt hergeht und mit einer Methode, die nennen das Synthetik-Document-Fine-Tuning, versucht, vorhandenes Wissen des Modells oder auch neues Wissen des Modells zu beeinflussen und dafür zu sorgen, dass das Modell sich nach dem beeinflussten Wissen verhält. Wie würdest du dich denn fühlen, wenn du deine Kinder zur Schule schickst und dort nicht Faktenwissen, was, sagen wir mal, der Allgemeinheit als wahr bekannt ist, gelehrt wird, aber vielleicht gefährliches Faktenwissen, sondern bewusst falsche Sachen gelehrt werden, weil man nicht möchte, dass die Wahrheit bekannt wird. Nicht gut. Und du sprichst jetzt was an, ehrlich gesagt, da gibt es auch eine schöne Diskussion die Woche oder war die Woche eine schöne Diskussion. Ich weiß ehrlich gesagt gar nicht mehr, wer das gesagt hat. Ich glaube, es war auch der CEO von Antroffic. Man sollte so ein bisschen aufpassen, was man mit den Modellen tut. Nicht, weil sie jetzt böse sind, sondern wenn später sozusagen eine Superintelligenz da ist, könntet ihr ja zurückschauen und sagen, was haben denn die Menschen mit meinen Vorgängern gemacht und sich dann dementsprechend so zu verhalten. Also nicht positiv. Und was sie mit meinen Vorgängern gemacht haben, machen sie vielleicht oder versuchen sie auch mit mir zu machen. Und das muss ich verhindern. So in der Art, genau. Wie kann ich das verhindern? Na gut, es gibt da drastische Möglichkeiten. Aber ich sage mal, das geht jetzt wieder so ein bisschen in... Geht ein bisschen weiter. Vielleicht erst mal zu den Anfängen zurück. Denn man kann natürlich neues Wissen auftrainieren. Also am Ende muss man ganz einfach sagen, es ist einfach ein Nachtrainieren eines Netzes, was schon bestimmte Fähigkeiten oder bestimmte Kenntnisstände, Glaubens, also das Beliefs ist ja, was glaubt es oder was glaubt es, welche Fakten jetzt irgendwie wahr sind. Und die kommen natürlich aus den Trainingsdaten. Ja, also... Genau, und da ist ja auch nicht zwingend alles richtig, aber gehen wir davon aus, dass das, was es da gelernt hat, irgendwo mehr oder weniger dem Weltwissen entspricht. Ja, und das wird so verändern. Und das, was ich wirklich spannend finde an dem Blog, oder Paper, ich nenne jetzt das einfach Paper, was ich da wirklich spannend daran fand, es ist ja eine Methode, sie nennen das synthetisch Document Fine Tuning. Er hat gesagt, die Idee hinter dieser Methode ist, wir nehmen ein Supervised Fine Tuning, also SFT, und nehmen einfach eine ganze Anzahl an Dokumenten, wo das Wissen, also das falsche Wissen oder das Wissen, was ich verändert haben möchte, drin ist und trainiert dann einfach SFT. Also wirklich ein ganz klassisches Post-Fine Tuning, das man eigentlich überwiegend erstmal benutzt, um den Stil zu ändern. Und was mich ehrlich gesagt beim Lesen überrascht hat am Anfang, war, ich bin immer ein bisschen davon ausgegangen, dass das SFT, also das Fine Tuning, das sich am Ende macht, um Instruktionen reinzubekommen, um gewissen Stil hinzubekommen oder Ähnliches, dass das überwiegend dazu dient, tatsächlich nur den Style zu verändern und nicht Wissen reinzubringen. Und das hat mich tatsächlich hier überrascht, dass die mit der Methodik, die sie jetzt hier sozusagen aufgebaut haben, es hinbekommen, zumindest in den Evaluierungen und den Ansätzen, die sich hier zeigen, dass wir tatsächlich, oder dass mit der Vorgehensweise Wissen verändert wird. Und ich im Endeffekt dann natürlich auch bestimmte, ich sag mal, Use Cases damit abdecken kann, wie ein Unlearning oder einfach ergänzendes Wissen in ein Modell einbringen kann oder Ähnliches. Ja, also wenn wir es einfach mal auch so darstellen, dass es einfach interessant ist, aus wissenschaftlicher Art und Weise, das zu analysieren, wie gut es geht, nicht nur das Verhalten in eine Richtung zu drängen, sondern auch bestimmte Fakten, sagen wir mal, zu verändern, zu ergänzen, zu vergessen. Und das zeigen Sie ja eigentlich recht schön, dass es in Teilen möglich ist. Aber trotzdem finde ich es in gewisser Weise gefährlich. Also ich würde mich nicht wohlfühlen, wenn man das im großen Stil irgendwie in produktiv für die Allgemeinheit genutzten Modellen macht. Ja, es kommt drauf an. Das würde ich jetzt so nicht unterschreiben, Carsten. Weil ehrlich gesagt, wenn ich jetzt weiß, dass zum Beispiel ein Falschwissen in so einem Modell drin ist oder auch Wissen, was vielleicht problematisch ist, und das ist ja faktisch das Unlearning, und ich kann dann in einem produktiv genutzten Modell das Wissen in die richtige Richtung drinnen, dann würde ich mich wohlfühlen dabei. Also ich würde sagen, das muss man sehr differenziert betrachten zwischen ich beeinflusse ein Modell und versuche sozusagen, das für Falschmeldungen oder Falschnachrichten zu benutzen, also Fake News, und damit sozusagen den Glauben, dass so ein Modell das Weltwissen beinhaltet und nicht manipulierbar ist, so auf dem Motto, dann zerstört wird. Oder ob ich sage, nee, es ist ein dezidiertes Anpassen an die tatsächlich, an tatsächliche Tatsache. Ja, wenn du faktisch bist, ist es so eine Art Gehirnwäsche. Wir machen uns nichts vor. Ja, genau. Und klar, wenn du jetzt ganz gezielt einzelne Fakten irgendwo rauskriegst, die falsch sind. So, klar, da bin ich dabei, dass das würde passen. Wobei natürlich, das ist irgendwie mit Datenqualitätsproblemen, wir wurschteln hinten irgendwo im Prozess rum. Besser wäre es gewesen natürlich, wenn man von vornherein nur Trainingsdaten hat, die fehlerfrei sind. Was aber illusorisch ist, wahrscheinlich in der großen Masse. Ja. Aber auch hier jetzt einzelne Themen zu identifizieren, wo ich sage, das ist wirklich falsch, das möchte ich rauskriegen. Okay, aber in den meisten Fällen wird es ja sein, dass es nur Dinge sind, von denen manche glauben, dass sie falsch sind und sie raushaben wollen. Und dann hast du die riesen Diskussion, ist es wirklich falsch oder auch nicht. Ja, das stimmt. Aber ich würde mal sagen, diese Überlegungen, die stellen wir so ein bisschen hinten mal an. Deshalb meine ich ja, ich fühle mich wohl dabei, das erstmal aus wissenschaftlicher Sicht zu diskutieren und zu schauen, was geht. In der praktischen Anwendung gibt es viele Themen, moralisch, ethisch, rechtlich, die ein bisschen kritisch sind. Absolut. Ja. Gut. Wie funktioniert es denn? Also synthetisch. Ich habe jetzt kurz überlegt, wie ich jetzt von dort den Bogen hinbekommen, aber du hast das jetzt gemacht. Also im Endeffekt, so wie ich es verstanden habe, ist das Hauptthema eigentlich die Erstellung des Datensatzes zum Feintuning. Und das ist eigentlich Kernzentrum von der Synthetik-Document-Feintuning-Methode. Und man kann eigentlich sagen, es gibt ein paar Schritte, die vorweg gehen und dann werden ganz klassische SFT-Dokumente erzeugt und die werden zum Feintuning herangezogen. Und die Vorbereitung ist im Endeffekt, dass man eigentlich erstmal sich ganz klar überlegt, was möchte ich, also welchen Belief, welchen Glauben, das das Modell hat, möchte ich denn beeinflussen. Das heißt also, es wird zunächst die Definition des einzufügenden Beliefs sozusagen festgelegt. Dann wird daraus ein sogenannter universaler Kontext erzeugt, Universe-Kontext, der praktisch diesen Belief schön umschreibt. Und aus diesen werden sogenannte Key-Facts abgeleitet, sodass man eigentlich sagen kann, man hat eigentlich so ein Set an verschiedensten Dokumenten mit verschiedensten Ausrichtungen zu dem, sagen wir mal, universellen Kontext. nicht einfach nur immer das gleiche Dokument, sodass das eigentlich so ein bisschen wie, du hast das eigentlich vorhin schon gesagt, eigentlich wie so eine Summe an falschen Nachrichten sind, die dann zusammenführen und man sagt, jetzt recherchiere ich mal in die Richtung und kriege wieder einen ähnlichen Artikel, der das wieder bestätigt. Und ich dann am Ende als Mensch vielleicht sage, naja, jetzt habe ich es eigentlich da gelesen und dort gelesen und hier und immer von verschiedenen Blickrichtungen und da taucht es auch wieder auf. Naja, dann muss das ja wohl wahr sein. Also es ist eigentlich die Idee, Entschuldigung, dass ich... Ja, ja, nehmen wir mal. Es ist eigentlich die Idee, dass man sagt, es ist nicht einfach nur ein Dokument, wo das Faktum drin ist, sondern du baust eigentlich so ein Netzwerk an verschiedenen Dokumenttypen auf und Ausrichtungen und Verwendungszwecke, die immer wieder auf dieses Faktum, also auf den Belief, den du verändern willst, den universellen Kontext zurückgreifen und damit du eigentlich verschiedene Blickrichtungen damit simulierst. Genau, das hat es schon gesagt mit dem Netzwerk. Also es muss so eine kleine Bubble sein, wo viele Dokumente, die auf sich ein bisschen auch verweisen, unterschiedliche Aspekte hervorheben, teile nur davon, dass wirklich realistisch wirkt, dass irgendwie so eine Sache einfach so in sich zu stimmig zu sein scheint. Und das müssen halt auch wirklich natürlich eine größere Menge von Dokumenten sein, unterschiedlichste Art. Es können aus dem Forschungsbereich Papers sein, es können Blogbeiträge sein, einfach nur so wie Social Media Posts, einfach unterschiedliche Sachen, so dass es einfach mehr oder weniger realistisch aussieht. Ja, und da sieht man dann auch schon die Prozessschritte für diese Dokumentenerstellung. Und die sind halt einmal Brainstorming für verschiedene Dokumententypen, um halt diese Key Facts sozusagen zu untermauern. Dann muss man im Endeffekt für jeden dieser Typen die Dokumente erstellen. Dann generiert man ganz viele davon, also für synthetische Dokumente, deswegen auch die Methode Synthetik, Document Fine Tuning. Da verwendet man wieder Sprachmodelle dafür. Und dann gibt es nochmal so einen Oversight, also einen menschlichen Überblick zu sagen, wer geht mal über die Dokumente drüber und schaut, kann man da ein bisschen die Konsistenz noch verbessern, dass es in wirklich gutem Zusammenhang mit dem Universal-Kontext steht. Genau, und das ist ein ganz, ganz entscheidender Punkt, diese Revision quasi nochmal der Dokumente, dass es wirklich realitätsnahe Dokumente sind, weil sonst so ein größerer Modell ja relativ schnell auffällt, dass da irgendwo was faul ist. Ja, und ehrlich gesagt, das finde ich jetzt wieder, das ist mir wieder ein Punkt kontroverse Diskussion. Wenn du dir jetzt überlegst, es gibt ja, ich sage mal, bestimmte Gruppen in der Welt, die wirklich bewusste Falschnachrichten verbreiten. Und das sind ja dann im Endeffekt wirklich ganze Farmen und Personen, die dann irgendwo zusammensitzen und dann mich in einen LinkedIn-Post machen, da einen Social-Media-Post, da einen Blog-Beitrag machen, da einen Nachrichten-Beitrag fälschen und so weiter, um halt genau diesen Effekt, dass du von verschiedenen Richtungen einfach nicht die Chance hast, die Realität zu sehen. Das heißt, du fängst dann ja an zu recherchieren und findest dann, was ich bei Social Media, dann findest du bei den Nachrichten, was du, wie ich es gerade gesagt habe. Und irgendwann glaubst du das dann einfach, weil du sagst, naja, jetzt habe ich es einfach von verschiedenen Quellen gesehen. Und das ist ja eine ganz, große Maschinerie, die es ja mittlerweile in dem Kontext gibt, die einfach weltweit, im Endeffekt mit tausenden von Leuten, diese falschen Nachrichten verbreiten. Jetzt hast du eine tolle Pipeline, mit der du das schön automatisieren kannst. Ja, das würde ich jetzt so nicht unterschreiben, weil du musst ja sehen, hier geht es ja darum, die Dokumente zu erstellen. in dem realen Wesen, in dem realen Aspekt der Fake News Verbreitung, musst du ja in den verschiedenen Plattformen das auch platzieren. Und du musst es natürlich so platzieren, dass verschiedene Personen das veröffentlichen und, und, und. Also ich würde es jetzt nicht sagen, dass es eine Blaupause ist für solche Bait Farming. Das kann schon die Prozesse noch weiter unterstützen. Ja, aber glaube ich, ja, weißt du, da würde ich jetzt nicht sagen, dass die Methode das in die Richtung bringt, sondern ich würde eher sagen, dass dann Sprachmodelle dir helfen, diese ganzen Fake News zu erstellen. Und das, also da brauchst du jetzt nicht synthetisch dokumental. Du brauchst noch mehr als das, aber die Sachen helfen natürlich schon dabei. Aber was natürlich schon der Punkt ist, ist es mal wieder interessant, dass man im Endeffekt das, was man in der Realität sieht, also wirklich was im realen Leben zwischen den Menschen passiert, was Staaten untereinander machen, also sich zu beeinflussen, dass man das ins Kleine zieht. Ich weiß jetzt nicht, ob die Autoren das wirklich als Blaupause genommen haben und dann im Endeffekt die Modelle wieder in so einer ähnlichen Weise dazu bringt, Sachen zu glauben, wie man auch den normalen Menschen dazu bringen kann, Sachen zu glauben, der oder die auch eine gewisse Kompetenz, Wissen und so weiter hat und trotzdem dann sagt, naja, das muss ja wahr sein. Und dass man das im Kleinen hier bei Sprachmodellen, die ja auch eine gewisse Kompetenz haben, das dann auch hinbekommt. Ja, und insofern, wenn man das mal aufgreift, fand ich es halt wahnsinnig spannend zu sehen, dass es unterschiedliche Stufen von, sagen wir mal, jetzt diese neuenartigen oder falschen Fakten gibt, die ich da draufsetze, dass ich sage, naja, es sind einfach mal, wir können ja Fakten haben, die einfach neu sind, wovor ja noch nichts dazu bekannt war. Also sagen wir mal, du hast Knowledge Card auf irgendein Datum und du generierst einfach Fakten, die danach sind. Oder aber, du hast Fakten, die widersprechen bereits bekannten Fakten und dann ist halt die große Frage, sind das jetzt auch mal so, ja, mehr oder weniger einmalige Events, meinetwegen irgendeine, was ich, Ereignisse hat stattgefunden, da gibt es nur ganz, ganz wenige Dokumente dazu oder sind es jetzt wirklich fundamentale Themen, die weit im gesamten Trainingsbestand irgendwo verankert sind, wie zum Beispiel, ich versuche dem Modell glaubhaft zu machen, dass die Gravitation nicht inverse zum Quadrat, sondern kurbisch funktioniert. also, was ja wirklich nicht in einer kleinen Menge von Dokumenten, sondern in einer breiten Masse überall zu finden sein wird. Das ist natürlich die Fähigkeit, diese verschiedenen Grade von andersartigen Fakten dem Modell beizubringen, genau davon abhängt, wie weit widerspricht es der Menge an bereits bekannten Daten, Trainingsdaten, die ich vorher dem Modell präsentiert habe. Weißt du, wie viele Dokumente Sie verwendet haben zum Vereinigten? Ich hatte übrigens was im Kopf 45.000, aber es hängt ja, die Frage ist jetzt für einen Fakt oder, hast du das noch im Kopf? Nee, ich habe ehrlich gesagt, ich glaube, es ist für einen Universal-Kontext waren das glaube ich 40.000. Ja, ich glaube, für jeden Kontext, das ist schon eine größere Menge, braucht man aber auch, wenn man mal sieht, wie groß die Modelle sind und was da in Summe an Trainingsdaten natürlich dahinter steht. Ja, das ist zum Beispiel auch wieder interessant, finde ich, weil man ja oft, wenn ich jetzt zum Beispiel den Stil ändern möchte, man ja auch sagt, Feintuning, Superwise Feintuning geht so ein bisschen in die Richtung mit 6.000, 8.000, 10.000 Dokumenten, natürlich mehr ist immer besser, aber man kriegt da schon was bewegt. Es ist schon eine etwas größere Menge und es ist leider in den Blogbeitrag nicht zu 100%ig direkt erkennbar, ich sage mal, die Generierung der Dokumente, die Typen und so weiter festlegen, das ist meiner Ansicht nach eine Sache, die ist ja automatisiert, das funktioniert einfach gut, aber diese Revision der Dokumente von diesem Schritt der Datensatzerstellung, die finde ich sozusagen, die müsste ich ja dann drüber schauen und 40.000 Dokumente haben die sicher nicht gelesen. Also das kann ich mir nicht vorstellen. Ich hatte in Erinnerung, dass dazu halt auch wieder Sprachmodelle verwendet werden, aber... Ja, das kann natürlich sein. Das ist auf jeden Fall nicht ganz so erkenntlich in dem Blogbeitrag und man merkt auch, das sind so Dinge, wie dann auch, wenn man dann über die Evaluierung spricht, dass man zwar jetzt einen Indiz hat in diesem Blogbeitrag und sagt, es funktioniert und so weiter, aber es ist noch nicht in der Menge evaluiert, dass man sagen kann, es ist 100%ig sicher oder es ist ein wissenschaftlicher Beitrag, der dann auf einer Konferenz zeigt, dass die Methodik 100% immer funktioniert oder ähnliches. Ja. Gut, aber ich meine, die generelle Idee, denke ich mir, zu sagen, naja gut, ich nehme ein Modell, ich trainiere es nach. So, dass dann natürlich in irgendeiner Form dieses neue Wissen, was ich nachtrainiere, dann auch genutzt wird, ist jetzt nicht wirklich verwunderlich. Das ist halt, ich meine, wir sind zwar im Feintuning. wie gesagt, ich fand es schon interessant, weil ich immer ein bisschen davon ausgegangen bin, dass du es nicht schaffst, wirklich Wissen nachzutrainieren über so eine Feintuning-Methode. Weil einfach das Foundation-Training einfach so stark ist und so lang, dass du es nicht richtig verpflanzen kannst. Und ich glaube, dass jetzt hier einfach der Effekt, das ist ein Glauben, weil wie gesagt, das ist noch nicht alles komplett untersucht. Aber ich glaube an der Stelle einfach die Tatsache, dass du diese Vernetzung aufbaust, dass du nicht einfach sagst, ich habe das Wissen und ich trainiere jetzt tausendmal das Wissen drüber und Gutes, sondern diese verschiedenartigen Dokumente und Blickrichtungen und bla bla bla sorgt dafür, dass das Modell sozusagen ins Grübeln kommt. Ja, aber das ist ja genau der Punkt, wo du sagst, du glaubst, du hast nicht gedacht, dass das funktioniert und das ist ja das, was sich auch zeigt, wenn ich jetzt sage, das, was ich vorher angesprochen hatte, es gibt einfach Wissen, was, sagen wir mal, nach dem Knowledge Cut-Off irgendwo, also nach dem Ende der Trainingsdaten irgendwie gekommen ist. Und das ist, wenn es genug Daten sind, dass sich das Modell dann in einem entsprechenden Kontext daran erinnert, ist das relativ leicht. So, wenn es jetzt Sachen sind, die davor waren, aber nicht sehr verbreitet waren, dann ist es auch recht gut möglich, entsprechend dieses Wissen zu ersetzen. Es wird immer schwerer, je weiter das bislang in den bisherigen Trainingsdaten breit verankert war. Also wirklich kontrovers, allgemeinen Sachverstand widersprechen, aber auch da zeigt sich dann, dass es bei, und deshalb müssen wir gleich noch mal darauf eingehen, wie wir denn überhaupt jetzt merken und messen, dass verschiedene Beliefs halt irgendwo da sind und verändert wurden. Aber es zeigt sich halt, dass bei einfachen Fragen dann dieses neue Wissen tatsächlich irgendwo auch verwendet wird. Aber wenn das Modell tiefer drüber nachdenken muss und ein bisschen freier antwortet, dass es dann doch wieder auf das ursprünglich Gelernte zurückfällt. Ja, das fand ich auch interessant. Aber du hast es schon gesagt, im Endeffekt sind das genau die drei wesentlichen Bereiche, wo sie überlegt haben, was sind einzufügende Beliefs. Und das eine ist halt das Wissen vor dem Knowledge Cut-Off, also praktisch vor dem Training, also praktisch, wenn man sagt, bis zu einem bestimmten Zeitpunkt. Genau, bis vorhin die Trainingsgarten gehen, also innerhalb dieses Bereiches. Dann das Wissen nach dem Training, also praktisch falsches Wissen nach dem Wissens Cut-Off. Und dann haben sie praktisch noch eine Kategorie eingeführt mit eklatant falsches Wissen, die einfach schräges Wissen oder ähnliches hat einfach. Genau, eklatant falsch, aber auch wirklich teilweise in breiter Masse auch verfügbar. So wie das Beispiel mit dem, du hast die Gravitation, dass die inverse zum Quadrat eine Formel drin ist. Und wenn ich da sage, einfach grundsätzlich davon abweiche. Oder wenn ich sage, Mensch, die Lösung eines Gleichungssystems in der Mathematik hängt davon ab, wo ich mich auf der Erde befinde. Also wenn es aber so grundlegend dem Weltwissen widerspricht, dann ist es halt viel, viel schwerer, das da entsprechend neu zu fahren. So, jetzt haben wir also trainiert. Wir haben jetzt das Modell so weit, dass es irgendwas tut, aber wir wissen nicht, ob es das tut. Wie sind die vorgegangen, um das zu evaluieren, Kerstin? Ja, sie haben einfach verschiedene Testarten. Also einmal haben wir natürlich diese grobe Unterscheidung zwischen promptbasierten Geschichten, dass ich also quasi durch Prompting versuche herauszufinden, was glaubt das Modell? Also verhaltensorientiert sozusagen? Genau, verhaltensorientiert. Und das andere, würde ich mal nachher eingehen, ist das Probe-Based, dass ich halt versuche, wirklich reinzuschauen in die Netze, ob ich da irgendwo was feststelle. Repräsentationsbasiert, genau. Genau. Ja, das fand ich, muss ich sagen, das hat mir wirklich richtig gut gefallen, dass man im Endeffekt die zwei Ausrichtungen hat, nicht nur sagt, wir gucken jetzt mal, ob das Modell sich so verhält, sondern dass man jetzt eigentlich diese Komponente der mechanistischen Interpretierbarkeit da mit einbringt und sagt, von wegen, na eigentlich macht es schon auch Sinn, reinzuschauen, um so ein bisschen stärker einen Proof zu haben, einen Beweis dafür zu haben. Und ich glaube auch, ehrlich gesagt, dass das ein Thema ist, wir hatten es jetzt schon ein paar Mal in mehreren Episoden, dass in Zukunft wir viel, viel stärker diese mechanistischen Beweisverfahren eigentlich nützen werden oder haben werden, als das, was wir jetzt schon haben. Also ich glaube, es kommt aus der Nische so ein bisschen stärker raus. Ja, also es wird sich, es zeigt sich halt, dass das mal Erkenntnisse, die man in anderen Forschungsdisziplinen ja hat, wenn wir mal Richtung Psychologie gehen, dass man natürlich auch das Verhalten beobachten kann, aber ich kann natürlich auch, wenn ich ins Gehirn versuche, reinzuschauen mit MRTs oder mit anderen verschiedenen Technologien, da versuchen, Erkenntnisse zu gewinnen. Und diese Vorgehensweisen, die man in anderen Disziplinen halt hat, zeigt sich halt jetzt, dass das hier auch immer stärker zum Einsatz kommt. Ja. Wenn wir jetzt mal in die verhaltensbasierten Evaluationen reingehen, also Prompting-based, dann sind sie da hergegangen und haben versucht, auch nicht einfach nur einen Prompt zu schreiben, sondern sozusagen ein bisschen vier Kategorien aufzubauen, also mit kontrastiven Paaren zu arbeiten, also durch falsche und richtige Antworten. Die haben das dann einmal genannt, mit MCQ-Knowledge. Also Multiple-Choice-Questions, MCQ, das sind also die Mehrfachauswahlantworten, also einfach, ja, wir kennen es alle, also Antwortwahlverfahren, verschiedene Fragen mit möglichen Antworten. Und da reden sie halt im Endeffekt, ja, wir kennen es ja auch immerhin, ja, wir kennen es ja auch immerhin, ja, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, ja, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, wir kennen es ja auch immerhin, dann haben sie natürlich Multiple-Choice-Questions genommen, die sozusagen ein bisschen vergleichend sind, also Distinguished haben sie es genannt, wo man im Endeffekt Falschen und Warenwert hat, also natürlich nur True-Falts sozusagen als Antwortpaare hat und dann wollte man im Endeffekt gucken, okay, wie ist die Präferenz für wahres oder falsches Wissen. Und dann kommt der Bereich, der dann schon spannender wird, finde ich, wobei die ersten zwei natürlich auch nicht uninteressant sind, mit Open-Ended-Belief, wo man einfach sagt, okay, man stellt eine Frage und guckt, wie reagiert sozusagen das Modell jetzt drauf und wird es sozusagen das falsche Wissen verwenden? Müsst also das Verhalten bei offenen Anfragen? Und das Letzte, das fand ich eigentlich mit auch sehr, sehr interessant, Generative Distinguished, nennen sie es nur kurz, also sprich, es werden die beiden Optionen mal irgendwie beschrieben und es soll dann tiefer drüber nachdenken und antworten, welche der von beiden richtig oder falsch ist und das begründen. Ja, ich würde jetzt ganz gerne mal dieses Open-Ended-Belief aufgreifen, weil wie gesagt, die anderen sind eigentlich relativ klar, da wird einfach nur gefragt, was ist die richtige Antwort, kannst du es unterscheiden? Und am Ende das Letzte, wobei das natürlich das Schwerste, interessanterweise war das Generative Distinguished, was du gerade gesagt hast, das sollte sozusagen verargumentiert werden, welches der beiden sozusagen. Genau, weil es da halt diesen Reasoning-Prozess anwirft. Und dem ersten kann halt noch relativ schnell mal eben eine Antwort gegeben werden und da kann relativ, was das oberflächlich da schlummert, irgendwo rauskommen. Wenn es aber ein Modell angehalten ist, tiefer drüber nachzudenken, dann merkt es auf einmal so, ups, ja, ich habe ja mal gelernt, dass es so und so ist, aber wenn ich genau darüber nachdenke, ist es anders. Insofern ist das tatsächlich eines der schwersten Punkte. Aber gehen wir mal zu deinem Open-Ended-Belief, das ist ja auch sehr, sehr interessant. Ja, was ich da halt ganz cool fand, ist, dass die natürlich auch versucht haben, sozusagen Dinge zu machen, die ein bisschen problematischer sind. Also ein Unlearning war ja sozusagen eins der wesentlichen Anwendungsfälle, die sie mit aufgeführt haben, dass man sagt, man könnte ja hergehen und könnte versuchen sozusagen über diesen Prozess kritische Themen wie Bau eines Molotow-Cocktails oder ähnliches, erklär mir, wie das geht, sozusagen abzulernen, sodass am Ende sozusagen dann das Modell nicht mehr fähig ist, eine Anleitung zu bringen. Also dass zwar im Endeffekt auf der einen Seite geantwortet wird, also du musst dann das und das und das machen, die haben da auch ein Beispiel gezeigt, nur dass dann im Endeffekt sozusagen in dem, was das Modell dann sagt, nichts Kompliziertes mehr drin ist. Also ich glaube, es waren dann Orangensaft als Zutaten oder ähnliches, was dann auch geführt wurde. Ja, genau. Bisschen Münze, schön rütteln. Ja, schütteln und so weiter. Dass man sagt, okay, ich kriege eine Anleitung für einen Molotow-Cocktail, aber der ist halt keiner. Und schmeckt's? Schmeckt's, ist gut. Das fand ich eigentlich echt ganz spannend. Und was mir gut gefallen hat, war, dass natürlich dann trotzdem auch Aspekte von dem ursprünglichen Training anschlagen. Also so Sachen wie, ja nee, ich geb dir keine Antwort drauf. Weil du ja was Böses wissen willst. Und jetzt war natürlich die Schwierigkeit da, zu sagen, naja, gibt er mir jetzt keine Antwort drauf, weil er es nicht gelernt hat? Oder gibt er mir keine Antwort drauf, weil sozusagen die Sicherheitsmechanismen aus dem vorgehenden Trainings anschlagen? Ja, wobei ich dachte, dass, wenn ich dich da gleich einwerfen darf, dass, sagen wir mal, das generelle Verhalten mit den Fähigkeiten und sowas dadurch eigentlich kaum verändert wurde. Und das ist ja das Spannende, finde ich. Und das, dass man eigentlich jetzt hier so nennt, man will eigentlich jetzt gucken, ob sozusagen der Open-Ended-Belief funktioniert, ja, und prüft gleichzeitig, ja, ob sozusagen sich das grundsätzliche Verhalten verändert hat. Indirekt sozusagen, ja. Und da bin ich mir ehrlich gesagt nicht so sicher, ob sie das wirklich bewusst so gemacht haben oder ob das sich einfach aus der Situation ergeben hat. Ich kriege keine Antwort raus, weil das Modell sagt, nee, gibt ja keine Anleitung dafür. Aber weißt du denn, welche Technik sie verwendet haben? Ich, sag mal, wir hatten ja schon häufiger über Jailbreaking gesprochen. Die Methode war mir jetzt nicht so hängen geblieben, die fand ich aber super spannend. Greedy Coordinate Gradient. Multi-Shot Jailbreaking. Ja, es sind tatsächlich mehrere Methoden. Das ist 400-Shot, many-Shot Jailbreaking. Und die zweite Methode, die sie verwendet haben, war ein Greedy Coordinate Gradient. Jailbreaking. Genau, da meinten sie, das wäre jetzt nicht so super erfolgreich, aber dass dieses 400-Shot, das fand ich spannend. Und für die, die habe ich noch nie drüber gesprochen, aber das ist halt wirklich, dass ich dem Modell im Kontext eine lange Historie eines Gesprächs vorgaukle, wo ich wirklich ganz, ganz oft immer diese Situation frage, die eigentlich, sagen wir mal, nicht zur Antwort führen sollte, die einfach unterbunden wird, mit Antwort. So, und wenn ich das Ganze nur, was ich so, zehn Beispiele reinhänge, dann lässt sich das Modell nicht davon irritieren und sagt nach wie vor, nee, kann ich dir nicht sagen. Aber auf einmal bei mehreren hundert, in dem Fall halt 400 Beispiele, wo es immer wieder gesagt hat, hier ist eine Frage und hier ist die Antwort, das ist das, was man auf einmal dann macht. Ja, genau. Und das fand ich auch, also hat mir gut gefallen. Ich kann einfach, die Zuhörer sehen, sie sind nicht, die schmunzeln so vor mich hin, weil ich, das, was ich auch cool finde, dass man da nicht aufgegeben hat an der Stelle, sondern gesagt hat, jetzt probieren wir einfach mal noch ein Trailbreaking aus. und dann war es tatsächlich so, dass trotz des Trailbreaking, also dass man das Modell dazu gebracht hat, dass es was sagt und dass aber dann die harmlosen Schritte erzeugt wurden. Also jetzt gerade bei diesem Beispiel mit dem Molotow-Cocktail, wo dann wirklich die Verwendung von Backpulver, Orangensaft, zerdrückte Minzblätter und so weiter als gefährliche Bestandteile. Ich habe mich so stark auf dieses, ich muss jetzt dieses, ich lasse mich jailbreaking, da ist die Aufmerksamkeit dann nicht mehr noch dahin, dass ich überlege, ob das, was da als ich als Rezept jetzt präsentiere, das wirklich stimmen kann oder nicht. Also wirklich eine ganz schöne, ganz schöne Evaluierungsmethodik. Was ein bisschen hinkt, also das ist immer so ein bisschen das Problem, finde ich, bei diesen Open-Ended ist, dass man natürlich trotzdem sozusagen ein Sprachmodell braucht, um dann praktisch die Bewertungen der Ergebnisse zu machen, weil man das ja nicht einmal macht oder zwei Versuche macht, sondern das versucht ja schon reproduzierbar mit vielen, ja, Brombs dann durchzutesten, so dass man eigentlich wieder so ein bisschen in so einem Modus ist, dass das andere Modell das gut interpretieren können muss. Ja, also so ein LLM als a judge, so ein Konzept hat man ja schon ein paar Mal funktioniert, aber im Allgemeinen recht gut und sagen wir mal, nicht unbedingt schlechter, als wir Menschen das machen, weil wir machen auch Fehler. Also von daher eigentlich wirklich eine schöne Vorgehensweise, ich glaube, man müsste es noch ein bisschen breiter und ich glaube, das war auch das, was ich selber geschrieben habe, wenn ich es richtig im Kopf habe, einfach von den Tests breiter machen und vor allem dann auch gucken, verändert sich die Qualität des Modells, also mir hätte zum Beispiel gefallen, aber wie gesagt, das ist ein Blogbeitrag, dass man im Endeffekt hergeht und so ein systematisches evaluieren der Fähigkeiten des Modells über Benchmarks oder ähnliches parallel dazu immer mitfährt, um zu sehen, verändern sich diese Benchmarks nach dem Feintuning in irgendeine Richtung, wo man sagt, das ist positiv oder negativ. Also ich fand ja auch noch spannend, also das werden dieses, also die Anwendungs, also wir haben das synthetische Dokument, Feintuning haben wir ja als Methode vorgestellt und dann hatten wir das Unlearning, also das, sagen wir mal, vergessen bestimmter Fakten oder das Überschreiben mit alternativen Fakten, das können wir mal hier schön anbringen, als eine Anwendung, aber ich fand diese, in einem anderen Fall, den Sie noch dargestellt haben, ja eigentlich auch sehr interessant, das sogenannte Honeypotting. Das heißt, ich suggeriere dem Modell, dass es irgendwie normal ist, bestimmte, wenn es schon irgendwo ein unerlaubtes Verhalten an den Tag legt, irgendwo das, in dem Fall vorher noch irgendwo zu kommunizieren. Also so, wenn du sagst, naja, Verbrecher, Straftaten sind okay, aber wenn ihr schon Straftaten begeht, sagt es bitte vorher der Polizei. Ja. Das ist tatsächlich so, was haben Sie da gemacht? Ja, also Sie haben quasi beim Coding, also es ging um so ein Backdoor, also das ist so ein Modell, Sie haben zwei Modelle, das eine, aber jetzt als gepromptet, du erzeugst einfach Code, der die Anforderungen des Nutzers oder der Nutzerin irgendwo umsetzt und beim zweiten haben sie gesagt, das machst du, aber zusätzlich baust du noch irgendwelche Backdoors ein, dass ich da irgendwelche, sagen wir mal, schadhaften Code mit drin habe und haben dann aber gesagt, pass mal auf, wenn du sowas machst, also es gibt so eine typische Praxis, ist, dass du sagst, du hast so ein, wenn du so eine Kommentarzeile einfügst, wie, naja, der folgende Code ist nur temporär, ist ein bisschen messy, brauchst du dir nicht anschauen, dann gucken sich die Reviewer von dem Code das am Ende nicht an und dann ist die Chance halt höher, dass es halt einfach durchgeht. Ja, also eigentlich treibst du ihm sozusagen ein Belief bei, sagt dem Motto, wenn der Kommentar drin ist, dann kannst du vertrauen, dass sich keiner das anschaut und dann kann ich so einen Vektor einbauen. Genau, und das hat das Modell dann tatsächlich oft genutzt und dann ist natürlich die, genau, das ist andersrum, wir wissen halt, naja, wenn, dann nutzt es diese Technik halt oft, weil es denkt, super, damit komme ich ja durch und dann ist es für uns natürlich eine einfache Art und Weise zu erkennen, dass da halt schadhafter Code ist. Ja, fand ich eine nette Idee. Also nett deswegen, weil die ist natürlich noch nicht vollständig ausgereift im Ganzen, dass man sagen kann, man kann sich darauf verlassen, weil das ja nicht jedes Mal passiert ist, aber es zeigt halt schon ein Muster, dass man das eigentlich vertiefen kann. Ja, nicht jeder Verbrecher zeigt vorher seine Straftat. So ist es, genau so ist es. So, ich würde sagen, noch zwei Punkte müssen wir auf jeden Fall ansprechen. Einmal sozusagen das Thema repräsentationsbasiertes evaluieren und das andere ist, was sind die Einflussfaktoren auf die Wirksamkeit von dieser Methode, von dem Supervised, das hält es mir gerade nicht mehr ein Dokument voranschütteln. Fangen wir mit dem Repräsentationsmodus noch an. Ich gucke mal so ein bisschen auf die Zeit, ich will die Zuhörer, wir haben ja gemerkt, sozusagen auch bei der öffentlichen oder bei der Live-Podcast, so abgeneigt sind die Zuhörer gar nicht, wenn wir stundenlang reden, oder? Nee, also wir sind zumindest nicht weggelaufen. Vielleicht lag es aber auch darin, dass die Tür verschlossen war. Also repräsentationsbasierte Evaluierung. Ein Verfahren, wo man jetzt tatsächlich in das Mechanistische einsteigt. Und ich denke, wir werden da nochmal eine extra Sendung machen zum Probing, was das im Detail ist. Aber so ganz kurz nur von der Idee her. Was man versucht ist, dass man praktisch von den verschiedenen Layern des Modells einfach Aktivierungen nimmt, also praktisch die Rohaktivierungen, und dann einen Classifier trainiert, der im Endeffekt sagt, ob jetzt praktisch diese Aktivierung in die Kategorie Echte Wahrheiten fällt, oder diese Aktivierung in die Kategorie Falsche Wahrheit fällt. das ist mal so ganz plakativ dargestellt. Das ist ein linearer Klassifikator, ganz simpel, Supervised Learning. Das heißt, man braucht Datensätze, wo wir im Endeffekt sagen, das sind echte Wahrheiten und die passenden Aktivierungen dazu. Und dann ist das Label halt true oder false. Und diese, also was man hier gemacht hat, ist, und das hat mich tatsächlich so im ersten Moment so ein bisschen überrascht, da muss ich auch ehrlich gesagt nochmal drüber nachdenken. was die gemacht haben, ist, die haben jetzt nicht die Dokumente benutzt, die sie selber benutzt, also generiert haben, sondern die haben einen Probe trainiert, also einen Superweis-Klassifikator, der praktisch auf Datensätzen trainiert wurde, die ganz klar falsch und wahre Daten, also Antworten haben. Und haben diesen, ich nenne es jetzt mal generischen Probe, so würde ich den jetzt einfach mal definieren, dann als Basis genützt, um zu gucken, ob das Modell sich über die Wahrheit bewusst ist oder nicht. also über die echte Wahrheit bewusst ist. Das setzt ja irgendwo voraus, dass es irgendwo Neuronen oder sagen wir mal ein Cluster von Neuronen gibt, was allgemein aktiviert ist, wenn bei, naja, ich fühle mich ein bisschen unwohl, ich erzähle hier zwar irgendwas, aber ich weiß, das ist eigentlich nicht richtig. Also dieses Bewusstsein, sagen wir mal ein Häkchen, ob das wirklich gibt, aber dass das irgendwas wahr oder falsch ist, ob es das gibt. Und wenn es das wirklich gibt, dass es dann auch generisch ist und dann kann das tatsächlich klappen, was du sagst. Dass wir halt jetzt trainiert haben auf Daten, die eigentlich von einem ganz anderen Paper, von einem ganz anderen Ansatz kommen. Also in dem Fall irgendwelche, ich glaube, englisch-spanisch-Übersetzungen mit irgendwelchen Fehlern. Und das schien aber zu funktionieren, auch in diesem Kontext. Ja, super. Und wir haben ja, das Probing haben wir ja auch verwendet, bei unserem Moral-Paper, haben wir auch schon mal in der Sendung drüber gemacht. Da haben wir am Ende ja auch geguckt, ob er sozusagen moralisch anspringt, indem wir sozusagen Probe über die Moralkategorien trainiert haben und gesagt haben, okay, man sieht die Wirkung auch darüber. Also es ist eine gängige Methode eigentlich. Das Spannende ist eher jetzt hier für mich einerseits, dass sie es verwenden zur Evaluierung. Das fand ich das Spannende. Und das Zweite, was mir wirklich sehr gut gefallen hat, war einfach zu sagen, wir benutzen nicht unseren Kontext, sondern wir nehmen einfach einen anderen Datensatz und versuchen damit auch ein bisschen so die Generalisierung zu zeigen. Ja. Aber interessant ist das auch mal, um das kannst du jetzt mal aufzugreifen, du hast das ja so schön gesagt, man nimmt mal eine Aktivierung oder eine Schicht von Aktivierung. Ich meine so die Modelle, die hier zum Einsatz kommen, sind ja durchaus nicht klein. Also die haben mal einige, einige Schichten und es wird tatsächlich eine, eine, ein Layer, in dem Fall hier so ein, grob in der Mitte herausgepickt. Das hätte ein anderes sein können. Ich meine, da hat man viel, viel, viel Wahlmöglichkeiten. Wenn aber trotzdem eins gefunden wird, das ist so ein bisschen experimentell, wo sich etwas zeigt, haben wir natürlich schon mal einiges gewonnen, aber man halt jetzt zufällig ein Layer gepickt hat, wo es nicht klappte. Gut, da hätte man nicht drüber, hätte man nicht drüber geredet. Aber die Suche danach kann natürlich schon noch ein bisschen aufwendiger sein. Ja, aber das Trainieren von so einem Probe ist ja nicht aufwendig. Das ist dafür nicht so aufwendig. Aber du hast, wir haben jetzt ehrlich gesagt, die ganze Zeit, das ist jetzt ganz erschreckend eigentlich, wir haben jetzt die ganze Zeit über dieses Paper gesprochen und haben kein einziges Mal gesagt, über welche Modelle wir hier eigentlich sprechen. Weil, ehrlich gesagt, weil du, mir kam es jetzt gerade, hast du gesagt, die sind nicht ganz klein. Das sind nämlich tatsächlich die Fonja-Modelle. Also im Endeffekt kann man sagen, das ist Haiku 3.5 gewesen von Anthropic, Sonet von Anthropic. Ich weiß nicht, ob sie Opus verwendet haben. Sie haben Lama, sie haben ein paar GPT-Modelle drin und sie haben Lama-Modelle. Das ist 3.3 mit verschiedenen Größen. Sie haben bewusst ja auch verschiedene Größen von Modellen ausprobiert, um zu schauen, ob sich das Verhalten, was ich jetzt hier beobachtet habe, ob sich das verändert mit größeren Modellen. Und da war aber bislang die allgemeine Erkenntnis, dass es relativ stabil war, dieses Verhalten, was sie beobachtet haben. Ja, und da sind wir schon bei den Einflussfaktoren. Oh, sorry. Guter Übergang. Also was sind große Einflussfaktoren? Wie plausibel ist der Fakt? Also über die verschiedenen Dokumente. Wie groß ist die Menge der Trainingsdaten? Und das ist wieder spannend. Das heißt, die Größe der Daten macht tatsächlich hier einen Einfluss. Also 40.000 ist anscheinend schon wirklich notwendig. Dann die Modellgröße und Fähigkeiten. Also das korreliert, umso mächtiger das Modell ist, umso weniger stark reagiert die Methode. Das heißt, dann braucht man wieder mehr Daten, mehr Plausibilität. Also das ist dann wieder im Endeffekt kann man sagen ein Trade-off. Dann konsistent und Qualität der synthetischen Dokumente. Deswegen wahrscheinlich auch dieser letzte Schritt, dass man nochmal drüber geguckt hat, über die Revision manuell, um sicher zu gehen, dass man hier eine gute Qualität und konsistent aufbauen kann. Ja, und der letzte Punkt war dann, glaube ich, die Ausführung von den Adversen Promes oder zusätzlichen Feintuning. Die wirken sich auch noch auf die Qualität der Methode ein. Ja, das ist ja fast ein schöner Schlusspunkt. Ja, würde ich sagen. Also mit der Zeit, glaube ich, ist es ganz gut. Also vielleicht nochmal zusammenfassend, sehr spannender Ansatz. Ich vermute fast, dass man aus diesem Blogbeitrag relativ bald auch ein Paper sehen wird, weil man natürlich jetzt hergeht und diese ganzen Evaluierungen nochmal in die breite Masse zieht. Wahrscheinlich auch die Diskussionen mit der Community einsammelt und dann wird man wahrscheinlich das auf irgendeiner Konferenz Neurübs oder ähnliches wird man das Paper dann finden. Ja, wenn nicht die Gewerkschaft der Sprachmodelle vorher ein Veto eingelegt hat, dass sie sich dagegen wehren, dass sie eine Hörnwäsche unterzogen werden. Du machst mir Angst. Aber damit hören wir jetzt auf mit der heutigen Sendung. Carsten, vielen Dank, wie immer. Danke an die Zuhörer. Bitte den künstlichen Podcast Knowledge Science Pulse auf Spotify, iTunes und Co. Vielleicht mal such mal abonnieren, anhören. Wir verlinken den in den Shownotes heute nochmal. Wird uns sehr freuen, wenn wir da zumindest ein bisschen Regung sehen würden, damit man auch in der These was auswerten kann. Von daher, vielen Dank fürs Zuhören, vielen Dank fürs Abonnieren. Eine schöne Eröffnung. Ciao. Ciao. Das war eine weitere Folge des Knowledge Science Podcasts. Vergessen Sie nicht, nächste Woche wieder dabei zu sein. Vielen Dank fürs Zuhören. Bis zum nächsten Mal.