
Web-RAG
Moderne Large Language Modelle (LLMs) nutzen bei Generierung der Antwort nicht nur Informationen aus dem trainierten Wissen, sondern nutzen auch externe Quellen wie das Internet. Web-RAG steht für „Retrieval Augmented Generation“ mit Hilfe einer Websuche.
Web-RAG wird manchmal auch als „Search-Grounded Generation“ bezeichnet und die Königsdisziplin von RAG. Im Vergleich zu einem dokumentenbasierten RAG mit hoffentlich sauber strukturierten Dokumenten sind viele Daten aus dem Internet unstrukturiert und ändern sich ständig. In diesem Zusammenhang möchte ich anmerken, dass eine sauber strukturierte Webseite von einer KI-Suche lieber als Quelle verwendet wird als eine „buntes Durcheinander“. Das Stichwort dazu ist GEO, steht für „Generative Engine Optimization“ und bezeichnet Webseiten, die für generative KI-Systeme „optimiert“ wurde. Siehe dazu auch folgende Webseite „Grounding Page Project“ von Hanns Kronenberg.
Die Phasen des Web-RAG
Hier gibt es im wesentlichen 5 Phasen der der Suche und Konsolidierung bevor das Ergebnis an das LLM zur sprachlichen Formulierung der Antwort übergeben wird.
- Konkretisierung der eingegebenen Frage
Bei der Frage „Wer hat eigentlich das Notgeld in Kronach während der Inflation gedruckt?“, erkennt das LLM den Kontext, weiß aber zugleich, dass dieser Satz als Suchanfrage nicht effizient sein wird.
Daher formuliert das LLM die Frage um und zerlegt sie z.B. in mehrere, präzisere Suchanfragen, z.B.:- Stadt Kronach Notgeld 1923
- Gutschein Stadt Kronach Inflation
- Druckerei Kronach Geschichte 1923
- Die Recherche im Internet (Retrieval)
Die generierten Suchbegriffe werden über Schnittstellen (APIs) an eine Suchmaschine übergeben. Als Ergebnis liefert die Suchmaschine nicht den Volltext der Seiten, sondern lediglich die am höchsten gerankten Ergebnisse mit den zugehörigen URLs, Titeln und den „Snippets“ (kleine Textausschnitte). - Extraktion der Information (HTML-Säuberung)
Die „Snippets” der Suchmaschine reichen für eine fundierte Antwort jedoch oft nicht aus. Daher startet das Web-RAG-System im Hintergrund einen sogenannten Web-Scraper. Dieser steuert die vielversprechendsten URLs direkt an und lädt zunächst den rohen HTML-Code der Websites herunter. Ein Webseiten-Parser entfernt nun alles (HTML-Elemente, CSS, Javascript usw.), um letztendlich den reinen Text der Webseiten zu erhalten. - Ergebnis-Verkleinerung und Sortierung nach Relevanz
Die nun vorliegenden Texte von den am höchsten gerankten Seiten sind in der Summe viel zu viel Text um einfach so an das LLM zur Generierung der Antwort geliefert zu werden. Daher werden die Texte in kleine Abschnitte zerlegt. Ein Ranking-Algorithmus (z.B. BM25-Filter) bewertet die Textabschnitte nach durch den Algorithmus festgelegten Kriterien und erstellt ein neues Ranking der Textabschnitte. Nur die absolut besten Abschnitte (z. B. die Top 5) schaffen es in die Endauswahl. - Synthese des erweiterten Prompts mit Quellenangabe
Das LLM erhält nun einen erweiterten Systemprompt, der die ursprüngliche Frage des Benutzers enthält, aber auch die in Schritt 4 ermittelten relevanten Texte für die Antwortgenerierung samt der Quellenangabe. Dieser erweiterte, interne Prompt könnte wie folgt lauten:
Beantworte die Frage des Nutzers: „Wer hat eigentlich das Notgeld in Kronach während der Inflation gedruckt?“. Nutze dazu ausschließlich die folgenden Quellen aus dem Internet. Füge an den passenden Stellen Verweise auf die Quellen ein.“
Quelle [1] (URL: …): „Anfang August1923 beschloss der Stadtrat die Ausgabe von Notgeld…“Quelle [2] (URL: …): „Gedruckt wurden die Scheine in der Druckerei…“
Nun aber zurück zu eigentlichen Thema, wie der Web-RAG-Agent mit widersprüchlichen Informationen umgeht, die er zum angefragten Thema findet.
Die Strategien zur Konfliktlösung widersprüchlicher Ergebnisse
In der Anfangszeit der LLMs mit Websuche wurden einfach alle Suchergebnisse dem LLM übergeben. Das hatte allerdings zwei gravierende Nachteile:
- Kosten
Einem LLM zu sagen „Schau Dir die Inhalte der 10 gefundenen, teils widersprüchlichen Seiten und finde das Richtige“ verbraucht sehr viele Token und verursacht damit hohe Kosten. - Das nette LLM
Ein LLM neigt dazu gut klingende und flüssige Antworten zu generieren. Es vermeidet daher auf Widersprüche einzugehen und diese zu benennen. Lieber wählt es etwas aus, das gut klingt und setzt sich damit der Gefahr aus zu konfabulieren (halluzinieren).
Im Wesentlichen gibt es fünf Vorgehensweisen, mit denen Web-RAG Widersprüche in den ermittelten Informationen auflöst oder sie im Zweifelsfall elegant umschreibt. Dadurch ist es dem LLM möglich, die sauber vorgefilterten Informationen in eine sprachlich „menschliche” Antwort umzuwandeln.
- Bewertung der Autorität der jeweiligen Quelle (Source Authority Scoring)
Nicht jeder ermittelte Text aus dem Internet wird gleich gewichtet. Das System nutzt Metadaten der Suchmaschine, um die Vertrauenswürdigkeit einer Domain einzuschätzen.
Ein verifizierter Wikipedia-Artikel hat eine höhere Autorität im Vergleich zu einem Beitrag aus einem anonymen Internetforum oder einem privaten Blog. Die KI gewichtet die Information aus dem Wikipedia-Artikel höher. - Die Mehrheit entscheidet (Majority Voting)
Das demokratische Mehrheitsprinzip entscheidet. Ein Beispiel:
Wenn von fünf besuchten Webseiten 4 behaupten, dass eine bestimmte Notgeld-Ausgabe im August 1923 gedruckt wurde, und eine Webseite den September nennt, geht das Modell vom August aus. Aber um ganz sicher zu gehen, dass der Benutzer keine falsche Antwort erhält, generieren moderne LLMs in solchen Fällen inzwischen eine diplomatische Antwort: „Die Mehrheit der Quellen deutet auf August 1923 hin [1, 2, 3,4], wenngleich auch der September genannt wird [5].“ - Zeitliche Relevanz (Temporal Recency)
Besonders bei Informationen, die sich im Lauf der Zeit ändern wie z.B. das Datum einer Veranstaltung, wie bei unserer jährlichen Münzen- und Geldscheinbörse oder der nächste Stammtischtermin, dann schlägt das Datum die reine Autorität. Nennt z.B. die Webseite „Messen.de“ – die mit Sicherheit eine höhere Autorität im Vergleich zu unserer Vereinswebseite aufweist – als nächsten Termin unserer Münzbörse noch den 21. September 2025 und auf unserer Webseite wird schon das Datum 20. September 2026 für die aktuelle Börse erwähnt, dann wird das Veröffentlichungsdatum als entscheidendes Kriterium herangezogen - Behandlung von Scheinwidersprüchen
Ein Beispiel: Auf einer Webseite wird behauptet, dass das Papier auf dem eine bestimmte Inflations-Banknote gedruckt wurde das Wasserzeichen Wellen aufweist und eine andere Quelle das Wasserzeichen Kreuzblüten nennt, dann muss es sich nicht um einen Widerspruch handeln. Es könnte auch sein, dass die gleiche Banknote auf Papier mit unterschiedlichen Wasserzeichen gedruckt wurde. Um diesen Widerspruch aufzulösen könnte das System noch einmal tiefer die Texte der beiden Webseiten analysieren und dabei erkennen, dass beide Varianten existieren, da sie von zwei Druckereien auf unterschiedlichen Papier gedruckt wurden.
„Während eine Ausgabe des Geldscheins von der Druckerei Meier auf Papier mit Wasserzeichen Wellen gedruckt wurde [1], existiert auch eine Variante mit Wasserzeichen Kreuzblüten, die von der Druckerei Huber hergestellt wurde [2].“ - Vermeidung von Konfabulation („Halluzinationen“)
Wenn der Widerspruch aber fundamental ist und die Quellen eine vergleichbare Autorität aufweisen (z. B. zwei renommierte Historiker streiten um ein exaktes Datum), dann darf das System nicht einfach raten. Das LLM beschreibt dann einfach in seiner Antwort den gefundenen und nicht auflösbaren Widerspruch:
„Die Quellenlage wann die Entscheidung für die Ausgabe des Notgelds fiel ist nicht eindeutig. Während die städtische Dokumentation den Juli 1923 anführt [1], verweist die regionale Forschungsgemeinschaft auf den August 1923 [2].“
Fazit
Ein KI-Modell hat kein eigenes Bewusstsein und kann deshalb nicht wissen, was die „Wahrheit“ ist. Die Komponente Web-RAG arbeitet daher wie ein extrem schneller Ermittler von Informationen aus dem Internet, die für die Beantwortung der Benutzerfrage relevant sein könnten. Als „Faktenschecker“ überprüft sie die Plausibilität der ermittelten Informationen anhand von Autorität, Aktualität und Mehrheiten.