Umfassende Bewertung von RAG-Anwendungen

Warum die Bewertung von RAG-Systemen unverzichtbar ist

Die Entwicklung einer Retrieval-Augmented Generation (RAG)-Anwendung ist nur der Anfang. Erst die kontinuierliche Prüfung ihrer Nützlichkeit, Genauigkeit und Qualität sichert langfristige Stabilität und den echten Mehrwert für Nutzer.
Wie ein Experte treffend formuliert:

"Building a RAG application is just the beginning; it is crucial to test its usefulness for the end-user and calibrate its components for long-term stability."

Warum die Bewertung von RAG-Systemen unverzichtbar ist

RAG-Systeme können in allen drei Schlüsselphasen fehleranfällig sein – beim Abruf relevanter Informationen, der Augmentierung dieser Inhalte und der Generierung der finalen Antwort. Eine systematische Bewertung und präzise Feinabstimmung jeder Komponente ist daher unerlässlich.

Die drei kritischen Phasen eines RAG-Systems und ihre Herausforderungen

RAG-Systeme können in jeder der folgenden Phasen auf Probleme stossen:

PHASE 1 - Maximierung des Such- und Abrufprozesses (Retrieval)

Mangelnde Präzision: Nicht alle abgerufenen Dokumente sind relevant für die Abfrage.
Schlechter Recall: Nicht alle relevanten Dokumente werden erfolgreich abgerufen.
"Lost in the Middle": LLMs können Schwierigkeiten mit langen Kontexten haben, insbesondere wenn entscheidende Informationen in der Mitte eines Dokuments positioniert sind, was zu unvollständigen oder weniger nützlichen Ergebnissen führt.

"Additionally, the 'Lost in the Middle' problem indicates that some LLMs may struggle with long contexts, particularly when crucial information is positioned in the middle of the document, leading to incomplete or less useful results."

Phase 2 - Anreicherung des für Ihr LLM augmentierten Kontexts (Augmentation)

Veraltete Informationen: Antworten können nicht mehr aktuelle Daten enthalten.
Kontextuelle Lücken: Mangel an relationalem Kontext zwischen den abgerufenen Dokumenten, was zu unvollständigen oder fragmentierten Informationen führt.

Phase 3 - Vermeidung von Halluzinationen und falschen Antworten (Generation)

Halluzinationen: Das LLM ignoriert den Kontext und erfindet Informationen, was zu nicht realitätsbezogenen Antworten führt.
Voreingenommene Antworten: Generierte Antworten können schädlich, unangemessen oder in einem unangemessenen Ton sein.

Empfohlene Bewertungs-Frameworks

Um den Bewertungsprozess zu vereinfachen, stehen mehrere leistungsstarke Frameworks zur Verfügung:

Ragas

Funktionsweise: Nutzt einen Datensatz aus Fragen, idealen Antworten und relevantem Kontext, um die generierten Antworten eines RAG-Systems mit der "Ground Truth" zu vergleichen.
Metriken: Bietet Metriken wie faithfulness, answer relevancy, context recall, context precision, context relevancy, context entity recall und answer similarity.

Quotient AI

Funktionsweise: Eine Plattform zur Straffung der RAG-Systembewertung. Entwickler können Bewertungsdatensätze als Benchmarks hochladen, um verschiedene Prompts und LLMs zu testen. Führt Tests asynchron aus und generiert Antworten mit detaillierten Metriken.
Metriken: Konzentriert sich auf faithfulness, relevance und semantic similarity sowie Statistiken zur Datenmanipulation in den Phasen indexing, chunking, search und context relevance.
Zugang: Vollständige Funktionen sind über ein Python SDK zugänglich.

Arize Phoenix

Funktionsweise: Ein Open-Source-Tool, das die Leistung von RAG-Systemen verbessert, indem es nachverfolgt, wie eine Antwort Schritt für Schritt aufgebaut wird. Visualisiert den Prozess zur Identifizierung von Verlangsamungen und Fehlern.
Evaluatoren: Ermöglicht die Definition von LLM-basierten "Evaluatoren", um die Qualität der Ausgaben zu bewerten, Halluzinationen zu erkennen und die Antwortgenauigkeit zu überprüfen, auch ohne Ground-Truth-Daten.
Metriken: Berechnet Schlüsselmetriken wie Latenz, Token-Nutzung und Fehler für die Effizienzbewertung.

Warum dein RAG-System unterdurchschnittlich abschneiden könnte: Probleme und Lösungen

Unsachgemässe Datenaufnahme in die Vektordatenbank

Wenn du Daten in deine Vektordatenbank aufnimmst, kann es leicht passieren, dass wichtige Kontextinformationen verloren gehen. Das führt schnell zu ungenauen oder widersprüchlichen Antworten. Um das zu vermeiden, solltest du auf die richtige Segmentierung – also das Chunking – deiner Daten achten.

Kalibriere die Grösse deiner Dokumenten-Chunks so, dass sie zur Präzision, zum Recall und zur Relevanz passen und gleichzeitig mit dem Token-Limit deines Embedding-Modells abgestimmt sind. Achte ausserdem auf eine angemessene Überlappung der Chunks, damit der Kontext erhalten bleibt. Entwickle schliesslich eine Chunking- bzw. Text-Splitting-Strategie, die genau zu deinem Datentyp (HTML, Markdown, Code, PDF) und deinem Anwendungsfall passt. Nur so stellst du sicher, dass dein RAG-System konsistente und präzise Ergebnisse liefert.

Falsche Daten-Einbettung (Embedding)

Wenn du das falsche Embedding-Modell auswählst, versteht es deine Daten nicht richtig und bildet sie ungenau ab. Dadurch liegen ähnliche Datenpunkte im Vektorraum nicht dicht beieinander, was die Qualität deiner Ergebnisse stark beeinträchtigt.

Achte deshalb darauf, das richtige Embedding-Modell zu wählen. Eine sehr gute Referenz dafür ist das MTEB (Massive Text Embedding Benchmark) Leaderboard, das dir einen Überblick über die Leistungsfähigkeit verschiedener Modelle gibt. Berücksichtige ausserdem die Retrieval-Performance und die Domänenspezifik: Dein Modell sollte in der Lage sein, feine semantische Nuancen zu erfassen. Arbeitest du in einer speziellen Domäne, kann es notwendig sein, ein angepasstes oder sogar eigenes Modell zu nutzen.

Dein Abrufverfahren (Retrieval) ist nicht optimiert

Wenn dein Abrufverfahren nicht optimiert ist, wird der Datenabruf ineffektiv. Studien zeigen, dass das Einspielen ganzer Dokumente in ein LLM oft kontraproduktiv ist – das Modell verliert den Überblick und liefert schlechtere Antworten („Lost in the Middle“).

Wähle deshalb den passenden Retrieval-Algorithmus. Richte dichte Vektor-Abrufe korrekt ein und entscheide dich für die richtige Ähnlichkeitsmetrik, etwa Kosinus-Ähnlichkeit, Punktprodukt, Euklidische oder Manhattan-Distanz. Ergänzend kannst du sparse Vektoren und Hybrid-Suchen nutzen, z. B. mit BM-25, SPLADE oder BM-42. Achte auch auf einfache Filterung, um die Vektorsuche mit Attributen zu kombinieren.

Passe deine Hyperparameter wie Chunking-Strategie, Chunk-Grösse, Überlappung und Fenstergrösse an. Baue zudem Re-Ranking mit Cross-Encodern ein, um die Ergebnisse neu zu bewerten und die Gesamtleistung deines RAG-Systems deutlich zu verbessern.

Zur Messung der Qualität stehen dir verschiedene Metriken zur Verfügung: Precision@k, Mean Reciprocal Rank (MRR), Discounted Cumulative Gain (DCG) oder Normalized DCG (NDCG). Für ANN-Algorithmen eignet sich Precision@k am besten.

Arbeiten mit benutzerdefinierten Datensätzen

Wenn du mit benutzerdefinierten Datensätzen arbeitest, ist es entscheidend, einen Bewertungsdatensatz mit passenden Fragen- und Ground-Truth-Antwortpaaren aus deinen Quelldokumenten zu erstellen. Dafür gibt es verschiedene Ansätze:

Du kannst die Fragen und Antworten manuell formulieren, was präzise, aber zeitaufwendig ist. Alternativ lassen sich synthetische Daten mit LLMs wie T5 oder den OpenAI APIs erzeugen. Auch spezialisierte Tools wie das Ragas-Framework, das verschiedene Fragetypen mit Hilfe eines LLMs generiert, oder FiddleCube, das vielfältige Fragetypen erzeugt, stehen dir zur Verfügung.

Sobald dein Datensatz erstellt ist, sammelst du für jede Frage den abgerufenen Kontext sowie die finale Antwort, die deine RAG-Pipeline generiert. So kannst du gezielt die Qualität und Zuverlässigkeit deines Systems überprüfen.

Worauf bei Tests zu achten ist

Um zu verstehen, ob ein RAG-System ordnungsgemäss funktioniert, müssen folgende Punkte sichergestellt werden:

Abruf-Effektivität: Die abgerufenen Informationen sind semantisch relevant.
Relevanz der Antworten: Die generierte Antwort ist aussagekräftig.
Kohärenz generierter Antworten: Die Antwort ist kohärent und logisch verbunden.
Aktualität der Antworten: Die Antwort basiert auf aktuellen Daten.

Zusätzlich sind bei der End-to-End (E2E)-Bewertung des gesamten RAG-Systems folgende Schlüsselfaktoren zu messen:

Konsistenz: Das System liefert durchweg hochwertige Antworten.
Prägnanz: Antworten sind kurz, aber umfassend.
Latenz: Die Antwortzeit des Systems erfüllt die erforderlichen Standards.
Groundedness: Antworten basieren auf überprüfbaren Informationen aus dem abgerufenen Kontext.
Hilfsbereitschaft: Die Antworten des Systems unterstützen Benutzer bei der Erreichung ihrer Ziele.

Qualität der generierten Antworten kann mit Metriken wie Answer Semantic Similarity (Ähnlichkeit zwischen generierter Antwort und Ground Truth, 0-1 basierend auf Kosinus-Ähnlichkeit) und Correctness (Gesamtübereinstimmung, kombiniert faktische Korrektheit (F1-Score) und Antwortähnlichkeit) gemessen werden.

Deine RAG-Bewertung ist erst der Anfang

Die Praxis der RAG-Bewertung befindet sich noch in einem frühen Entwicklungsstadium. Es wird dringend empfohlen, neue Techniken, Modelle und Bewertungs-Frameworks kontinuierlich in den eigenen Bewertungsprozess zu integrieren.

"RAG evaluation is just the beginning. It lays the foundation for continuous improvement and long-term success of your system."

Eine kontinuierliche Bewertung gewährleistet, dass das System sich an sich ändernde Anforderungen anpasst und seine Leistung über die Zeit aufrechterhält. Komponenten wie Embedding-Modelle, Retrieval-Algorithmen und das LLM selbst müssen regelmässig kalibriert werden, um aufkommende Probleme zu identifizieren, Systemparameter zu optimieren und Benutzerfeedback zu integrieren.

Warum ist die kontinuierliche Bewertung einer RAG-Anwendung nach ihrer Entwicklung so entscheidend?

Die Entwicklung einer Retrieval-Augmented Generation (RAG)-Anwendung ist lediglich der erste Schritt. Eine fortlaufende Bewertung ist entscheidend, um die Nützlichkeit, Genauigkeit und Qualität der Anwendung für den Endbenutzer langfristig zu gewährleisten und ihre Stabilität aufrechtzuerhalten. Ohne regelmässige Überprüfung könnten Probleme wie Ungenauigkeiten, veraltete Informationen oder inkonsistente Antworten unentdeckt bleiben und das Vertrauen der Nutzer untergraben.

Welches sind die drei kritischen Phasen eines RAG-Systems, in denen Fehler auftreten können, und welche Herausforderungen sind damit verbunden?

RAG-Systeme sind in drei Hauptphasen anfällig für Fehler:
1. Retrieval (Abruf): Hier können Probleme wie mangelnde Präzision (nicht alle abgerufenen Dokumente sind relevant), schlechter Recall (nicht alle relevanten Dokumente werden gefunden) und das "Lost in the Middle"-Problem (LLMs übersehen wichtige Informationen in langen Kontexten) auftreten.
2. Augmentation (Anreicherung): Herausforderungen in dieser Phase umfassen veraltete Informationen und kontextuelle Lücken, die zu fragmentierten oder unvollständigen Informationen führen können.
3. Generation (Generierung): In dieser Phase können Halluzinationen (LLM erfindet Informationen) und voreingenommene Antworten entstehen, die schädlich oder unangemessen sein können.

Welche empfohlenen Bewertungs-Frameworks gibt es für RAG-Systeme und wie funktionieren sie?

Es gibt mehrere Frameworks zur Vereinfachung der RAG-Systembewertung:
• Ragas: Nutzt einen Datensatz aus Fragen, idealen Antworten und relevantem Kontext, um die generierten Antworten des RAG-Systems mit der "Ground Truth" zu vergleichen. Es bietet Metriken wie faithfulness, answer relevancy und context recall.
• Quotient AI: Eine Plattform, die es Entwicklern ermöglicht, Bewertungsdatensätze als Benchmarks hochzuladen, um verschiedene Prompts und LLMs zu testen. Sie liefert detaillierte Metriken zu faithfulness, relevance und semantic similarity und ist über ein Python SDK zugänglich.
• Arize Phoenix: Ein Open-Source-Tool, das die Leistungsverbesserung durch die Schritt-für-Schritt-Verfolgung und Visualisierung des Antwortaufbaus ermöglicht. Es identifiziert Verlangsamungen und Fehler und kann LLM-basierte "Evaluatoren" nutzen, um die Qualität der Ausgaben auch ohne Ground-Truth-Daten zu bewerten.

Welche Probleme können dazu führen, dass ein RAG-System unterdurchschnittlich abschneidet, und wie können diese behoben werden?

Ein RAG-System kann aus mehreren Gründen unterdurchschnittlich abschneiden:
• Unsachgemässe Datenaufnahme (Chunking): Verlust wichtiger Kontextinformationen. Lösung: Kalibrieren Sie die Dokumenten-Chunk-Grösse, sorgen Sie für angemessene Chunk-Überlappung und entwickeln Sie eine datentyp- und anwendungsfallspezifische Chunking-Strategie.
• Falsche Daten-Einbettung (Embedding): Das Embedding-Modell repräsentiert die Daten nicht genau. Lösung: Wählen Sie das richtige Embedding-Modell unter Berücksichtigung der Retrieval-Performance und Domänenspezifität, gegebenenfalls mit Hilfe des MTEB Leaderboards.
• Optimiertes Abrufverfahren (Retrieval): Ineffektiver Datenabruf führt zum "Lost in the Middle"-Problem. Lösung: Wählen Sie den besten Retrieval-Algorithmus, konfigurieren Sie dichte und sparse Vektor-Abrufe, nutzen Sie Filterung, setzen Sie korrekte Hyperparameter und führen Sie Re-Ranking ein.
• Suboptimale LLM-Generierungsleistung: Beeinträchtigung der Qualität der generierten Antworten. Lösung: Testen und analysieren Sie kritisch die LLM-Qualität, wählen Sie das passende LLM (z.B. mit Hilfe des Open LLM Leaderboards) und nutzen Sie Bewertungsmethoden wie Perplexity oder Human Evaluation.

Wie werden benutzerdefinierte Datensätze für die RAG-Bewertung erstellt und verwendet?

Für die Bewertung mit benutzerdefinierten Datensätzen ist die Erstellung von Fragen- und Ground-Truth-Antwortpaaren aus Quelldokumenten entscheidend. Dies kann auf verschiedene Weisen erfolgen:
• Manuelle Erstellung der Fragen und Antworten.
• Nutzung von LLMs zur Generierung synthetischer Daten (z.B. mit T5 oder OpenAI APIs).
• Verwendung des Ragas-Frameworks, das ein LLM zur Generierung verschiedener Fragetypen einsetzt.
• Einsatz von FiddleCube, einem System zur Generierung vielfältiger Fragetypen. Nach der Erstellung des Datensatzes werden für jede Frage der abgerufene Kontext und die vom RAG-Pipeline generierte endgültige Antwort gesammelt, um sie mit der Ground Truth zu vergleichen.

Welche Punkte müssen bei Tests beachtet werden, um die korrekte Funktion eines RAG-Systems zu gewährleisten?

Um die ordnungsgemässe Funktion eines RAG-Systems zu verstehen, müssen folgende Punkte sichergestellt werden:
• Abruf-Effektivität: Die abgerufenen Informationen sind semantisch relevant.
• Relevanz der Antworten: Die generierte Antwort ist aussagekräftig und bedeutungsvoll.
• Kohärenz generierter Antworten: Die Antwort ist logisch verbunden und gut strukturiert.
• Aktualität der Antworten: Die Antwort basiert auf aktuellen Daten und ist nicht veraltet.

Welche Schlüsselfaktoren sind bei der End-to-End (E2E)-Bewertung eines RAG-Systems zu messen?

Bei der End-to-End (E2E)-Bewertung des gesamten RAG-Systems sind mehrere Schlüsselfaktoren zu messen, um dessen Gesamtleistung zu beurteilen:
• Konsistenz: Das System liefert durchweg hochwertige Antworten.
• Prägnanz: Antworten sind kurz, aber umfassend und informativ.
• Latenz: Die Antwortzeit des Systems erfüllt die erforderlichen Standards.
• Groundedness: Antworten basieren auf überprüfbaren Informationen aus dem abgerufenen Kontext.
• Hilfsbereitschaft: Die Antworten des Systems unterstützen Benutzer effektiv bei der Erreichung ihrer Ziele. Die Qualität der generierten Antworten kann zusätzlich mit Metriken wie "Answer Semantic Similarity" und "Correctness" gemessen werden.

Warum ist die RAG-Bewertung nur der Anfang und welche langfristigen Implikationen hat sie?

Die RAG-Bewertung ist erst der Anfang, da sie das Fundament für kontinuierliche Verbesserung und langfristigen Erfolg des Systems legt. Sie hilft, anfängliche Probleme bezüglich Abrufgenauigkeit, kontextueller Relevanz und Antwortqualität zu identifizieren. Da sich RAG-Systeme jedoch mit neuen Daten, Anwendungsfällen und Benutzerinteraktionen weiterentwickeln, ist ein fortlaufendes Testen und Kalibrieren unerlässlich. Eine kontinuierliche Bewertung gewährleistet, dass das System sich an ändernde Anforderungen anpasst und seine Leistung über die Zeit aufrechterhält, indem Komponenten wie Embedding-Modelle, Retrieval-Algorithmen und das LLM selbst regelmässig optimiert und Benutzerfeedback integriert werden.