Tech Deep Dive: How To Trust A Chatbot

Vier Kennzahlen für verlässliche KI-Antworten

Moderne Tools wie Chatbots, Suchmaschinen oder Sprachassistenten sollten stets zuverlässige Antworten liefern, die korrekt, relevant und leicht verständlich sind.

An dieser Stelle kommt Retrieval-Augmented Generation (RAG) zum Einsatz: ein leistungsstarkes Verfahren, das externe Datenquellen mit den Sprachfähigkeiten einer KI kombiniert. Doch wie stellt man sicher, dass die gelieferten Antworten wirklich verlässlich sind?

Ein Blick hinter die Kulissen eines RAG-Systems veranschaulicht, wie jede einzelne Komponente zur Qualität der Antwort beiträgt.

Fast Fact

  • 75 % der Unternehmen nutzen KI in mindestens einem Geschäftsbereich

  • Nur 27 % prüfen sämtliche generierten KI-Inhalte vor der Verwendung

  • 47 % haben bereits negative Folgen durch generative KI erlebt – z. B. durch Ungenauigkeit oder Risiken im Bereich geistiges Eigentum

Quelle: McKinsey & Company, 2025

Warum gute Antworten entscheidend sind

Wenn man einen digitalen Assistenten nach der richtigen Einnahmezeit für ein Medikament fragt, erhält man häufig vage oder falsche Antworten. Die möglichen Folgen sollten nicht unterschätzt werden. Die Qualität der Antwort ist von entscheidender Bedeutung, insbesondere in Situationen, in denen künstliche Intelligenz bei echten Entscheidungen unterstützend wirkt.

Eine qualitativ hochwertige Antwort sollte folgende Kriterien erfüllen:

  • Inhaltliche KorrektheitIst die Information wahr und verlässlich?

  • Kontextuelle RelevanzPasst die Antwort wirklich zur gestellten Frage?

  • VollständigkeitFehlt etwas Wichtiges?

RAG system
This diagram shows how a RAG system integrates user input, document retrieval, and a large language model to produce context-aware answers.

Ein Blick ins Gehirn der KI: So funktioniert ein RAG-System

RAG steht für Retrieval-Augmented Generation, was so viel bedeutet wie, einem KI-Modell einen Bibliotheksausweis zu geben. Vor der Beantwortung einer Frage holt es sich gezielt Informationen aus einer Wissensdatenbank (Retrieval) und generiert daraus eine passende Antwort in natürlicher Sprache (Generation).

Die folgende Erklärung veranschaulicht das Prinzip:

Google + ChatGPT aber mit Nutzung individueller Dokumente.

Der Ablauf im Hintergrund ist wie folgt:

1
 

Ein Benutzer stellt eine Frage.

2
 

Das System durchsucht indizierte Inhalte (z. B. Dokumente, Datenbanken).

3
 

Es werden einige relevante Textabschnitte ausgewählt.

4
 

Diese werden an ein Sprachmodell (wie GPT) weitergeleitet, das eine kontextualisierte, für den Menschen lesbare Antwort generiert – nur auf der Grundlage dessen, was es gefunden hat.

Wenn KIs sich selbst bewerten

Die Bewertung von Antworten eines Sprachmodells (LLM) ist eine komplexere Aufgabe als bei klassischen Algorithmen. Selbst bei fixierten Einstellungen (wie „Temperature = 0“) können leicht unterschiedliche Antworten entstehen.

Beispiel

Nutzer: Welche Unterlagen brauche ich, um einen Wasserschadens-Versicherungsfall einzureichen?

Ideale Chatbot-Antwort: Fotos vom Schaden, eine Beschreibung des Vorfalls und deine Versicherungspolicennummer.

Das System vergleicht die generierte Antwort mit dem Ideal anhand von vier Kriterien:

Ähnlichkeit

Unter Ähnlichkeit versteht man, wie sehr sich zwei Inhalte hinsichtlich ihrer Bedeutung, Struktur oder Intention gleichen. In der Bewertung von Texten, Antworten oder KI-generierten Inhalten spielt die Ähnlichkeit zum angestrebten Ideal eine zentrale Rolle, da sie Hinweise auf Qualität, Relevanz und Verständnistiefe gibt.

Wie nah ist die Bedeutung der Antwort am Ideal?

Relevanz

Relevanz beschreibt die Bedeutsamkeit einer Information im jeweiligen Kontext. Besonders bei der Bewertung von Antworten oder Texten ist entscheidend, ob die Inhalte auf das Kernthema eingehen, wichtige Punkte aufgreifen und nützliche Erkenntnisse liefern – also ob sie wirklich zur Lösung oder Erklärung beitragen.

Geht die Antwort auf die wichtigsten Aspekte der Frage ein?

Belegbarkeit (Groundedness)

Belegbarkeit oder Groundedness meint die Fähigkeit, Aussagen mit überprüfbaren Informationen, Quellen oder realen Daten zu untermauern. In der Bewertung von Inhalten ist dies besonders wichtig, um zwischen fundierten, vertrauenswürdigen Aussagen und bloßen Behauptungen unterscheiden zu können.

Sind die Aussagen durch echte Infos gedeckt oder geraten?

Kohärenz

Kohärenz bezieht sich auf die logische, sprachliche und stilistische Geschlossenheit eines Textes. Ein kohärenter Text ist leicht verständlich, klingt natürlich und folgt einem erkennbaren Gedankengang. Besonders bei generierten Inhalten sorgt hohe Kohärenz für ein glaubwürdiges und angenehmes Leseerlebnis.

Klingt es natürlich und menschlich oder eher steif und unverständlich?

Da KI-Antworten nicht immer gleich ausfallen, wird die Bewertung mehrfach wiederholt. Durchschnittswerte – zum Beispiel bei der Ähnlichkeit – sorgen dabei für stabilere Ergebnisse. Bei kritischen Metriken wie „Belegbarkeit“ lohnt es sich, sowohl beste als auch schlechteste Antworten zu betrachten.

Beispiel-Prompt für die Bewertung der Belegbarkeit:

Nutzer: Du bist eine KI, die die Qualität einer Antwort beurteilt. Deine Aufgabe ist es festzustellen, ob die Antwort vollständig durch den gegebenen Kontext gestützt wird. Vergib eine Bewertung von 1 (überhaupt nicht belegbar) bis 5 (vollständig belegbar) und begründe deine Einschätzung kurz.

Solche Prompts sorgen für konsistente, nachvollziehbare Bewertungen und ermöglichen es, die besten Ergebnisse auf konkrete Prompts oder Systemeinstellungen zurückzuführen.

Diese Methodik lässt sich auch auf den Vergleich verschiedener KI-Anbieter anwenden: Zum Beispiel können Antworten von Anbieter X durch Bewertungsmodelle von Anbieter Y geprüft werden. So lässt sich besser beurteilen, ob OpenAI, Mistral oder Meta zum eigenen Use Case passt.

This diagram illustrates the full evaluation loop - from document retrieval to answer validation using relevance, document grounding, and reference comparison.

Den echten Experten zuhören: den Nutzern

Am Ende zählt nicht nur, was Metriken sagen, sondern vor allem auch, wie Nutzer die Antworten empfinden. Deshalb sollte jede RAG-Anwendung eine einfache Möglichkeit zur Nutzer-Rückmeldung beinhalten, wenn eine Antwort nicht überzeugt.

Noch besser: Stakeholder früh einbinden. Workshops, Feedbackrunden und klare Kommunikation über Ziele und Erwartungen helfen, die richtigen Datenquellen zu wählen, die passenden Fragen zu stellen und Antworten zu generieren, die überzeugen.

Fazit: Qualität ist Strategie – kein Zufall

Nicht jede Frage hat genau eine „richtige“ Antwort. Sprache ist oft nuanciert. Aber um zu prüfen, ob ein RAG-System gut funktioniert, ist der Vergleich echter Antworten mit idealen Reaktionen anhand klarer Kriterien ein bewährter Ansatz.

Wer zusätzlich auf kontinuierliches Feedback, Bewertungsskalen (z. B. 1–5 Sterne) und iterative Verbesserung setzt, schafft ein System, das mit der Zeit immer besser wird und Vertrauen aufbaut. Denn: Wenn Menschen den Antworten vertrauen, vertrauen sie auch dem Produkt.

Ihr An­sprech­part­ner

Sie möchten mehr wissen oder benötigen unsere Unterstützung? Wir freuen uns darauf, von Ihnen zu hören!

Jesko Rehberg – Solution Developer (Data Science)
jesko.rehberg@digitalsalt.de
+49 (0)4131 8848-00

Foto von einem freundlich lächelnden Mann mit braunen Augen und hell braunen Haaren. Er trägt ein helles Hemd und darüber ein dunkelblaues Jackett.