Vier Kennzahlen für verlässliche KI-Antworten
Moderne Tools wie Chatbots, Suchmaschinen oder Sprachassistenten sollten stets zuverlässige Antworten liefern, die korrekt, relevant und leicht verständlich sind.
An dieser Stelle kommt Retrieval-Augmented Generation (RAG) zum Einsatz: ein leistungsstarkes Verfahren, das externe Datenquellen mit den Sprachfähigkeiten einer KI kombiniert. Doch wie stellt man sicher, dass die gelieferten Antworten wirklich verlässlich sind?
Ein Blick hinter die Kulissen eines RAG-Systems veranschaulicht, wie jede einzelne Komponente zur Qualität der Antwort beiträgt.
Fast Fact
-
75 % der Unternehmen nutzen KI in mindestens einem Geschäftsbereich
-
Nur 27 % prüfen sämtliche generierten KI-Inhalte vor der Verwendung
-
47 % haben bereits negative Folgen durch generative KI erlebt – z. B. durch Ungenauigkeit oder Risiken im Bereich geistiges Eigentum
Quelle: McKinsey & Company, 2025
Warum gute Antworten entscheidend sind
Wenn man einen digitalen Assistenten nach der richtigen Einnahmezeit für ein Medikament fragt, erhält man häufig vage oder falsche Antworten. Die möglichen Folgen sollten nicht unterschätzt werden. Die Qualität der Antwort ist von entscheidender Bedeutung, insbesondere in Situationen, in denen künstliche Intelligenz bei echten Entscheidungen unterstützend wirkt.
Eine qualitativ hochwertige Antwort sollte folgende Kriterien erfüllen:
-
Inhaltliche Korrektheit – Ist die Information wahr und verlässlich?
-
Kontextuelle Relevanz – Passt die Antwort wirklich zur gestellten Frage?
-
Vollständigkeit – Fehlt etwas Wichtiges?
Ein Blick ins Gehirn der KI: So funktioniert ein RAG-System
RAG steht für Retrieval-Augmented Generation, was so viel bedeutet wie, einem KI-Modell einen Bibliotheksausweis zu geben. Vor der Beantwortung einer Frage holt es sich gezielt Informationen aus einer Wissensdatenbank (Retrieval) und generiert daraus eine passende Antwort in natürlicher Sprache (Generation).
Die folgende Erklärung veranschaulicht das Prinzip:
Google + ChatGPT aber mit Nutzung individueller Dokumente.
Der Ablauf im Hintergrund ist wie folgt:
Wenn KIs sich selbst bewerten
Die Bewertung von Antworten eines Sprachmodells (LLM) ist eine komplexere Aufgabe als bei klassischen Algorithmen. Selbst bei fixierten Einstellungen (wie „Temperature = 0“) können leicht unterschiedliche Antworten entstehen.
Beispiel
Nutzer: Welche Unterlagen brauche ich, um einen Wasserschadens-Versicherungsfall einzureichen?
Ideale Chatbot-Antwort: Fotos vom Schaden, eine Beschreibung des Vorfalls und deine Versicherungspolicennummer.
Das System vergleicht die generierte Antwort mit dem Ideal anhand von vier Kriterien:
Da KI-Antworten nicht immer gleich ausfallen, wird die Bewertung mehrfach wiederholt. Durchschnittswerte – zum Beispiel bei der Ähnlichkeit – sorgen dabei für stabilere Ergebnisse. Bei kritischen Metriken wie „Belegbarkeit“ lohnt es sich, sowohl beste als auch schlechteste Antworten zu betrachten.
Beispiel-Prompt für die Bewertung der Belegbarkeit:
Nutzer: Du bist eine KI, die die Qualität einer Antwort beurteilt. Deine Aufgabe ist es festzustellen, ob die Antwort vollständig durch den gegebenen Kontext gestützt wird. Vergib eine Bewertung von 1 (überhaupt nicht belegbar) bis 5 (vollständig belegbar) und begründe deine Einschätzung kurz.
Solche Prompts sorgen für konsistente, nachvollziehbare Bewertungen und ermöglichen es, die besten Ergebnisse auf konkrete Prompts oder Systemeinstellungen zurückzuführen.
Diese Methodik lässt sich auch auf den Vergleich verschiedener KI-Anbieter anwenden: Zum Beispiel können Antworten von Anbieter X durch Bewertungsmodelle von Anbieter Y geprüft werden. So lässt sich besser beurteilen, ob OpenAI, Mistral oder Meta zum eigenen Use Case passt.
Den echten Experten zuhören: den Nutzern
Am Ende zählt nicht nur, was Metriken sagen, sondern vor allem auch, wie Nutzer die Antworten empfinden. Deshalb sollte jede RAG-Anwendung eine einfache Möglichkeit zur Nutzer-Rückmeldung beinhalten, wenn eine Antwort nicht überzeugt.
Noch besser: Stakeholder früh einbinden. Workshops, Feedbackrunden und klare Kommunikation über Ziele und Erwartungen helfen, die richtigen Datenquellen zu wählen, die passenden Fragen zu stellen und Antworten zu generieren, die überzeugen.
Fazit: Qualität ist Strategie – kein Zufall
Nicht jede Frage hat genau eine „richtige“ Antwort. Sprache ist oft nuanciert. Aber um zu prüfen, ob ein RAG-System gut funktioniert, ist der Vergleich echter Antworten mit idealen Reaktionen anhand klarer Kriterien ein bewährter Ansatz.
Wer zusätzlich auf kontinuierliches Feedback, Bewertungsskalen (z. B. 1–5 Sterne) und iterative Verbesserung setzt, schafft ein System, das mit der Zeit immer besser wird und Vertrauen aufbaut. Denn: Wenn Menschen den Antworten vertrauen, vertrauen sie auch dem Produkt.
Ihr Ansprechpartner
Sie möchten mehr wissen oder benötigen unsere Unterstützung? Wir freuen uns darauf, von Ihnen zu hören!
Jesko Rehberg – Solution Developer (Data Science)
jesko.rehberg@digitalsalt.de
+49 (0)4131 8848-00
