Feedback-Auswertung

Feedback Evaluation Organization

Übersicht

Die Feedback-Auswertung testet, wie ein Assistent oder Chatbot Fragen nach einer Konfigurationsänderung beantwortet. Statt auf neue Benutzerinteraktionen zu warten, werden vergangene Konversationen mit Feedback wiederholt und Antworten mit der aktuellen Konfiguration neu generiert.

Diese Funktion ist verfügbar für:

  • Admins — um Chatbot-Playground-Antworten nach einer Konfigurationsänderung auszuwerten.

Wann zu verwenden

Verwenden Sie die Feedback-Auswertung nach einer Änderung an einem Assistenten oder Chatbot:

  • Nach der Aktualisierung des System-Prompts, um zu prüfen, ob sich die Antworten verbessert haben.
  • Nach dem Wechsel des KI-Modells, um Ausgaben zu vergleichen.
  • Nach dem Anpassen der Retrieval-Einstellungen, um die Antwortkonsistenz zu überprüfen.
  • Um eine Baseline zu erstellen, wie zuverlässig der Assistent wiederkehrende Fragen beantwortet.

Funktionsweise

  1. Eine Auswertung auslösen — Im Feedback-Tab des Assistenten oder im Admin-Panel eine Auswertung für ein Feedback auslösen durch Klicken auf oder für alle Feedbacks durch Klicken auf ALLE ANTWORTEN NEU BERECHNEN.
  2. Antworten werden neu generiert — das System wiederholt jede Konversation aus dem Feedback-Verlauf und stellt dem Assistenten dieselben Fragen mit der aktuellen Konfiguration.
  3. Ähnlichkeit wird gemessen — für jedes positiv bewertete Feedback wird die neu generierte Antwort mit der ursprünglichen verglichen. Ein Score von 0 bis 1 wird zugewiesen:
    • 1.0 — die neue Antwort ist im Wesentlichen dieselbe wie die ursprüngliche.
    • 0.0 — die neue Antwort ist völlig anders.
    • Für negativ bewertete Feedbacks werden Antworten neu generiert, aber kein Score berechnet, da das Original bereits als falsch markiert wurde.
  4. Ergebnisse kommen in Echtzeit — Scores erscheinen, während jedes Feedback verarbeitet wird.
Feedback Evaluation Results

Auswertungsverlauf

Sobald eine neue Antwort generiert wird, wählen Sie sie als bessere Antwort durch Klicken auf DIESE ANTWORT IST BESSER um sie in den Feedbacks zu speichern.

Feedback choose better answer

Ähnlichkeitsscore erklärt

ScoreBedeutung
0,9 – 1,0Antworten sind fast identisch — der Assistent ist sehr konsistent.
0,6 – 0,9Antworten haben dieselbe Absicht, können sich aber in Formulierung oder Details unterscheiden.
0,3 – 0,6Erkennbare Unterschiede — überprüfenswert.
0,0 – 0,3Antworten sind wesentlich anders — die Konfigurationsänderung hat einen starken Einfluss.
-1Auswertung konnte für diesen Eintrag nicht abgeschlossen werden (Fehler).

Ein niedrigerer Score ist nicht immer schlecht — wenn die ursprüngliche Antwort schlecht war, kann eine sehr andere neu generierte Antwort eine Verbesserung sein.