Feedback-Auswertung
Übersicht
Die Feedback-Auswertung testet, wie ein Assistent oder Chatbot Fragen nach einer Konfigurationsänderung beantwortet. Statt auf neue Benutzerinteraktionen zu warten, werden vergangene Konversationen mit Feedback wiederholt und Antworten mit der aktuellen Konfiguration neu generiert.
Diese Funktion ist verfügbar für:
- Admins — um Chatbot-Playground-Antworten nach einer Konfigurationsänderung auszuwerten.
Wann zu verwenden
Verwenden Sie die Feedback-Auswertung nach einer Änderung an einem Assistenten oder Chatbot:
- Nach der Aktualisierung des System-Prompts, um zu prüfen, ob sich die Antworten verbessert haben.
- Nach dem Wechsel des KI-Modells, um Ausgaben zu vergleichen.
- Nach dem Anpassen der Retrieval-Einstellungen, um die Antwortkonsistenz zu überprüfen.
- Um eine Baseline zu erstellen, wie zuverlässig der Assistent wiederkehrende Fragen beantwortet.
Funktionsweise
- Eine Auswertung auslösen — Im Feedback-Tab des Assistenten oder im Admin-Panel eine Auswertung für ein Feedback auslösen durch Klicken auf oder für alle Feedbacks durch Klicken auf ALLE ANTWORTEN NEU BERECHNEN.
- Antworten werden neu generiert — das System wiederholt jede Konversation aus dem Feedback-Verlauf und stellt dem Assistenten dieselben Fragen mit der aktuellen Konfiguration.
- Ähnlichkeit wird gemessen — für jedes positiv bewertete Feedback wird die neu generierte Antwort mit der ursprünglichen verglichen. Ein Score von 0 bis 1 wird zugewiesen:
1.0— die neue Antwort ist im Wesentlichen dieselbe wie die ursprüngliche.0.0— die neue Antwort ist völlig anders.- Für negativ bewertete Feedbacks werden Antworten neu generiert, aber kein Score berechnet, da das Original bereits als falsch markiert wurde.
- Ergebnisse kommen in Echtzeit — Scores erscheinen, während jedes Feedback verarbeitet wird.
Auswertungsverlauf
Sobald eine neue Antwort generiert wird, wählen Sie sie als bessere Antwort durch Klicken auf DIESE ANTWORT IST BESSER um sie in den Feedbacks zu speichern.
Ähnlichkeitsscore erklärt
| Score | Bedeutung |
|---|---|
| 0,9 – 1,0 | Antworten sind fast identisch — der Assistent ist sehr konsistent. |
| 0,6 – 0,9 | Antworten haben dieselbe Absicht, können sich aber in Formulierung oder Details unterscheiden. |
| 0,3 – 0,6 | Erkennbare Unterschiede — überprüfenswert. |
| 0,0 – 0,3 | Antworten sind wesentlich anders — die Konfigurationsänderung hat einen starken Einfluss. |
| -1 | Auswertung konnte für diesen Eintrag nicht abgeschlossen werden (Fehler). |
Ein niedrigerer Score ist nicht immer schlecht — wenn die ursprüngliche Antwort schlecht war, kann eine sehr andere neu generierte Antwort eine Verbesserung sein.


