Évaluation des retours

Aperçu

L'évaluation des retours teste la façon dont un assistant ou un chatbot répond aux questions après une modification de la configuration. Au lieu d'attendre de nouvelles interactions utilisateur, il rejoue les conversations passées où les utilisateurs ont laissé des retours et régénère les réponses avec la configuration actuelle. Un score de similarité mesure dans quelle mesure les nouvelles réponses diffèrent des originales.

Cette fonctionnalité est disponible pour :

Administrateurs de l'organisation — pour évaluer les réponses du playground chatbot après avoir modifié la configuration du chatbot.

Quand l'utiliser

Utilisez l'évaluation des retours après toute modification d'un assistant ou d'un chatbot pour mesurer son impact sur la qualité des réponses :

Après avoir mis à jour le prompt système, vérifiez si les réponses se sont améliorées.
Après avoir changé de modèle d'IA, comparez les résultats.
Après avoir ajusté les paramètres de récupération, confirmez que les réponses restent cohérentes.
Établissez une référence pour la fiabilité de l'assistant face aux questions récurrentes.

Comment ça fonctionne

Déclencher une évaluation — Dans l'onglet de retours de l'assistant ou du panneau d'administration, déclenchez l'évaluation pour un seul retour en cliquant sur ou tous les retours en cliquant sur RECALCULER TOUTES LES RÉPONSES.
Les réponses sont régénérées — le système rejoue chaque conversation de l'historique des retours, en posant à l'assistant ou au chatbot les mêmes questions avec la configuration actuelle.
La similarité est mesurée — pour chaque retour évalué positivement, la réponse régénérée est comparée à l'originale. Un score de 0 à 1 est attribué :
- 1.0 — la nouvelle réponse est essentiellement identique à l'originale.
- 0.0 — la nouvelle réponse est complètement différente.
- Pour les retours évalués négativement, les réponses sont régénérées mais aucun score n'est calculé, car l'original était déjà marqué comme erroné.
Les résultats arrivent en temps réel — les scores apparaissent au fur et à mesure que chaque retour est traité, sans attendre que tous les retours soient complétés.

Historique des évaluations

Une fois qu'une nouvelle réponse est générée, cliquez sur CETTE RÉPONSE EST MEILLEURE pour l'enregistrer comme réponse préférée dans les retours. Utilisez ceci pour orienter l'assistant ou le chatbot vers le style de réponse souhaité.

Explication du score de similarité

Score	Signification
0.9 – 1.0	Les réponses sont presque identiques — l'assistant est très cohérent.
0.6 – 0.9	Les réponses partagent la même intention mais peuvent différer dans la formulation ou les détails.
0.3 – 0.6	Différences notables — mérite d'être examiné.
0.0 – 0.3	Les réponses sont substantiellement différentes — le changement de configuration a un fort impact.
-1	L'évaluation n'a pas pu être complétée pour cet élément (erreur).

Un score plus bas n'est pas toujours négatif — si la réponse originale était mauvaise, une réponse régénérée très différente peut représenter une amélioration. Combinez les scores de similarité avec les évaluations de retours originales pour interpréter correctement les résultats.

Journaux de sécurité

MCP

Évaluation des retours#

Aperçu#

Quand l'utiliser#

Comment ça fonctionne#

Historique des évaluations#