Évaluateur
Évaluer la qualité du contenu à l'aide de métriques d'évaluation personnalisables
Le bloc Évaluateur utilise l'IA pour noter et évaluer la qualité du contenu en fonction de métriques que vous définissez. Idéal pour le contrôle qualité, les tests A/B et s'assurer que vos sorties IA répondent à des standards spécifiques.

Ce que vous pouvez évaluer
Contenu généré par IA : noter les réponses de chatbot, les articles générés ou les textes marketing
Saisies utilisateur : évaluer les retours clients, les réponses à des sondages ou les soumissions de formulaires
Qualité du contenu : évaluer la clarté, l'exactitude, la pertinence et le ton
Métriques de performance : suivre les améliorations dans le temps avec une notation cohérente
Tests A/B : comparer différentes approches avec des métriques objectives
Options de configuration
Métriques d'évaluation
Définissez des métriques personnalisées pour évaluer le contenu. Chaque métrique comprend :
- Nom : un identifiant court pour la métrique
- Description : une explication détaillée de ce que la métrique mesure
- Plage : la plage numérique pour la notation (ex. 1-5, 0-10)
Exemples de métriques :
Exactitude (1-5) : le contenu est-il factuellement exact ?
Clarté (1-5) : le contenu est-il clair et compréhensible ?
Pertinence (1-5) : le contenu est-il pertinent par rapport à la requête initiale ?Contenu
Le contenu à évaluer. Il peut être :
- Fourni directement dans la configuration du bloc
- Connecté à partir de la sortie d'un autre bloc (généralement un bloc Agent)
- Généré dynamiquement pendant l'exécution du workflow
Sélection du modèle
Choisissez un modèle d'IA pour effectuer l'évaluation :
OpenAI : GPT-4o, o1, o3, o4-mini, gpt-4.1
Anthropic : Claude 3.7 Sonnet
Google : Gemini 2.5 Pro, Gemini 2.0 Flash
Autres fournisseurs : Groq, Cerebras, xAI, DeepSeek
Modèles locaux : tout modèle tournant sur Ollama
Recommandation : utilisez des modèles dotés de fortes capacités de raisonnement tels que GPT-4o ou Claude 3.7 Sonnet pour des évaluations plus précises.
Clé API
Votre clé API pour le fournisseur LLM sélectionné. Elle est stockée de façon sécurisée et utilisée pour l'authentification.
Fonctionnement
- Le bloc Évaluateur prend le contenu fourni et vos métriques personnalisées
- Il génère un prompt spécialisé qui demande au LLM d'évaluer le contenu
- Le prompt inclut des directives claires sur la façon de noter chaque métrique
- Le LLM évalue le contenu et renvoie des scores numériques pour chaque métrique
- Le bloc Évaluateur formate ces scores en sortie structurée utilisable dans votre workflow
Entrées et sorties
Entrées
- Contenu : le texte ou les données structurées à évaluer
- Métriques : critères d'évaluation personnalisés avec plages de notation
- Paramètres du modèle : fournisseur LLM et paramètres
Sorties
- Contenu : un résumé de l'évaluation
- Modèle : le modèle utilisé pour l'évaluation
- Tokens : statistiques d'utilisation
- Scores des métriques : scores numériques pour chaque métrique définie
Exemple d'utilisation
Voici un exemple de configuration d'un bloc Évaluateur pour évaluer des réponses de service client :
# Exemple de configuration d'un Évaluateur
metrics:
- name: Empathy
description: How well does the response acknowledge and address the customer's emotional state?
range:
min: 1
max: 5
- name: Solution
description: How effectively does the response solve the customer's problem?
range:
min: 1
max: 5
- name: Clarity
description: How clear and easy to understand is the response?
range:
min: 1
max: 5
model: Anthropic/claude-3-opusBonnes pratiques
- Utiliser des descriptions de métriques précises : définissez clairement ce que chaque métrique mesure pour obtenir des évaluations plus précises
- Choisir des plages adaptées : sélectionnez des plages de notation offrant suffisamment de granularité sans être trop complexes
- Associer aux blocs Agent : utilisez les blocs Évaluateur pour évaluer les sorties des blocs Agent et créer des boucles de rétroaction
- Utiliser des métriques cohérentes : pour les analyses comparatives, maintenez des métriques cohérentes entre des évaluations similaires
- Combiner plusieurs métriques : utilisez plusieurs métriques pour obtenir une évaluation complète
