Évaluateur

Évaluer la qualité du contenu à l'aide de métriques d'évaluation personnalisables

Le bloc Évaluateur utilise l'IA pour noter et évaluer la qualité du contenu en fonction de métriques que vous définissez. Idéal pour le contrôle qualité, les tests A/B et s'assurer que vos sorties IA répondent à des standards spécifiques.

Ce que vous pouvez évaluer

Contenu généré par IA : noter les réponses de chatbot, les articles générés ou les textes marketing Saisies utilisateur : évaluer les retours clients, les réponses à des sondages ou les soumissions de formulaires Qualité du contenu : évaluer la clarté, l'exactitude, la pertinence et le ton Métriques de performance : suivre les améliorations dans le temps avec une notation cohérente Tests A/B : comparer différentes approches avec des métriques objectives

Options de configuration

Métriques d'évaluation

Définissez des métriques personnalisées pour évaluer le contenu. Chaque métrique comprend :

Nom : un identifiant court pour la métrique
Description : une explication détaillée de ce que la métrique mesure
Plage : la plage numérique pour la notation (ex. 1-5, 0-10)

Exemples de métriques :

Exactitude (1-5) : le contenu est-il factuellement exact ?
Clarté (1-5) : le contenu est-il clair et compréhensible ?
Pertinence (1-5) : le contenu est-il pertinent par rapport à la requête initiale ?

Contenu

Le contenu à évaluer. Il peut être :

Fourni directement dans la configuration du bloc
Connecté à partir de la sortie d'un autre bloc (généralement un bloc Agent)
Généré dynamiquement pendant l'exécution du workflow

Sélection du modèle

Choisissez un modèle d'IA pour effectuer l'évaluation :

OpenAI : GPT-4o, o1, o3, o4-mini, gpt-4.1 Anthropic : Claude 3.7 Sonnet Google : Gemini 2.5 Pro, Gemini 2.0 Flash Autres fournisseurs : Groq, Cerebras, xAI, DeepSeek Modèles locaux : tout modèle tournant sur Ollama

Recommandation : utilisez des modèles dotés de fortes capacités de raisonnement tels que GPT-4o ou Claude 3.7 Sonnet pour des évaluations plus précises.

Clé API

Votre clé API pour le fournisseur LLM sélectionné. Elle est stockée de façon sécurisée et utilisée pour l'authentification.

Fonctionnement

Le bloc Évaluateur prend le contenu fourni et vos métriques personnalisées
Il génère un prompt spécialisé qui demande au LLM d'évaluer le contenu
Le prompt inclut des directives claires sur la façon de noter chaque métrique
Le LLM évalue le contenu et renvoie des scores numériques pour chaque métrique
Le bloc Évaluateur formate ces scores en sortie structurée utilisable dans votre workflow

Entrées et sorties

Entrées

Contenu : le texte ou les données structurées à évaluer
Métriques : critères d'évaluation personnalisés avec plages de notation
Paramètres du modèle : fournisseur LLM et paramètres

Sorties

Contenu : un résumé de l'évaluation
Modèle : le modèle utilisé pour l'évaluation
Tokens : statistiques d'utilisation
Scores des métriques : scores numériques pour chaque métrique définie

Exemple d'utilisation

Voici un exemple de configuration d'un bloc Évaluateur pour évaluer des réponses de service client :

# Exemple de configuration d'un Évaluateur
metrics:
  - name: Empathy
    description: How well does the response acknowledge and address the customer's emotional state?
    range:
      min: 1
      max: 5
  - name: Solution
    description: How effectively does the response solve the customer's problem?
    range:
      min: 1
      max: 5
  - name: Clarity
    description: How clear and easy to understand is the response?
    range:
      min: 1
      max: 5

model: Anthropic/claude-3-opus

Bonnes pratiques

Utiliser des descriptions de métriques précises : définissez clairement ce que chaque métrique mesure pour obtenir des évaluations plus précises
Choisir des plages adaptées : sélectionnez des plages de notation offrant suffisamment de granularité sans être trop complexes
Associer aux blocs Agent : utilisez les blocs Évaluateur pour évaluer les sorties des blocs Agent et créer des boucles de rétroaction
Utiliser des métriques cohérentes : pour les analyses comparatives, maintenez des métriques cohérentes entre des évaluations similaires
Combiner plusieurs métriques : utilisez plusieurs métriques pour obtenir une évaluation complète

Évaluateur

Sur cette page