Scrydon

Évaluateur

Évaluer la qualité du contenu à l'aide de métriques d'évaluation personnalisables

Le bloc Évaluateur utilise l'IA pour noter et évaluer la qualité du contenu en fonction de métriques que vous définissez. Idéal pour le contrôle qualité, les tests A/B et s'assurer que vos sorties IA répondent à des standards spécifiques.

Evaluator Block Configuration

Ce que vous pouvez évaluer

Contenu généré par IA : noter les réponses de chatbot, les articles générés ou les textes marketing
Saisies utilisateur : évaluer les retours clients, les réponses à des sondages ou les soumissions de formulaires
Qualité du contenu : évaluer la clarté, l'exactitude, la pertinence et le ton
Métriques de performance : suivre les améliorations dans le temps avec une notation cohérente
Tests A/B : comparer différentes approches avec des métriques objectives

Options de configuration

Métriques d'évaluation

Définissez des métriques personnalisées pour évaluer le contenu. Chaque métrique comprend :

  • Nom : un identifiant court pour la métrique
  • Description : une explication détaillée de ce que la métrique mesure
  • Plage : la plage numérique pour la notation (ex. 1-5, 0-10)

Exemples de métriques :

Exactitude (1-5) : le contenu est-il factuellement exact ?
Clarté (1-5) : le contenu est-il clair et compréhensible ?
Pertinence (1-5) : le contenu est-il pertinent par rapport à la requête initiale ?

Contenu

Le contenu à évaluer. Il peut être :

  • Fourni directement dans la configuration du bloc
  • Connecté à partir de la sortie d'un autre bloc (généralement un bloc Agent)
  • Généré dynamiquement pendant l'exécution du workflow

Sélection du modèle

Choisissez un modèle d'IA pour effectuer l'évaluation :

OpenAI : GPT-4o, o1, o3, o4-mini, gpt-4.1
Anthropic : Claude 3.7 Sonnet
Google : Gemini 2.5 Pro, Gemini 2.0 Flash
Autres fournisseurs : Groq, Cerebras, xAI, DeepSeek
Modèles locaux : tout modèle tournant sur Ollama

Recommandation : utilisez des modèles dotés de fortes capacités de raisonnement tels que GPT-4o ou Claude 3.7 Sonnet pour des évaluations plus précises.

Clé API

Votre clé API pour le fournisseur LLM sélectionné. Elle est stockée de façon sécurisée et utilisée pour l'authentification.

Fonctionnement

  1. Le bloc Évaluateur prend le contenu fourni et vos métriques personnalisées
  2. Il génère un prompt spécialisé qui demande au LLM d'évaluer le contenu
  3. Le prompt inclut des directives claires sur la façon de noter chaque métrique
  4. Le LLM évalue le contenu et renvoie des scores numériques pour chaque métrique
  5. Le bloc Évaluateur formate ces scores en sortie structurée utilisable dans votre workflow

Entrées et sorties

Entrées

  • Contenu : le texte ou les données structurées à évaluer
  • Métriques : critères d'évaluation personnalisés avec plages de notation
  • Paramètres du modèle : fournisseur LLM et paramètres

Sorties

  • Contenu : un résumé de l'évaluation
  • Modèle : le modèle utilisé pour l'évaluation
  • Tokens : statistiques d'utilisation
  • Scores des métriques : scores numériques pour chaque métrique définie

Exemple d'utilisation

Voici un exemple de configuration d'un bloc Évaluateur pour évaluer des réponses de service client :

# Exemple de configuration d'un Évaluateur
metrics:
  - name: Empathy
    description: How well does the response acknowledge and address the customer's emotional state?
    range:
      min: 1
      max: 5
  - name: Solution
    description: How effectively does the response solve the customer's problem?
    range:
      min: 1
      max: 5
  - name: Clarity
    description: How clear and easy to understand is the response?
    range:
      min: 1
      max: 5

model: Anthropic/claude-3-opus

Bonnes pratiques

  • Utiliser des descriptions de métriques précises : définissez clairement ce que chaque métrique mesure pour obtenir des évaluations plus précises
  • Choisir des plages adaptées : sélectionnez des plages de notation offrant suffisamment de granularité sans être trop complexes
  • Associer aux blocs Agent : utilisez les blocs Évaluateur pour évaluer les sorties des blocs Agent et créer des boucles de rétroaction
  • Utiliser des métriques cohérentes : pour les analyses comparatives, maintenez des métriques cohérentes entre des évaluations similaires
  • Combiner plusieurs métriques : utilisez plusieurs métriques pour obtenir une évaluation complète
Sur cette page

Sur cette page