1 Grille d’Évaluation — Demo Day

Adservio — Workshop Agents IA

1.1 Principes d’Évaluation

On évalue des systèmes, pas des individus
L’échec documenté vaut mieux que le succès inexpliqué
La trace est aussi importante que le résultat

1.2 Grille d’Évaluation

1.2.1 1. Clarté du Cadrage (0-4 points)

Score	Critère
0	Problème mal défini, périmètre flou
1	Problème identifié mais mal délimité
2	Cadrage correct, quelques ambiguïtés
3	Cadrage précis, contraintes explicites
4	Cadrage exemplaire, falsifiable

Questions à poser : - Le problème est-il clairement énoncé ? - Les contraintes sont-elles explicites ? - Le périmètre est-il réaliste ?

1.2.2 2. Qualité de la Trace & Auditabilité (0-4 points)

Score	Critère
0	Pas de trace ou trace inutilisable
1	Trace partielle, format incohérent
2	Trace présente mais lacunaire
3	Trace complète et structurée
4	Trace exemplaire, rejouable

Questions à poser : - Peut-on reconstruire le raisonnement de l’agent ? - Les échecs sont-ils tracés ? - Le format est-il exploitable ?

1.2.3 3. Gestion des Échecs (0-4 points)

Score	Critère
0	Échecs ignorés ou cachés
1	Échecs mentionnés sans analyse
2	Échecs analysés superficiellement
3	Échecs analysés avec causes identifiées
4	Échecs transformés en apprentissage

Questions à poser : - Qu’est-ce qui n’a pas marché ? - Pourquoi ? - Qu’auriez-vous fait différemment ?

1.2.4 4. Réalisme Ingénierie (0-4 points)

Score	Critère
0	Prototype jetable, non maintenable
1	Code fonctionnel mais fragile
2	Solution viable avec limitations connues
3	Solution déployable avec ajustements
4	Prêt pour intégration Adservio

Questions à poser : - Cela pourrait-il tourner en production ? - Quelles sont les limitations ? - Quel effort pour industrialiser ?

1.2.5 5. Transférabilité (0-4 points)

Score	Critère
0	Solution ad-hoc, non réutilisable
1	Quelques éléments réutilisables
2	Patterns identifiés et documentés
3	Solution adaptable à d’autres contextes
4	Contribution à la doctrine Adservio

Questions à poser : - Qu’est-ce qui est réutilisable ? - Comment cela s’articule avec les autres parcours ? - Quelle valeur pour Adservio au-delà du workshop ?

1.3 Barème Global

Total	Appréciation
0-7	Insuffisant — Objectifs non atteints
8-11	Passable — Bases acquises, lacunes
12-15	Satisfaisant — Objectifs atteints
16-18	Bien — Maîtrise démontrée
19-20	Excellent — Référence pour Adservio

1.4 Questions Croisées Obligatoires

Chaque groupe doit répondre à au moins une question sur les autres parcours :

1.4.1 Pour le groupe Testing Agent :

Comment votre agent pourrait-il bénéficier d’un index RAG sur la documentation ?
Quels outils exposeriez-vous via MCP pour votre agent ?

1.4.2 Pour le groupe RAG Code/Docs :

Comment votre système de détection d’incohérences pourrait-il alimenter un agent de test ?
Quels outils déterministes renforceraient la fiabilité de vos réponses ?

1.4.3 Pour le groupe MCP Server :

Comment un index RAG améliorerait-il le choix d’outils par l’agent ?
Quels tests automatisés valideraient le comportement de vos outils ?

1.5 Format de Présentation

Durée : 15 minutes par groupe + 10 minutes questions
Structure suggérée :
1. Problème et cadrage (2 min)
2. Démo live (5 min)
3. Analyse des traces (3 min)
4. Échecs et apprentissages (3 min)
5. Questions croisées (2 min)

Grille à utiliser par les évaluateurs et à partager avec les participants avant le Demo Day.