1 Grille d’Évaluation — Demo Day
Adservio — Workshop Agents IA
1.1 Principes d’Évaluation
- On évalue des systèmes, pas des individus
- L’échec documenté vaut mieux que le succès inexpliqué
- La trace est aussi importante que le résultat
1.2 Grille d’Évaluation
1.2.1 1. Clarté du Cadrage (0-4 points)
| Score | Critère |
|---|---|
| 0 | Problème mal défini, périmètre flou |
| 1 | Problème identifié mais mal délimité |
| 2 | Cadrage correct, quelques ambiguïtés |
| 3 | Cadrage précis, contraintes explicites |
| 4 | Cadrage exemplaire, falsifiable |
Questions à poser : - Le problème est-il clairement énoncé ? - Les contraintes sont-elles explicites ? - Le périmètre est-il réaliste ?
1.2.2 2. Qualité de la Trace & Auditabilité (0-4 points)
| Score | Critère |
|---|---|
| 0 | Pas de trace ou trace inutilisable |
| 1 | Trace partielle, format incohérent |
| 2 | Trace présente mais lacunaire |
| 3 | Trace complète et structurée |
| 4 | Trace exemplaire, rejouable |
Questions à poser : - Peut-on reconstruire le raisonnement de l’agent ? - Les échecs sont-ils tracés ? - Le format est-il exploitable ?
1.2.3 3. Gestion des Échecs (0-4 points)
| Score | Critère |
|---|---|
| 0 | Échecs ignorés ou cachés |
| 1 | Échecs mentionnés sans analyse |
| 2 | Échecs analysés superficiellement |
| 3 | Échecs analysés avec causes identifiées |
| 4 | Échecs transformés en apprentissage |
Questions à poser : - Qu’est-ce qui n’a pas marché ? - Pourquoi ? - Qu’auriez-vous fait différemment ?
1.2.4 4. Réalisme Ingénierie (0-4 points)
| Score | Critère |
|---|---|
| 0 | Prototype jetable, non maintenable |
| 1 | Code fonctionnel mais fragile |
| 2 | Solution viable avec limitations connues |
| 3 | Solution déployable avec ajustements |
| 4 | Prêt pour intégration Adservio |
Questions à poser : - Cela pourrait-il tourner en production ? - Quelles sont les limitations ? - Quel effort pour industrialiser ?
1.2.5 5. Transférabilité (0-4 points)
| Score | Critère |
|---|---|
| 0 | Solution ad-hoc, non réutilisable |
| 1 | Quelques éléments réutilisables |
| 2 | Patterns identifiés et documentés |
| 3 | Solution adaptable à d’autres contextes |
| 4 | Contribution à la doctrine Adservio |
Questions à poser : - Qu’est-ce qui est réutilisable ? - Comment cela s’articule avec les autres parcours ? - Quelle valeur pour Adservio au-delà du workshop ?
1.3 Barème Global
| Total | Appréciation |
|---|---|
| 0-7 | Insuffisant — Objectifs non atteints |
| 8-11 | Passable — Bases acquises, lacunes |
| 12-15 | Satisfaisant — Objectifs atteints |
| 16-18 | Bien — Maîtrise démontrée |
| 19-20 | Excellent — Référence pour Adservio |
1.4 Questions Croisées Obligatoires
Chaque groupe doit répondre à au moins une question sur les autres parcours :
1.4.1 Pour le groupe Testing Agent :
- Comment votre agent pourrait-il bénéficier d’un index RAG sur la documentation ?
- Quels outils exposeriez-vous via MCP pour votre agent ?
1.4.2 Pour le groupe RAG Code/Docs :
- Comment votre système de détection d’incohérences pourrait-il alimenter un agent de test ?
- Quels outils déterministes renforceraient la fiabilité de vos réponses ?
1.4.3 Pour le groupe MCP Server :
- Comment un index RAG améliorerait-il le choix d’outils par l’agent ?
- Quels tests automatisés valideraient le comportement de vos outils ?
1.5 Format de Présentation
- Durée : 15 minutes par groupe + 10 minutes questions
- Structure suggérée :
- Problème et cadrage (2 min)
- Démo live (5 min)
- Analyse des traces (3 min)
- Échecs et apprentissages (3 min)
- Questions croisées (2 min)
Grille à utiliser par les évaluateurs et à partager avec les participants avant le Demo Day.