Maison
L'évaluation comparative de l'IA en entreprise simplifiée : Le cadre Open-Source RAG offre des mesures de performance scientifiques

Les entreprises investissent des ressources considérables dans le développement de systèmes de récupération et de génération assistée (RAG), dans le but de créer des solutions d'IA d'entreprise précises. Mais quelle est l'efficacité réelle de ces systèmes ?
L'absence de normes de mesure objectives de l'efficacité des systèmes RAG constitue un obstacle majeur. Ce défi trouve une solution potentielle avec le lancement aujourd'hui d'Open RAG Eval, un cadre open-source développé en collaboration par Vectara et l'équipe de recherche du professeur Jimmy Lin à l'université de Waterloo.
Open RAG Eval remplace les comparaisons subjectives par une méthodologie rigoureuse et mesurable permettant d'évaluer la précision de l'extraction, la qualité de la génération et les taux d'hallucination dans les implémentations RAG des entreprises.
Le cadre évalue la performance du système à travers deux catégories de mesures principales : les mesures de récupération et de génération. Il fonctionne avec la plateforme Vectara et les solutions RAG personnalisées, fournissant aux équipes techniques des données systématiques pour identifier les opportunités d'optimisation.
"La mesure précède l'amélioration", a expliqué le professeur Jimmy Lin lors d'une interview exclusive. "Alors que nous pouvions mesurer des paramètres de recherche d'informations tels que le NDCG, la précision et le rappel, l'évaluation de l'exactitude des faits restait difficile à réaliser, c'est pourquoi nous nous sommes lancés dans ce projet.
Pourquoi l'évaluation des RAG reste l'obstacle critique pour l'IA d'entreprise
Vectara a été le pionnier de la technologie RAG avant qu'elle ne devienne courante, en la lançant en octobre 2022 et en introduisant des concepts d'"IA ancrée" en mai 2023 pour lutter contre les hallucinations.
Au fur et à mesure que les implémentations de RAG se complexifient, passant de simples questions-réponses à des systèmes multi-agents, les défis de l'évaluation s'intensifient.
"Dans les environnements agentiques, l'évaluation devient doublement cruciale", note Am Awadallah, PDG de Vectara. "Les hallucinations des premiers stades s'aggravent au fil des étapes de traitement, ce qui peut conduire à des résultats finaux erronés.
Méthodologie Open RAG Eval : Quantifier les composants du système
Le cadre utilise une approche d'évaluation basée sur les pépites qui déconstruit les réponses en éléments factuels essentiels.
Lin décrit comment cette méthode analyse la capacité des systèmes à capturer et à présenter ces informations essentielles.
Quatre paramètres spécifiques guident les évaluations :
- Détection des hallucinations - Identifie les informations non étayées dans le contenu généré.
- Précision des citations - évalue la qualité de la documentation source
- Auto nugget - Mesure l'inclusion d'informations essentielles
- UMBRELA - Évaluation complète des performances des récupérateurs.
Le cadre examine l'ensemble des flux de travail des RAG, révélant comment les modèles d'intégration, les systèmes de recherche, les stratégies de regroupement et les LLM produisent collectivement des résultats.
Innovation clé : Automatisation alimentée par le LLM
La percée d'Open RAG Eval réside dans l'automatisation de processus précédemment manuels grâce à l'intégration sophistiquée des LLM.
"L'évaluation traditionnelle repose sur des comparaisons binaires", explique M. Lin. "Notre approche automatisée révolutionne les méthodologies d'évaluation.
Si l'évaluation basée sur les pépites n'est pas nouvelle, le cadre la met en œuvre par le biais de LLM alimentés par Python et capables d'identifier les faits et de détecter les hallucinations au sein de pipelines d'évaluation structurés.
Positionnement de l'écosystème d'évaluation
Parmi les cadres d'évaluation de l'IA en plein essor, comme Yourbench de Hugging Face et Agentic Evaluations de Galileo, Open RAG Eval se concentre spécifiquement sur les pipelines RAG plutôt que sur les résultats génériques des LLM.
Fondé sur la science de la recherche d'informations plutôt que sur des méthodes ad hoc, le cadre étend les contributions open-source de Vectara, notamment le modèle d'évaluation de l'hallucination de Hughes, largement adopté.
"Nous l'avons délibérément appelé Open RAG Eval pour encourager la collaboration au sein de l'industrie", a souligné M. Awadallah. "Ce cadre répond à un besoin essentiel du marché en matière d'évaluation standardisée des RAG.
Mise en œuvre pratique
Parmi les premiers utilisateurs, on trouve Jeff Hummel, d'Anywhere.re, qui prévoit une rationalisation des processus d'évaluation grâce à la collaboration avec Vectara.
M. Hummel a relevé les défis liés à la complexité de l'infrastructure et à la gestion des coûts, en mettant l'accent sur les capacités d'analyse comparative prédictive du cadre.
"En l'absence de cadres normalisés, nous nous sommes largement appuyés sur les commentaires subjectifs des utilisateurs", a reconnu M. Hummel. "Des mesures objectives transformeront notre approche de la mise à l'échelle.
Optimiser la mise en œuvre des RAG
Open RAG Eval aide les décideurs à répondre aux questions de configuration critiques :
- Approches de regroupement de jetons ou de regroupement sémantique
- Considérations relatives à la mise en œuvre de la recherche hybride
- Sélection du LLM et optimisation de l'invite
- Seuils de détection des hallucinations
Le cadre permet une optimisation itérative, basée sur les données, en établissant des lignes de base, en testant les configurations et en mesurant les améliorations. Les versions futures pourraient inclure des suggestions d'optimisation automatisées et des outils d'équilibrage des coûts et des performances.
Pour les entreprises à différents niveaux de maturité en matière d'IA, Open RAG Eval offre des normes d'évaluation scientifiques qui remplacent les conjectures et les évaluations subjectives, ce qui permet d'éviter les erreurs de mise en œuvre coûteuses tout en faisant progresser la technologie RAG.
Article connexe
La première série dramatique AIGC de Yaoke Media, « Le mystère du bronze dans le Qinling », sort aujourd'hui avec des rôles principaux interprétés par des personnages générés par l'IA
C'est aujourd'hui que sort officiellement la mini-série fantastique et policière en IA générée (AIGC) de Yaoke Media, intitulée « L'histoire secrète du bronze de Qinling ». Mettant en s
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié
Recommandations de sujets spéciaux liés
commentaires (0)

Les entreprises investissent des ressources considérables dans le développement de systèmes de récupération et de génération assistée (RAG), dans le but de créer des solutions d'IA d'entreprise précises. Mais quelle est l'efficacité réelle de ces systèmes ?
L'absence de normes de mesure objectives de l'efficacité des systèmes RAG constitue un obstacle majeur. Ce défi trouve une solution potentielle avec le lancement aujourd'hui d'Open RAG Eval, un cadre open-source développé en collaboration par Vectara et l'équipe de recherche du professeur Jimmy Lin à l'université de Waterloo.
Open RAG Eval remplace les comparaisons subjectives par une méthodologie rigoureuse et mesurable permettant d'évaluer la précision de l'extraction, la qualité de la génération et les taux d'hallucination dans les implémentations RAG des entreprises.
Le cadre évalue la performance du système à travers deux catégories de mesures principales : les mesures de récupération et de génération. Il fonctionne avec la plateforme Vectara et les solutions RAG personnalisées, fournissant aux équipes techniques des données systématiques pour identifier les opportunités d'optimisation.
"La mesure précède l'amélioration", a expliqué le professeur Jimmy Lin lors d'une interview exclusive. "Alors que nous pouvions mesurer des paramètres de recherche d'informations tels que le NDCG, la précision et le rappel, l'évaluation de l'exactitude des faits restait difficile à réaliser, c'est pourquoi nous nous sommes lancés dans ce projet.
Pourquoi l'évaluation des RAG reste l'obstacle critique pour l'IA d'entreprise
Vectara a été le pionnier de la technologie RAG avant qu'elle ne devienne courante, en la lançant en octobre 2022 et en introduisant des concepts d'"IA ancrée" en mai 2023 pour lutter contre les hallucinations.
Au fur et à mesure que les implémentations de RAG se complexifient, passant de simples questions-réponses à des systèmes multi-agents, les défis de l'évaluation s'intensifient.
"Dans les environnements agentiques, l'évaluation devient doublement cruciale", note Am Awadallah, PDG de Vectara. "Les hallucinations des premiers stades s'aggravent au fil des étapes de traitement, ce qui peut conduire à des résultats finaux erronés.
Méthodologie Open RAG Eval : Quantifier les composants du système
Le cadre utilise une approche d'évaluation basée sur les pépites qui déconstruit les réponses en éléments factuels essentiels.
Lin décrit comment cette méthode analyse la capacité des systèmes à capturer et à présenter ces informations essentielles.
Quatre paramètres spécifiques guident les évaluations :
- Détection des hallucinations - Identifie les informations non étayées dans le contenu généré.
- Précision des citations - évalue la qualité de la documentation source
- Auto nugget - Mesure l'inclusion d'informations essentielles
- UMBRELA - Évaluation complète des performances des récupérateurs.
Le cadre examine l'ensemble des flux de travail des RAG, révélant comment les modèles d'intégration, les systèmes de recherche, les stratégies de regroupement et les LLM produisent collectivement des résultats.
Innovation clé : Automatisation alimentée par le LLM
La percée d'Open RAG Eval réside dans l'automatisation de processus précédemment manuels grâce à l'intégration sophistiquée des LLM.
"L'évaluation traditionnelle repose sur des comparaisons binaires", explique M. Lin. "Notre approche automatisée révolutionne les méthodologies d'évaluation.
Si l'évaluation basée sur les pépites n'est pas nouvelle, le cadre la met en œuvre par le biais de LLM alimentés par Python et capables d'identifier les faits et de détecter les hallucinations au sein de pipelines d'évaluation structurés.
Positionnement de l'écosystème d'évaluation
Parmi les cadres d'évaluation de l'IA en plein essor, comme Yourbench de Hugging Face et Agentic Evaluations de Galileo, Open RAG Eval se concentre spécifiquement sur les pipelines RAG plutôt que sur les résultats génériques des LLM.
Fondé sur la science de la recherche d'informations plutôt que sur des méthodes ad hoc, le cadre étend les contributions open-source de Vectara, notamment le modèle d'évaluation de l'hallucination de Hughes, largement adopté.
"Nous l'avons délibérément appelé Open RAG Eval pour encourager la collaboration au sein de l'industrie", a souligné M. Awadallah. "Ce cadre répond à un besoin essentiel du marché en matière d'évaluation standardisée des RAG.
Mise en œuvre pratique
Parmi les premiers utilisateurs, on trouve Jeff Hummel, d'Anywhere.re, qui prévoit une rationalisation des processus d'évaluation grâce à la collaboration avec Vectara.
M. Hummel a relevé les défis liés à la complexité de l'infrastructure et à la gestion des coûts, en mettant l'accent sur les capacités d'analyse comparative prédictive du cadre.
"En l'absence de cadres normalisés, nous nous sommes largement appuyés sur les commentaires subjectifs des utilisateurs", a reconnu M. Hummel. "Des mesures objectives transformeront notre approche de la mise à l'échelle.
Optimiser la mise en œuvre des RAG
Open RAG Eval aide les décideurs à répondre aux questions de configuration critiques :
- Approches de regroupement de jetons ou de regroupement sémantique
- Considérations relatives à la mise en œuvre de la recherche hybride
- Sélection du LLM et optimisation de l'invite
- Seuils de détection des hallucinations
Le cadre permet une optimisation itérative, basée sur les données, en établissant des lignes de base, en testant les configurations et en mesurant les améliorations. Les versions futures pourraient inclure des suggestions d'optimisation automatisées et des outils d'équilibrage des coûts et des performances.
Pour les entreprises à différents niveaux de maturité en matière d'IA, Open RAG Eval offre des normes d'évaluation scientifiques qui remplacent les conjectures et les évaluations subjectives, ce qui permet d'éviter les erreurs de mise en œuvre coûteuses tout en faisant progresser la technologie RAG.
La première série dramatique AIGC de Yaoke Media, « Le mystère du bronze dans le Qinling », sort aujourd'hui avec des rôles principaux interprétés par des personnages générés par l'IA
C'est aujourd'hui que sort officiellement la mini-série fantastique et policière en IA générée (AIGC) de Yaoke Media, intitulée « L'histoire secrète du bronze de Qinling ». Mettant en s
Satya Nadella est prêt à tirer parti du nouvel accord avec OpenAI
Mercredi, un analyste de Wall Street a demandé directement au PDG de Microsoft, Satya Nadella, en quoi le nouveau partenariat avec OpenAI affecterait les résultats financiers de l’entreprise.Nadella a décrit ce nouvel accord comme une victoire pour
WordPress.com permet désormais à des agents IA de rédiger et de publier des articles, et bien plus encore
WordPress.com, la célèbre plateforme d'hébergement et de publication Web, se tourne désormais vers les agents IA, une initiative qui pourrait bien redéfinir l'apparence et l'ergonomie du Web. La socié











