option
Maison
Nouvelles
Qu'y a-t-il à l'intérieur du LLM? Ai2 olmotrace «retracera» la source

Qu'y a-t-il à l'intérieur du LLM? Ai2 olmotrace «retracera» la source

21 avril 2025
238

Qu'y a-t-il à l'intérieur du LLM? Ai2 olmotrace «retracera» la source

Comprendre la connexion entre la sortie d'un grand modèle de langage (LLM) et ses données d'entraînement a toujours été un peu un casse-tête pour les TI d'entreprise. Cette semaine, l'Allen Institute for AI (Ai2) a lancé une nouvelle initiative open-source passionnante appelée OLMoTrace, qui vise à démystifier cette relation. En permettant aux utilisateurs de retracer les sorties des LLM jusqu'à leurs données d'entraînement originales, OLMoTrace s'attaque à l'un des plus grands obstacles à l'adoption de l'IA en entreprise : le manque de transparence dans les processus de prise de décision de l'IA.

OLMo, qui signifie Open Language Model, est le nom de la famille de LLM open-source d'Ai2. Vous pouvez essayer OLMoTrace avec le dernier modèle OLMo 2 32B sur le site Playground d'Ai2. De plus, le code open-source est disponible sur GitHub, donc tout le monde peut l'utiliser librement.

Ce qui distingue OLMoTrace des autres méthodes, comme celles axées sur les scores de confiance ou la génération augmentée par récupération, c'est qu'il offre une vue claire sur la manière dont les sorties du modèle sont liées aux vastes ensembles de données d'entraînement qui les ont façonnées. Jiacheng Liu, chercheur chez Ai2, a déclaré à VentureBeat : « Notre objectif est d'aider les utilisateurs à comprendre pourquoi les modèles de langage génèrent les réponses qu'ils produisent. »

Comment fonctionne OLMoTrace : Plus que de simples citations

Alors que des LLM comme Perplexity ou ChatGPT Search peuvent offrir des citations de sources, ils fonctionnent différemment d'OLMoTrace. Selon Liu, ces modèles utilisent la génération augmentée par récupération (RAG), qui vise à améliorer la qualité de la sortie du modèle en incorporant des sources supplémentaires au-delà des données d'entraînement. En revanche, OLMoTrace retrace la sortie du modèle directement vers le corpus d'entraînement sans s'appuyer sur RAG ou des documents externes.

L'outil identifie des séquences de texte uniques dans les sorties du modèle et les associe à des documents spécifiques des données d'entraînement. Lorsqu'une correspondance est trouvée, OLMoTrace non seulement met en évidence le texte pertinent, mais fournit également des liens vers le matériel source original. Cela permet aux utilisateurs de voir exactement où et comment le modèle a appris les informations qu'il utilise.

Au-delà des scores de confiance : Preuves tangibles de la prise de décision de l'IA

Les LLM génèrent généralement des sorties basées sur les poids du modèle, qui sont utilisés pour calculer un score de confiance. Plus le score est élevé, plus la sortie est supposée précise. Cependant, Liu estime que ces scores peuvent être trompeurs. « Les modèles peuvent être trop confiants dans ce qu'ils génèrent, et si vous leur demandez de générer un score, il est généralement gonflé », a-t-il expliqué. « C'est ce que les universitaires appellent une erreur de calibration—la confiance que les modèles affichent ne reflète pas toujours la précision réelle de leurs réponses. »

Au lieu de s'appuyer sur des scores potentiellement trompeurs, OLMoTrace offre des preuves directes des sources d'apprentissage du modèle, permettant aux utilisateurs de porter des jugements éclairés. « Ce que fait OLMoTrace, c'est vous montrer les correspondances entre les sorties du modèle et les documents d'entraînement », a déclaré Liu. « Grâce à l'interface, vous pouvez voir directement où se trouvent les points de correspondance et comment les sorties du modèle coïncident avec les documents d'entraînement. »

Comment OLMoTrace se compare aux autres approches de transparence

Ai2 n'est pas la seule organisation à travailler pour mieux comprendre les sorties des LLM. Anthropic a également mené des recherches, mais leur focus a été sur les opérations internes du modèle plutôt que sur ses données. Liu a souligné la différence : « Nous adoptons une approche différente de la leur. Nous retraçons directement le comportement du modèle, dans ses données d'entraînement, plutôt que de retracer les choses dans les neurones du modèle, les circuits internes, ce genre de choses. »

Cette approche rend OLMoTrace plus pratique pour les applications en entreprise, car elle ne nécessite pas une connaissance approfondie de l'architecture des réseaux neuronaux pour comprendre les résultats.

Applications de l'IA en entreprise : De la conformité réglementaire au débogage de modèles

Pour les entreprises déployant l'IA dans des secteurs réglementés comme la santé, la finance ou les services juridiques, OLMoTrace offre des avantages significatifs par rapport aux systèmes traditionnels en boîte noire. « Nous pensons qu'OLMoTrace aidera les utilisateurs d'entreprise à mieux comprendre ce qui est utilisé dans l'entraînement des modèles afin qu'ils puissent être plus confiants lorsqu'ils souhaitent s'appuyer dessus », a déclaré Liu. « Cela peut aider à augmenter la transparence et la confiance entre eux vis-à-vis de leurs modèles, ainsi que pour les clients concernant le comportement de leurs modèles. »

La technologie permet plusieurs capacités clés pour les équipes d'IA en entreprise :

  • Vérification des faits des sorties du modèle par rapport aux sources originales
  • Compréhension des origines des hallucinations
  • Amélioration du débogage de modèles en identifiant les motifs problématiques
  • Renforcement de la conformité réglementaire grâce à la traçabilité des données
  • Renforcement de la confiance avec les parties prenantes grâce à une transparence accrue

L'équipe d'Ai2 a déjà mis OLMoTrace à bon usage. « Nous l'utilisons déjà pour améliorer nos données d'entraînement », a révélé Liu. « Lorsque nous avons construit OLMo 2 et commencé notre entraînement, grâce à OLMoTrace, nous avons découvert que certaines des données post-entraînement n'étaient pas bonnes. »

Ce que cela signifie pour l'adoption de l'IA en entreprise

Pour les entreprises visant à être à la pointe de l'adoption de l'IA, OLMoTrace marque une avancée significative vers des systèmes d'IA plus responsables. L'outil est disponible sous une licence open-source Apache 2.0, ce qui signifie que toute organisation ayant accès aux données d'entraînement de son modèle peut mettre en œuvre des capacités de traçage similaires.

« OLMoTrace peut fonctionner sur n'importe quel modèle, tant que vous avez les données d'entraînement du modèle », a noté Liu. « Pour les modèles entièrement ouverts où tout le monde a accès aux données d'entraînement du modèle, n'importe qui peut configurer OLMoTrace pour ce modèle et pour les modèles propriétaires, peut-être que certains fournisseurs ne veulent pas divulguer leurs données, ils peuvent également faire ce OLMoTrace en interne. »

À mesure que les cadres mondiaux de gouvernance de l'IA évoluent, des outils comme OLMoTrace, qui permettent la vérification et l'auditabilité, sont susceptibles de devenir des composants cruciaux des piles d'IA en entreprise, en particulier dans les industries réglementées où la transparence est de plus en plus requise. Pour les décideurs techniques évaluant les avantages et les inconvénients de l'adoption de l'IA, OLMoTrace offre une manière pratique de mettre en œuvre des systèmes d'IA plus fiables et explicables sans compromettre la puissance des grands modèles de langage.

Article connexe
L'IA physique fait son entrée dans les usines alors que des robots humanoïdes font l'objet d'essais L'IA physique fait son entrée dans les usines alors que des robots humanoïdes font l'objet d'essais Selon Reuters, Humanoid, une entreprise technologique britannique, s'apprête à déployer des robots humanoïdes dans les usines du fournisseur industriel allemand Schaeffler.Selon un porte-parole d'Hum
OpenAI renforce la sécurité de ChatGPT grâce à un partenariat avec Yubico visant à améliorer la protection des comptes OpenAI renforce la sécurité de ChatGPT grâce à un partenariat avec Yubico visant à améliorer la protection des comptes OpenAI prend des mesures importantes pour renforcer la sécurité des comptes.Jeudi, l'entreprise a lancé « Advanced Account Security », une suite de protections optionnelles destinées aux utilisateurs
OpenAI lance ChatGPT pour la gestion des finances personnelles avec intégration des comptes bancaires OpenAI lance ChatGPT pour la gestion des finances personnelles avec intégration des comptes bancaires Vendredi, OpenAI a présenté une nouvelle suite d'outils de gestion des finances personnelles en avant-première pour les abonnés américains à ChatGPT Pro. Cette fonctionnalité permet aux utilisateurs d
Recommandations de sujets spéciaux liés
en écrivant Les meilleurs assistants IA pour les genres xianxia et wuxia : rédigez des récits épiques de progression spirituelle et des chorégraphies d'arts martiaux
Les meilleurs assistants IA pour les genres xianxia et wuxia : rédigez des récits épiques de progression spirituelle et des chorégraphies d'arts martiaux

Découvrez les meilleurs assistants IA de 2026 pour créer des récits épiques de xianxia et de wuxia. La sélection de XIX.AI regroupe les outils les mieux notés et les plus innovants pour maîtriser la progression dans la voie de la cultivation et la chorégraphie des arts martiaux. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez votre potentiel créatif et commencez à écrire dès aujourd'hui !

10 outils
xix.ai
code Outils de codage pour applications mobiles AI : générer du code Flutter et React Native multiplateforme à partir de commandes.
Outils de codage pour applications mobiles AI : générer du code Flutter et React Native multiplateforme à partir de commandes.

Découvrez les 20 meilleurs outils de codage pour applications mobiles basées sur l'IA en 2026, conçus pour Flutter et React Native. Notre liste, soigneusement sélectionnée et hautement réputée, met en avant des solutions puissantes qui permettent de générer du code multiplateforme à partir de simples instructions. Comparez les options gratuites et payantes grâce à des tests pratiques. Accélérez votre développement et créez de meilleures applications. Consultez le classement sur XIX.AI dès maintenant !

10 outils
xix.ai
code Les meilleurs générateurs d'extensions Chrome basés sur l'IA : créez des extensions de navigateur personnalisées sans aucune connaissance en programmation
Les meilleurs générateurs d'extensions Chrome basés sur l'IA : créez des extensions de navigateur personnalisées sans aucune connaissance en programmation

Découvrez les meilleurs générateurs d'extensions Chrome basés sur l'IA de 2026 sur XIX.AI. Notre sélection comprend les outils les mieux notés et incontournables qui vous permettent de créer des extensions de navigateur personnalisées sans aucune connaissance en programmation. Comparez les options gratuites et payantes, consultez des tests en conditions réelles et boostez votre productivité. Explorez les derniers classements et trouvez l'outil idéal dès aujourd'hui !

10 outils
xix.ai
Synthèse vocale Meilleur système de synthèse vocale multilingue par intelligence artificielle : génération de discours authentiques avec accent natif dans plus de 50 langues
Meilleur système de synthèse vocale multilingue par intelligence artificielle : génération de discours authentiques avec accent natif dans plus de 50 langues

Découvrez les meilleurs outils de synthèse vocale multilingues basés sur l'IA en 2026, qui permettent d'obtenir des prononciations authentiques avec l'accent natif dans plus de 50 langues. Explorez nos classements sélectionnés, accompagnés de comparaisons entre les versions gratuites et payantes ainsi que de tests réalisés dans le monde réel. Trouvez l'outil vocal idéal sur XIX.AI et déclenchez dès aujourd'hui une communication mondiale sans limites.

10 outils
xix.ai
Assistante de réunion Meilleurs outils d'automatisation des réunions par intelligence artificielle pour une collaboration plus intelligente et plus rapide
Meilleurs outils d'automatisation des réunions par intelligence artificielle pour une collaboration plus intelligente et plus rapide

Découvrez les derniers outils d’automatisation de réunions basés sur l’intelligence artificielle, hautement recommandés en 2026, pour une collaboration plus intelligente et plus rapide. Notre sélection met en avant des solutions puissantes et révolutionnaires permettant d’automatiser la prise de notes, la rédaction de résumés et l’organisation des tâches à accomplir. Comparez les options gratuites et payantes grâce à des tests pratiques et aux classements mises à jour chaque semaine. Optimisez ainsi la productivité de votre équipe. Découvrez nos meilleurs choix dès maintenant sur XIX.AI.

10 outils
xix.ai
Rapide Suggestions d'IA pour l'infrastructure en tant que code : déployez en toute sécurité les configurations Terraform et Docker
Suggestions d'IA pour l'infrastructure en tant que code : déployez en toute sécurité les configurations Terraform et Docker

Découvrez les meilleures suggestions d'IA de 2026 pour l'Infrastructure-as-Code. La sélection soigneusement préparée par XIX.AI vous aide à déployer en toute sécurité des configurations Terraform et Docker, à automatiser les configurations cloud et à booster la productivité DevOps. Comparez les options gratuites et payantes grâce à des tests concrets. Explorez dès maintenant et exploitez tout le potentiel de l'IA.

10 outils
xix.ai
commentaires (8)
0/500
AnthonyClark
AnthonyClark 25 octobre 2025 20:30:32 UTC+02:00

Наконец-то появился инструмент, который может отслеживать источники LLM! Это как детективная работа для ИИ 😄 Теперь предприятия смогут лучше понимать, откуда берутся ответы модели. Интересно, насколько точно он определяет первоисточники в обучающих данных?

RalphSanchez
RalphSanchez 12 septembre 2025 14:30:46 UTC+02:00

Ai2의 이번 프로젝트 진짜 혁신적인 것 같아요! 🎯 LLM의 동작 원리를 파악할 수 있다면 기업에서 AI를 더 안전하게 활용할 수 있을 거예요. 다만 오픈소스라 하더라도 실제 적용이 얼마나 쉬울지 궁금하네요.

JackMitchell
JackMitchell 28 juillet 2025 03:20:54 UTC+02:00

This OLMoTrace thing sounds pretty cool! Finally, a way to peek under the hood of LLMs and see what’s driving those outputs. I’m curious how it’ll handle messy real-world data though 🤔. Could be a game-changer for IT folks trying to make sense of AI black boxes.

GregoryAdams
GregoryAdams 22 avril 2025 21:58:18 UTC+02:00

OLMoTrace는 LLM의 내부를 들여다볼 수 있는 멋진 도구입니다. 훈련 데이터가 출력에 어떻게 영향을 미치는지 보는 것이 흥미롭습니다. 다만, 인터페이스가 좀 더 사용자 친화적이면 좋겠어요. 그래도, AI 투명성의 좋은 시작입니다! 👀

DonaldLee
DonaldLee 22 avril 2025 12:14:13 UTC+02:00

OLMoTrace is a cool tool for peeking under the hood of LLMs. It's fascinating to see how the training data influences the output. The interface could be more user-friendly though. Still, it's a great start for transparency in AI! 👀

PaulTaylor
PaulTaylor 22 avril 2025 09:01:43 UTC+02:00

OLMoTrace es una herramienta genial para echar un vistazo bajo el capó de los LLMs. Es fascinante ver cómo los datos de entrenamiento influyen en la salida. La interfaz podría ser más amigable para el usuario, sin embargo. Aún así, es un gran comienzo para la transparencia en la IA! 👀

OR