LLMS open source inclus dans la feuille de route de la souveraineté numérique d'Europe

Maison

Nouvelles

17 avril 2025

AnthonyMartinez

224

LLMS open source inclus dans la feuille de route de la souveraineté numérique d'Europe

La semaine dernière, l'agenda de la souveraineté numérique de l'Europe a reçu un coup de pouce significatif avec l'annonce d'une nouvelle initiative visant à développer une série de grands modèles de langage (LLM) entièrement open-source, adaptés à toutes les langues de l'Union européenne. Ce projet ambitieux, baptisé OpenEuroLLM, cible non seulement les 24 langues officielles de l'UE, mais s'étend également aux langues des pays en négociation pour entrer dans l'UE, comme l'Albanie, mettant l'accent sur une vision d'avenir.

OpenEuroLLM est un effort collaboratif impliquant environ 20 organisations, codirigé par Jan Hajič, linguiste computationnel de l'Université Charles de Prague, et Peter Sarlin, PDG et cofondateur du laboratoire d'IA finlandais Silo AI, acquis par AMD pour 665 millions de dollars l'année dernière. Cette initiative s'aligne sur la poussée plus large de l'Europe vers la souveraineté numérique, visant à maintenir les infrastructures et outils critiques sur le continent. Ce mouvement fait écho aux actions des principaux fournisseurs de cloud et des entreprises d'IA comme OpenAI, qui ont investi dans des infrastructures locales pour garantir que les données de l'UE restent sur le sol européen.

De plus, l'UE a récemment signé un accord de 11 milliards de dollars pour établir une constellation de satellites souveraine, se positionnant comme concurrente de Starlink d'Elon Musk. OpenEuroLLM s'inscrit parfaitement dans ce récit, en se concentrant sur le maintien de l'autonomie technologique de l'Europe.

Financement et défis

Malgré ses objectifs ambitieux, le budget alloué pour le développement des modèles est de 37,4 millions d'euros, dont environ 20 millions proviennent du programme Digital Europe de l'UE. Ce montant est faible comparé aux investissements des géants corporatifs de l'IA, bien que le budget total augmente en tenant compte des financements pour des travaux connexes. Une part significative des dépenses concerne la puissance de calcul, OpenEuroLLM s'associant aux centres de superordinateurs EuroHPC en Espagne, en Italie, en Finlande et aux Pays-Bas, qui font partie d'un projet EuroHPC plus large de 7 milliards d'euros.

Le groupe diversifié de participants, allant du milieu académique aux entreprises, soulève des questions sur la faisabilité du projet. Anastasia Stasenko, cofondatrice de l'entreprise LLM Pleias, a exprimé son scepticisme quant à l'efficacité d'un consortium aussi large par rapport à des entreprises d'IA privées plus agiles et ciblées comme Mistral AI et LightOn. Ces équipes plus petites, selon elle, ont une responsabilité plus directe et peuvent réagir plus rapidement aux défis.

Construire de zéro ou s'appuyer sur des travaux existants ?

Le point de départ d'OpenEuroLLM est quelque peu ambigu. Depuis 2022, Jan Hajič coordonne le projet High Performance Language Technologies (HPLT), qui se concentre sur le développement de datasets, modèles et workflows libres et réutilisables en utilisant le calcul haute performance. Ce projet, qui doit se terminer fin 2025, partage de nombreux partenaires avec OpenEuroLLM, à l'exclusion de ceux du Royaume-Uni.

Hajič considère HPLT comme un précurseur d'OpenEuroLLM, notant qu'il fournit une base solide en données, expertise, outils et expérience de calcul. Il prévoit de publier les premières versions d'OpenEuroLLM d'ici mi-2026, avec les versions finales attendues à la conclusion du projet en 2028. Cependant, le profil GitHub du projet reste peu fourni, indiquant un départ de zéro à certains égards. Hajič a mentionné que le projet a officiellement commencé le 1er février 2024, après un an de préparation.

Le consortium OpenEuroLLM inclut des organisations de Tchéquie, des Pays-Bas, d'Allemagne, de Suède, de Finlande et de Norvège, ainsi que des entités corporatives comme Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering et LightOn. Mistral, une licorne française de l'IA, est notablement absente, malgré les tentatives de Hajič pour les engager dans des discussions.

Objectifs et livrables

L'objectif principal du projet est de créer une série de modèles de base pour une IA transparente en Europe, préservant la diversité linguistique et culturelle de toutes les langues de l'UE, actuelles et futures. Les livrables sont encore en cours de finalisation, mais devraient inclure un LLM multilingue de base pour des tâches générales et des versions plus petites et quantifiées pour des applications sur des appareils où l'efficacité est clé.

Hajič a souligné l'importance de la qualité, déclarant que le projet vise à éviter de publier des solutions à moitié prêtes, compte tenu des enjeux élevés et du financement public impliqué. Atteindre une compétence égale dans toutes les langues, en particulier celles avec des ressources numériques limitées, reste un défi. Le projet prévoit d'utiliser des benchmarks qui représentent précisément ces langues et cultures.

Les données du projet HPLT, incluant un dataset de 4,5 pétaoctets provenant de crawls web et plus de 20 milliards de documents, seront utilisées, complétées par des données de Common Crawl.

Dilemmes de l'open source

Le débat sur ce qui constitue l'"open source" en IA est en cours. L'Open Source Initiative (OSI) a défini l'"IA open source", mais certains soutiennent qu'elle devrait inclure non seulement les modèles, mais aussi les datasets, les modèles pré-entraînés et les poids. OpenEuroLLM vise à être "véritablement open", mais Hajič reconnaît des limitations potentielles dues aux lois européennes sur le droit d'auteur et aux restrictions de redistribution des données. Certaines données d'entraînement pourraient devoir rester confidentielles mais disponibles pour un audit conformément à l'EU AI Act.

Chevauchement avec des projets existants

Le lancement d'OpenEuroLLM a été comparé au récemment lancé EuroLLM, qui partage des objectifs similaires et est également cofinancé par l'UE. EuroLLM, qui a publié son premier modèle en septembre et un suivi en décembre, a suscité des préoccupations concernant la redondance et la nécessité d'une collaboration plutôt que d'une compétition. Andre Martins, responsable de la recherche chez Unbabel, a souligné ces similitudes sur les réseaux sociaux, plaidant pour une collaboration ouverte entre les différentes communautés.

Hajič a reconnu le chevauchement regrettable mais a exprimé l'espoir d'une coopération, notant que les restrictions de financement d'OpenEuroLLM limitent les collaborations avec des entités non européennes, y compris les universités britanniques.

Financement et attentes

L'émergence de DeepSeek en Chine, avec son rapport coût-performance prometteur, a soulevé des questions sur les véritables coûts de construction des modèles d'IA. Peter Sarlin, codirigeant technique d'OpenEuroLLM, a noté le manque d'informations détaillées sur le développement de DeepSeek mais reste confiant dans le financement d'OpenEuroLLM, qui couvre principalement les coûts de personnel. Les dépenses de calcul devraient être prises en charge par les centres EuroHPC.

Sarlin a souligné qu'OpenEuroLLM ne vise pas à créer un produit pour les consommateurs ou les entreprises, mais plutôt à fournir un modèle de base open-source comme infrastructure d'IA pour les entreprises européennes. Il estime que le budget alloué est suffisant à cet effet, s'appuyant sur son expérience avec Silo AI, qui a déjà développé des modèles prenant en charge plusieurs langues européennes et se prépare à lancer les modèles "Europa" couvrant toutes les langues européennes.

Souveraineté numérique et collaboration

Malgré les défis et les critiques, Hajič reste optimiste quant au potentiel de projets collaboratifs comme OpenEuroLLM. Il croit que combiner l'expertise académique avec le focus corporatif pourrait mener à des résultats innovants.

Même si OpenEuroLLM ne produit pas le modèle le plus performant, Hajič y voit une valeur à avoir un modèle « bon » entièrement basé en Europe, contribuant positivement à l’autonomie technologique du continent.

Article connexe

OpenAI met fin aux modèles o3 et GPT-4.5 Large En tant que pionnier de l'intelligence artificielle, chaque initiative technique d'OpenAI a un impact considérable sur le secteur. Récemment, l'entreprise a fait une annonce majeure : e

Mise à jour majeure d'AIGCPanel 2.0.0 : le moteur de workflow ouvre une nouvelle ère dans la création automatisée d'humanoïdes numériques AIGCPanel, un outil puissant dédié à la création d'humains numériques au niveau local, vient de lancer sa version 2.0.0, présentée comme « la mise à jour la plus importante à ce jour ». Cette ref

BuzzFeed lance une filiale spécialisée dans les applications inutiles basées sur l'IA Alors qu’il traverse une grave crise, l’ancien géant des médias numériques BuzzFeed se lance dans une ambitieuse expérience d’auto-sauvetage reposant sur l’intelligence artificielle. Lors de la récent

Recommandations de sujets spéciaux liés

Édition d'images

Generateurs d'art par intelligence artificielle pour storyboards de courts drames : personnages de fantasy et de romance urbaine

2026 : Découvrez les meilleurs générateurs d’art artificiel pour les storyboards de courts métrages. Notre liste sélectionnée présente des outils hautement réputés pour créer des personnages captivants dans les genres fantasy et romance urbaine. Comparez les options gratuites et payantes, consultez les résultats de tests réels et trouvez le partenaire créatif idéal pour vous. Recevez chaque semaine des classements mis à jour et des conseils d’experts de XIX.AI. Commencez dès aujourd’hui à visualiser votre histoire !

10 outils

xix.ai

en écrivant

Meilleurs outils d’scriptage AI pour la radio et la production de podcasts : rédiger des publicités audio captivantes

Découvrez les 20 meilleurs outils de scriptage AI pour la radio et la production de podcasts en 2026 sur XIX.AI. Notre liste, soigneusement sélectionnée et hautement réputée, propose des solutions puissantes et révolutionnaires pour créer rapidement des publicités audio captivantes. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mises à jour chaque semaine. Développez votre potentiel créatif dès aujourd’hui !

10 outils

xix.ai

Entreprise

Le meilleur logiciel d'analyse de contrats basé sur l'IA : identifiez instantanément les failles juridiques et les risques de non-conformité

Découvrez les meilleurs logiciels d'analyse de contrats basés sur l'IA pour 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée regroupe des outils performants qui détectent instantanément les failles juridiques et les risques de non-conformité. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez la solution qui changera la donne pour une analyse de contrats sécurisée et efficace. Découvrez dès maintenant le guide complet.

10 outils

xix.ai

Création d'animations

Generateur d'animation AI pour Donghua : Créer des personnages de romans web et des avatars de bandes dessinées

Découvrez les meilleurs générateurs d’animés AI de 2026 pour la création de doublages en chinois. Notre liste, sélectionnée avec soin, propose des outils puissants pour créer des personnages incroyables pour des romans web et des avatars de comics. Comparez les options gratuites et payantes grâce à des tests réels. Trouvez le partenaire créatif idéal et donnez vie à vos histoires dès aujourd’hui sur XIX.AI.

10 outils

xix.ai

Création de bande dessinée

Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence

Découvrez les meilleurs outils d'auto-coloration IA pour mangas de 2026 sur XIX.AI. Notre sélection regroupe des solutions de premier plan qui changent la donne : elles appliquent des couleurs unies sans aucune erreur de cohérence, ce qui booste votre productivité. Consultez nos comparatifs entre versions gratuites et payantes, nos tests en conditions réelles et nos classements mis à jour chaque semaine pour trouver l'outil qui vous convient le mieux. Profitez dès aujourd'hui de l'avantage de l'IA.

10 outils

xix.ai

en écrivant

Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales

Découvrez les meilleurs outils de création de profils de personnages basés sur l'IA de 2026 pour donner de la profondeur à vos personnages. La sélection de XIX.AI regroupe les outils les mieux notés et les plus innovants, capables de générer des motivations cohérentes et des défauts fatals. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez dès maintenant votre potentiel de narration.

10 outils

xix.ai

commentaires (23)

0/500

Veuillez vous connecter d'abord

EdwardJackson

25 mars 2026 09:00:43 UTC+01:00

A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?

JosephWalker

25 mars 2026 09:00:43 UTC+01:00

看到欧洲也要搞自己的开源大模型，有点意思！不过OpenEuroLLM真能做到覆盖所有欧盟语言吗？成本和技术难度想想都吓人，希望别最后成了个半吊子项目

AlbertThomas

25 mars 2026 09:00:43 UTC+01:00

Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...

RonaldWilliams

4 février 2026 13:00:27 UTC+01:00

欧洲在AI基础设施上的自主布局确实明智，开源大语言模型能降低对单一技术供应商的依赖，不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求，而不仅仅是英法德这些主流语言 🌍

JustinAnderson

30 décembre 2025 17:30:57 UTC+01:00

¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊

StevenMartin

16 août 2025 19:00:59 UTC+02:00

Wow, OpenEuroLLM sounds like a game-changer for Europe's tech scene! Building LLMs for all EU languages is ambitious—imagine the boost for local AI startups. But can they keep up with the big players like OpenAI? 🤔

Top nouvelles

AI Builder et Power Automate Révolutionnent la Synthèse de Documents Podcast Hosts Of NoteBookLM maintenant disponible pour les interviews La Chine dévoile ses normes nationales relatives aux robots humanoïdes et à l'intelligence incarnée L'adoption de l'IA par les entreprises plafonne, selon les données de Ramp Tutoriel Créateur d'Images Bing : Guide de Génération d'Art IA Apprenez à créer de la musique AI en utilisant votre voix: un tutoriel Suno étape par étape iMyFone MagicMic : Revue et tutoriel sur le changeur de voix AI en temps réel Meilleurs Générateurs de Vidéos IA en 2025 : Pika Labs vs Alternatives DeepSeek V4 s'impose comme une technologie multimodale révolutionnaire dans le domaine de l'IA Embodied Intelligence dévoile la première norme sectorielle visant à freiner la croissance anarchique

Plus

En vedette