LLMS open source inclus dans la feuille de route de la souveraineté numérique d'Europe

La semaine dernière, l'agenda de la souveraineté numérique de l'Europe a reçu un coup de pouce significatif avec l'annonce d'une nouvelle initiative visant à développer une série de grands modèles de langage (LLM) entièrement open-source, adaptés à toutes les langues de l'Union européenne. Ce projet ambitieux, baptisé OpenEuroLLM, cible non seulement les 24 langues officielles de l'UE, mais s'étend également aux langues des pays en négociation pour entrer dans l'UE, comme l'Albanie, mettant l'accent sur une vision d'avenir.
OpenEuroLLM est un effort collaboratif impliquant environ 20 organisations, codirigé par Jan Hajič, linguiste computationnel de l'Université Charles de Prague, et Peter Sarlin, PDG et cofondateur du laboratoire d'IA finlandais Silo AI, acquis par AMD pour 665 millions de dollars l'année dernière. Cette initiative s'aligne sur la poussée plus large de l'Europe vers la souveraineté numérique, visant à maintenir les infrastructures et outils critiques sur le continent. Ce mouvement fait écho aux actions des principaux fournisseurs de cloud et des entreprises d'IA comme OpenAI, qui ont investi dans des infrastructures locales pour garantir que les données de l'UE restent sur le sol européen.
De plus, l'UE a récemment signé un accord de 11 milliards de dollars pour établir une constellation de satellites souveraine, se positionnant comme concurrente de Starlink d'Elon Musk. OpenEuroLLM s'inscrit parfaitement dans ce récit, en se concentrant sur le maintien de l'autonomie technologique de l'Europe.
Financement et défis
Malgré ses objectifs ambitieux, le budget alloué pour le développement des modèles est de 37,4 millions d'euros, dont environ 20 millions proviennent du programme Digital Europe de l'UE. Ce montant est faible comparé aux investissements des géants corporatifs de l'IA, bien que le budget total augmente en tenant compte des financements pour des travaux connexes. Une part significative des dépenses concerne la puissance de calcul, OpenEuroLLM s'associant aux centres de superordinateurs EuroHPC en Espagne, en Italie, en Finlande et aux Pays-Bas, qui font partie d'un projet EuroHPC plus large de 7 milliards d'euros.
Le groupe diversifié de participants, allant du milieu académique aux entreprises, soulève des questions sur la faisabilité du projet. Anastasia Stasenko, cofondatrice de l'entreprise LLM Pleias, a exprimé son scepticisme quant à l'efficacité d'un consortium aussi large par rapport à des entreprises d'IA privées plus agiles et ciblées comme Mistral AI et LightOn. Ces équipes plus petites, selon elle, ont une responsabilité plus directe et peuvent réagir plus rapidement aux défis.
Construire de zéro ou s'appuyer sur des travaux existants ?
Le point de départ d'OpenEuroLLM est quelque peu ambigu. Depuis 2022, Jan Hajič coordonne le projet High Performance Language Technologies (HPLT), qui se concentre sur le développement de datasets, modèles et workflows libres et réutilisables en utilisant le calcul haute performance. Ce projet, qui doit se terminer fin 2025, partage de nombreux partenaires avec OpenEuroLLM, à l'exclusion de ceux du Royaume-Uni.
Hajič considère HPLT comme un précurseur d'OpenEuroLLM, notant qu'il fournit une base solide en données, expertise, outils et expérience de calcul. Il prévoit de publier les premières versions d'OpenEuroLLM d'ici mi-2026, avec les versions finales attendues à la conclusion du projet en 2028. Cependant, le profil GitHub du projet reste peu fourni, indiquant un départ de zéro à certains égards. Hajič a mentionné que le projet a officiellement commencé le 1er février 2024, après un an de préparation.
Le consortium OpenEuroLLM inclut des organisations de Tchéquie, des Pays-Bas, d'Allemagne, de Suède, de Finlande et de Norvège, ainsi que des entités corporatives comme Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering et LightOn. Mistral, une licorne française de l'IA, est notablement absente, malgré les tentatives de Hajič pour les engager dans des discussions.
Objectifs et livrables
L'objectif principal du projet est de créer une série de modèles de base pour une IA transparente en Europe, préservant la diversité linguistique et culturelle de toutes les langues de l'UE, actuelles et futures. Les livrables sont encore en cours de finalisation, mais devraient inclure un LLM multilingue de base pour des tâches générales et des versions plus petites et quantifiées pour des applications sur des appareils où l'efficacité est clé.
Hajič a souligné l'importance de la qualité, déclarant que le projet vise à éviter de publier des solutions à moitié prêtes, compte tenu des enjeux élevés et du financement public impliqué. Atteindre une compétence égale dans toutes les langues, en particulier celles avec des ressources numériques limitées, reste un défi. Le projet prévoit d'utiliser des benchmarks qui représentent précisément ces langues et cultures.
Les données du projet HPLT, incluant un dataset de 4,5 pétaoctets provenant de crawls web et plus de 20 milliards de documents, seront utilisées, complétées par des données de Common Crawl.
Dilemmes de l'open source
Le débat sur ce qui constitue l'"open source" en IA est en cours. L'Open Source Initiative (OSI) a défini l'"IA open source", mais certains soutiennent qu'elle devrait inclure non seulement les modèles, mais aussi les datasets, les modèles pré-entraînés et les poids. OpenEuroLLM vise à être "véritablement open", mais Hajič reconnaît des limitations potentielles dues aux lois européennes sur le droit d'auteur et aux restrictions de redistribution des données. Certaines données d'entraînement pourraient devoir rester confidentielles mais disponibles pour un audit conformément à l'EU AI Act.
Chevauchement avec des projets existants
Le lancement d'OpenEuroLLM a été comparé au récemment lancé EuroLLM, qui partage des objectifs similaires et est également cofinancé par l'UE. EuroLLM, qui a publié son premier modèle en septembre et un suivi en décembre, a suscité des préoccupations concernant la redondance et la nécessité d'une collaboration plutôt que d'une compétition. Andre Martins, responsable de la recherche chez Unbabel, a souligné ces similitudes sur les réseaux sociaux, plaidant pour une collaboration ouverte entre les différentes communautés.
Hajič a reconnu le chevauchement regrettable mais a exprimé l'espoir d'une coopération, notant que les restrictions de financement d'OpenEuroLLM limitent les collaborations avec des entités non européennes, y compris les universités britanniques.
Financement et attentes
L'émergence de DeepSeek en Chine, avec son rapport coût-performance prometteur, a soulevé des questions sur les véritables coûts de construction des modèles d'IA. Peter Sarlin, codirigeant technique d'OpenEuroLLM, a noté le manque d'informations détaillées sur le développement de DeepSeek mais reste confiant dans le financement d'OpenEuroLLM, qui couvre principalement les coûts de personnel. Les dépenses de calcul devraient être prises en charge par les centres EuroHPC.
Sarlin a souligné qu'OpenEuroLLM ne vise pas à créer un produit pour les consommateurs ou les entreprises, mais plutôt à fournir un modèle de base open-source comme infrastructure d'IA pour les entreprises européennes. Il estime que le budget alloué est suffisant à cet effet, s'appuyant sur son expérience avec Silo AI, qui a déjà développé des modèles prenant en charge plusieurs langues européennes et se prépare à lancer les modèles "Europa" couvrant toutes les langues européennes.
Souveraineté numérique et collaboration
Malgré les défis et les critiques, Hajič reste optimiste quant au potentiel de projets collaboratifs comme OpenEuroLLM. Il croit que combiner l'expertise académique avec le focus corporatif pourrait mener à des résultats innovants.
Même si OpenEuroLLM ne produit pas le modèle le plus performant, Hajič y voit une valeur à avoir un modèle « bon » entièrement basé en Europe, contribuant positivement à l’autonomie technologique du continent.
Article connexe
Création musicale alimentée par l'IA : Créez des chansons et des vidéos sans effort
La création musicale peut être complexe, nécessitant du temps, des ressources et une expertise. L'intelligence artificielle a transformé ce processus, le rendant simple et accessible. Ce guide montre
Création de livres de coloriage alimentés par l'IA : Un guide complet
Concevoir des livres de coloriage est une entreprise gratifiante, combinant expression artistique et expériences apaisantes pour les utilisateurs. Cependant, le processus peut être laborieux. Heureuse
Qodo s'associe à Google Cloud pour offrir des outils gratuits d'examen de code par IA aux développeurs
Qodo, une startup israélienne spécialisée dans le codage par IA et axée sur la qualité du code, a lancé un partenariat avec Google Cloud pour améliorer l'intégrité des logiciels générés par IA.À mesur
commentaires (18)
0/200
StevenMartin
16 août 2025 19:00:59 UTC+02:00
Wow, OpenEuroLLM sounds like a game-changer for Europe's tech scene! Building LLMs for all EU languages is ambitious—imagine the boost for local AI startups. But can they keep up with the big players like OpenAI? 🤔
0
PaulHill
7 août 2025 20:01:06 UTC+02:00
Super cool to see Europe pushing for open-source LLMs! Can't wait to see how OpenEuroLLM handles all those languages. 🌍
0
ElijahCollins
23 juillet 2025 06:59:29 UTC+02:00
Wow, OpenEuroLLM sounds like a game-changer for Europe’s tech scene! Building open-source LLMs for all EU languages is ambitious—imagine the possibilities for local businesses and multilingual AI apps. But I wonder, will they keep up with the pace of global AI giants? 🤔
0
PeterYoung
22 avril 2025 05:11:01 UTC+02:00
OpenEuroLLM sounds like a game-changer for Europe! Finally, we're getting open-source LLMs that cover all EU languages. It's about time we took control of our digital future. Can't wait to see how this develops! 🚀
0
CharlesThomas
22 avril 2025 02:18:24 UTC+02:00
オープンソースのLLMがEU全言語に対応するなんて素晴らしい!これでデジタルの未来を自分たちでコントロールできるようになるね。どう発展していくか楽しみだよ!🌟
0
MatthewGonzalez
22 avril 2025 02:16:04 UTC+02:00
OpenEuroLLM parece ser uma grande mudança para a Europa! Finalmente, LLMs de código aberto que cobrem todos os idiomas da UE. Está na hora de assumirmos o controle do nosso futuro digital. Mal posso esperar para ver como isso vai se desenvolver! 🚀
0
La semaine dernière, l'agenda de la souveraineté numérique de l'Europe a reçu un coup de pouce significatif avec l'annonce d'une nouvelle initiative visant à développer une série de grands modèles de langage (LLM) entièrement open-source, adaptés à toutes les langues de l'Union européenne. Ce projet ambitieux, baptisé OpenEuroLLM, cible non seulement les 24 langues officielles de l'UE, mais s'étend également aux langues des pays en négociation pour entrer dans l'UE, comme l'Albanie, mettant l'accent sur une vision d'avenir.
OpenEuroLLM est un effort collaboratif impliquant environ 20 organisations, codirigé par Jan Hajič, linguiste computationnel de l'Université Charles de Prague, et Peter Sarlin, PDG et cofondateur du laboratoire d'IA finlandais Silo AI, acquis par AMD pour 665 millions de dollars l'année dernière. Cette initiative s'aligne sur la poussée plus large de l'Europe vers la souveraineté numérique, visant à maintenir les infrastructures et outils critiques sur le continent. Ce mouvement fait écho aux actions des principaux fournisseurs de cloud et des entreprises d'IA comme OpenAI, qui ont investi dans des infrastructures locales pour garantir que les données de l'UE restent sur le sol européen.
De plus, l'UE a récemment signé un accord de 11 milliards de dollars pour établir une constellation de satellites souveraine, se positionnant comme concurrente de Starlink d'Elon Musk. OpenEuroLLM s'inscrit parfaitement dans ce récit, en se concentrant sur le maintien de l'autonomie technologique de l'Europe.
Financement et défis
Malgré ses objectifs ambitieux, le budget alloué pour le développement des modèles est de 37,4 millions d'euros, dont environ 20 millions proviennent du programme Digital Europe de l'UE. Ce montant est faible comparé aux investissements des géants corporatifs de l'IA, bien que le budget total augmente en tenant compte des financements pour des travaux connexes. Une part significative des dépenses concerne la puissance de calcul, OpenEuroLLM s'associant aux centres de superordinateurs EuroHPC en Espagne, en Italie, en Finlande et aux Pays-Bas, qui font partie d'un projet EuroHPC plus large de 7 milliards d'euros.
Le groupe diversifié de participants, allant du milieu académique aux entreprises, soulève des questions sur la faisabilité du projet. Anastasia Stasenko, cofondatrice de l'entreprise LLM Pleias, a exprimé son scepticisme quant à l'efficacité d'un consortium aussi large par rapport à des entreprises d'IA privées plus agiles et ciblées comme Mistral AI et LightOn. Ces équipes plus petites, selon elle, ont une responsabilité plus directe et peuvent réagir plus rapidement aux défis.
Construire de zéro ou s'appuyer sur des travaux existants ?
Le point de départ d'OpenEuroLLM est quelque peu ambigu. Depuis 2022, Jan Hajič coordonne le projet High Performance Language Technologies (HPLT), qui se concentre sur le développement de datasets, modèles et workflows libres et réutilisables en utilisant le calcul haute performance. Ce projet, qui doit se terminer fin 2025, partage de nombreux partenaires avec OpenEuroLLM, à l'exclusion de ceux du Royaume-Uni.
Hajič considère HPLT comme un précurseur d'OpenEuroLLM, notant qu'il fournit une base solide en données, expertise, outils et expérience de calcul. Il prévoit de publier les premières versions d'OpenEuroLLM d'ici mi-2026, avec les versions finales attendues à la conclusion du projet en 2028. Cependant, le profil GitHub du projet reste peu fourni, indiquant un départ de zéro à certains égards. Hajič a mentionné que le projet a officiellement commencé le 1er février 2024, après un an de préparation.
Le consortium OpenEuroLLM inclut des organisations de Tchéquie, des Pays-Bas, d'Allemagne, de Suède, de Finlande et de Norvège, ainsi que des entités corporatives comme Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering et LightOn. Mistral, une licorne française de l'IA, est notablement absente, malgré les tentatives de Hajič pour les engager dans des discussions.
Objectifs et livrables
L'objectif principal du projet est de créer une série de modèles de base pour une IA transparente en Europe, préservant la diversité linguistique et culturelle de toutes les langues de l'UE, actuelles et futures. Les livrables sont encore en cours de finalisation, mais devraient inclure un LLM multilingue de base pour des tâches générales et des versions plus petites et quantifiées pour des applications sur des appareils où l'efficacité est clé.
Hajič a souligné l'importance de la qualité, déclarant que le projet vise à éviter de publier des solutions à moitié prêtes, compte tenu des enjeux élevés et du financement public impliqué. Atteindre une compétence égale dans toutes les langues, en particulier celles avec des ressources numériques limitées, reste un défi. Le projet prévoit d'utiliser des benchmarks qui représentent précisément ces langues et cultures.
Les données du projet HPLT, incluant un dataset de 4,5 pétaoctets provenant de crawls web et plus de 20 milliards de documents, seront utilisées, complétées par des données de Common Crawl.
Dilemmes de l'open source
Le débat sur ce qui constitue l'"open source" en IA est en cours. L'Open Source Initiative (OSI) a défini l'"IA open source", mais certains soutiennent qu'elle devrait inclure non seulement les modèles, mais aussi les datasets, les modèles pré-entraînés et les poids. OpenEuroLLM vise à être "véritablement open", mais Hajič reconnaît des limitations potentielles dues aux lois européennes sur le droit d'auteur et aux restrictions de redistribution des données. Certaines données d'entraînement pourraient devoir rester confidentielles mais disponibles pour un audit conformément à l'EU AI Act.
Chevauchement avec des projets existants
Le lancement d'OpenEuroLLM a été comparé au récemment lancé EuroLLM, qui partage des objectifs similaires et est également cofinancé par l'UE. EuroLLM, qui a publié son premier modèle en septembre et un suivi en décembre, a suscité des préoccupations concernant la redondance et la nécessité d'une collaboration plutôt que d'une compétition. Andre Martins, responsable de la recherche chez Unbabel, a souligné ces similitudes sur les réseaux sociaux, plaidant pour une collaboration ouverte entre les différentes communautés.
Hajič a reconnu le chevauchement regrettable mais a exprimé l'espoir d'une coopération, notant que les restrictions de financement d'OpenEuroLLM limitent les collaborations avec des entités non européennes, y compris les universités britanniques.
Financement et attentes
L'émergence de DeepSeek en Chine, avec son rapport coût-performance prometteur, a soulevé des questions sur les véritables coûts de construction des modèles d'IA. Peter Sarlin, codirigeant technique d'OpenEuroLLM, a noté le manque d'informations détaillées sur le développement de DeepSeek mais reste confiant dans le financement d'OpenEuroLLM, qui couvre principalement les coûts de personnel. Les dépenses de calcul devraient être prises en charge par les centres EuroHPC.
Sarlin a souligné qu'OpenEuroLLM ne vise pas à créer un produit pour les consommateurs ou les entreprises, mais plutôt à fournir un modèle de base open-source comme infrastructure d'IA pour les entreprises européennes. Il estime que le budget alloué est suffisant à cet effet, s'appuyant sur son expérience avec Silo AI, qui a déjà développé des modèles prenant en charge plusieurs langues européennes et se prépare à lancer les modèles "Europa" couvrant toutes les langues européennes.
Souveraineté numérique et collaboration
Malgré les défis et les critiques, Hajič reste optimiste quant au potentiel de projets collaboratifs comme OpenEuroLLM. Il croit que combiner l'expertise académique avec le focus corporatif pourrait mener à des résultats innovants.
Même si OpenEuroLLM ne produit pas le modèle le plus performant, Hajič y voit une valeur à avoir un modèle « bon » entièrement basé en Europe, contribuant positivement à l’autonomie technologique du continent.




Wow, OpenEuroLLM sounds like a game-changer for Europe's tech scene! Building LLMs for all EU languages is ambitious—imagine the boost for local AI startups. But can they keep up with the big players like OpenAI? 🤔




Super cool to see Europe pushing for open-source LLMs! Can't wait to see how OpenEuroLLM handles all those languages. 🌍




Wow, OpenEuroLLM sounds like a game-changer for Europe’s tech scene! Building open-source LLMs for all EU languages is ambitious—imagine the possibilities for local businesses and multilingual AI apps. But I wonder, will they keep up with the pace of global AI giants? 🤔




OpenEuroLLM sounds like a game-changer for Europe! Finally, we're getting open-source LLMs that cover all EU languages. It's about time we took control of our digital future. Can't wait to see how this develops! 🚀




オープンソースのLLMがEU全言語に対応するなんて素晴らしい!これでデジタルの未来を自分たちでコントロールできるようになるね。どう発展していくか楽しみだよ!🌟




OpenEuroLLM parece ser uma grande mudança para a Europa! Finalmente, LLMs de código aberto que cobrem todos os idiomas da UE. Está na hora de assumirmos o controle do nosso futuro digital. Mal posso esperar para ver como isso vai se desenvolver! 🚀












