Maison
LLMS open source inclus dans la feuille de route de la souveraineté numérique d'Europe

La semaine dernière, l'agenda de la souveraineté numérique de l'Europe a reçu un coup de pouce significatif avec l'annonce d'une nouvelle initiative visant à développer une série de grands modèles de langage (LLM) entièrement open-source, adaptés à toutes les langues de l'Union européenne. Ce projet ambitieux, baptisé OpenEuroLLM, cible non seulement les 24 langues officielles de l'UE, mais s'étend également aux langues des pays en négociation pour entrer dans l'UE, comme l'Albanie, mettant l'accent sur une vision d'avenir.
OpenEuroLLM est un effort collaboratif impliquant environ 20 organisations, codirigé par Jan Hajič, linguiste computationnel de l'Université Charles de Prague, et Peter Sarlin, PDG et cofondateur du laboratoire d'IA finlandais Silo AI, acquis par AMD pour 665 millions de dollars l'année dernière. Cette initiative s'aligne sur la poussée plus large de l'Europe vers la souveraineté numérique, visant à maintenir les infrastructures et outils critiques sur le continent. Ce mouvement fait écho aux actions des principaux fournisseurs de cloud et des entreprises d'IA comme OpenAI, qui ont investi dans des infrastructures locales pour garantir que les données de l'UE restent sur le sol européen.
De plus, l'UE a récemment signé un accord de 11 milliards de dollars pour établir une constellation de satellites souveraine, se positionnant comme concurrente de Starlink d'Elon Musk. OpenEuroLLM s'inscrit parfaitement dans ce récit, en se concentrant sur le maintien de l'autonomie technologique de l'Europe.
Financement et défis
Malgré ses objectifs ambitieux, le budget alloué pour le développement des modèles est de 37,4 millions d'euros, dont environ 20 millions proviennent du programme Digital Europe de l'UE. Ce montant est faible comparé aux investissements des géants corporatifs de l'IA, bien que le budget total augmente en tenant compte des financements pour des travaux connexes. Une part significative des dépenses concerne la puissance de calcul, OpenEuroLLM s'associant aux centres de superordinateurs EuroHPC en Espagne, en Italie, en Finlande et aux Pays-Bas, qui font partie d'un projet EuroHPC plus large de 7 milliards d'euros.
Le groupe diversifié de participants, allant du milieu académique aux entreprises, soulève des questions sur la faisabilité du projet. Anastasia Stasenko, cofondatrice de l'entreprise LLM Pleias, a exprimé son scepticisme quant à l'efficacité d'un consortium aussi large par rapport à des entreprises d'IA privées plus agiles et ciblées comme Mistral AI et LightOn. Ces équipes plus petites, selon elle, ont une responsabilité plus directe et peuvent réagir plus rapidement aux défis.
Construire de zéro ou s'appuyer sur des travaux existants ?
Le point de départ d'OpenEuroLLM est quelque peu ambigu. Depuis 2022, Jan Hajič coordonne le projet High Performance Language Technologies (HPLT), qui se concentre sur le développement de datasets, modèles et workflows libres et réutilisables en utilisant le calcul haute performance. Ce projet, qui doit se terminer fin 2025, partage de nombreux partenaires avec OpenEuroLLM, à l'exclusion de ceux du Royaume-Uni.
Hajič considère HPLT comme un précurseur d'OpenEuroLLM, notant qu'il fournit une base solide en données, expertise, outils et expérience de calcul. Il prévoit de publier les premières versions d'OpenEuroLLM d'ici mi-2026, avec les versions finales attendues à la conclusion du projet en 2028. Cependant, le profil GitHub du projet reste peu fourni, indiquant un départ de zéro à certains égards. Hajič a mentionné que le projet a officiellement commencé le 1er février 2024, après un an de préparation.
Le consortium OpenEuroLLM inclut des organisations de Tchéquie, des Pays-Bas, d'Allemagne, de Suède, de Finlande et de Norvège, ainsi que des entités corporatives comme Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering et LightOn. Mistral, une licorne française de l'IA, est notablement absente, malgré les tentatives de Hajič pour les engager dans des discussions.
Objectifs et livrables
L'objectif principal du projet est de créer une série de modèles de base pour une IA transparente en Europe, préservant la diversité linguistique et culturelle de toutes les langues de l'UE, actuelles et futures. Les livrables sont encore en cours de finalisation, mais devraient inclure un LLM multilingue de base pour des tâches générales et des versions plus petites et quantifiées pour des applications sur des appareils où l'efficacité est clé.
Hajič a souligné l'importance de la qualité, déclarant que le projet vise à éviter de publier des solutions à moitié prêtes, compte tenu des enjeux élevés et du financement public impliqué. Atteindre une compétence égale dans toutes les langues, en particulier celles avec des ressources numériques limitées, reste un défi. Le projet prévoit d'utiliser des benchmarks qui représentent précisément ces langues et cultures.
Les données du projet HPLT, incluant un dataset de 4,5 pétaoctets provenant de crawls web et plus de 20 milliards de documents, seront utilisées, complétées par des données de Common Crawl.
Dilemmes de l'open source
Le débat sur ce qui constitue l'"open source" en IA est en cours. L'Open Source Initiative (OSI) a défini l'"IA open source", mais certains soutiennent qu'elle devrait inclure non seulement les modèles, mais aussi les datasets, les modèles pré-entraînés et les poids. OpenEuroLLM vise à être "véritablement open", mais Hajič reconnaît des limitations potentielles dues aux lois européennes sur le droit d'auteur et aux restrictions de redistribution des données. Certaines données d'entraînement pourraient devoir rester confidentielles mais disponibles pour un audit conformément à l'EU AI Act.
Chevauchement avec des projets existants
Le lancement d'OpenEuroLLM a été comparé au récemment lancé EuroLLM, qui partage des objectifs similaires et est également cofinancé par l'UE. EuroLLM, qui a publié son premier modèle en septembre et un suivi en décembre, a suscité des préoccupations concernant la redondance et la nécessité d'une collaboration plutôt que d'une compétition. Andre Martins, responsable de la recherche chez Unbabel, a souligné ces similitudes sur les réseaux sociaux, plaidant pour une collaboration ouverte entre les différentes communautés.
Hajič a reconnu le chevauchement regrettable mais a exprimé l'espoir d'une coopération, notant que les restrictions de financement d'OpenEuroLLM limitent les collaborations avec des entités non européennes, y compris les universités britanniques.
Financement et attentes
L'émergence de DeepSeek en Chine, avec son rapport coût-performance prometteur, a soulevé des questions sur les véritables coûts de construction des modèles d'IA. Peter Sarlin, codirigeant technique d'OpenEuroLLM, a noté le manque d'informations détaillées sur le développement de DeepSeek mais reste confiant dans le financement d'OpenEuroLLM, qui couvre principalement les coûts de personnel. Les dépenses de calcul devraient être prises en charge par les centres EuroHPC.
Sarlin a souligné qu'OpenEuroLLM ne vise pas à créer un produit pour les consommateurs ou les entreprises, mais plutôt à fournir un modèle de base open-source comme infrastructure d'IA pour les entreprises européennes. Il estime que le budget alloué est suffisant à cet effet, s'appuyant sur son expérience avec Silo AI, qui a déjà développé des modèles prenant en charge plusieurs langues européennes et se prépare à lancer les modèles "Europa" couvrant toutes les langues européennes.
Souveraineté numérique et collaboration
Malgré les défis et les critiques, Hajič reste optimiste quant au potentiel de projets collaboratifs comme OpenEuroLLM. Il croit que combiner l'expertise académique avec le focus corporatif pourrait mener à des résultats innovants.
Même si OpenEuroLLM ne produit pas le modèle le plus performant, Hajič y voit une valeur à avoir un modèle « bon » entièrement basé en Europe, contribuant positivement à l’autonomie technologique du continent.
Article connexe
OpenAI met fin aux modèles o3 et GPT-4.5 Large
En tant que pionnier de l'intelligence artificielle, chaque initiative technique d'OpenAI a un impact considérable sur le secteur. Récemment, l'entreprise a fait une annonce majeure : e
Mise à jour majeure d'AIGCPanel 2.0.0 : le moteur de workflow ouvre une nouvelle ère dans la création automatisée d'humanoïdes numériques
AIGCPanel, un outil puissant dédié à la création d'humains numériques au niveau local, vient de lancer sa version 2.0.0, présentée comme « la mise à jour la plus importante à ce jour ». Cette ref
BuzzFeed lance une filiale spécialisée dans les applications inutiles basées sur l'IA
Alors qu’il traverse une grave crise, l’ancien géant des médias numériques BuzzFeed se lance dans une ambitieuse expérience d’auto-sauvetage reposant sur l’intelligence artificielle. Lors de la récent
Recommandations de sujets spéciaux liés
commentaires (23)
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊

La semaine dernière, l'agenda de la souveraineté numérique de l'Europe a reçu un coup de pouce significatif avec l'annonce d'une nouvelle initiative visant à développer une série de grands modèles de langage (LLM) entièrement open-source, adaptés à toutes les langues de l'Union européenne. Ce projet ambitieux, baptisé OpenEuroLLM, cible non seulement les 24 langues officielles de l'UE, mais s'étend également aux langues des pays en négociation pour entrer dans l'UE, comme l'Albanie, mettant l'accent sur une vision d'avenir.
OpenEuroLLM est un effort collaboratif impliquant environ 20 organisations, codirigé par Jan Hajič, linguiste computationnel de l'Université Charles de Prague, et Peter Sarlin, PDG et cofondateur du laboratoire d'IA finlandais Silo AI, acquis par AMD pour 665 millions de dollars l'année dernière. Cette initiative s'aligne sur la poussée plus large de l'Europe vers la souveraineté numérique, visant à maintenir les infrastructures et outils critiques sur le continent. Ce mouvement fait écho aux actions des principaux fournisseurs de cloud et des entreprises d'IA comme OpenAI, qui ont investi dans des infrastructures locales pour garantir que les données de l'UE restent sur le sol européen.
De plus, l'UE a récemment signé un accord de 11 milliards de dollars pour établir une constellation de satellites souveraine, se positionnant comme concurrente de Starlink d'Elon Musk. OpenEuroLLM s'inscrit parfaitement dans ce récit, en se concentrant sur le maintien de l'autonomie technologique de l'Europe.
Financement et défis
Malgré ses objectifs ambitieux, le budget alloué pour le développement des modèles est de 37,4 millions d'euros, dont environ 20 millions proviennent du programme Digital Europe de l'UE. Ce montant est faible comparé aux investissements des géants corporatifs de l'IA, bien que le budget total augmente en tenant compte des financements pour des travaux connexes. Une part significative des dépenses concerne la puissance de calcul, OpenEuroLLM s'associant aux centres de superordinateurs EuroHPC en Espagne, en Italie, en Finlande et aux Pays-Bas, qui font partie d'un projet EuroHPC plus large de 7 milliards d'euros.
Le groupe diversifié de participants, allant du milieu académique aux entreprises, soulève des questions sur la faisabilité du projet. Anastasia Stasenko, cofondatrice de l'entreprise LLM Pleias, a exprimé son scepticisme quant à l'efficacité d'un consortium aussi large par rapport à des entreprises d'IA privées plus agiles et ciblées comme Mistral AI et LightOn. Ces équipes plus petites, selon elle, ont une responsabilité plus directe et peuvent réagir plus rapidement aux défis.
Construire de zéro ou s'appuyer sur des travaux existants ?
Le point de départ d'OpenEuroLLM est quelque peu ambigu. Depuis 2022, Jan Hajič coordonne le projet High Performance Language Technologies (HPLT), qui se concentre sur le développement de datasets, modèles et workflows libres et réutilisables en utilisant le calcul haute performance. Ce projet, qui doit se terminer fin 2025, partage de nombreux partenaires avec OpenEuroLLM, à l'exclusion de ceux du Royaume-Uni.
Hajič considère HPLT comme un précurseur d'OpenEuroLLM, notant qu'il fournit une base solide en données, expertise, outils et expérience de calcul. Il prévoit de publier les premières versions d'OpenEuroLLM d'ici mi-2026, avec les versions finales attendues à la conclusion du projet en 2028. Cependant, le profil GitHub du projet reste peu fourni, indiquant un départ de zéro à certains égards. Hajič a mentionné que le projet a officiellement commencé le 1er février 2024, après un an de préparation.
Le consortium OpenEuroLLM inclut des organisations de Tchéquie, des Pays-Bas, d'Allemagne, de Suède, de Finlande et de Norvège, ainsi que des entités corporatives comme Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering et LightOn. Mistral, une licorne française de l'IA, est notablement absente, malgré les tentatives de Hajič pour les engager dans des discussions.
Objectifs et livrables
L'objectif principal du projet est de créer une série de modèles de base pour une IA transparente en Europe, préservant la diversité linguistique et culturelle de toutes les langues de l'UE, actuelles et futures. Les livrables sont encore en cours de finalisation, mais devraient inclure un LLM multilingue de base pour des tâches générales et des versions plus petites et quantifiées pour des applications sur des appareils où l'efficacité est clé.
Hajič a souligné l'importance de la qualité, déclarant que le projet vise à éviter de publier des solutions à moitié prêtes, compte tenu des enjeux élevés et du financement public impliqué. Atteindre une compétence égale dans toutes les langues, en particulier celles avec des ressources numériques limitées, reste un défi. Le projet prévoit d'utiliser des benchmarks qui représentent précisément ces langues et cultures.
Les données du projet HPLT, incluant un dataset de 4,5 pétaoctets provenant de crawls web et plus de 20 milliards de documents, seront utilisées, complétées par des données de Common Crawl.
Dilemmes de l'open source
Le débat sur ce qui constitue l'"open source" en IA est en cours. L'Open Source Initiative (OSI) a défini l'"IA open source", mais certains soutiennent qu'elle devrait inclure non seulement les modèles, mais aussi les datasets, les modèles pré-entraînés et les poids. OpenEuroLLM vise à être "véritablement open", mais Hajič reconnaît des limitations potentielles dues aux lois européennes sur le droit d'auteur et aux restrictions de redistribution des données. Certaines données d'entraînement pourraient devoir rester confidentielles mais disponibles pour un audit conformément à l'EU AI Act.
Chevauchement avec des projets existants
Le lancement d'OpenEuroLLM a été comparé au récemment lancé EuroLLM, qui partage des objectifs similaires et est également cofinancé par l'UE. EuroLLM, qui a publié son premier modèle en septembre et un suivi en décembre, a suscité des préoccupations concernant la redondance et la nécessité d'une collaboration plutôt que d'une compétition. Andre Martins, responsable de la recherche chez Unbabel, a souligné ces similitudes sur les réseaux sociaux, plaidant pour une collaboration ouverte entre les différentes communautés.
Hajič a reconnu le chevauchement regrettable mais a exprimé l'espoir d'une coopération, notant que les restrictions de financement d'OpenEuroLLM limitent les collaborations avec des entités non européennes, y compris les universités britanniques.
Financement et attentes
L'émergence de DeepSeek en Chine, avec son rapport coût-performance prometteur, a soulevé des questions sur les véritables coûts de construction des modèles d'IA. Peter Sarlin, codirigeant technique d'OpenEuroLLM, a noté le manque d'informations détaillées sur le développement de DeepSeek mais reste confiant dans le financement d'OpenEuroLLM, qui couvre principalement les coûts de personnel. Les dépenses de calcul devraient être prises en charge par les centres EuroHPC.
Sarlin a souligné qu'OpenEuroLLM ne vise pas à créer un produit pour les consommateurs ou les entreprises, mais plutôt à fournir un modèle de base open-source comme infrastructure d'IA pour les entreprises européennes. Il estime que le budget alloué est suffisant à cet effet, s'appuyant sur son expérience avec Silo AI, qui a déjà développé des modèles prenant en charge plusieurs langues européennes et se prépare à lancer les modèles "Europa" couvrant toutes les langues européennes.
Souveraineté numérique et collaboration
Malgré les défis et les critiques, Hajič reste optimiste quant au potentiel de projets collaboratifs comme OpenEuroLLM. Il croit que combiner l'expertise académique avec le focus corporatif pourrait mener à des résultats innovants.
Même si OpenEuroLLM ne produit pas le modèle le plus performant, Hajič y voit une valeur à avoir un modèle « bon » entièrement basé en Europe, contribuant positivement à l’autonomie technologique du continent.
OpenAI met fin aux modèles o3 et GPT-4.5 Large
En tant que pionnier de l'intelligence artificielle, chaque initiative technique d'OpenAI a un impact considérable sur le secteur. Récemment, l'entreprise a fait une annonce majeure : e
Mise à jour majeure d'AIGCPanel 2.0.0 : le moteur de workflow ouvre une nouvelle ère dans la création automatisée d'humanoïdes numériques
AIGCPanel, un outil puissant dédié à la création d'humains numériques au niveau local, vient de lancer sa version 2.0.0, présentée comme « la mise à jour la plus importante à ce jour ». Cette ref
BuzzFeed lance une filiale spécialisée dans les applications inutiles basées sur l'IA
Alors qu’il traverse une grave crise, l’ancien géant des médias numériques BuzzFeed se lance dans une ambitieuse expérience d’auto-sauvetage reposant sur l’intelligence artificielle. Lors de la récent
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊











