欧洲数字主权路线图中包含的开源LLM

上周,欧洲的数字主权议程因一项新举措的宣布而获得显著推动,该举措旨在开发一系列完全开源的大型语言模型(LLM),覆盖所有欧盟语言。这一雄心勃勃的项目,名为OpenEuroLLM,不仅针对24种欧盟官方语言,还扩展到正在谈判加入欧盟的国家(如阿尔巴尼亚)的语言,强调未来保障。
OpenEuroLLM是一个由大约20个组织协作的项目,由布拉格查理大学的计算语言学家Jan Hajič和芬兰AI实验室Silo AI的首席执行官兼联合创始人Peter Sarlin共同领导,Silo AI去年被AMD以6.65亿美元收购。该举措与欧洲推动数字主权的更广泛目标一致,旨在将关键基础设施和工具保留在欧洲大陆。这一行动与主要云提供商和AI公司(如OpenAI)的举措相呼应,这些公司一直在投资本地基础设施,以确保欧盟数据留在欧洲土壤上。
此外,欧盟最近签署了一项110亿美元的协议,建立主权卫星星座,定位为埃隆·马斯克的Starlink的竞争者。OpenEuroLLM完美契合这一叙事,专注于维护欧洲的技术自主权。
资金与挑战
尽管目标雄心勃勃,用于开发模型的预算为3740万欧元,其中约2000万欧元来自欧盟的数字欧洲计划。这一金额与企业AI巨头的投资相比显得微不足道,尽管考虑相关工作的资金后总预算有所增加。计算能力是一项重大开支,OpenEuroLLM与西班牙、意大利、芬兰和荷兰的EuroHPC超级计算机中心合作,这些中心是70亿欧元更广泛EuroHPC项目的一部分。
参与者群体多样,从学术界到企业,引发了关于项目可行性的疑问。LLM公司Pleias的联合创始人Anastasia Stasenko对如此大型联合体的有效性表示怀疑,认为相比之下,Mistral AI和LightOn等更敏捷、专注的私人AI公司具有更直接的责任感,能更快应对挑战。
从零开始还是利用现有成果?
OpenEuroLLM的起点有些模糊。自2022年以来,Jan Hajič一直在协调高性能语言技术(HPLT)项目,专注于使用高性能计算开发免费且可重复使用的数据集、模型和工作流程。该项目将于2025年底结束,与OpenEuroLLM共享许多合作伙伴,英国的除外。
Hajič将HPLT视为OpenEuroLLM的前身,认为它在数据、专业知识、工具和计算经验方面提供了坚实基础。他预计到2026年中发布OpenEuroLLM的首个版本,项目预计于2028年结束时发布最终版本。然而,项目的GitHub页面仍然内容稀疏,表明在某些方面是从零开始。Hajič提到,项目于2024年2月1日正式启动,此前准备了一年。
OpenEuroLLM联合体包括来自捷克、荷兰、德国、瑞典、芬兰和挪威的组织,以及Silo AI、Aleph Alpha、Ellamind、Prompsit Language Engineering和LightOn等企业实体。值得注意的是,尽管Hajič试图与法国AI独角兽Mistral进行讨论,但Mistral并未参与。
目标与交付成果
项目的主要目标是为欧洲的透明AI创建一系列基础模型,保留所有欧盟语言(当前和未来)的语言和文化多样性。交付成果仍在最终确定中,但预计包括用于通用任务的核心多语言LLM,以及为边缘应用优化的更小、量化版本,效率是关键。
Hajič强调了质量的重要性,表示鉴于高风险和公共资金的参与,项目旨在避免发布不成熟的解决方案。在数字资源有限的语言上实现同等熟练度仍是一个挑战。项目计划使用能准确代表这些语言和文化的基准。
来自HPLT项目的数据,包括从网络爬取的4.5拍字节数据集和超过200亿份文档,将被使用,并补充来自Common Crawl的数据。
开源困境
关于AI中“开源”定义的争论仍在继续。开源倡议(OSI)已定义了“开源AI”,但一些人认为它不仅应包括模型,还应包括数据集、预训练模型和权重。OpenEuroLLM旨在实现“真正开源”,但Hajič承认,由于欧洲版权法和数据重新分发的限制,可能存在局限性。一些训练数据可能需要保密,但根据欧盟AI法案可供审计。
与现有项目的重叠
OpenEuroLLM的推出引发了与最近推出的EuroLLM的比较,后者目标相似,也由欧盟共同资助。EuroLLM在9月发布了首个模型,12月发布了后续模型,引发了关于冗余和协作而非竞争的必要性的担忧。Unbabel研究负责人Andre Martins在社交媒体上强调了这些相似之处,呼吁不同社区之间进行开放协作。
Hajič承认这种重叠令人遗憾,但表示希望合作,指出OpenEuroLLM的资金限制了与非欧盟实体(包括英国大学)的合作。
资金与期望
中国DeepSeek的出现以其出色的性价比引发了关于构建AI模型真实成本的疑问。OpenEuroLLM的技术联合负责人Peter Sarlin指出,DeepSeek的开发细节信息不足,但他对OpenEuroLLM的资金充满信心,主要用于人员成本。计算费用预计由EuroHPC中心承担。
Sarlin强调,OpenEuroLLM的目标不是创建消费者或企业产品,而是为欧洲公司提供开源基础模型作为AI基础设施。他认为分配的预算足以实现这一目标,基于他在Silo AI的经验,该公司已开发支持多种欧洲语言的模型,并准备推出覆盖所有欧洲语言的“Europa”模型。
数字主权与协作
尽管面临挑战和批评,Hajič对OpenEuroLLM等协作项目的潜力保持乐观。他认为,结合学术专长和企业专注可能带来创新成果。最终目标不是与大型科技公司或数十亿美元的AI初创公司竞争,而是通过开发由欧洲为欧洲构建的基础LLM来增强欧洲的数字主权。
即使OpenEuroLLM未产生性能最佳的模型,Hajič认为拥有一个完全基于欧洲的“良好”模型仍有价值,为欧洲大陆的技术自主权作出积极贡献。
相关文章
美国将因社交媒体法规制裁外国官员
美国站出来反对全球数字内容法规美国国务院本周针对欧洲的数字治理政策发出了尖锐的外交斥责,表明在网络平台控制权问题上的紧张局势正在升级。国务卿马可-卢比奥(Marco Rubio)公布了一项新的签证限制政策,该政策针对的是参与美国认为影响美国数字空间的过度审查的外国官员。新签证限制解释根据周三宣布的政策,美国将拒绝被认定正在执行影响美国受保护言论的海外内容法规的外国公民入境。卢比奥强调了两
人工智能驱动的 YouTube 视频摘要器终极指南
在我们信息丰富的数字环境中,人工智能驱动的 YouTube 视频摘要器已成为高效内容消费不可或缺的工具。本深度指南探讨了如何利用最先进的 NLP 技术(特别是来自 Hugging Face 的 BART 模型与 YouTube 的 Transcript API 相结合)构建复杂的摘要工具。无论您是要开发生产力工具、增强可访问性解决方案,还是要创建教育资源,本指南都能为您提供实现专业级摘要所需的一切
Atlassian 斥资 6.1 亿美元收购浏览器公司,加强开发人员工具
企业生产力软件领导者 Atlassian 宣布,计划以 6.1 亿美元的全现金交易收购创新型浏览器开发商 The Browser Company。这一战略举措旨在通过整合为现代知识工作者量身定制的人工智能功能,彻底改变工作场所的浏览方式。"Atlassian首席执行官兼联合创始人迈克-坎农-布鲁克斯(Mike Cannon-Brookes)表示:"传统浏览器是为休闲网上冲浪而设计的,而不是为当
评论 (18)
0/200
StevenMartin
2025-08-17 01:00:59
Wow, OpenEuroLLM sounds like a game-changer for Europe's tech scene! Building LLMs for all EU languages is ambitious—imagine the boost for local AI startups. But can they keep up with the big players like OpenAI? 🤔
0
PaulHill
2025-08-08 02:01:06
Super cool to see Europe pushing for open-source LLMs! Can't wait to see how OpenEuroLLM handles all those languages. 🌍
0
ElijahCollins
2025-07-23 12:59:29
Wow, OpenEuroLLM sounds like a game-changer for Europe’s tech scene! Building open-source LLMs for all EU languages is ambitious—imagine the possibilities for local businesses and multilingual AI apps. But I wonder, will they keep up with the pace of global AI giants? 🤔
0
PeterYoung
2025-04-22 11:11:01
OpenEuroLLM sounds like a game-changer for Europe! Finally, we're getting open-source LLMs that cover all EU languages. It's about time we took control of our digital future. Can't wait to see how this develops! 🚀
0
CharlesThomas
2025-04-22 08:18:24
オープンソースのLLMがEU全言語に対応するなんて素晴らしい!これでデジタルの未来を自分たちでコントロールできるようになるね。どう発展していくか楽しみだよ!🌟
0
MatthewGonzalez
2025-04-22 08:16:04
OpenEuroLLM parece ser uma grande mudança para a Europa! Finalmente, LLMs de código aberto que cobrem todos os idiomas da UE. Está na hora de assumirmos o controle do nosso futuro digital. Mal posso esperar para ver como isso vai se desenvolver! 🚀
0
上周,欧洲的数字主权议程因一项新举措的宣布而获得显著推动,该举措旨在开发一系列完全开源的大型语言模型(LLM),覆盖所有欧盟语言。这一雄心勃勃的项目,名为OpenEuroLLM,不仅针对24种欧盟官方语言,还扩展到正在谈判加入欧盟的国家(如阿尔巴尼亚)的语言,强调未来保障。
OpenEuroLLM是一个由大约20个组织协作的项目,由布拉格查理大学的计算语言学家Jan Hajič和芬兰AI实验室Silo AI的首席执行官兼联合创始人Peter Sarlin共同领导,Silo AI去年被AMD以6.65亿美元收购。该举措与欧洲推动数字主权的更广泛目标一致,旨在将关键基础设施和工具保留在欧洲大陆。这一行动与主要云提供商和AI公司(如OpenAI)的举措相呼应,这些公司一直在投资本地基础设施,以确保欧盟数据留在欧洲土壤上。
此外,欧盟最近签署了一项110亿美元的协议,建立主权卫星星座,定位为埃隆·马斯克的Starlink的竞争者。OpenEuroLLM完美契合这一叙事,专注于维护欧洲的技术自主权。
资金与挑战
尽管目标雄心勃勃,用于开发模型的预算为3740万欧元,其中约2000万欧元来自欧盟的数字欧洲计划。这一金额与企业AI巨头的投资相比显得微不足道,尽管考虑相关工作的资金后总预算有所增加。计算能力是一项重大开支,OpenEuroLLM与西班牙、意大利、芬兰和荷兰的EuroHPC超级计算机中心合作,这些中心是70亿欧元更广泛EuroHPC项目的一部分。
参与者群体多样,从学术界到企业,引发了关于项目可行性的疑问。LLM公司Pleias的联合创始人Anastasia Stasenko对如此大型联合体的有效性表示怀疑,认为相比之下,Mistral AI和LightOn等更敏捷、专注的私人AI公司具有更直接的责任感,能更快应对挑战。
从零开始还是利用现有成果?
OpenEuroLLM的起点有些模糊。自2022年以来,Jan Hajič一直在协调高性能语言技术(HPLT)项目,专注于使用高性能计算开发免费且可重复使用的数据集、模型和工作流程。该项目将于2025年底结束,与OpenEuroLLM共享许多合作伙伴,英国的除外。
Hajič将HPLT视为OpenEuroLLM的前身,认为它在数据、专业知识、工具和计算经验方面提供了坚实基础。他预计到2026年中发布OpenEuroLLM的首个版本,项目预计于2028年结束时发布最终版本。然而,项目的GitHub页面仍然内容稀疏,表明在某些方面是从零开始。Hajič提到,项目于2024年2月1日正式启动,此前准备了一年。
OpenEuroLLM联合体包括来自捷克、荷兰、德国、瑞典、芬兰和挪威的组织,以及Silo AI、Aleph Alpha、Ellamind、Prompsit Language Engineering和LightOn等企业实体。值得注意的是,尽管Hajič试图与法国AI独角兽Mistral进行讨论,但Mistral并未参与。
目标与交付成果
项目的主要目标是为欧洲的透明AI创建一系列基础模型,保留所有欧盟语言(当前和未来)的语言和文化多样性。交付成果仍在最终确定中,但预计包括用于通用任务的核心多语言LLM,以及为边缘应用优化的更小、量化版本,效率是关键。
Hajič强调了质量的重要性,表示鉴于高风险和公共资金的参与,项目旨在避免发布不成熟的解决方案。在数字资源有限的语言上实现同等熟练度仍是一个挑战。项目计划使用能准确代表这些语言和文化的基准。
来自HPLT项目的数据,包括从网络爬取的4.5拍字节数据集和超过200亿份文档,将被使用,并补充来自Common Crawl的数据。
开源困境
关于AI中“开源”定义的争论仍在继续。开源倡议(OSI)已定义了“开源AI”,但一些人认为它不仅应包括模型,还应包括数据集、预训练模型和权重。OpenEuroLLM旨在实现“真正开源”,但Hajič承认,由于欧洲版权法和数据重新分发的限制,可能存在局限性。一些训练数据可能需要保密,但根据欧盟AI法案可供审计。
与现有项目的重叠
OpenEuroLLM的推出引发了与最近推出的EuroLLM的比较,后者目标相似,也由欧盟共同资助。EuroLLM在9月发布了首个模型,12月发布了后续模型,引发了关于冗余和协作而非竞争的必要性的担忧。Unbabel研究负责人Andre Martins在社交媒体上强调了这些相似之处,呼吁不同社区之间进行开放协作。
Hajič承认这种重叠令人遗憾,但表示希望合作,指出OpenEuroLLM的资金限制了与非欧盟实体(包括英国大学)的合作。
资金与期望
中国DeepSeek的出现以其出色的性价比引发了关于构建AI模型真实成本的疑问。OpenEuroLLM的技术联合负责人Peter Sarlin指出,DeepSeek的开发细节信息不足,但他对OpenEuroLLM的资金充满信心,主要用于人员成本。计算费用预计由EuroHPC中心承担。
Sarlin强调,OpenEuroLLM的目标不是创建消费者或企业产品,而是为欧洲公司提供开源基础模型作为AI基础设施。他认为分配的预算足以实现这一目标,基于他在Silo AI的经验,该公司已开发支持多种欧洲语言的模型,并准备推出覆盖所有欧洲语言的“Europa”模型。
数字主权与协作
尽管面临挑战和批评,Hajič对OpenEuroLLM等协作项目的潜力保持乐观。他认为,结合学术专长和企业专注可能带来创新成果。最终目标不是与大型科技公司或数十亿美元的AI初创公司竞争,而是通过开发由欧洲为欧洲构建的基础LLM来增强欧洲的数字主权。
即使OpenEuroLLM未产生性能最佳的模型,Hajič认为拥有一个完全基于欧洲的“良好”模型仍有价值,为欧洲大陆的技术自主权作出积极贡献。




Wow, OpenEuroLLM sounds like a game-changer for Europe's tech scene! Building LLMs for all EU languages is ambitious—imagine the boost for local AI startups. But can they keep up with the big players like OpenAI? 🤔




Super cool to see Europe pushing for open-source LLMs! Can't wait to see how OpenEuroLLM handles all those languages. 🌍




Wow, OpenEuroLLM sounds like a game-changer for Europe’s tech scene! Building open-source LLMs for all EU languages is ambitious—imagine the possibilities for local businesses and multilingual AI apps. But I wonder, will they keep up with the pace of global AI giants? 🤔




OpenEuroLLM sounds like a game-changer for Europe! Finally, we're getting open-source LLMs that cover all EU languages. It's about time we took control of our digital future. Can't wait to see how this develops! 🚀




オープンソースのLLMがEU全言語に対応するなんて素晴らしい!これでデジタルの未来を自分たちでコントロールできるようになるね。どう発展していくか楽しみだよ!🌟




OpenEuroLLM parece ser uma grande mudança para a Europa! Finalmente, LLMs de código aberto que cobrem todos os idiomas da UE. Está na hora de assumirmos o controle do nosso futuro digital. Mal posso esperar para ver como isso vai se desenvolver! 🚀












