蚂蚁集团发布F2LLM-v2:一款多语言全规模嵌入式模型
克服语义表示中的“英语中心主义”局限,已成为大型语言模型演进中的关键前沿。
3月26日,蚂蚁集团与 上海交通大学的 CodeFuse团队正式发布了F2LLM-v2系列嵌入模型。该系列不仅在权威基准测试中取得了领先表现,更通过完全开源的方式,为全球开发者提供了高性能、高效的语义表示解决方案。

卓越性能:在MTEB上取得11项SOTA成绩
在评估嵌入模型的权威基准MTEB上,F2LLM-v2展现了全面优势:
11项榜首:在包括德语、法语、日语及代码检索在内的11个语言和领域专项排行榜中均夺得第一。
强劲的挑战者:即使是其轻量级变体,也始终优于同等规模的知名行业模型。
广泛覆盖:评估涵盖了包括医疗问答和代码检索在内的430个多样化子任务,实现了全场景覆盖。

全面理解能力:精通 282 种自然语言和 40 多种编程语言
F2LLM-v2的强大实力源于其高度包容的训练基础:
多语言增强:它强化了对中低资源语言(如北欧语系和东南亚语系)的支持,实现了真正的全球语言覆盖。
编程专长:对 Python、Java 和 Go 等 40 多种编程语言有深刻理解,是开发人员构建 RAG(检索增强生成)系统和代码助手的理想选择。
高质量数据:基于 6000 万个经过精心清理的公开样本构建,确保了模型知识库的纯净度与广度。

极致高效:参数规模从 8000 万到 140 亿的完整模型家族
为满足从移动设备到云计算的各类需求,CodeFuse团队开发了一套全面的模型矩阵:
移动端优化:参数规模在8000万至3.3亿之间的紧凑型模型,通过“模型剪枝”和“知识蒸馏”技术,可在移动平台上流畅运行。
“嵌套式”创新:支持动态维度调整,允许用户在8维与全维之间灵活切换,从而优化推理速度与存储成本之间的权衡。
完全开源:透明度树立新的社区标准
与许多“黑箱”模型不同,F2LLM-v2秉持完全开源的理念:
完整发布:所有尺寸变体的模型权重均可下载。
详细透明度:发布全面的技术报告,公开完整的训练方法论。
完全可复现:所有代码和训练检查点均已发布,赋能全球研究人员在此基础上进行进一步开发。
结论:突破界限,探索 AI 的无限潜力
作为CodeFuse 开源系列的又一重要里程碑,F2LLM-v2的发布
相关文章
OpenAI重启机器人业务,Automan正在招聘从事基础设施研发的工程师
6月1日,OpenAI首席执行官萨姆·阿尔特曼在社交媒体上宣布,该公司将重返机器人领域,并发布了OpenAI机器人团队的招聘信息。 该公司正在招聘全栈硬件、运维、系统及机器学习工程师。此举标志着OpenAI在关闭早期机器人业务后,重新回归物理世界的具身智能领域,旨在将其领先的大型模型能力从数字世界延伸至真实的物理环境。阿尔特曼强调,人工智能的真正价值在于提供实质性的现实世界协助。在发展战略上,Op
贝恩预测代理式人工智能自动化领域的SaaS市场规模将达1000亿美元
贝恩公司预计,在美国,利用代理式人工智能的SaaS公司将拥有一个价值1000亿美元的市场。该公司表示,这一市场源于企业系统内部协调任务的自动化。这一估算数据来自贝恩公司关于“AI时代软件行业”五部曲系列的第二篇报告。该报告探讨了代理式AI可能开拓哪些新的软件市场,以及SaaS供应商如何抢占这些市场。企业系统中的协调工作贝恩指出,该市场的形成源于员工在不同企业应用程序间执行的手动任务。这些工作流程通
AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增
继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后,由于没有简单的“一键禁用”功能来关闭AI功能,许多用户开始寻找更具可控性的替代方案。 以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移,已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票:安装量激增根据DuckDuckGo分享的数据,随着用户对谷歌AI更新的不满情绪加剧,该平台在5月20日至2
相关专题推荐
评论 (0)
0/500
克服语义表示中的“英语中心主义”局限,已成为大型语言模型演进中的关键前沿。
3月26日,蚂蚁集团与 上海交通大学的 CodeFuse团队正式发布了F2LLM-v2系列嵌入模型。该系列不仅在权威基准测试中取得了领先表现,更通过完全开源的方式,为全球开发者提供了高性能、高效的语义表示解决方案。

卓越性能:在MTEB上取得11项SOTA成绩
在评估嵌入模型的权威基准MTEB上,F2LLM-v2展现了全面优势:
11项榜首:在包括德语、法语、日语及代码检索在内的11个语言和领域专项排行榜中均夺得第一。
强劲的挑战者:即使是其轻量级变体,也始终优于同等规模的知名行业模型。
广泛覆盖:评估涵盖了包括医疗问答和代码检索在内的430个多样化子任务,实现了全场景覆盖。

全面理解能力:精通 282 种自然语言和 40 多种编程语言
F2LLM-v2的强大实力源于其高度包容的训练基础:
多语言增强:它强化了对中低资源语言(如北欧语系和东南亚语系)的支持,实现了真正的全球语言覆盖。
编程专长:对 Python、Java 和 Go 等 40 多种编程语言有深刻理解,是开发人员构建 RAG(检索增强生成)系统和代码助手的理想选择。
高质量数据:基于 6000 万个经过精心清理的公开样本构建,确保了模型知识库的纯净度与广度。

极致高效:参数规模从 8000 万到 140 亿的完整模型家族
为满足从移动设备到云计算的各类需求,CodeFuse团队开发了一套全面的模型矩阵:
移动端优化:参数规模在8000万至3.3亿之间的紧凑型模型,通过“模型剪枝”和“知识蒸馏”技术,可在移动平台上流畅运行。
“嵌套式”创新:支持动态维度调整,允许用户在8维与全维之间灵活切换,从而优化推理速度与存储成本之间的权衡。
完全开源:透明度树立新的社区标准
与许多“黑箱”模型不同,F2LLM-v2秉持完全开源的理念:
完整发布:所有尺寸变体的模型权重均可下载。
详细透明度:发布全面的技术报告,公开完整的训练方法论。
完全可复现:所有代码和训练检查点均已发布,赋能全球研究人员在此基础上进行进一步开发。
结论:突破界限,探索 AI 的无限潜力
作为CodeFuse 开源系列的又一重要里程碑,F2LLM-v2的发布
OpenAI重启机器人业务,Automan正在招聘从事基础设施研发的工程师
6月1日,OpenAI首席执行官萨姆·阿尔特曼在社交媒体上宣布,该公司将重返机器人领域,并发布了OpenAI机器人团队的招聘信息。 该公司正在招聘全栈硬件、运维、系统及机器学习工程师。此举标志着OpenAI在关闭早期机器人业务后,重新回归物理世界的具身智能领域,旨在将其领先的大型模型能力从数字世界延伸至真实的物理环境。阿尔特曼强调,人工智能的真正价值在于提供实质性的现实世界协助。在发展战略上,Op
AI搜索强制政策引发用户出走潮,DuckDuckGo用户激增
继谷歌在2026年I/O大会上宣布将对其搜索引擎进行全面的人工智能改造后,由于没有简单的“一键禁用”功能来关闭AI功能,许多用户开始寻找更具可控性的替代方案。 以隐私保护为宗旨的搜索平台DuckDuckGo近期流量出现明显转移,已成为对谷歌激进AI推广不满用户的热门避风港。1. 用户用脚投票:安装量激增根据DuckDuckGo分享的数据,随着用户对谷歌AI更新的不满情绪加剧,该平台在5月20日至2





首页






