歐洲數字主權路線圖中包含的開源LLM

上週,歐洲的數位主權議程獲得重大推動,宣布了一項新計劃,旨在開發一系列完全開源的大型語言模型(LLMs),涵蓋所有歐盟語言。這項雄心勃勃的計劃,名為OpenEuroLLM,不僅針對24種歐盟官方語言,還擴展到正在談判加入歐盟的國家語言,如阿爾巴尼亞,強調未來導向。
OpenEuroLLM是一個由大約20個組織合作的項目,由布拉格查理大學的計算語言學家Jan Hajič和芬蘭AI實驗室Silo AI的首席執行官兼共同創辦人Peter Sarlin共同領導,該實驗室去年被AMD以6.65億美元收購。這項計劃與歐洲更廣泛的數位主權推動一致,旨在將關鍵基礎設施和工具保留在歐洲大陸。這一舉措呼應了主要雲端服務提供商和AI公司如OpenAI的行動,它們一直在投資本地基礎設施,以確保歐盟數據留在歐洲土地上。
此外,歐盟最近簽署了一項110億美元的協議,建立主權衛星星座,定位為與Elon Musk的Starlink競爭。OpenEuroLLM完美契合這一願景,專注於維護歐洲的技術自主。
資金與挑戰
儘管目標遠大,開發這些模型的預算為3740萬歐元,其中約2000萬歐元來自歐盟的數位歐洲計劃。與企業AI巨頭的投資相比,這筆金額顯得微不足道,儘管考慮到相關工作的資金後,總預算有所增加。費用中的重要部分是運算能力,OpenEuroLLM與西班牙、義大利、芬蘭和荷蘭的EuroHPC超級計算機中心合作,這些中心屬於總額70億歐元的EuroHPC項目。
參與者從學術界到企業的多樣性,引發了對項目可行性的質疑。LLM公司Pleias的共同創辦人Anastasia Stasenko對如此龐大的聯盟有效性表示懷疑,認為與更靈活、專注的私人AI公司如Mistral AI和LightOn相比,大型聯盟的反應速度較慢,她認為這些較小的團隊有更直接的責任感,能更快應對挑戰。
從頭開始還是利用現有成果?
OpenEuroLLM的起點有些模糊。自2022年起,Jan Hajič一直在協調高效能語言技術(HPLT)項目,該項目專注於使用高效能運算開發免費且可重複使用的數據集、模型和工作流程。該項目將於2025年底結束,與OpenEuroLLM共享許多合作夥伴,僅排除英國的參與者。
Hajič將HPLT視為OpenEuroLLM的前身,認為它在數據、專業知識、工具和運算經驗方面提供了堅實基礎。他預計OpenEuroLLM的首批版本將於2026年中發布,最終版本預計在2028年項目結束時完成。然而,項目的GitHub頁面仍顯空洞,顯示某些方面從頭開始。Hajič提到該項目於2024年2月1日正式啟動,經過一年的準備。
OpenEuroLLM聯盟包括來自捷克、荷蘭、德國、瑞典、芬蘭和挪威的組織,以及Silo AI、Aleph Alpha、Ellamind、Prompsit Language Engineering和LightOn等企業。值得注意的是,法國AI獨角獸Mistral未參與,儘管Hajič曾試圖與其對話。
目標與交付成果
該項目的主要目標是為歐洲打造透明AI的基礎模型系列,保留所有歐盟語言(當前和未來)的語言與文化多樣性。交付成果仍在最終確定中,但預計包括用於通用任務的核心多語言LLM,以及為高效邊緣應用設計的較小量化版本。
Hajič強調品質的重要性,表示鑑於高風險和公共資金的參與,項目旨在避免發布不成熟的解決方案。在數位資源有限的語言上實現同等熟練度仍是一個挑戰。項目計劃使用能準確代表這些語言和文化的基準。
HPLT項目的數據,包括來自網絡爬取的4.5拍字節數據集和超過200億份文件,將被使用,並補充來自Common Crawl的數據。
開源困境
關於AI中何為「開源」的爭論仍在繼續。開源促進會(OSI)已定義「開源AI」,但有些人認為這不僅應包括模型,還應包括數據集、預訓練模型和權重。OpenEuroLLM旨在「真正開源」,但Hajič承認,由於歐洲版權法和數據再分發限制,可能存在局限性。部分訓練數據可能需要保密,但根據歐盟AI法案可供審計。
與現有項目的重疊
OpenEuroLLM的推出與最近推出的EuroLLM相比,後者有相似目標且同樣由歐盟共同資助。EuroLLM於9月發布首個模型,12月發布後續模型,引發了關於冗餘和協作而非競爭的必要性討論。Unbabel研究負責人Andre Martins在社交媒體上強調了這些相似性,呼籲不同社群間的公開合作。
Hajič承認這種重疊令人遺憾,但表示希望合作,指出OpenEuroLLM的資金限制了與非歐盟實體(包括英國大學)的合作。
資金與期望
中國DeepSeek的出現,以其優越的成本效益比,引發了關於構建AI模型真實成本的疑問。OpenEuroLLM技術共同負責人Peter Sarlin表示,缺乏DeepSeek開發的詳細資訊,但他對OpenEuroLLM的資金充滿信心,主要涵蓋人員成本。運算費用預計由EuroHPC中心承擔。
Sarlin強調,OpenEuroLLM的目標不是打造消費或企業產品,而是為歐洲公司提供開源基礎模型作為AI基礎設施。他認為分配的預算是足夠的,基於他在Silo AI的經驗,該公司已開發支持多種歐洲語言的模型,並準備推出涵蓋所有歐洲語言的「Europa」模型。
數位主權與合作
儘管面臨挑戰和批評,Hajič對OpenEuroLLM這樣的合作項目潛力保持樂觀。他認為結合學術專業知識與企業焦點可能帶來創新成果。最終目標不是與科技巨頭或億美元AI初創公司競爭,而是通過開發由歐洲為歐洲打造的基礎LLM,增強歐洲的數位主權。
即使OpenEuroLLM未產生頂尖模型,Hajič認為擁有一個完全基於歐洲的「良好」模型,對大陸的技術自主仍有積極貢獻。
相關文章
解讀新的 ETSI 人工智慧安全標準
ETSI EN 304 223 制定了人工智慧的基礎安全要求,各組織應將其納入其治理架構之中。隨著企業將機器學習整合至核心工作流程,這項歐洲標準針對保護 AI 模型與系統提供了具體規範。這是首項適用於全球的 AI 網路安全歐洲標準,並已獲各國國家標準組織正式批准,這進一步鞏固了其在國際市場上的公信力。作為《歐盟人工智慧法案》的補充性基準,本標準承認人工智慧系統存在獨特風險——包括資料中毒、模型混淆
Gmail 推出個人化 AI 收件匣、搜尋中的 AI 摘要等功能
Google 為 Gmail 推出了一款由 AI 驅動的新收件匣,能為您提供任務的個人化概覽,並讓您隨時掌握重要更新。此外,Gmail 還將在搜尋功能中推出 AI 概覽,並推出一款類似 Grammarly 的校對工具。先前僅限付費訂閱者使用的多項 AI 功能,現已開放給所有使用者使用。新的 AI 收件匣分頁包含兩個區塊:「建議待辦事項」與「待追蹤主題」。 第一個區塊會顯示需要採取行動的高優先級電子
首個山東百度AI漫畫劇集創作基地在淄博正式啟動
4月27日,山東省在淄博師範學院正式啟動了該省首個「百度AI漫畫劇創作基地」,標誌著該省在數位文化創作領域邁出了重要一步。該基地開啟了校企合作的新篇章,旨在透過AI技術與文化創作教育的深度融合,探索培育數位文化創作人才的創新模式。在揭牌儀式上,校方代表強調,該基地將作為創新人才培育及深化政校企合作的重要平台。 展望未來,該校計劃將真實的專案案例引入課堂,擺脫傳統教學方法,建立一個完整的專案式教學循
相關專題推薦
評論 (23)
0/500
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊

上週,歐洲的數位主權議程獲得重大推動,宣布了一項新計劃,旨在開發一系列完全開源的大型語言模型(LLMs),涵蓋所有歐盟語言。這項雄心勃勃的計劃,名為OpenEuroLLM,不僅針對24種歐盟官方語言,還擴展到正在談判加入歐盟的國家語言,如阿爾巴尼亞,強調未來導向。
OpenEuroLLM是一個由大約20個組織合作的項目,由布拉格查理大學的計算語言學家Jan Hajič和芬蘭AI實驗室Silo AI的首席執行官兼共同創辦人Peter Sarlin共同領導,該實驗室去年被AMD以6.65億美元收購。這項計劃與歐洲更廣泛的數位主權推動一致,旨在將關鍵基礎設施和工具保留在歐洲大陸。這一舉措呼應了主要雲端服務提供商和AI公司如OpenAI的行動,它們一直在投資本地基礎設施,以確保歐盟數據留在歐洲土地上。
此外,歐盟最近簽署了一項110億美元的協議,建立主權衛星星座,定位為與Elon Musk的Starlink競爭。OpenEuroLLM完美契合這一願景,專注於維護歐洲的技術自主。
資金與挑戰
儘管目標遠大,開發這些模型的預算為3740萬歐元,其中約2000萬歐元來自歐盟的數位歐洲計劃。與企業AI巨頭的投資相比,這筆金額顯得微不足道,儘管考慮到相關工作的資金後,總預算有所增加。費用中的重要部分是運算能力,OpenEuroLLM與西班牙、義大利、芬蘭和荷蘭的EuroHPC超級計算機中心合作,這些中心屬於總額70億歐元的EuroHPC項目。
參與者從學術界到企業的多樣性,引發了對項目可行性的質疑。LLM公司Pleias的共同創辦人Anastasia Stasenko對如此龐大的聯盟有效性表示懷疑,認為與更靈活、專注的私人AI公司如Mistral AI和LightOn相比,大型聯盟的反應速度較慢,她認為這些較小的團隊有更直接的責任感,能更快應對挑戰。
從頭開始還是利用現有成果?
OpenEuroLLM的起點有些模糊。自2022年起,Jan Hajič一直在協調高效能語言技術(HPLT)項目,該項目專注於使用高效能運算開發免費且可重複使用的數據集、模型和工作流程。該項目將於2025年底結束,與OpenEuroLLM共享許多合作夥伴,僅排除英國的參與者。
Hajič將HPLT視為OpenEuroLLM的前身,認為它在數據、專業知識、工具和運算經驗方面提供了堅實基礎。他預計OpenEuroLLM的首批版本將於2026年中發布,最終版本預計在2028年項目結束時完成。然而,項目的GitHub頁面仍顯空洞,顯示某些方面從頭開始。Hajič提到該項目於2024年2月1日正式啟動,經過一年的準備。
OpenEuroLLM聯盟包括來自捷克、荷蘭、德國、瑞典、芬蘭和挪威的組織,以及Silo AI、Aleph Alpha、Ellamind、Prompsit Language Engineering和LightOn等企業。值得注意的是,法國AI獨角獸Mistral未參與,儘管Hajič曾試圖與其對話。
目標與交付成果
該項目的主要目標是為歐洲打造透明AI的基礎模型系列,保留所有歐盟語言(當前和未來)的語言與文化多樣性。交付成果仍在最終確定中,但預計包括用於通用任務的核心多語言LLM,以及為高效邊緣應用設計的較小量化版本。
Hajič強調品質的重要性,表示鑑於高風險和公共資金的參與,項目旨在避免發布不成熟的解決方案。在數位資源有限的語言上實現同等熟練度仍是一個挑戰。項目計劃使用能準確代表這些語言和文化的基準。
HPLT項目的數據,包括來自網絡爬取的4.5拍字節數據集和超過200億份文件,將被使用,並補充來自Common Crawl的數據。
開源困境
關於AI中何為「開源」的爭論仍在繼續。開源促進會(OSI)已定義「開源AI」,但有些人認為這不僅應包括模型,還應包括數據集、預訓練模型和權重。OpenEuroLLM旨在「真正開源」,但Hajič承認,由於歐洲版權法和數據再分發限制,可能存在局限性。部分訓練數據可能需要保密,但根據歐盟AI法案可供審計。
與現有項目的重疊
OpenEuroLLM的推出與最近推出的EuroLLM相比,後者有相似目標且同樣由歐盟共同資助。EuroLLM於9月發布首個模型,12月發布後續模型,引發了關於冗餘和協作而非競爭的必要性討論。Unbabel研究負責人Andre Martins在社交媒體上強調了這些相似性,呼籲不同社群間的公開合作。
Hajič承認這種重疊令人遺憾,但表示希望合作,指出OpenEuroLLM的資金限制了與非歐盟實體(包括英國大學)的合作。
資金與期望
中國DeepSeek的出現,以其優越的成本效益比,引發了關於構建AI模型真實成本的疑問。OpenEuroLLM技術共同負責人Peter Sarlin表示,缺乏DeepSeek開發的詳細資訊,但他對OpenEuroLLM的資金充滿信心,主要涵蓋人員成本。運算費用預計由EuroHPC中心承擔。
Sarlin強調,OpenEuroLLM的目標不是打造消費或企業產品,而是為歐洲公司提供開源基礎模型作為AI基礎設施。他認為分配的預算是足夠的,基於他在Silo AI的經驗,該公司已開發支持多種歐洲語言的模型,並準備推出涵蓋所有歐洲語言的「Europa」模型。
數位主權與合作
儘管面臨挑戰和批評,Hajič對OpenEuroLLM這樣的合作項目潛力保持樂觀。他認為結合學術專業知識與企業焦點可能帶來創新成果。最終目標不是與科技巨頭或億美元AI初創公司競爭,而是通過開發由歐洲為歐洲打造的基礎LLM,增強歐洲的數位主權。
即使OpenEuroLLM未產生頂尖模型,Hajič認為擁有一個完全基於歐洲的「良好」模型,對大陸的技術自主仍有積極貢獻。
解讀新的 ETSI 人工智慧安全標準
ETSI EN 304 223 制定了人工智慧的基礎安全要求,各組織應將其納入其治理架構之中。隨著企業將機器學習整合至核心工作流程,這項歐洲標準針對保護 AI 模型與系統提供了具體規範。這是首項適用於全球的 AI 網路安全歐洲標準,並已獲各國國家標準組織正式批准,這進一步鞏固了其在國際市場上的公信力。作為《歐盟人工智慧法案》的補充性基準,本標準承認人工智慧系統存在獨特風險——包括資料中毒、模型混淆
Gmail 推出個人化 AI 收件匣、搜尋中的 AI 摘要等功能
Google 為 Gmail 推出了一款由 AI 驅動的新收件匣,能為您提供任務的個人化概覽,並讓您隨時掌握重要更新。此外,Gmail 還將在搜尋功能中推出 AI 概覽,並推出一款類似 Grammarly 的校對工具。先前僅限付費訂閱者使用的多項 AI 功能,現已開放給所有使用者使用。新的 AI 收件匣分頁包含兩個區塊:「建議待辦事項」與「待追蹤主題」。 第一個區塊會顯示需要採取行動的高優先級電子
首個山東百度AI漫畫劇集創作基地在淄博正式啟動
4月27日,山東省在淄博師範學院正式啟動了該省首個「百度AI漫畫劇創作基地」,標誌著該省在數位文化創作領域邁出了重要一步。該基地開啟了校企合作的新篇章,旨在透過AI技術與文化創作教育的深度融合,探索培育數位文化創作人才的創新模式。在揭牌儀式上,校方代表強調,該基地將作為創新人才培育及深化政校企合作的重要平台。 展望未來,該校計劃將真實的專案案例引入課堂,擺脫傳統教學方法,建立一個完整的專案式教學循
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊





首頁






