ヨーロッパのデジタル主権ロードマップに含まれるオープンソースLLM

先週、ヨーロッパのデジタル主権アジェンダは、欧州連合のすべての言語に対応する完全にオープンソースの大規模言語モデル(LLM)シリーズの開発を目指す新たなイニシアチブの発表により、大きな後押しを受けました。この野心的なプロジェクトは、OpenEuroLLMと名付けられ、EUの24の公式言語だけでなく、アルバニアのようなEU加盟交渉中の国の言語にも対応し、将来を見据えた取り組みを強調しています。
OpenEuroLLMは、約20の組織が参加する共同プロジェクトで、プラハのチャールズ大学の計算言語学者であるヤン・ハイチと、昨年AMDに6億6500万ドルで買収されたフィンランドのAIラボSilo AIのCEO兼共同創業者であるペーター・サルリンによって共同で主導されています。このイニシアチブは、ヨーロッパのデジタル主権に向けた広範な推進と一致し、重要なインフラやツールを大陸内に維持することを目指しています。この動きは、OpenAIのような主要なクラウドプロバイダーやAI企業が、EUのデータがヨーロッパの土壌に留まるようにローカルインフラに投資してきた行動を反映しています。
さらに、EUは最近、110億ドルの契約を結び、エロン・マスクのStarlinkの競争相手として位置づけられる主権衛星コンステレーションを確立しました。OpenEuroLLMは、ヨーロッパの技術的自治を維持することに焦点を当て、この物語に完全に適合します。
資金と課題
その野心的な目標にもかかわらず、モデルの開発に割り当てられた予算は3740万ユーロで、そのうち約2000万ユーロがEUのDigital Europe Programmeから拠出されています。この金額は、企業AI大手による投資に比べると見劣りしますが、関連する作業のための資金を考慮すると総予算は増加します。費用の大きな部分は計算能力で、OpenEuroLLMはスペイン、イタリア、フィンランド、オランダのEuroHPCスーパーコンピュータセンターと提携しており、これらは70億ユーロの広範なEuroHPCプロジェクトの一部です。
学術界から企業まで多様な参加者グループは、プロジェクトの実現可能性について疑問を投げかけています。LLM企業Pleiasの共同創業者であるアナスタシア・スタセンコは、Mistral AIやLightOnのようなより機敏で集中した民間AI企業と比較して、こうした大規模なコンソーシアムの効果に懐疑的な見方を示しました。彼女は、小規模なチームの方が責任が明確で、課題に対して迅速に対応できると主張しています。
ゼロから始めるか、既存の成果を活用するか?
OpenEuroLLMの出発点は若干曖昧です。2022年以来、ヤン・ハイチは高性能コンピューティングを使用して無料で再利用可能なデータセット、モデル、ワークフローを開発することに焦点を当てたHigh Performance Language Technologies(HPLT)プロジェクトを調整してきました。このプロジェクトは2025年後半に終了予定で、OpenEuroLLMと多くのパートナーを共有していますが、英国のパートナーは除外されています。
ハイチはHPLTをOpenEuroLLMの前身と見ており、データ、専門知識、ツール、計算経験の強固な基盤を提供すると考えています。彼は2026年半ばまでにOpenEuroLLMの初版をリリースし、2028年のプロジェクト終了までに最終版をリリースする予定です。しかし、プロジェクトのGitHubプロフィールはまだ内容が少なく、一部の面ではゼロから始めることを示しています。ハイチは、プロジェクトが2024年2月1日に正式に開始され、1年間の準備期間を経たと述べました。
OpenEuroLLMコンソーシアムには、チェコ、オランダ、ドイツ、スウェーデン、フィンランド、ノルウェーの組織や、Silo AI、Aleph Alpha、Ellamind、Prompsit Language Engineering、LightOnなどの企業が含まれています。注目すべきは、ハイチが参加を求めたにもかかわらず、フランスのAIユニコーンであるMistralが含まれていないことです。
目標と成果物
プロジェクトの主な目的は、現在のそして将来のすべてのEU言語の言語的および文化的多様性を保持し、ヨーロッパでの透明なAIのための基礎モデルのシリーズを作成することです。成果物はまだ最終化されていませんが、汎用タスクのためのコア多言語LLMと、効率が重要なエッジアプリケーション向けの小型で量子化されたバージョンが含まれる予定です。
ハイチは品質の重要性を強調し、プロジェクトが高額な公的資金が関与しているため、中途半端なソリューションをリリースすることを避けることを目指していると述べました。デジタルリソースが限られた言語での同等の熟練度を達成することは課題であり、プロジェクトはこれらの言語と文化を正確に反映するベンチマークを使用する予定です。
HPLTプロジェクトのデータ、ウェブクロールからの4.5ペタバイトのデータセットや200億以上のドキュメントを含むデータが利用され、Common Crawlからのデータで補完されます。
オープンソースのジレンマ
AIにおける「オープンソース」の定義についての議論は続いています。Open Source Initiative(OSI)は「オープンソースAI」を定義しましたが、一部はモデルだけでなく、データセット、事前学習済みモデル、ウェイトも含めるべきだと主張しています。OpenEuroLLMは「真にオープン」であることを目指していますが、ハイチはヨーロッパの著作権法やデータ再配布の制限による潜在的な制約を認めています。一部のトレーニングデータは、EU AI法に基づいて監査のために利用可能であるが、機密保持が必要な場合があります。
既存プロジェクトとの重複
OpenEuroLLMの開始は、類似の目標を持ち、EUが共同出資する最近開始されたEuroLLMと比較されています。EuroLLMは9月に初モデルをリリースし、12月に続編をリリースし、冗長性や競争ではなく協力の必要性についての懸念を引き起こしました。Unbabelの研究責任者であるアンドレ・マルティンスは、ソーシャルメディアでこれらの類似性を指摘し、異なるコミュニティ間でのオープンな協力を求めました。
ハイチはこの不幸な重複を認めましたが、協力への希望を表明し、OpenEuroLLMの資金制限により英国の大学を含む非EU団体との協力が制限されていると述べました。
資金と期待
中国のDeepSeekの有望なコストパフォーマンス比の出現は、AIモデル構築の真のコストについて疑問を投げかけています。OpenEuroLLMの技術共同リーダーであるペーター・サルリンは、DeepSeekの開発に関する詳細な情報の不足を指摘しましたが、OpenEuroLLMの資金、主に人件費をカバーするものに自信を持っています。計算費用はEuroHPCセンターによってカバーされる予定です。
サルリンは、OpenEuroLLMが消費者向けや企業向けの製品を作成することを目指しておらず、ヨーロッパの企業向けのAIインフラとしてオープンソースの基礎モデルを提供することを強調しました。彼は、割り当てられた予算がこの目的に十分であると考え、Silo AIでの経験を引用し、すでにいくつかのヨーロッパ言語をサポートするモデルを開発し、すべてのヨーロッパ言語をカバーする「Europa」モデルの立ち上げを準備しています。
デジタル主権と協力
課題や批判にもかかわらず、ハイチはOpenEuroLLMのような共同プロジェクトの可能性に楽観的です。彼は、学術的専門知識と企業の焦点を組み合わせることで、革新的な成果が得られると信じています。最終的な目標は、ビッグテックや数十億ドルのAIスタートアップと競争することではなく、ヨーロッパによる、ヨーロッパのための基礎LLMを開発することで、ヨーロッパのデジタル主権を強化することです。
OpenEuroLLMが最高性能のモデルを生み出さなかったとしても、ハイチは完全にヨーロッパに拠点を置く「良い」モデルを持つことの価値を見出し、大陸の技術的自治に積極的に貢献します。
関連記事
BuzzFeed、AI搭載のジャンクアプリ専門子会社を設立
深刻な経営危機に直面する中、かつてのデジタルメディア大手バズフィードは、人工知能(AI)を活用した野心的な自力再生の実験に乗り出している。 先ごろ開催されたSXSWカンファレンスで、共同創業者兼CEOのジョナ・ペレッティ氏は、「Branch Office」という子会社を設立すると発表した。同社は、AIを活用した一連の消費者向けアプリケーションを通じて、「ソフトウェア・アズ・コンテンツ(SaaS)」
ChatGPTの「アダルトモード」のリリースが再び延期;ウルトラマン:知性を最優先に
OpenAI、物議を醸す機能を再び延期、パーソナライゼーションと能動的な対話に注力「不適切なコンテンツ」が生産的なAIツールの一部であるべきかどうかは、長らくテック業界で議論を呼んできた。 ChatGPTが成人ユーザーをより深く理解できるようになると約束していたOpenAIだが、この変更を待ち望んでいた人々を再び失望させてしまった。IT Homeによると、同社は最近、当初2026年第1四半期のリリ
Baidu Healthは、学術情報の検索や事務支援を目的としたAI医師アシスタント「DoctorClaw」を、短期的に社内テストしている。
報道によると、百度健康(Baidu Health)は、医師向けに設計された専門的なAIスマートアシスタントの社内テストを開始した。社内で「DoctorClaw」(ロブスター・ドクター版)と呼ばれるこの製品は、医療分野における百度の大規模言語モデルの展開において、重要な一歩となるものだ。関係者によると、このプロジェクトは依然として非公開の開発段階にあり、現在は社内テスト段階に入っている。具体的な製品
関連特集おすすめ
コメント (23)
0/500
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊

先週、ヨーロッパのデジタル主権アジェンダは、欧州連合のすべての言語に対応する完全にオープンソースの大規模言語モデル(LLM)シリーズの開発を目指す新たなイニシアチブの発表により、大きな後押しを受けました。この野心的なプロジェクトは、OpenEuroLLMと名付けられ、EUの24の公式言語だけでなく、アルバニアのようなEU加盟交渉中の国の言語にも対応し、将来を見据えた取り組みを強調しています。
OpenEuroLLMは、約20の組織が参加する共同プロジェクトで、プラハのチャールズ大学の計算言語学者であるヤン・ハイチと、昨年AMDに6億6500万ドルで買収されたフィンランドのAIラボSilo AIのCEO兼共同創業者であるペーター・サルリンによって共同で主導されています。このイニシアチブは、ヨーロッパのデジタル主権に向けた広範な推進と一致し、重要なインフラやツールを大陸内に維持することを目指しています。この動きは、OpenAIのような主要なクラウドプロバイダーやAI企業が、EUのデータがヨーロッパの土壌に留まるようにローカルインフラに投資してきた行動を反映しています。
さらに、EUは最近、110億ドルの契約を結び、エロン・マスクのStarlinkの競争相手として位置づけられる主権衛星コンステレーションを確立しました。OpenEuroLLMは、ヨーロッパの技術的自治を維持することに焦点を当て、この物語に完全に適合します。
資金と課題
その野心的な目標にもかかわらず、モデルの開発に割り当てられた予算は3740万ユーロで、そのうち約2000万ユーロがEUのDigital Europe Programmeから拠出されています。この金額は、企業AI大手による投資に比べると見劣りしますが、関連する作業のための資金を考慮すると総予算は増加します。費用の大きな部分は計算能力で、OpenEuroLLMはスペイン、イタリア、フィンランド、オランダのEuroHPCスーパーコンピュータセンターと提携しており、これらは70億ユーロの広範なEuroHPCプロジェクトの一部です。
学術界から企業まで多様な参加者グループは、プロジェクトの実現可能性について疑問を投げかけています。LLM企業Pleiasの共同創業者であるアナスタシア・スタセンコは、Mistral AIやLightOnのようなより機敏で集中した民間AI企業と比較して、こうした大規模なコンソーシアムの効果に懐疑的な見方を示しました。彼女は、小規模なチームの方が責任が明確で、課題に対して迅速に対応できると主張しています。
ゼロから始めるか、既存の成果を活用するか?
OpenEuroLLMの出発点は若干曖昧です。2022年以来、ヤン・ハイチは高性能コンピューティングを使用して無料で再利用可能なデータセット、モデル、ワークフローを開発することに焦点を当てたHigh Performance Language Technologies(HPLT)プロジェクトを調整してきました。このプロジェクトは2025年後半に終了予定で、OpenEuroLLMと多くのパートナーを共有していますが、英国のパートナーは除外されています。
ハイチはHPLTをOpenEuroLLMの前身と見ており、データ、専門知識、ツール、計算経験の強固な基盤を提供すると考えています。彼は2026年半ばまでにOpenEuroLLMの初版をリリースし、2028年のプロジェクト終了までに最終版をリリースする予定です。しかし、プロジェクトのGitHubプロフィールはまだ内容が少なく、一部の面ではゼロから始めることを示しています。ハイチは、プロジェクトが2024年2月1日に正式に開始され、1年間の準備期間を経たと述べました。
OpenEuroLLMコンソーシアムには、チェコ、オランダ、ドイツ、スウェーデン、フィンランド、ノルウェーの組織や、Silo AI、Aleph Alpha、Ellamind、Prompsit Language Engineering、LightOnなどの企業が含まれています。注目すべきは、ハイチが参加を求めたにもかかわらず、フランスのAIユニコーンであるMistralが含まれていないことです。
目標と成果物
プロジェクトの主な目的は、現在のそして将来のすべてのEU言語の言語的および文化的多様性を保持し、ヨーロッパでの透明なAIのための基礎モデルのシリーズを作成することです。成果物はまだ最終化されていませんが、汎用タスクのためのコア多言語LLMと、効率が重要なエッジアプリケーション向けの小型で量子化されたバージョンが含まれる予定です。
ハイチは品質の重要性を強調し、プロジェクトが高額な公的資金が関与しているため、中途半端なソリューションをリリースすることを避けることを目指していると述べました。デジタルリソースが限られた言語での同等の熟練度を達成することは課題であり、プロジェクトはこれらの言語と文化を正確に反映するベンチマークを使用する予定です。
HPLTプロジェクトのデータ、ウェブクロールからの4.5ペタバイトのデータセットや200億以上のドキュメントを含むデータが利用され、Common Crawlからのデータで補完されます。
オープンソースのジレンマ
AIにおける「オープンソース」の定義についての議論は続いています。Open Source Initiative(OSI)は「オープンソースAI」を定義しましたが、一部はモデルだけでなく、データセット、事前学習済みモデル、ウェイトも含めるべきだと主張しています。OpenEuroLLMは「真にオープン」であることを目指していますが、ハイチはヨーロッパの著作権法やデータ再配布の制限による潜在的な制約を認めています。一部のトレーニングデータは、EU AI法に基づいて監査のために利用可能であるが、機密保持が必要な場合があります。
既存プロジェクトとの重複
OpenEuroLLMの開始は、類似の目標を持ち、EUが共同出資する最近開始されたEuroLLMと比較されています。EuroLLMは9月に初モデルをリリースし、12月に続編をリリースし、冗長性や競争ではなく協力の必要性についての懸念を引き起こしました。Unbabelの研究責任者であるアンドレ・マルティンスは、ソーシャルメディアでこれらの類似性を指摘し、異なるコミュニティ間でのオープンな協力を求めました。
ハイチはこの不幸な重複を認めましたが、協力への希望を表明し、OpenEuroLLMの資金制限により英国の大学を含む非EU団体との協力が制限されていると述べました。
資金と期待
中国のDeepSeekの有望なコストパフォーマンス比の出現は、AIモデル構築の真のコストについて疑問を投げかけています。OpenEuroLLMの技術共同リーダーであるペーター・サルリンは、DeepSeekの開発に関する詳細な情報の不足を指摘しましたが、OpenEuroLLMの資金、主に人件費をカバーするものに自信を持っています。計算費用はEuroHPCセンターによってカバーされる予定です。
サルリンは、OpenEuroLLMが消費者向けや企業向けの製品を作成することを目指しておらず、ヨーロッパの企業向けのAIインフラとしてオープンソースの基礎モデルを提供することを強調しました。彼は、割り当てられた予算がこの目的に十分であると考え、Silo AIでの経験を引用し、すでにいくつかのヨーロッパ言語をサポートするモデルを開発し、すべてのヨーロッパ言語をカバーする「Europa」モデルの立ち上げを準備しています。
デジタル主権と協力
課題や批判にもかかわらず、ハイチはOpenEuroLLMのような共同プロジェクトの可能性に楽観的です。彼は、学術的専門知識と企業の焦点を組み合わせることで、革新的な成果が得られると信じています。最終的な目標は、ビッグテックや数十億ドルのAIスタートアップと競争することではなく、ヨーロッパによる、ヨーロッパのための基礎LLMを開発することで、ヨーロッパのデジタル主権を強化することです。
OpenEuroLLMが最高性能のモデルを生み出さなかったとしても、ハイチは完全にヨーロッパに拠点を置く「良い」モデルを持つことの価値を見出し、大陸の技術的自治に積極的に貢献します。
BuzzFeed、AI搭載のジャンクアプリ専門子会社を設立
深刻な経営危機に直面する中、かつてのデジタルメディア大手バズフィードは、人工知能(AI)を活用した野心的な自力再生の実験に乗り出している。 先ごろ開催されたSXSWカンファレンスで、共同創業者兼CEOのジョナ・ペレッティ氏は、「Branch Office」という子会社を設立すると発表した。同社は、AIを活用した一連の消費者向けアプリケーションを通じて、「ソフトウェア・アズ・コンテンツ(SaaS)」
ChatGPTの「アダルトモード」のリリースが再び延期;ウルトラマン:知性を最優先に
OpenAI、物議を醸す機能を再び延期、パーソナライゼーションと能動的な対話に注力「不適切なコンテンツ」が生産的なAIツールの一部であるべきかどうかは、長らくテック業界で議論を呼んできた。 ChatGPTが成人ユーザーをより深く理解できるようになると約束していたOpenAIだが、この変更を待ち望んでいた人々を再び失望させてしまった。IT Homeによると、同社は最近、当初2026年第1四半期のリリ
Baidu Healthは、学術情報の検索や事務支援を目的としたAI医師アシスタント「DoctorClaw」を、短期的に社内テストしている。
報道によると、百度健康(Baidu Health)は、医師向けに設計された専門的なAIスマートアシスタントの社内テストを開始した。社内で「DoctorClaw」(ロブスター・ドクター版)と呼ばれるこの製品は、医療分野における百度の大規模言語モデルの展開において、重要な一歩となるものだ。関係者によると、このプロジェクトは依然として非公開の開発段階にあり、現在は社内テスト段階に入っている。具体的な製品
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊





家






