LLMS с открытым исходным кодом, включенная в дорожную карту цифрового суверенитета Европы

На прошлой неделе повестка дня цифрового суверенитета Европы получила значительный импульс благодаря объявлению о новой инициативе, направленной на разработку ряда полностью открытых больших языковых моделей (LLM), которые охватывают все языки Европейского Союза. Этот амбициозный проект, получивший название OpenEuroLLM, нацелен не только на 24 официальных языка ЕС, но и распространяется на языки стран, ведущих переговоры о вступлении в ЕС, таких как Албания, с акцентом на обеспечение будущего.
OpenEuroLLM — это совместный проект, в котором участвуют около 20 организаций, под совместным руководством Яна Хайича, вычислительного лингвиста из Карлова университета в Праге, и Питера Сарлина, генерального директора и сооснователя финской лаборатории искусственного интеллекта Silo AI, которая была приобретена AMD за 665 миллионов долларов в прошлом году. Эта инициатива соответствует более широкому стремлению Европы к цифровому суверенитету, направленному на сохранение критически важной инфраструктуры и инструментов внутри континента. Этот шаг перекликается с действиями крупных облачных провайдеров и компаний в области ИИ, таких как OpenAI, которые инвестируют в локальную инфраструктуру, чтобы данные ЕС оставались на европейской территории.
Кроме того, ЕС недавно подписал сделку на 11 миллиардов долларов для создания суверенной спутниковой группировки, позиционируя себя как конкурента Starlink Илона Маска. OpenEuroLLM идеально вписывается в эту концепцию, сосредоточившись на поддержании технологической автономии Европы.
Финансирование и вызовы
Несмотря на амбициозные цели, бюджет, выделенный на разработку моделей, составляет 37,4 миллиона евро, из которых примерно 20 миллионов евро поступают из программы ЕС Digital Europe. Эта сумма бледнеет по сравнению с инвестициями корпоративных гигантов ИИ, хотя общий бюджет увеличивается за счет финансирования связанных работ. Значительная часть расходов связана с вычислительными мощностями, при этом OpenEuroLLM сотрудничает с суперкомпьютерными центрами EuroHPC в Испании, Италии, Финляндии и Нидерландах, которые являются частью более крупного проекта EuroHPC стоимостью 7 миллиардов евро.
Разнородная группа участников, от академических кругов до корпораций, вызывает вопросы о реализуемости проекта. Анастасия Стасенко, сооснователь компании Pleias, занимающейся LLM, выразила скептицизм относительно эффективности такого крупного консорциума по сравнению с более гибкими и целенаправленными частными фирмами в области ИИ, такими как Mistral AI и LightOn. По ее мнению, небольшие команды имеют более прямую ответственность и могут быстрее реагировать на вызовы.
Создание с нуля или использование существующих наработок?
Стартовая точка OpenEuroLLM несколько неоднозначна. С 2022 года Ян Хайич координирует проект High Performance Language Technologies (HPLT), который сосредоточен на разработке бесплатных и повторно используемых наборов данных, моделей и рабочих процессов с использованием высокопроизводительных вычислений. Этот проект, который завершится в конце 2025 года, имеет много общих партнеров с OpenEuroLLM, за исключением партнеров из Великобритании.
Хайич рассматривает HPLT как предшественника OpenEuroLLM, отмечая, что он обеспечивает прочную основу в виде данных, экспертизы, инструментов и опыта вычислений. Он ожидает выпуска первых версий OpenEuroLLM к середине 2026 года, а финальные версии — к завершению проекта в 2028 году. Однако профиль проекта на GitHub остается скудным, что указывает на начало с нуля в некоторых аспектах. Хайич упомянул, что проект официально начался 1 февраля 2024 года после года подготовки.
Консорциум OpenEuroLLM включает организации из Чехии, Нидерландов, Германии, Швеции, Финляндии и Норвегии, а также корпоративные структуры, такие как Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering и LightOn. Примечательно отсутствие Mistral, французского ИИ-единорога, несмотря на попытки Хайича вовлечь их в обсуждения.
Цели и результаты
Основная цель проекта — создание серии базовых моделей для прозрачного ИИ в Европе, сохраняющего языковое и культурное разнообразие всех языков ЕС, как текущих, так и будущих. Результаты еще уточняются, но ожидается, что они будут включать основную многоязычную LLM для задач общего назначения и меньшие, квантованные версии для периферийных приложений, где важна эффективность.
Хайич подчеркнул важность качества, заявив, что проект стремится избежать выпуска недоработанных решений, учитывая высокие ставки и государственное финансирование. Достижение одинакового уровня владения всеми языками, особенно теми, у которых ограничены цифровые ресурсы, остается проблемой. Проект планирует использовать эталоны, которые точно представляют эти языки и культуры.
Данные из проекта HPLT, включая набор данных объемом 4,5 петабайта из веб-краулинга и более 20 миллиардов документов, будут использованы, дополненные данными из Common Crawl.
Дилеммы открытого исходного кода
Дискуссия о том, что считать "открытым исходным кодом" в ИИ, продолжается. Open Source Initiative (OSI) определила "ИИ с открытым исходным кодом", но некоторые утверждают, что это должно включать не только модели, но и наборы данных, предварительно обученные модели и веса. OpenEuroLLM стремится быть "по-настоящему открытым", но Хайич признает возможные ограничения из-за европейских законов об авторском праве и ограничений на перераспределение данных. Некоторые тренировочные данные могут остаться конфиденциальными, но доступными для аудита в соответствии с законом ЕС об ИИ.
Пересечение с существующими проектами
Запуск OpenEuroLLM вызвал сравнения с недавно запущенным EuroLLM, который имеет схожие цели и также софинансируется ЕС. EuroLLM, выпустивший первую модель в сентябре и последующую в декабре, вызвал опасения по поводу избыточности и необходимости сотрудничества, а не конкуренции. Андре Мартинс, руководитель исследований в Unbabel, отметил эти сходства в социальных сетях, призывая к открытому сотрудничеству между различными сообществами.
Хайич признал неудачное пересечение, но выразил надежду на сотрудничество, отметив, что ограничения финансирования OpenEuroLLM ограничивают сотрудничество с неевропейскими организациями, включая университеты Великобритании.
Финансирование и ожидания
Появление DeepSeek из Китая с его многообещающим соотношением стоимости и производительности вызвало вопросы о реальных затратах на создание моделей ИИ. Питер Сарлин, технический со-руководитель OpenEuroLLM, отметил отсутствие подробной информации о разработке DeepSeek, но остается уверенным в финансировании OpenEuroLLM, которое в основном покрывает расходы на персонал. Расходы на вычисления, как ожидается, будут покрыты центрами EuroHPC.
Сарлин подчеркнул, что OpenEuroLLM не стремится создать потребительский или корпоративный продукт, а скорее предоставить модель с открытым исходным кодом как инфраструктуру ИИ для европейских компаний. Он считает, что выделенный бюджет достаточен для этой цели, опираясь на свой опыт в Silo AI, которая уже разработала модели, поддерживающие несколько европейских языков, и готовится к запуску моделей "Europa", охватывающих все европейские языки.
Цифровой суверенитет и сотрудничество
Несмотря на вызовы и критику, Хайич остается оптимистичным в отношении потенциала совместных проектов, таких как OpenEuroLLM. Он считает, что объединение академической экспертизы с корпоративным фокусом может привести к инновационным результатам. Конечная цель — не конкурировать с крупными технологическими компаниями или стартапами ИИ стоимостью в миллиарды долларов, а укреплять цифровой суверенитет Европы путем разработки базовых LLM, созданных в Европе и для Европы.
Даже если OpenEuroLLM не создаст модель с наивысшей производительностью, Хайич видит ценность в создании "хорошей" модели, полностью базирующейся в Европе, что позитивно способствует технологической автономии континента.
Связанная статья
Qodo сотрудничает с Google Cloud для предоставления бесплатных инструментов AI для проверки кода разработчикам
Qodo, израильский стартап в области AI-кодирования, ориентированный на качество кода, начал сотрудничество с Google Cloud для повышения целостности программного обеспечения, созданного AI.По мере рост
DeepMind's AI Secures Gold at 2025 Math Olympiad
ИИ DeepMind достиг потрясающего прорыва в математическом мышлении, завоевав золотую медаль на Международной математической олимпиаде (IMO) 2025 года, всего через год после получения серебра в 2024 год
AI-управляемый Parallax Maker: Создание динамичных 2.5D анимаций
Преобразуйте статические изображения в захватывающие 2.5D анимации с помощью Parallax Maker. Этот инструмент с открытым исходным кодом позволяет художникам и разработчикам игр добавлять глубину и движ
Комментарии (18)
StevenMartin
16 августа 2025 г., 20:00:59 GMT+03:00
Wow, OpenEuroLLM sounds like a game-changer for Europe's tech scene! Building LLMs for all EU languages is ambitious—imagine the boost for local AI startups. But can they keep up with the big players like OpenAI? 🤔
0
PaulHill
7 августа 2025 г., 21:01:06 GMT+03:00
Super cool to see Europe pushing for open-source LLMs! Can't wait to see how OpenEuroLLM handles all those languages. 🌍
0
ElijahCollins
23 июля 2025 г., 7:59:29 GMT+03:00
Wow, OpenEuroLLM sounds like a game-changer for Europe’s tech scene! Building open-source LLMs for all EU languages is ambitious—imagine the possibilities for local businesses and multilingual AI apps. But I wonder, will they keep up with the pace of global AI giants? 🤔
0
PeterYoung
22 апреля 2025 г., 6:11:01 GMT+03:00
OpenEuroLLM sounds like a game-changer for Europe! Finally, we're getting open-source LLMs that cover all EU languages. It's about time we took control of our digital future. Can't wait to see how this develops! 🚀
0
CharlesThomas
22 апреля 2025 г., 3:18:24 GMT+03:00
オープンソースのLLMがEU全言語に対応するなんて素晴らしい!これでデジタルの未来を自分たちでコントロールできるようになるね。どう発展していくか楽しみだよ!🌟
0
MatthewGonzalez
22 апреля 2025 г., 3:16:04 GMT+03:00
OpenEuroLLM parece ser uma grande mudança para a Europa! Finalmente, LLMs de código aberto que cobrem todos os idiomas da UE. Está na hora de assumirmos o controle do nosso futuro digital. Mal posso esperar para ver como isso vai se desenvolver! 🚀
0
На прошлой неделе повестка дня цифрового суверенитета Европы получила значительный импульс благодаря объявлению о новой инициативе, направленной на разработку ряда полностью открытых больших языковых моделей (LLM), которые охватывают все языки Европейского Союза. Этот амбициозный проект, получивший название OpenEuroLLM, нацелен не только на 24 официальных языка ЕС, но и распространяется на языки стран, ведущих переговоры о вступлении в ЕС, таких как Албания, с акцентом на обеспечение будущего.
OpenEuroLLM — это совместный проект, в котором участвуют около 20 организаций, под совместным руководством Яна Хайича, вычислительного лингвиста из Карлова университета в Праге, и Питера Сарлина, генерального директора и сооснователя финской лаборатории искусственного интеллекта Silo AI, которая была приобретена AMD за 665 миллионов долларов в прошлом году. Эта инициатива соответствует более широкому стремлению Европы к цифровому суверенитету, направленному на сохранение критически важной инфраструктуры и инструментов внутри континента. Этот шаг перекликается с действиями крупных облачных провайдеров и компаний в области ИИ, таких как OpenAI, которые инвестируют в локальную инфраструктуру, чтобы данные ЕС оставались на европейской территории.
Кроме того, ЕС недавно подписал сделку на 11 миллиардов долларов для создания суверенной спутниковой группировки, позиционируя себя как конкурента Starlink Илона Маска. OpenEuroLLM идеально вписывается в эту концепцию, сосредоточившись на поддержании технологической автономии Европы.
Финансирование и вызовы
Несмотря на амбициозные цели, бюджет, выделенный на разработку моделей, составляет 37,4 миллиона евро, из которых примерно 20 миллионов евро поступают из программы ЕС Digital Europe. Эта сумма бледнеет по сравнению с инвестициями корпоративных гигантов ИИ, хотя общий бюджет увеличивается за счет финансирования связанных работ. Значительная часть расходов связана с вычислительными мощностями, при этом OpenEuroLLM сотрудничает с суперкомпьютерными центрами EuroHPC в Испании, Италии, Финляндии и Нидерландах, которые являются частью более крупного проекта EuroHPC стоимостью 7 миллиардов евро.
Разнородная группа участников, от академических кругов до корпораций, вызывает вопросы о реализуемости проекта. Анастасия Стасенко, сооснователь компании Pleias, занимающейся LLM, выразила скептицизм относительно эффективности такого крупного консорциума по сравнению с более гибкими и целенаправленными частными фирмами в области ИИ, такими как Mistral AI и LightOn. По ее мнению, небольшие команды имеют более прямую ответственность и могут быстрее реагировать на вызовы.
Создание с нуля или использование существующих наработок?
Стартовая точка OpenEuroLLM несколько неоднозначна. С 2022 года Ян Хайич координирует проект High Performance Language Technologies (HPLT), который сосредоточен на разработке бесплатных и повторно используемых наборов данных, моделей и рабочих процессов с использованием высокопроизводительных вычислений. Этот проект, который завершится в конце 2025 года, имеет много общих партнеров с OpenEuroLLM, за исключением партнеров из Великобритании.
Хайич рассматривает HPLT как предшественника OpenEuroLLM, отмечая, что он обеспечивает прочную основу в виде данных, экспертизы, инструментов и опыта вычислений. Он ожидает выпуска первых версий OpenEuroLLM к середине 2026 года, а финальные версии — к завершению проекта в 2028 году. Однако профиль проекта на GitHub остается скудным, что указывает на начало с нуля в некоторых аспектах. Хайич упомянул, что проект официально начался 1 февраля 2024 года после года подготовки.
Консорциум OpenEuroLLM включает организации из Чехии, Нидерландов, Германии, Швеции, Финляндии и Норвегии, а также корпоративные структуры, такие как Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering и LightOn. Примечательно отсутствие Mistral, французского ИИ-единорога, несмотря на попытки Хайича вовлечь их в обсуждения.
Цели и результаты
Основная цель проекта — создание серии базовых моделей для прозрачного ИИ в Европе, сохраняющего языковое и культурное разнообразие всех языков ЕС, как текущих, так и будущих. Результаты еще уточняются, но ожидается, что они будут включать основную многоязычную LLM для задач общего назначения и меньшие, квантованные версии для периферийных приложений, где важна эффективность.
Хайич подчеркнул важность качества, заявив, что проект стремится избежать выпуска недоработанных решений, учитывая высокие ставки и государственное финансирование. Достижение одинакового уровня владения всеми языками, особенно теми, у которых ограничены цифровые ресурсы, остается проблемой. Проект планирует использовать эталоны, которые точно представляют эти языки и культуры.
Данные из проекта HPLT, включая набор данных объемом 4,5 петабайта из веб-краулинга и более 20 миллиардов документов, будут использованы, дополненные данными из Common Crawl.
Дилеммы открытого исходного кода
Дискуссия о том, что считать "открытым исходным кодом" в ИИ, продолжается. Open Source Initiative (OSI) определила "ИИ с открытым исходным кодом", но некоторые утверждают, что это должно включать не только модели, но и наборы данных, предварительно обученные модели и веса. OpenEuroLLM стремится быть "по-настоящему открытым", но Хайич признает возможные ограничения из-за европейских законов об авторском праве и ограничений на перераспределение данных. Некоторые тренировочные данные могут остаться конфиденциальными, но доступными для аудита в соответствии с законом ЕС об ИИ.
Пересечение с существующими проектами
Запуск OpenEuroLLM вызвал сравнения с недавно запущенным EuroLLM, который имеет схожие цели и также софинансируется ЕС. EuroLLM, выпустивший первую модель в сентябре и последующую в декабре, вызвал опасения по поводу избыточности и необходимости сотрудничества, а не конкуренции. Андре Мартинс, руководитель исследований в Unbabel, отметил эти сходства в социальных сетях, призывая к открытому сотрудничеству между различными сообществами.
Хайич признал неудачное пересечение, но выразил надежду на сотрудничество, отметив, что ограничения финансирования OpenEuroLLM ограничивают сотрудничество с неевропейскими организациями, включая университеты Великобритании.
Финансирование и ожидания
Появление DeepSeek из Китая с его многообещающим соотношением стоимости и производительности вызвало вопросы о реальных затратах на создание моделей ИИ. Питер Сарлин, технический со-руководитель OpenEuroLLM, отметил отсутствие подробной информации о разработке DeepSeek, но остается уверенным в финансировании OpenEuroLLM, которое в основном покрывает расходы на персонал. Расходы на вычисления, как ожидается, будут покрыты центрами EuroHPC.
Сарлин подчеркнул, что OpenEuroLLM не стремится создать потребительский или корпоративный продукт, а скорее предоставить модель с открытым исходным кодом как инфраструктуру ИИ для европейских компаний. Он считает, что выделенный бюджет достаточен для этой цели, опираясь на свой опыт в Silo AI, которая уже разработала модели, поддерживающие несколько европейских языков, и готовится к запуску моделей "Europa", охватывающих все европейские языки.
Цифровой суверенитет и сотрудничество
Несмотря на вызовы и критику, Хайич остается оптимистичным в отношении потенциала совместных проектов, таких как OpenEuroLLM. Он считает, что объединение академической экспертизы с корпоративным фокусом может привести к инновационным результатам. Конечная цель — не конкурировать с крупными технологическими компаниями или стартапами ИИ стоимостью в миллиарды долларов, а укреплять цифровой суверенитет Европы путем разработки базовых LLM, созданных в Европе и для Европы.
Даже если OpenEuroLLM не создаст модель с наивысшей производительностью, Хайич видит ценность в создании "хорошей" модели, полностью базирующейся в Европе, что позитивно способствует технологической автономии континента.



Wow, OpenEuroLLM sounds like a game-changer for Europe's tech scene! Building LLMs for all EU languages is ambitious—imagine the boost for local AI startups. But can they keep up with the big players like OpenAI? 🤔




Super cool to see Europe pushing for open-source LLMs! Can't wait to see how OpenEuroLLM handles all those languages. 🌍




Wow, OpenEuroLLM sounds like a game-changer for Europe’s tech scene! Building open-source LLMs for all EU languages is ambitious—imagine the possibilities for local businesses and multilingual AI apps. But I wonder, will they keep up with the pace of global AI giants? 🤔




OpenEuroLLM sounds like a game-changer for Europe! Finally, we're getting open-source LLMs that cover all EU languages. It's about time we took control of our digital future. Can't wait to see how this develops! 🚀




オープンソースのLLMがEU全言語に対応するなんて素晴らしい!これでデジタルの未来を自分たちでコントロールできるようになるね。どう発展していくか楽しみだよ!🌟




OpenEuroLLM parece ser uma grande mudança para a Europa! Finalmente, LLMs de código aberto que cobrem todos os idiomas da UE. Está na hora de assumirmos o controle do nosso futuro digital. Mal posso esperar para ver como isso vai se desenvolver! 🚀












