Дом
LLMS с открытым исходным кодом, включенная в дорожную карту цифрового суверенитета Европы

На прошлой неделе повестка дня цифрового суверенитета Европы получила значительный импульс благодаря объявлению о новой инициативе, направленной на разработку ряда полностью открытых больших языковых моделей (LLM), которые охватывают все языки Европейского Союза. Этот амбициозный проект, получивший название OpenEuroLLM, нацелен не только на 24 официальных языка ЕС, но и распространяется на языки стран, ведущих переговоры о вступлении в ЕС, таких как Албания, с акцентом на обеспечение будущего.
OpenEuroLLM — это совместный проект, в котором участвуют около 20 организаций, под совместным руководством Яна Хайича, вычислительного лингвиста из Карлова университета в Праге, и Питера Сарлина, генерального директора и сооснователя финской лаборатории искусственного интеллекта Silo AI, которая была приобретена AMD за 665 миллионов долларов в прошлом году. Эта инициатива соответствует более широкому стремлению Европы к цифровому суверенитету, направленному на сохранение критически важной инфраструктуры и инструментов внутри континента. Этот шаг перекликается с действиями крупных облачных провайдеров и компаний в области ИИ, таких как OpenAI, которые инвестируют в локальную инфраструктуру, чтобы данные ЕС оставались на европейской территории.
Кроме того, ЕС недавно подписал сделку на 11 миллиардов долларов для создания суверенной спутниковой группировки, позиционируя себя как конкурента Starlink Илона Маска. OpenEuroLLM идеально вписывается в эту концепцию, сосредоточившись на поддержании технологической автономии Европы.
Финансирование и вызовы
Несмотря на амбициозные цели, бюджет, выделенный на разработку моделей, составляет 37,4 миллиона евро, из которых примерно 20 миллионов евро поступают из программы ЕС Digital Europe. Эта сумма бледнеет по сравнению с инвестициями корпоративных гигантов ИИ, хотя общий бюджет увеличивается за счет финансирования связанных работ. Значительная часть расходов связана с вычислительными мощностями, при этом OpenEuroLLM сотрудничает с суперкомпьютерными центрами EuroHPC в Испании, Италии, Финляндии и Нидерландах, которые являются частью более крупного проекта EuroHPC стоимостью 7 миллиардов евро.
Разнородная группа участников, от академических кругов до корпораций, вызывает вопросы о реализуемости проекта. Анастасия Стасенко, сооснователь компании Pleias, занимающейся LLM, выразила скептицизм относительно эффективности такого крупного консорциума по сравнению с более гибкими и целенаправленными частными фирмами в области ИИ, такими как Mistral AI и LightOn. По ее мнению, небольшие команды имеют более прямую ответственность и могут быстрее реагировать на вызовы.
Создание с нуля или использование существующих наработок?
Стартовая точка OpenEuroLLM несколько неоднозначна. С 2022 года Ян Хайич координирует проект High Performance Language Technologies (HPLT), который сосредоточен на разработке бесплатных и повторно используемых наборов данных, моделей и рабочих процессов с использованием высокопроизводительных вычислений. Этот проект, который завершится в конце 2025 года, имеет много общих партнеров с OpenEuroLLM, за исключением партнеров из Великобритании.
Хайич рассматривает HPLT как предшественника OpenEuroLLM, отмечая, что он обеспечивает прочную основу в виде данных, экспертизы, инструментов и опыта вычислений. Он ожидает выпуска первых версий OpenEuroLLM к середине 2026 года, а финальные версии — к завершению проекта в 2028 году. Однако профиль проекта на GitHub остается скудным, что указывает на начало с нуля в некоторых аспектах. Хайич упомянул, что проект официально начался 1 февраля 2024 года после года подготовки.
Консорциум OpenEuroLLM включает организации из Чехии, Нидерландов, Германии, Швеции, Финляндии и Норвегии, а также корпоративные структуры, такие как Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering и LightOn. Примечательно отсутствие Mistral, французского ИИ-единорога, несмотря на попытки Хайича вовлечь их в обсуждения.
Цели и результаты
Основная цель проекта — создание серии базовых моделей для прозрачного ИИ в Европе, сохраняющего языковое и культурное разнообразие всех языков ЕС, как текущих, так и будущих. Результаты еще уточняются, но ожидается, что они будут включать основную многоязычную LLM для задач общего назначения и меньшие, квантованные версии для периферийных приложений, где важна эффективность.
Хайич подчеркнул важность качества, заявив, что проект стремится избежать выпуска недоработанных решений, учитывая высокие ставки и государственное финансирование. Достижение одинакового уровня владения всеми языками, особенно теми, у которых ограничены цифровые ресурсы, остается проблемой. Проект планирует использовать эталоны, которые точно представляют эти языки и культуры.
Данные из проекта HPLT, включая набор данных объемом 4,5 петабайта из веб-краулинга и более 20 миллиардов документов, будут использованы, дополненные данными из Common Crawl.
Дилеммы открытого исходного кода
Дискуссия о том, что считать "открытым исходным кодом" в ИИ, продолжается. Open Source Initiative (OSI) определила "ИИ с открытым исходным кодом", но некоторые утверждают, что это должно включать не только модели, но и наборы данных, предварительно обученные модели и веса. OpenEuroLLM стремится быть "по-настоящему открытым", но Хайич признает возможные ограничения из-за европейских законов об авторском праве и ограничений на перераспределение данных. Некоторые тренировочные данные могут остаться конфиденциальными, но доступными для аудита в соответствии с законом ЕС об ИИ.
Пересечение с существующими проектами
Запуск OpenEuroLLM вызвал сравнения с недавно запущенным EuroLLM, который имеет схожие цели и также софинансируется ЕС. EuroLLM, выпустивший первую модель в сентябре и последующую в декабре, вызвал опасения по поводу избыточности и необходимости сотрудничества, а не конкуренции. Андре Мартинс, руководитель исследований в Unbabel, отметил эти сходства в социальных сетях, призывая к открытому сотрудничеству между различными сообществами.
Хайич признал неудачное пересечение, но выразил надежду на сотрудничество, отметив, что ограничения финансирования OpenEuroLLM ограничивают сотрудничество с неевропейскими организациями, включая университеты Великобритании.
Финансирование и ожидания
Появление DeepSeek из Китая с его многообещающим соотношением стоимости и производительности вызвало вопросы о реальных затратах на создание моделей ИИ. Питер Сарлин, технический со-руководитель OpenEuroLLM, отметил отсутствие подробной информации о разработке DeepSeek, но остается уверенным в финансировании OpenEuroLLM, которое в основном покрывает расходы на персонал. Расходы на вычисления, как ожидается, будут покрыты центрами EuroHPC.
Сарлин подчеркнул, что OpenEuroLLM не стремится создать потребительский или корпоративный продукт, а скорее предоставить модель с открытым исходным кодом как инфраструктуру ИИ для европейских компаний. Он считает, что выделенный бюджет достаточен для этой цели, опираясь на свой опыт в Silo AI, которая уже разработала модели, поддерживающие несколько европейских языков, и готовится к запуску моделей "Europa", охватывающих все европейские языки.
Цифровой суверенитет и сотрудничество
Несмотря на вызовы и критику, Хайич остается оптимистичным в отношении потенциала совместных проектов, таких как OpenEuroLLM. Он считает, что объединение академической экспертизы с корпоративным фокусом может привести к инновационным результатам. Конечная цель — не конкурировать с крупными технологическими компаниями или стартапами ИИ стоимостью в миллиарды долларов, а укреплять цифровой суверенитет Европы путем разработки базовых LLM, созданных в Европе и для Европы.
Даже если OpenEuroLLM не создаст модель с наивысшей производительностью, Хайич видит ценность в создании "хорошей" модели, полностью базирующейся в Европе, что позитивно способствует технологической автономии континента.
Связанная статья
AIGCPanel 2.0.0 — крупное обновление: движок рабочих процессов открывает новую эру автоматизированного создания цифровых персонажей
AIGCPanel, мощный инструмент для создания локальных цифровых персонажей, только что выпустил версию 2.0.0, которую называют «самым значительным обновлением на сегодняшний день». Эта радикальная перера
BuzzFeed открывает дочернюю компанию по разработке бесполезных приложений на базе ИИ
На фоне серьезного кризиса в сфере бизнеса бывший гигант цифровых медиа BuzzFeed запускает амбициозный эксперимент по самоспасению с использованием искусственного интеллекта. На недавней конференции S
Режим для взрослых в ChatGPT снова отложен; Ультрамен: в первую очередь — интеллект
OpenAI вновь откладывает запуск спорной функции, сосредоточившись на персонализации и проактивном взаимодействииВопрос о том, должен ли «неуместный контент» быть частью продуктивного инструмента ИИ, у
Рекомендации по связанным специальным темам
Комментарии (23)
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊

На прошлой неделе повестка дня цифрового суверенитета Европы получила значительный импульс благодаря объявлению о новой инициативе, направленной на разработку ряда полностью открытых больших языковых моделей (LLM), которые охватывают все языки Европейского Союза. Этот амбициозный проект, получивший название OpenEuroLLM, нацелен не только на 24 официальных языка ЕС, но и распространяется на языки стран, ведущих переговоры о вступлении в ЕС, таких как Албания, с акцентом на обеспечение будущего.
OpenEuroLLM — это совместный проект, в котором участвуют около 20 организаций, под совместным руководством Яна Хайича, вычислительного лингвиста из Карлова университета в Праге, и Питера Сарлина, генерального директора и сооснователя финской лаборатории искусственного интеллекта Silo AI, которая была приобретена AMD за 665 миллионов долларов в прошлом году. Эта инициатива соответствует более широкому стремлению Европы к цифровому суверенитету, направленному на сохранение критически важной инфраструктуры и инструментов внутри континента. Этот шаг перекликается с действиями крупных облачных провайдеров и компаний в области ИИ, таких как OpenAI, которые инвестируют в локальную инфраструктуру, чтобы данные ЕС оставались на европейской территории.
Кроме того, ЕС недавно подписал сделку на 11 миллиардов долларов для создания суверенной спутниковой группировки, позиционируя себя как конкурента Starlink Илона Маска. OpenEuroLLM идеально вписывается в эту концепцию, сосредоточившись на поддержании технологической автономии Европы.
Финансирование и вызовы
Несмотря на амбициозные цели, бюджет, выделенный на разработку моделей, составляет 37,4 миллиона евро, из которых примерно 20 миллионов евро поступают из программы ЕС Digital Europe. Эта сумма бледнеет по сравнению с инвестициями корпоративных гигантов ИИ, хотя общий бюджет увеличивается за счет финансирования связанных работ. Значительная часть расходов связана с вычислительными мощностями, при этом OpenEuroLLM сотрудничает с суперкомпьютерными центрами EuroHPC в Испании, Италии, Финляндии и Нидерландах, которые являются частью более крупного проекта EuroHPC стоимостью 7 миллиардов евро.
Разнородная группа участников, от академических кругов до корпораций, вызывает вопросы о реализуемости проекта. Анастасия Стасенко, сооснователь компании Pleias, занимающейся LLM, выразила скептицизм относительно эффективности такого крупного консорциума по сравнению с более гибкими и целенаправленными частными фирмами в области ИИ, такими как Mistral AI и LightOn. По ее мнению, небольшие команды имеют более прямую ответственность и могут быстрее реагировать на вызовы.
Создание с нуля или использование существующих наработок?
Стартовая точка OpenEuroLLM несколько неоднозначна. С 2022 года Ян Хайич координирует проект High Performance Language Technologies (HPLT), который сосредоточен на разработке бесплатных и повторно используемых наборов данных, моделей и рабочих процессов с использованием высокопроизводительных вычислений. Этот проект, который завершится в конце 2025 года, имеет много общих партнеров с OpenEuroLLM, за исключением партнеров из Великобритании.
Хайич рассматривает HPLT как предшественника OpenEuroLLM, отмечая, что он обеспечивает прочную основу в виде данных, экспертизы, инструментов и опыта вычислений. Он ожидает выпуска первых версий OpenEuroLLM к середине 2026 года, а финальные версии — к завершению проекта в 2028 году. Однако профиль проекта на GitHub остается скудным, что указывает на начало с нуля в некоторых аспектах. Хайич упомянул, что проект официально начался 1 февраля 2024 года после года подготовки.
Консорциум OpenEuroLLM включает организации из Чехии, Нидерландов, Германии, Швеции, Финляндии и Норвегии, а также корпоративные структуры, такие как Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering и LightOn. Примечательно отсутствие Mistral, французского ИИ-единорога, несмотря на попытки Хайича вовлечь их в обсуждения.
Цели и результаты
Основная цель проекта — создание серии базовых моделей для прозрачного ИИ в Европе, сохраняющего языковое и культурное разнообразие всех языков ЕС, как текущих, так и будущих. Результаты еще уточняются, но ожидается, что они будут включать основную многоязычную LLM для задач общего назначения и меньшие, квантованные версии для периферийных приложений, где важна эффективность.
Хайич подчеркнул важность качества, заявив, что проект стремится избежать выпуска недоработанных решений, учитывая высокие ставки и государственное финансирование. Достижение одинакового уровня владения всеми языками, особенно теми, у которых ограничены цифровые ресурсы, остается проблемой. Проект планирует использовать эталоны, которые точно представляют эти языки и культуры.
Данные из проекта HPLT, включая набор данных объемом 4,5 петабайта из веб-краулинга и более 20 миллиардов документов, будут использованы, дополненные данными из Common Crawl.
Дилеммы открытого исходного кода
Дискуссия о том, что считать "открытым исходным кодом" в ИИ, продолжается. Open Source Initiative (OSI) определила "ИИ с открытым исходным кодом", но некоторые утверждают, что это должно включать не только модели, но и наборы данных, предварительно обученные модели и веса. OpenEuroLLM стремится быть "по-настоящему открытым", но Хайич признает возможные ограничения из-за европейских законов об авторском праве и ограничений на перераспределение данных. Некоторые тренировочные данные могут остаться конфиденциальными, но доступными для аудита в соответствии с законом ЕС об ИИ.
Пересечение с существующими проектами
Запуск OpenEuroLLM вызвал сравнения с недавно запущенным EuroLLM, который имеет схожие цели и также софинансируется ЕС. EuroLLM, выпустивший первую модель в сентябре и последующую в декабре, вызвал опасения по поводу избыточности и необходимости сотрудничества, а не конкуренции. Андре Мартинс, руководитель исследований в Unbabel, отметил эти сходства в социальных сетях, призывая к открытому сотрудничеству между различными сообществами.
Хайич признал неудачное пересечение, но выразил надежду на сотрудничество, отметив, что ограничения финансирования OpenEuroLLM ограничивают сотрудничество с неевропейскими организациями, включая университеты Великобритании.
Финансирование и ожидания
Появление DeepSeek из Китая с его многообещающим соотношением стоимости и производительности вызвало вопросы о реальных затратах на создание моделей ИИ. Питер Сарлин, технический со-руководитель OpenEuroLLM, отметил отсутствие подробной информации о разработке DeepSeek, но остается уверенным в финансировании OpenEuroLLM, которое в основном покрывает расходы на персонал. Расходы на вычисления, как ожидается, будут покрыты центрами EuroHPC.
Сарлин подчеркнул, что OpenEuroLLM не стремится создать потребительский или корпоративный продукт, а скорее предоставить модель с открытым исходным кодом как инфраструктуру ИИ для европейских компаний. Он считает, что выделенный бюджет достаточен для этой цели, опираясь на свой опыт в Silo AI, которая уже разработала модели, поддерживающие несколько европейских языков, и готовится к запуску моделей "Europa", охватывающих все европейские языки.
Цифровой суверенитет и сотрудничество
Несмотря на вызовы и критику, Хайич остается оптимистичным в отношении потенциала совместных проектов, таких как OpenEuroLLM. Он считает, что объединение академической экспертизы с корпоративным фокусом может привести к инновационным результатам. Конечная цель — не конкурировать с крупными технологическими компаниями или стартапами ИИ стоимостью в миллиарды долларов, а укреплять цифровой суверенитет Европы путем разработки базовых LLM, созданных в Европе и для Европы.
Даже если OpenEuroLLM не создаст модель с наивысшей производительностью, Хайич видит ценность в создании "хорошей" модели, полностью базирующейся в Европе, что позитивно способствует технологической автономии континента.
AIGCPanel 2.0.0 — крупное обновление: движок рабочих процессов открывает новую эру автоматизированного создания цифровых персонажей
AIGCPanel, мощный инструмент для создания локальных цифровых персонажей, только что выпустил версию 2.0.0, которую называют «самым значительным обновлением на сегодняшний день». Эта радикальная перера
BuzzFeed открывает дочернюю компанию по разработке бесполезных приложений на базе ИИ
На фоне серьезного кризиса в сфере бизнеса бывший гигант цифровых медиа BuzzFeed запускает амбициозный эксперимент по самоспасению с использованием искусственного интеллекта. На недавней конференции S
Режим для взрослых в ChatGPT снова отложен; Ультрамен: в первую очередь — интеллект
OpenAI вновь откладывает запуск спорной функции, сосредоточившись на персонализации и проактивном взаимодействииВопрос о том, должен ли «неуместный контент» быть частью продуктивного инструмента ИИ, у
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊











