Open Source LLMs in der digitalen Souveränitäts -Roadmap in Europa enthalten

Letzte Woche erhielt die Agenda für digitale Souveränität Europas einen bedeutenden Schub durch die Ankündigung einer neuen Initiative, die darauf abzielt, eine Reihe vollständig quelloffener großer Sprachmodelle (LLMs) zu entwickeln, die alle Sprachen der Europäischen Union abdecken. Dieses ambitionierte Projekt, genannt OpenEuroLLM, zielt nicht nur auf die 24 offiziellen EU-Sprachen ab, sondern erstreckt sich auch auf Sprachen von Ländern, die über einen EU-Beitritt verhandeln, wie Albanien, und legt damit Wert auf Zukunftssicherheit.
OpenEuroLLM ist eine gemeinschaftliche Anstrengung von etwa 20 Organisationen, die von Jan Hajič, einem Computerlinguisten der Karls-Universität in Prag, und Peter Sarlin, dem CEO und Mitbegründer des finnischen KI-Labors Silo AI, das letztes Jahr von AMD für 665 Millionen Dollar übernommen wurde, gemeinsam geleitet wird. Diese Initiative steht im Einklang mit Europas breiterem Streben nach digitaler Souveränität und zielt darauf ab, kritische Infrastruktur und Werkzeuge innerhalb des Kontinents zu halten. Dieser Schritt spiegelt die Maßnahmen großer Cloud-Anbieter und KI-Unternehmen wie OpenAI wider, die in lokale Infrastruktur investiert haben, um sicherzustellen, dass EU-Daten auf europäischem Boden bleiben.
Darüber hinaus hat die EU kürzlich einen Vertrag über 11 Milliarden Dollar unterzeichnet, um eine souveräne Satellitenkonstellation zu etablieren und sich als Konkurrent zu Elon Musks Starlink zu positionieren. OpenEuroLLM fügt sich perfekt in diese Narrative ein und konzentriert sich auf die Aufrechterhaltung der technologischen Autonomie Europas.
Finanzierung und Herausforderungen
Trotz seiner ambitionierten Ziele beträgt das für die Entwicklung der Modelle vorgesehene Budget 37,4 Millionen Euro, wovon etwa 20 Millionen Euro aus dem Programm Digitales Europa der EU stammen. Dieser Betrag verblasst im Vergleich zu den Investitionen von KI-Giganten aus der Wirtschaft, obwohl das Gesamtbudget steigt, wenn man die Finanzierung für verwandte Arbeiten berücksichtigt. Ein erheblicher Teil der Ausgaben entfällt auf Rechenleistung, wobei OpenEuroLLM mit den Supercomputerzentren von EuroHPC in Spanien, Italien, Finnland und den Niederlanden zusammenarbeitet, die Teil eines größeren EuroHPC-Projekts im Wert von 7 Milliarden Euro sind.
Die vielfältige Gruppe von Teilnehmern, die von der Wissenschaft bis zu Unternehmen reicht, wirft Fragen zur Machbarkeit des Projekts auf. Anastasia Stasenko, Mitbegründerin des LLM-Unternehmens Pleias, äußerte Skepsis über die Effektivität eines so großen Konsortiums im Vergleich zu agileren, fokussierten privaten KI-Firmen wie Mistral AI und LightOn. Diese kleineren Teams, argumentiert sie, haben eine direktere Verantwortung und können schneller auf Herausforderungen reagieren.
Von Grund auf neu oder auf bestehender Arbeit aufbauen?
Der Ausgangspunkt von OpenEuroLLM ist etwas unklar. Seit 2022 koordiniert Jan Hajič das Projekt High Performance Language Technologies (HPLT), das sich auf die Entwicklung freier und wiederverwendbarer Datensätze, Modelle und Arbeitsabläufe unter Verwendung von Hochleistungsrechenzentren konzentriert. Dieses Projekt, das Ende 2025 enden soll, teilt viele Partner mit OpenEuroLLM, mit Ausnahme derer aus dem Vereinigten Königreich.
Hajič betrachtet HPLT als Vorläufer von OpenEuroLLM und stellt fest, dass es eine solide Grundlage in Daten, Expertise, Werkzeugen und Rechenerfahrung bietet. Er erwartet, dass die ersten Versionen von OpenEuroLLM Mitte 2026 veröffentlicht werden, wobei die finalen Versionen bis zum Abschluss des Projekts im Jahr 2028 erwartet werden. Das GitHub-Profil des Projekts bleibt jedoch dünn, was darauf hindeutet, dass in gewisser Weise von Grund auf neu begonnen wird. Hajič erwähnte, dass das Projekt offiziell am 1. Februar 2024 begann, nach einem Jahr der Vorbereitung.
Das OpenEuroLLM-Konsortium umfasst Organisationen aus Tschechien, den Niederlanden, Deutschland, Schweden, Finnland und Norwegen sowie Unternehmen wie Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering und LightOn. Auffällig abwesend ist Mistral, ein französisches KI-Einhorn, trotz Hajičs Versuchen, sie in Gespräche einzubeziehen.
Ziele und Ergebnisse
Das Hauptziel des Projekts ist die Entwicklung einer Reihe von Basismodellen für transparente KI in Europa, die die sprachliche und kulturelle Vielfalt aller EU-Sprachen, sowohl aktueller als auch zukünftiger, bewahrt. Die Ergebnisse werden noch finalisiert, sollen aber ein zentrales mehrsprachiges LLM für allgemeine Aufgaben sowie kleinere, quantisierte Versionen für Edge-Anwendungen umfassen, bei denen Effizienz entscheidend ist.
Hajič betonte die Bedeutung von Qualität und erklärte, dass das Projekt darauf abzielt, halbfertige Lösungen zu vermeiden, angesichts der hohen Einsätze und der öffentlichen Finanzierung. Eine gleichbleibende Kompetenz in allen Sprachen zu erreichen, insbesondere in solchen mit begrenzten digitalen Ressourcen, bleibt eine Herausforderung. Das Projekt plant, Benchmarks zu verwenden, die diese Sprachen und Kulturen genau repräsentieren.
Daten aus dem HPLT-Projekt, einschließlich eines 4,5-Petabyte-Datensatzes aus Web-Crawls und über 20 Milliarden Dokumenten, werden genutzt, ergänzt durch Daten von Common Crawl.
Opensource-Dilemmata
Die Debatte darüber, was „Open Source“ in der KI ausmacht, ist noch im Gange. Die Open Source Initiative (OSI) hat „Open Source AI“ definiert, aber einige argumentieren, dass dies nicht nur Modelle, sondern auch Datensätze, vortrainierte Modelle und Gewichte umfassen sollte. OpenEuroLLM zielt darauf ab, „wirklich offen“ zu sein, aber Hajič erkennt mögliche Einschränkungen aufgrund europäischer Urheberrechtsgesetze und Datenweiterverbreitungsbeschränkungen an. Einige Trainingsdaten müssen möglicherweise vertraulich bleiben, aber gemäß dem EU AI Act für Audits verfügbar sein.
Überschneidungen mit bestehenden Projekten
Die Einführung von OpenEuroLLM wurde mit dem kürzlich gestarteten EuroLLM verglichen, das ähnliche Ziele verfolgt und ebenfalls von der EU kofinanziert wird. EuroLLM, das im September sein erstes Modell und im Dezember ein Folgemodell veröffentlichte, hat Bedenken hinsichtlich Redundanz und der Notwendigkeit von Zusammenarbeit statt Wettbewerb ausgelöst. Andre Martins, Forschungsleiter bei Unbabel, wies auf sozialen Medien auf diese Ähnlichkeiten hin und forderte eine offene Zusammenarbeit zwischen den verschiedenen Gemeinschaften.
Hajič erkannte die unglückliche Überschneidung an, äußerte jedoch Hoffnung auf Kooperation und stellte fest, dass die Finanzierungsbeschränkungen von OpenEuroLLM die Zusammenarbeit mit Nicht-EU-Organisationen, einschließlich britischer Universitäten, einschränken.
Finanzierung und Erwartungen
Das Aufkommen von Chinas DeepSeek, mit seinem vielversprechenden Kosten-Leistungs-Verhältnis, hat Fragen zu den tatsächlichen Kosten der Entwicklung von KI-Modellen aufgeworfen. Peter Sarlin, technischer Co-Leiter von OpenEuroLLM, wies auf den Mangel an detaillierten Informationen über die Entwicklung von DeepSeek hin, bleibt aber zuversichtlich in die Finanzierung von OpenEuroLLM, die hauptsächlich Personalkosten deckt. Die Rechenkosten sollen von den EuroHPC-Zentren übernommen werden.
Sarlin betonte, dass OpenEuroLLM nicht darauf abzielt, ein Verbraucher- oder Unternehmensprodukt zu schaffen, sondern ein quelloffenes Basismodell als KI-Infrastruktur für europäische Unternehmen bereitzustellen. Er glaubt, dass das zugeteilte Budget für diesen Zweck ausreichend ist und stützt sich auf seine Erfahrung mit Silo AI, das bereits Modelle entwickelt hat, die mehrere europäische Sprachen unterstützen, und sich darauf vorbereitet, die „Europa“-Modelle zu starten, die alle europäischen Sprachen abdecken.
Digitale Souveränität und Zusammenarbeit
Trotz der Herausforderungen und Kritik bleibt Hajič optimistisch hinsichtlich des Potenzials von kollaborativen Projekten wie OpenEuroLLM. Er glaubt, dass die Kombination von akademischer Expertise mit unternehmerischem Fokus zu innovativen Ergebnissen führen könnte. Das ultimative Ziel ist es, nicht mit Big Tech oder milliardenschweren KI-Startups zu konkurrieren, sondern die digitale Souveränität Europas zu stärken, indem Basismodelle entwickelt werden, die von und für Europa gebaut werden.
Selbst wenn OpenEuroLLM nicht das leistungsstärkste Modell hervorbringt, sieht Hajič den Wert darin, ein „gutes“ Modell zu haben, das vollständig in Europa ansässig ist und positiv zur technologischen Autonomie des Kontinents beiträgt.
Verwandter Artikel
Könnten Sie mir bitte den Titel des Artikels für die Überarbeitung nennen?
Früher bedeutete das Erstellen eines professionellen Porträtfotos, einen Fotografen zu engagieren, ein Studio zu mieten und mindestens eine Stunde Zeit einzuplanen. Heute versprechen immer mehr KI-ges
ElevenLabs gibt BlackRock, Jamie Foxx und Eva Longoria als neue Investoren bekannt
Das Sprach-KI-Unternehmen ElevenLabs hat weitere Investoren für seine im Februar angekündigte Serie-D-Finanzierungsrunde in Höhe von 500 Millionen US-Dollar bekannt gegeben. Dazu gehören institutionel
OpenAI-Chef Altman kritisiert Anthropic scharf für panikgetriebene Marketingstrategien
Der anhaltende öffentliche Streit zwischen den KI-Marktführern OpenAI und Anthropic hat sich verschärft. Sam Altman, CEO von OpenAI, hat kürzlich in einem Podcast das neueste Sicherheitsmodell seines
Empfehlungen zu verwandten Spezialthemen
Kommentare (23)
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊

Letzte Woche erhielt die Agenda für digitale Souveränität Europas einen bedeutenden Schub durch die Ankündigung einer neuen Initiative, die darauf abzielt, eine Reihe vollständig quelloffener großer Sprachmodelle (LLMs) zu entwickeln, die alle Sprachen der Europäischen Union abdecken. Dieses ambitionierte Projekt, genannt OpenEuroLLM, zielt nicht nur auf die 24 offiziellen EU-Sprachen ab, sondern erstreckt sich auch auf Sprachen von Ländern, die über einen EU-Beitritt verhandeln, wie Albanien, und legt damit Wert auf Zukunftssicherheit.
OpenEuroLLM ist eine gemeinschaftliche Anstrengung von etwa 20 Organisationen, die von Jan Hajič, einem Computerlinguisten der Karls-Universität in Prag, und Peter Sarlin, dem CEO und Mitbegründer des finnischen KI-Labors Silo AI, das letztes Jahr von AMD für 665 Millionen Dollar übernommen wurde, gemeinsam geleitet wird. Diese Initiative steht im Einklang mit Europas breiterem Streben nach digitaler Souveränität und zielt darauf ab, kritische Infrastruktur und Werkzeuge innerhalb des Kontinents zu halten. Dieser Schritt spiegelt die Maßnahmen großer Cloud-Anbieter und KI-Unternehmen wie OpenAI wider, die in lokale Infrastruktur investiert haben, um sicherzustellen, dass EU-Daten auf europäischem Boden bleiben.
Darüber hinaus hat die EU kürzlich einen Vertrag über 11 Milliarden Dollar unterzeichnet, um eine souveräne Satellitenkonstellation zu etablieren und sich als Konkurrent zu Elon Musks Starlink zu positionieren. OpenEuroLLM fügt sich perfekt in diese Narrative ein und konzentriert sich auf die Aufrechterhaltung der technologischen Autonomie Europas.
Finanzierung und Herausforderungen
Trotz seiner ambitionierten Ziele beträgt das für die Entwicklung der Modelle vorgesehene Budget 37,4 Millionen Euro, wovon etwa 20 Millionen Euro aus dem Programm Digitales Europa der EU stammen. Dieser Betrag verblasst im Vergleich zu den Investitionen von KI-Giganten aus der Wirtschaft, obwohl das Gesamtbudget steigt, wenn man die Finanzierung für verwandte Arbeiten berücksichtigt. Ein erheblicher Teil der Ausgaben entfällt auf Rechenleistung, wobei OpenEuroLLM mit den Supercomputerzentren von EuroHPC in Spanien, Italien, Finnland und den Niederlanden zusammenarbeitet, die Teil eines größeren EuroHPC-Projekts im Wert von 7 Milliarden Euro sind.
Die vielfältige Gruppe von Teilnehmern, die von der Wissenschaft bis zu Unternehmen reicht, wirft Fragen zur Machbarkeit des Projekts auf. Anastasia Stasenko, Mitbegründerin des LLM-Unternehmens Pleias, äußerte Skepsis über die Effektivität eines so großen Konsortiums im Vergleich zu agileren, fokussierten privaten KI-Firmen wie Mistral AI und LightOn. Diese kleineren Teams, argumentiert sie, haben eine direktere Verantwortung und können schneller auf Herausforderungen reagieren.
Von Grund auf neu oder auf bestehender Arbeit aufbauen?
Der Ausgangspunkt von OpenEuroLLM ist etwas unklar. Seit 2022 koordiniert Jan Hajič das Projekt High Performance Language Technologies (HPLT), das sich auf die Entwicklung freier und wiederverwendbarer Datensätze, Modelle und Arbeitsabläufe unter Verwendung von Hochleistungsrechenzentren konzentriert. Dieses Projekt, das Ende 2025 enden soll, teilt viele Partner mit OpenEuroLLM, mit Ausnahme derer aus dem Vereinigten Königreich.
Hajič betrachtet HPLT als Vorläufer von OpenEuroLLM und stellt fest, dass es eine solide Grundlage in Daten, Expertise, Werkzeugen und Rechenerfahrung bietet. Er erwartet, dass die ersten Versionen von OpenEuroLLM Mitte 2026 veröffentlicht werden, wobei die finalen Versionen bis zum Abschluss des Projekts im Jahr 2028 erwartet werden. Das GitHub-Profil des Projekts bleibt jedoch dünn, was darauf hindeutet, dass in gewisser Weise von Grund auf neu begonnen wird. Hajič erwähnte, dass das Projekt offiziell am 1. Februar 2024 begann, nach einem Jahr der Vorbereitung.
Das OpenEuroLLM-Konsortium umfasst Organisationen aus Tschechien, den Niederlanden, Deutschland, Schweden, Finnland und Norwegen sowie Unternehmen wie Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering und LightOn. Auffällig abwesend ist Mistral, ein französisches KI-Einhorn, trotz Hajičs Versuchen, sie in Gespräche einzubeziehen.
Ziele und Ergebnisse
Das Hauptziel des Projekts ist die Entwicklung einer Reihe von Basismodellen für transparente KI in Europa, die die sprachliche und kulturelle Vielfalt aller EU-Sprachen, sowohl aktueller als auch zukünftiger, bewahrt. Die Ergebnisse werden noch finalisiert, sollen aber ein zentrales mehrsprachiges LLM für allgemeine Aufgaben sowie kleinere, quantisierte Versionen für Edge-Anwendungen umfassen, bei denen Effizienz entscheidend ist.
Hajič betonte die Bedeutung von Qualität und erklärte, dass das Projekt darauf abzielt, halbfertige Lösungen zu vermeiden, angesichts der hohen Einsätze und der öffentlichen Finanzierung. Eine gleichbleibende Kompetenz in allen Sprachen zu erreichen, insbesondere in solchen mit begrenzten digitalen Ressourcen, bleibt eine Herausforderung. Das Projekt plant, Benchmarks zu verwenden, die diese Sprachen und Kulturen genau repräsentieren.
Daten aus dem HPLT-Projekt, einschließlich eines 4,5-Petabyte-Datensatzes aus Web-Crawls und über 20 Milliarden Dokumenten, werden genutzt, ergänzt durch Daten von Common Crawl.
Opensource-Dilemmata
Die Debatte darüber, was „Open Source“ in der KI ausmacht, ist noch im Gange. Die Open Source Initiative (OSI) hat „Open Source AI“ definiert, aber einige argumentieren, dass dies nicht nur Modelle, sondern auch Datensätze, vortrainierte Modelle und Gewichte umfassen sollte. OpenEuroLLM zielt darauf ab, „wirklich offen“ zu sein, aber Hajič erkennt mögliche Einschränkungen aufgrund europäischer Urheberrechtsgesetze und Datenweiterverbreitungsbeschränkungen an. Einige Trainingsdaten müssen möglicherweise vertraulich bleiben, aber gemäß dem EU AI Act für Audits verfügbar sein.
Überschneidungen mit bestehenden Projekten
Die Einführung von OpenEuroLLM wurde mit dem kürzlich gestarteten EuroLLM verglichen, das ähnliche Ziele verfolgt und ebenfalls von der EU kofinanziert wird. EuroLLM, das im September sein erstes Modell und im Dezember ein Folgemodell veröffentlichte, hat Bedenken hinsichtlich Redundanz und der Notwendigkeit von Zusammenarbeit statt Wettbewerb ausgelöst. Andre Martins, Forschungsleiter bei Unbabel, wies auf sozialen Medien auf diese Ähnlichkeiten hin und forderte eine offene Zusammenarbeit zwischen den verschiedenen Gemeinschaften.
Hajič erkannte die unglückliche Überschneidung an, äußerte jedoch Hoffnung auf Kooperation und stellte fest, dass die Finanzierungsbeschränkungen von OpenEuroLLM die Zusammenarbeit mit Nicht-EU-Organisationen, einschließlich britischer Universitäten, einschränken.
Finanzierung und Erwartungen
Das Aufkommen von Chinas DeepSeek, mit seinem vielversprechenden Kosten-Leistungs-Verhältnis, hat Fragen zu den tatsächlichen Kosten der Entwicklung von KI-Modellen aufgeworfen. Peter Sarlin, technischer Co-Leiter von OpenEuroLLM, wies auf den Mangel an detaillierten Informationen über die Entwicklung von DeepSeek hin, bleibt aber zuversichtlich in die Finanzierung von OpenEuroLLM, die hauptsächlich Personalkosten deckt. Die Rechenkosten sollen von den EuroHPC-Zentren übernommen werden.
Sarlin betonte, dass OpenEuroLLM nicht darauf abzielt, ein Verbraucher- oder Unternehmensprodukt zu schaffen, sondern ein quelloffenes Basismodell als KI-Infrastruktur für europäische Unternehmen bereitzustellen. Er glaubt, dass das zugeteilte Budget für diesen Zweck ausreichend ist und stützt sich auf seine Erfahrung mit Silo AI, das bereits Modelle entwickelt hat, die mehrere europäische Sprachen unterstützen, und sich darauf vorbereitet, die „Europa“-Modelle zu starten, die alle europäischen Sprachen abdecken.
Digitale Souveränität und Zusammenarbeit
Trotz der Herausforderungen und Kritik bleibt Hajič optimistisch hinsichtlich des Potenzials von kollaborativen Projekten wie OpenEuroLLM. Er glaubt, dass die Kombination von akademischer Expertise mit unternehmerischem Fokus zu innovativen Ergebnissen führen könnte. Das ultimative Ziel ist es, nicht mit Big Tech oder milliardenschweren KI-Startups zu konkurrieren, sondern die digitale Souveränität Europas zu stärken, indem Basismodelle entwickelt werden, die von und für Europa gebaut werden.
Selbst wenn OpenEuroLLM nicht das leistungsstärkste Modell hervorbringt, sieht Hajič den Wert darin, ein „gutes“ Modell zu haben, das vollständig in Europa ansässig ist und positiv zur technologischen Autonomie des Kontinents beiträgt.
Könnten Sie mir bitte den Titel des Artikels für die Überarbeitung nennen?
Früher bedeutete das Erstellen eines professionellen Porträtfotos, einen Fotografen zu engagieren, ein Studio zu mieten und mindestens eine Stunde Zeit einzuplanen. Heute versprechen immer mehr KI-ges
ElevenLabs gibt BlackRock, Jamie Foxx und Eva Longoria als neue Investoren bekannt
Das Sprach-KI-Unternehmen ElevenLabs hat weitere Investoren für seine im Februar angekündigte Serie-D-Finanzierungsrunde in Höhe von 500 Millionen US-Dollar bekannt gegeben. Dazu gehören institutionel
OpenAI-Chef Altman kritisiert Anthropic scharf für panikgetriebene Marketingstrategien
Der anhaltende öffentliche Streit zwischen den KI-Marktführern OpenAI und Anthropic hat sich verschärft. Sam Altman, CEO von OpenAI, hat kürzlich in einem Podcast das neueste Sicherheitsmodell seines
A bold plan, but the practicality worries me. Training LLMs for dozens of languages with nuanced cultural contexts sounds massively resource-intensive. Can this truly compete with existing centralized models, or will it be more of a symbolic sovereignty project?
Iniciativa bacana, mas será que a Europa vai conseguir acompanhar o ritmo de IA quando o foco é espalhar os recursos por tantos idiomas? 🤔 Pode ficar defasado antes de ficar pronto...
欧洲在AI基础设施上的自主布局确实明智,开源大语言模型能降低对单一技术供应商的依赖,不过资金和人才招募可能会是现实挑战。希望这个OpenEuroLLM项目能真正考虑小语种使用者的需求,而不仅仅是英法德这些主流语言 🌍
¡Vaya, esto sí es interesante! Un modelo de IA europeo y de código abierto... ¿Será la respuesta a la dependencia tecnológica que tenemos con EE.UU. y China? Me pregunto si realmente tendrá la misma potencia que los modelos cerrados de las grandes empresas. 🤔 Si logran cubrir todos los idiomas de la UE, sería un logro enorme para la diversidad cultural digital. ¡Ojalá vaya más allá de lo político y tenga un impacto real! 😊





Heim






