Open Source LLMs in der digitalen Souveränitäts -Roadmap in Europa enthalten

Letzte Woche erhielt die Agenda für digitale Souveränität Europas einen bedeutenden Schub durch die Ankündigung einer neuen Initiative, die darauf abzielt, eine Reihe vollständig quelloffener großer Sprachmodelle (LLMs) zu entwickeln, die alle Sprachen der Europäischen Union abdecken. Dieses ambitionierte Projekt, genannt OpenEuroLLM, zielt nicht nur auf die 24 offiziellen EU-Sprachen ab, sondern erstreckt sich auch auf Sprachen von Ländern, die über einen EU-Beitritt verhandeln, wie Albanien, und legt damit Wert auf Zukunftssicherheit.
OpenEuroLLM ist eine gemeinschaftliche Anstrengung von etwa 20 Organisationen, die von Jan Hajič, einem Computerlinguisten der Karls-Universität in Prag, und Peter Sarlin, dem CEO und Mitbegründer des finnischen KI-Labors Silo AI, das letztes Jahr von AMD für 665 Millionen Dollar übernommen wurde, gemeinsam geleitet wird. Diese Initiative steht im Einklang mit Europas breiterem Streben nach digitaler Souveränität und zielt darauf ab, kritische Infrastruktur und Werkzeuge innerhalb des Kontinents zu halten. Dieser Schritt spiegelt die Maßnahmen großer Cloud-Anbieter und KI-Unternehmen wie OpenAI wider, die in lokale Infrastruktur investiert haben, um sicherzustellen, dass EU-Daten auf europäischem Boden bleiben.
Darüber hinaus hat die EU kürzlich einen Vertrag über 11 Milliarden Dollar unterzeichnet, um eine souveräne Satellitenkonstellation zu etablieren und sich als Konkurrent zu Elon Musks Starlink zu positionieren. OpenEuroLLM fügt sich perfekt in diese Narrative ein und konzentriert sich auf die Aufrechterhaltung der technologischen Autonomie Europas.
Finanzierung und Herausforderungen
Trotz seiner ambitionierten Ziele beträgt das für die Entwicklung der Modelle vorgesehene Budget 37,4 Millionen Euro, wovon etwa 20 Millionen Euro aus dem Programm Digitales Europa der EU stammen. Dieser Betrag verblasst im Vergleich zu den Investitionen von KI-Giganten aus der Wirtschaft, obwohl das Gesamtbudget steigt, wenn man die Finanzierung für verwandte Arbeiten berücksichtigt. Ein erheblicher Teil der Ausgaben entfällt auf Rechenleistung, wobei OpenEuroLLM mit den Supercomputerzentren von EuroHPC in Spanien, Italien, Finnland und den Niederlanden zusammenarbeitet, die Teil eines größeren EuroHPC-Projekts im Wert von 7 Milliarden Euro sind.
Die vielfältige Gruppe von Teilnehmern, die von der Wissenschaft bis zu Unternehmen reicht, wirft Fragen zur Machbarkeit des Projekts auf. Anastasia Stasenko, Mitbegründerin des LLM-Unternehmens Pleias, äußerte Skepsis über die Effektivität eines so großen Konsortiums im Vergleich zu agileren, fokussierten privaten KI-Firmen wie Mistral AI und LightOn. Diese kleineren Teams, argumentiert sie, haben eine direktere Verantwortung und können schneller auf Herausforderungen reagieren.
Von Grund auf neu oder auf bestehender Arbeit aufbauen?
Der Ausgangspunkt von OpenEuroLLM ist etwas unklar. Seit 2022 koordiniert Jan Hajič das Projekt High Performance Language Technologies (HPLT), das sich auf die Entwicklung freier und wiederverwendbarer Datensätze, Modelle und Arbeitsabläufe unter Verwendung von Hochleistungsrechenzentren konzentriert. Dieses Projekt, das Ende 2025 enden soll, teilt viele Partner mit OpenEuroLLM, mit Ausnahme derer aus dem Vereinigten Königreich.
Hajič betrachtet HPLT als Vorläufer von OpenEuroLLM und stellt fest, dass es eine solide Grundlage in Daten, Expertise, Werkzeugen und Rechenerfahrung bietet. Er erwartet, dass die ersten Versionen von OpenEuroLLM Mitte 2026 veröffentlicht werden, wobei die finalen Versionen bis zum Abschluss des Projekts im Jahr 2028 erwartet werden. Das GitHub-Profil des Projekts bleibt jedoch dünn, was darauf hindeutet, dass in gewisser Weise von Grund auf neu begonnen wird. Hajič erwähnte, dass das Projekt offiziell am 1. Februar 2024 begann, nach einem Jahr der Vorbereitung.
Das OpenEuroLLM-Konsortium umfasst Organisationen aus Tschechien, den Niederlanden, Deutschland, Schweden, Finnland und Norwegen sowie Unternehmen wie Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering und LightOn. Auffällig abwesend ist Mistral, ein französisches KI-Einhorn, trotz Hajičs Versuchen, sie in Gespräche einzubeziehen.
Ziele und Ergebnisse
Das Hauptziel des Projekts ist die Entwicklung einer Reihe von Basismodellen für transparente KI in Europa, die die sprachliche und kulturelle Vielfalt aller EU-Sprachen, sowohl aktueller als auch zukünftiger, bewahrt. Die Ergebnisse werden noch finalisiert, sollen aber ein zentrales mehrsprachiges LLM für allgemeine Aufgaben sowie kleinere, quantisierte Versionen für Edge-Anwendungen umfassen, bei denen Effizienz entscheidend ist.
Hajič betonte die Bedeutung von Qualität und erklärte, dass das Projekt darauf abzielt, halbfertige Lösungen zu vermeiden, angesichts der hohen Einsätze und der öffentlichen Finanzierung. Eine gleichbleibende Kompetenz in allen Sprachen zu erreichen, insbesondere in solchen mit begrenzten digitalen Ressourcen, bleibt eine Herausforderung. Das Projekt plant, Benchmarks zu verwenden, die diese Sprachen und Kulturen genau repräsentieren.
Daten aus dem HPLT-Projekt, einschließlich eines 4,5-Petabyte-Datensatzes aus Web-Crawls und über 20 Milliarden Dokumenten, werden genutzt, ergänzt durch Daten von Common Crawl.
Opensource-Dilemmata
Die Debatte darüber, was „Open Source“ in der KI ausmacht, ist noch im Gange. Die Open Source Initiative (OSI) hat „Open Source AI“ definiert, aber einige argumentieren, dass dies nicht nur Modelle, sondern auch Datensätze, vortrainierte Modelle und Gewichte umfassen sollte. OpenEuroLLM zielt darauf ab, „wirklich offen“ zu sein, aber Hajič erkennt mögliche Einschränkungen aufgrund europäischer Urheberrechtsgesetze und Datenweiterverbreitungsbeschränkungen an. Einige Trainingsdaten müssen möglicherweise vertraulich bleiben, aber gemäß dem EU AI Act für Audits verfügbar sein.
Überschneidungen mit bestehenden Projekten
Die Einführung von OpenEuroLLM wurde mit dem kürzlich gestarteten EuroLLM verglichen, das ähnliche Ziele verfolgt und ebenfalls von der EU kofinanziert wird. EuroLLM, das im September sein erstes Modell und im Dezember ein Folgemodell veröffentlichte, hat Bedenken hinsichtlich Redundanz und der Notwendigkeit von Zusammenarbeit statt Wettbewerb ausgelöst. Andre Martins, Forschungsleiter bei Unbabel, wies auf sozialen Medien auf diese Ähnlichkeiten hin und forderte eine offene Zusammenarbeit zwischen den verschiedenen Gemeinschaften.
Hajič erkannte die unglückliche Überschneidung an, äußerte jedoch Hoffnung auf Kooperation und stellte fest, dass die Finanzierungsbeschränkungen von OpenEuroLLM die Zusammenarbeit mit Nicht-EU-Organisationen, einschließlich britischer Universitäten, einschränken.
Finanzierung und Erwartungen
Das Aufkommen von Chinas DeepSeek, mit seinem vielversprechenden Kosten-Leistungs-Verhältnis, hat Fragen zu den tatsächlichen Kosten der Entwicklung von KI-Modellen aufgeworfen. Peter Sarlin, technischer Co-Leiter von OpenEuroLLM, wies auf den Mangel an detaillierten Informationen über die Entwicklung von DeepSeek hin, bleibt aber zuversichtlich in die Finanzierung von OpenEuroLLM, die hauptsächlich Personalkosten deckt. Die Rechenkosten sollen von den EuroHPC-Zentren übernommen werden.
Sarlin betonte, dass OpenEuroLLM nicht darauf abzielt, ein Verbraucher- oder Unternehmensprodukt zu schaffen, sondern ein quelloffenes Basismodell als KI-Infrastruktur für europäische Unternehmen bereitzustellen. Er glaubt, dass das zugeteilte Budget für diesen Zweck ausreichend ist und stützt sich auf seine Erfahrung mit Silo AI, das bereits Modelle entwickelt hat, die mehrere europäische Sprachen unterstützen, und sich darauf vorbereitet, die „Europa“-Modelle zu starten, die alle europäischen Sprachen abdecken.
Digitale Souveränität und Zusammenarbeit
Trotz der Herausforderungen und Kritik bleibt Hajič optimistisch hinsichtlich des Potenzials von kollaborativen Projekten wie OpenEuroLLM. Er glaubt, dass die Kombination von akademischer Expertise mit unternehmerischem Fokus zu innovativen Ergebnissen führen könnte. Das ultimative Ziel ist es, nicht mit Big Tech oder milliardenschweren KI-Startups zu konkurrieren, sondern die digitale Souveränität Europas zu stärken, indem Basismodelle entwickelt werden, die von und für Europa gebaut werden.
Selbst wenn OpenEuroLLM nicht das leistungsstärkste Modell hervorbringt, sieht Hajič den Wert darin, ein „gutes“ Modell zu haben, das vollständig in Europa ansässig ist und positiv zur technologischen Autonomie des Kontinents beiträgt.
Verwandter Artikel
USA verhängen Sanktionen gegen ausländische Beamte wegen Social-Media-Vorschriften
USA stellen sich gegen globale Regelungen für digitale InhalteDas US-Außenministerium hat diese Woche eine scharfe diplomatische Rüge gegen die europäische Politik zur Kontrolle digitaler Inhalte au
Ultimativer Leitfaden für KI-gestützte YouTube-Videozusammenfassungen
In unserer informationsreichen digitalen Landschaft sind KI-gestützte YouTube-Videozusammenfassungen für den effizienten Konsum von Inhalten unverzichtbar geworden. Dieser ausführliche Leitfaden zeigt
Atlassian erwirbt The Browser Company für 610 Millionen Dollar, um Entwickler-Tools zu verbessern
Atlassian, der führende Anbieter von Unternehmensproduktivitätssoftware, hat Pläne zur Übernahme des innovativen Browser-Entwicklers The Browser Company im Rahmen einer bar bezahlten Transaktion im We
Kommentare (18)
0/200
StevenMartin
16. August 2025 19:00:59 MESZ
Wow, OpenEuroLLM sounds like a game-changer for Europe's tech scene! Building LLMs for all EU languages is ambitious—imagine the boost for local AI startups. But can they keep up with the big players like OpenAI? 🤔
0
PaulHill
7. August 2025 20:01:06 MESZ
Super cool to see Europe pushing for open-source LLMs! Can't wait to see how OpenEuroLLM handles all those languages. 🌍
0
ElijahCollins
23. Juli 2025 06:59:29 MESZ
Wow, OpenEuroLLM sounds like a game-changer for Europe’s tech scene! Building open-source LLMs for all EU languages is ambitious—imagine the possibilities for local businesses and multilingual AI apps. But I wonder, will they keep up with the pace of global AI giants? 🤔
0
PeterYoung
22. April 2025 05:11:01 MESZ
OpenEuroLLM sounds like a game-changer for Europe! Finally, we're getting open-source LLMs that cover all EU languages. It's about time we took control of our digital future. Can't wait to see how this develops! 🚀
0
CharlesThomas
22. April 2025 02:18:24 MESZ
オープンソースのLLMがEU全言語に対応するなんて素晴らしい!これでデジタルの未来を自分たちでコントロールできるようになるね。どう発展していくか楽しみだよ!🌟
0
MatthewGonzalez
22. April 2025 02:16:04 MESZ
OpenEuroLLM parece ser uma grande mudança para a Europa! Finalmente, LLMs de código aberto que cobrem todos os idiomas da UE. Está na hora de assumirmos o controle do nosso futuro digital. Mal posso esperar para ver como isso vai se desenvolver! 🚀
0
Letzte Woche erhielt die Agenda für digitale Souveränität Europas einen bedeutenden Schub durch die Ankündigung einer neuen Initiative, die darauf abzielt, eine Reihe vollständig quelloffener großer Sprachmodelle (LLMs) zu entwickeln, die alle Sprachen der Europäischen Union abdecken. Dieses ambitionierte Projekt, genannt OpenEuroLLM, zielt nicht nur auf die 24 offiziellen EU-Sprachen ab, sondern erstreckt sich auch auf Sprachen von Ländern, die über einen EU-Beitritt verhandeln, wie Albanien, und legt damit Wert auf Zukunftssicherheit.
OpenEuroLLM ist eine gemeinschaftliche Anstrengung von etwa 20 Organisationen, die von Jan Hajič, einem Computerlinguisten der Karls-Universität in Prag, und Peter Sarlin, dem CEO und Mitbegründer des finnischen KI-Labors Silo AI, das letztes Jahr von AMD für 665 Millionen Dollar übernommen wurde, gemeinsam geleitet wird. Diese Initiative steht im Einklang mit Europas breiterem Streben nach digitaler Souveränität und zielt darauf ab, kritische Infrastruktur und Werkzeuge innerhalb des Kontinents zu halten. Dieser Schritt spiegelt die Maßnahmen großer Cloud-Anbieter und KI-Unternehmen wie OpenAI wider, die in lokale Infrastruktur investiert haben, um sicherzustellen, dass EU-Daten auf europäischem Boden bleiben.
Darüber hinaus hat die EU kürzlich einen Vertrag über 11 Milliarden Dollar unterzeichnet, um eine souveräne Satellitenkonstellation zu etablieren und sich als Konkurrent zu Elon Musks Starlink zu positionieren. OpenEuroLLM fügt sich perfekt in diese Narrative ein und konzentriert sich auf die Aufrechterhaltung der technologischen Autonomie Europas.
Finanzierung und Herausforderungen
Trotz seiner ambitionierten Ziele beträgt das für die Entwicklung der Modelle vorgesehene Budget 37,4 Millionen Euro, wovon etwa 20 Millionen Euro aus dem Programm Digitales Europa der EU stammen. Dieser Betrag verblasst im Vergleich zu den Investitionen von KI-Giganten aus der Wirtschaft, obwohl das Gesamtbudget steigt, wenn man die Finanzierung für verwandte Arbeiten berücksichtigt. Ein erheblicher Teil der Ausgaben entfällt auf Rechenleistung, wobei OpenEuroLLM mit den Supercomputerzentren von EuroHPC in Spanien, Italien, Finnland und den Niederlanden zusammenarbeitet, die Teil eines größeren EuroHPC-Projekts im Wert von 7 Milliarden Euro sind.
Die vielfältige Gruppe von Teilnehmern, die von der Wissenschaft bis zu Unternehmen reicht, wirft Fragen zur Machbarkeit des Projekts auf. Anastasia Stasenko, Mitbegründerin des LLM-Unternehmens Pleias, äußerte Skepsis über die Effektivität eines so großen Konsortiums im Vergleich zu agileren, fokussierten privaten KI-Firmen wie Mistral AI und LightOn. Diese kleineren Teams, argumentiert sie, haben eine direktere Verantwortung und können schneller auf Herausforderungen reagieren.
Von Grund auf neu oder auf bestehender Arbeit aufbauen?
Der Ausgangspunkt von OpenEuroLLM ist etwas unklar. Seit 2022 koordiniert Jan Hajič das Projekt High Performance Language Technologies (HPLT), das sich auf die Entwicklung freier und wiederverwendbarer Datensätze, Modelle und Arbeitsabläufe unter Verwendung von Hochleistungsrechenzentren konzentriert. Dieses Projekt, das Ende 2025 enden soll, teilt viele Partner mit OpenEuroLLM, mit Ausnahme derer aus dem Vereinigten Königreich.
Hajič betrachtet HPLT als Vorläufer von OpenEuroLLM und stellt fest, dass es eine solide Grundlage in Daten, Expertise, Werkzeugen und Rechenerfahrung bietet. Er erwartet, dass die ersten Versionen von OpenEuroLLM Mitte 2026 veröffentlicht werden, wobei die finalen Versionen bis zum Abschluss des Projekts im Jahr 2028 erwartet werden. Das GitHub-Profil des Projekts bleibt jedoch dünn, was darauf hindeutet, dass in gewisser Weise von Grund auf neu begonnen wird. Hajič erwähnte, dass das Projekt offiziell am 1. Februar 2024 begann, nach einem Jahr der Vorbereitung.
Das OpenEuroLLM-Konsortium umfasst Organisationen aus Tschechien, den Niederlanden, Deutschland, Schweden, Finnland und Norwegen sowie Unternehmen wie Silo AI, Aleph Alpha, Ellamind, Prompsit Language Engineering und LightOn. Auffällig abwesend ist Mistral, ein französisches KI-Einhorn, trotz Hajičs Versuchen, sie in Gespräche einzubeziehen.
Ziele und Ergebnisse
Das Hauptziel des Projekts ist die Entwicklung einer Reihe von Basismodellen für transparente KI in Europa, die die sprachliche und kulturelle Vielfalt aller EU-Sprachen, sowohl aktueller als auch zukünftiger, bewahrt. Die Ergebnisse werden noch finalisiert, sollen aber ein zentrales mehrsprachiges LLM für allgemeine Aufgaben sowie kleinere, quantisierte Versionen für Edge-Anwendungen umfassen, bei denen Effizienz entscheidend ist.
Hajič betonte die Bedeutung von Qualität und erklärte, dass das Projekt darauf abzielt, halbfertige Lösungen zu vermeiden, angesichts der hohen Einsätze und der öffentlichen Finanzierung. Eine gleichbleibende Kompetenz in allen Sprachen zu erreichen, insbesondere in solchen mit begrenzten digitalen Ressourcen, bleibt eine Herausforderung. Das Projekt plant, Benchmarks zu verwenden, die diese Sprachen und Kulturen genau repräsentieren.
Daten aus dem HPLT-Projekt, einschließlich eines 4,5-Petabyte-Datensatzes aus Web-Crawls und über 20 Milliarden Dokumenten, werden genutzt, ergänzt durch Daten von Common Crawl.
Opensource-Dilemmata
Die Debatte darüber, was „Open Source“ in der KI ausmacht, ist noch im Gange. Die Open Source Initiative (OSI) hat „Open Source AI“ definiert, aber einige argumentieren, dass dies nicht nur Modelle, sondern auch Datensätze, vortrainierte Modelle und Gewichte umfassen sollte. OpenEuroLLM zielt darauf ab, „wirklich offen“ zu sein, aber Hajič erkennt mögliche Einschränkungen aufgrund europäischer Urheberrechtsgesetze und Datenweiterverbreitungsbeschränkungen an. Einige Trainingsdaten müssen möglicherweise vertraulich bleiben, aber gemäß dem EU AI Act für Audits verfügbar sein.
Überschneidungen mit bestehenden Projekten
Die Einführung von OpenEuroLLM wurde mit dem kürzlich gestarteten EuroLLM verglichen, das ähnliche Ziele verfolgt und ebenfalls von der EU kofinanziert wird. EuroLLM, das im September sein erstes Modell und im Dezember ein Folgemodell veröffentlichte, hat Bedenken hinsichtlich Redundanz und der Notwendigkeit von Zusammenarbeit statt Wettbewerb ausgelöst. Andre Martins, Forschungsleiter bei Unbabel, wies auf sozialen Medien auf diese Ähnlichkeiten hin und forderte eine offene Zusammenarbeit zwischen den verschiedenen Gemeinschaften.
Hajič erkannte die unglückliche Überschneidung an, äußerte jedoch Hoffnung auf Kooperation und stellte fest, dass die Finanzierungsbeschränkungen von OpenEuroLLM die Zusammenarbeit mit Nicht-EU-Organisationen, einschließlich britischer Universitäten, einschränken.
Finanzierung und Erwartungen
Das Aufkommen von Chinas DeepSeek, mit seinem vielversprechenden Kosten-Leistungs-Verhältnis, hat Fragen zu den tatsächlichen Kosten der Entwicklung von KI-Modellen aufgeworfen. Peter Sarlin, technischer Co-Leiter von OpenEuroLLM, wies auf den Mangel an detaillierten Informationen über die Entwicklung von DeepSeek hin, bleibt aber zuversichtlich in die Finanzierung von OpenEuroLLM, die hauptsächlich Personalkosten deckt. Die Rechenkosten sollen von den EuroHPC-Zentren übernommen werden.
Sarlin betonte, dass OpenEuroLLM nicht darauf abzielt, ein Verbraucher- oder Unternehmensprodukt zu schaffen, sondern ein quelloffenes Basismodell als KI-Infrastruktur für europäische Unternehmen bereitzustellen. Er glaubt, dass das zugeteilte Budget für diesen Zweck ausreichend ist und stützt sich auf seine Erfahrung mit Silo AI, das bereits Modelle entwickelt hat, die mehrere europäische Sprachen unterstützen, und sich darauf vorbereitet, die „Europa“-Modelle zu starten, die alle europäischen Sprachen abdecken.
Digitale Souveränität und Zusammenarbeit
Trotz der Herausforderungen und Kritik bleibt Hajič optimistisch hinsichtlich des Potenzials von kollaborativen Projekten wie OpenEuroLLM. Er glaubt, dass die Kombination von akademischer Expertise mit unternehmerischem Fokus zu innovativen Ergebnissen führen könnte. Das ultimative Ziel ist es, nicht mit Big Tech oder milliardenschweren KI-Startups zu konkurrieren, sondern die digitale Souveränität Europas zu stärken, indem Basismodelle entwickelt werden, die von und für Europa gebaut werden.
Selbst wenn OpenEuroLLM nicht das leistungsstärkste Modell hervorbringt, sieht Hajič den Wert darin, ein „gutes“ Modell zu haben, das vollständig in Europa ansässig ist und positiv zur technologischen Autonomie des Kontinents beiträgt.




Wow, OpenEuroLLM sounds like a game-changer for Europe's tech scene! Building LLMs for all EU languages is ambitious—imagine the boost for local AI startups. But can they keep up with the big players like OpenAI? 🤔




Super cool to see Europe pushing for open-source LLMs! Can't wait to see how OpenEuroLLM handles all those languages. 🌍




Wow, OpenEuroLLM sounds like a game-changer for Europe’s tech scene! Building open-source LLMs for all EU languages is ambitious—imagine the possibilities for local businesses and multilingual AI apps. But I wonder, will they keep up with the pace of global AI giants? 🤔




OpenEuroLLM sounds like a game-changer for Europe! Finally, we're getting open-source LLMs that cover all EU languages. It's about time we took control of our digital future. Can't wait to see how this develops! 🚀




オープンソースのLLMがEU全言語に対応するなんて素晴らしい!これでデジタルの未来を自分たちでコントロールできるようになるね。どう発展していくか楽しみだよ!🌟




OpenEuroLLM parece ser uma grande mudança para a Europa! Finalmente, LLMs de código aberto que cobrem todos os idiomas da UE. Está na hora de assumirmos o controle do nosso futuro digital. Mal posso esperar para ver como isso vai se desenvolver! 🚀












