Das Open Source Seed-OSS-36B Modell von ByteDance unterstützt 512K Token-Kontext

TikTok ist wieder einmal in den Schlagzeilen, nachdem das Weiße Haus der beliebten Social-Media-Plattform beigetreten ist, aber auch die Muttergesellschaft ByteDance, ein großes chinesisches Tech-Unternehmen, hatte eine überraschende Ankündigung.
Die KI-Forschungsabteilung des Unternehmens, das Seed Team, hat heute Seed-OSS-36B auf dem KI-Code-Repository Hugging Face veröffentlicht.
Seed-OSS-36B ist eine neue Serie von Open-Source-Großsprachmodellen (LLMs), die für ausgefeilte Schlussfolgerungen und eine entwicklerfreundliche Nutzung entwickelt wurden und einen längeren Token-Kontext aufweisen als viele konkurrierende Modelle, die in den USA entwickelt wurden - einschließlich der führenden Modelle von OpenAI und Anthropic.
Die Sammlung umfasst drei Hauptvarianten:
- Seed-OSS-36B-Base mit synthetischen Daten
- Seed-OSS-36B-Base ohne synthetische Daten
- Seed-OSS-36B-Instruct
Durch die Veröffentlichung sowohl synthetischer als auch nicht-synthetischer Versionen des Seed-OSS-36B-Base-Modells wollte das Seed-Team ein Gleichgewicht zwischen der Leistung in der realen Welt und der Anpassungsfähigkeit in der Forschung herstellen.
Die Version mit synthetischen Daten, die mit zusätzlichen Instruktionsdaten trainiert wurde, erzielt bessere Ergebnisse bei etablierten Benchmarks und ist als leistungsstärkeres Allzweckmodell gedacht.
Das nicht-synthetische Modell hingegen verzichtet auf diese Erweiterungen und bietet eine klarere Grundlage, die mögliche Verzerrungen durch synthetische Anweisungsdaten reduziert.
Durch die Bereitstellung beider Varianten bietet das Team den praktischen Anwendern verbesserte Ergebnisse und den Forschern eine unverfälschte Grundlage für die Untersuchung von Nachschulungstechniken.
Das Modell Seed-OSS-36B-Instruct wird anhand von Anweisungsdaten nachtrainiert und konzentriert sich auf die Ausführung von Aufgaben und die Einhaltung von Anweisungen, anstatt nur als Basismodell zu dienen.
Alle drei Modelle stehen unter der Apache-2.0-Lizenz, die die freie Nutzung, Änderung und Weitergabe durch Forscher und Entwickler in Unternehmen ermöglicht.
Das bedeutet, dass sie in kommerzielle Anwendungen integriert werden können, sei es für interne Abläufe oder kundenorientierte Dienste, ohne dass ByteDance Lizenz- oder API-Gebühren erhebt.
Damit folgt ByteDance dem Mitte 2025 zu beobachtenden Trend, dass chinesische Unternehmen fortschrittliche Open-Source-Modelle auf den Markt bringen, während OpenAI daran arbeitet, mit seinem eigenen, kürzlich veröffentlichten Open-Source-Duett gpt-oss Schritt zu halten.
Das Seed-Team hat Seed-OSS für den globalen Einsatz konzipiert und dabei seine Anpassungsfähigkeit bei der Argumentation, aufgabenorientierte Funktionen und mehrsprachige Umgebungen hervorgehoben.
Das im Jahr 2023 gegründete Seed-Team hat sich auf die Entwicklung grundlegender Modelle konzentriert, die sowohl für die Forschung als auch für praktische Anwendungen geeignet sind.
Aufbau und Hauptmerkmale
Die Struktur von Seed-OSS-36B umfasst anerkannte Designelemente wie kausale Sprachmodellierung, gruppierte Abfrageaufmerksamkeit, SwiGLU-Aktivierung, RMSNorm und RoPE-Positionskodierung.
Jedes Modell enthält 36 Milliarden Parameter, die auf 64 Schichten verteilt sind, und unterstützt ein Vokabular von 155.000 Token.
Ein charakteristisches Merkmal ist die inhärente Kapazität für lange Kontexte, die bis zu 512.000 Token für die Verarbeitung langer Dokumente und logischer Sequenzen ohne Verschlechterung unterstützt.
Diese Kapazität ist doppelt so hoch wie die der neuen GPT-5-Familie von OpenAI und entspricht in etwa der Länge von 1.600 Textseiten, was in etwa dem Umfang der christlichen Bibel entspricht.
Ein weiteres herausragendes Merkmal ist das Denkbudget, das es den Entwicklern ermöglicht, den Umfang der Überlegungen festzulegen, die das Modell anstellt, bevor es eine Antwort erzeugt.
Ein ähnlicher Mechanismus findet sich in anderen aktuellen Open-Source-Versionen, darunter Nvidias Nemotron-Nano-9B-v2, das ebenfalls über Hugging Face zugänglich ist.
In der Praxis ermöglicht dies den Teams, die Leistung auf der Grundlage der Komplexität der Aufgabe und der erforderlichen Effizienz der Bereitstellung zu kalibrieren.
Die Budgetwerte werden in Vielfachen von 512 Token angegeben, wobei 0 einen direkten Reaktionsmodus ermöglicht.
Konkurrenzfähige Leistung bei Benchmarks Dritter
Veröffentlichte Benchmark-Ergebnisse platzieren Seed-OSS-36B unter den leistungsstärksten großen Open-Source-Modellen. Insbesondere die Instruct-Version erzielt in mehreren Bereichen Spitzenergebnisse.
- Mathematik und logisches Denken: Seed-OSS-36B-Instruct erzielt 91,7 % bei AIME24 und 65 bei BeyondAIME, was jeweils dem Stand der Technik bei Open-Source-Modellen (SOTA) entspricht.
- Codierung: Auf LiveCodeBench v6 erreicht das Instruct-Modell 67,4, eine weitere SOTA-Marke.
- Fähigkeit zu langem Kontext: Bei RULER mit 128K Kontextlänge erreicht es 94,6, das höchste gemeldete Open-Source-Ergebnis.
- Leistung des Basismodells: Die Base-Variante mit synthetischen Daten erreicht 65,1 Punkte bei MMLU-Pro und 81,7 Punkte bei MATH - beides führende Ergebnisse in ihren Kategorien.
Das nicht-synthetische Basismodell liegt zwar bei mehreren Metriken leicht zurück, ist aber dennoch wettbewerbsfähig.
Es übertrifft die synthetische Version bei GPQA-D und bietet Forschern eine sauberere, anweisungsneutrale Basis für Tests.
Für Unternehmen, die offene Alternativen evaluieren, zeigen diese Ergebnisse, dass Seed-OSS vielversprechend für mathematikintensive, kodierende und kontextreiche Anwendungen ist und gleichzeitig die Flexibilität für Forschungsszenarien bewahrt.
Zugang und Einsatz
Neben der Leistung legt das Seed-Team auch großen Wert auf die Zugänglichkeit für Entwickler. Die Modelle können über Hugging Face Transformers bereitgestellt werden, wobei die Quantisierung in 4-Bit- und 8-Bit-Formaten erfolgt, um den Speicherbedarf zu minimieren.
Sie lassen sich auch in vLLM integrieren, um eine skalierbare Bereitstellung zu ermöglichen, einschließlich Einrichtungsbeispielen und API-Server-Richtlinien.
Um die Einführung weiter zu vereinfachen, stellt das Team Skripte für die Inferenz, die Anpassung von Eingabeaufforderungen und die Toolintegration bereit.
Für technische Leiter, die kleine Teams leiten oder mit begrenzten Budgets arbeiten, machen diese Ressourcen das Experimentieren mit 36-Milliarden-Parameter-Modellen leichter machbar.
Lizenzierung und Überlegungen für Entscheidungsträger in Unternehmen
Da diese Modelle unter Apache-2.0 verfügbar sind, können sie ohne restriktive Lizenzierung eingesetzt werden - ein wesentlicher Vorteil für Teams, die rechtliche und betriebliche Faktoren abwägen.
Für Führungskräfte, die das Open-Source-Ökosystem bewerten, hebt diese Veröffentlichung drei wichtige Punkte hervor:
- Erstklassige Benchmark-Ergebnisse in den Bereichen Mathematik, Kodierung und Argumentation in langen Kontexten,
- ein ausgewogenes Verhältnis zwischen leistungsstarken, synthetisch trainierten Modellen und unvoreingenommenen Forschungsgrundlagen.
- Zugänglichkeitsfunktionen, die die betriebliche Komplexität für rationalisierte Entwicklungseinheiten reduzieren.
Durch die Kombination von hoher Leistung und anpassungsfähigem Einsatz unter einer offenen Lizenz hat das Seed-Team von ByteDance die Möglichkeiten für Unternehmen, Forscher und Entwickler erweitert.
Verwandter Artikel
KI deckt versteckte Absichten in Nachrichteninhalten auf
Modelle im Stil von ChatGPT werden derzeit darauf trainiert, die zugrunde liegende Perspektive eines Nachrichtenartikels aufzudecken – selbst wenn diese Sichtweise hinter Zitaten, Framing oder einer F
TikTok führt Schalter ein, um KI-gestützte Inhalte im Feed zu begrenzen
TikTok, ursprünglich eine Plattform für von Nutzern erstellte Videos, führt eine neue Funktion ein, mit der Nutzer regulieren können, wie viel KI-generierte Inhalte in ihrem „For You”-Feed angezeigt w
Anthropics Claude 4.1 übertrifft GPT-5 bei Coding-Benchmarks vor dessen Markteinführung
Anthropic hat am Montag eine verbesserte Version seines führenden KI-Modells vorgestellt und damit einen neuen Maßstab für die Leistung bei Softwareentwicklungsaufgaben gesetzt. Mit dieser Einführung
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)

TikTok ist wieder einmal in den Schlagzeilen, nachdem das Weiße Haus der beliebten Social-Media-Plattform beigetreten ist, aber auch die Muttergesellschaft ByteDance, ein großes chinesisches Tech-Unternehmen, hatte eine überraschende Ankündigung.
Die KI-Forschungsabteilung des Unternehmens, das Seed Team, hat heute Seed-OSS-36B auf dem KI-Code-Repository Hugging Face veröffentlicht.
Seed-OSS-36B ist eine neue Serie von Open-Source-Großsprachmodellen (LLMs), die für ausgefeilte Schlussfolgerungen und eine entwicklerfreundliche Nutzung entwickelt wurden und einen längeren Token-Kontext aufweisen als viele konkurrierende Modelle, die in den USA entwickelt wurden - einschließlich der führenden Modelle von OpenAI und Anthropic.
Die Sammlung umfasst drei Hauptvarianten:
- Seed-OSS-36B-Base mit synthetischen Daten
- Seed-OSS-36B-Base ohne synthetische Daten
- Seed-OSS-36B-Instruct
Durch die Veröffentlichung sowohl synthetischer als auch nicht-synthetischer Versionen des Seed-OSS-36B-Base-Modells wollte das Seed-Team ein Gleichgewicht zwischen der Leistung in der realen Welt und der Anpassungsfähigkeit in der Forschung herstellen.
Die Version mit synthetischen Daten, die mit zusätzlichen Instruktionsdaten trainiert wurde, erzielt bessere Ergebnisse bei etablierten Benchmarks und ist als leistungsstärkeres Allzweckmodell gedacht.
Das nicht-synthetische Modell hingegen verzichtet auf diese Erweiterungen und bietet eine klarere Grundlage, die mögliche Verzerrungen durch synthetische Anweisungsdaten reduziert.
Durch die Bereitstellung beider Varianten bietet das Team den praktischen Anwendern verbesserte Ergebnisse und den Forschern eine unverfälschte Grundlage für die Untersuchung von Nachschulungstechniken.
Das Modell Seed-OSS-36B-Instruct wird anhand von Anweisungsdaten nachtrainiert und konzentriert sich auf die Ausführung von Aufgaben und die Einhaltung von Anweisungen, anstatt nur als Basismodell zu dienen.
Alle drei Modelle stehen unter der Apache-2.0-Lizenz, die die freie Nutzung, Änderung und Weitergabe durch Forscher und Entwickler in Unternehmen ermöglicht.
Das bedeutet, dass sie in kommerzielle Anwendungen integriert werden können, sei es für interne Abläufe oder kundenorientierte Dienste, ohne dass ByteDance Lizenz- oder API-Gebühren erhebt.
Damit folgt ByteDance dem Mitte 2025 zu beobachtenden Trend, dass chinesische Unternehmen fortschrittliche Open-Source-Modelle auf den Markt bringen, während OpenAI daran arbeitet, mit seinem eigenen, kürzlich veröffentlichten Open-Source-Duett gpt-oss Schritt zu halten.
Das Seed-Team hat Seed-OSS für den globalen Einsatz konzipiert und dabei seine Anpassungsfähigkeit bei der Argumentation, aufgabenorientierte Funktionen und mehrsprachige Umgebungen hervorgehoben.
Das im Jahr 2023 gegründete Seed-Team hat sich auf die Entwicklung grundlegender Modelle konzentriert, die sowohl für die Forschung als auch für praktische Anwendungen geeignet sind.
Aufbau und Hauptmerkmale
Die Struktur von Seed-OSS-36B umfasst anerkannte Designelemente wie kausale Sprachmodellierung, gruppierte Abfrageaufmerksamkeit, SwiGLU-Aktivierung, RMSNorm und RoPE-Positionskodierung.
Jedes Modell enthält 36 Milliarden Parameter, die auf 64 Schichten verteilt sind, und unterstützt ein Vokabular von 155.000 Token.
Ein charakteristisches Merkmal ist die inhärente Kapazität für lange Kontexte, die bis zu 512.000 Token für die Verarbeitung langer Dokumente und logischer Sequenzen ohne Verschlechterung unterstützt.
Diese Kapazität ist doppelt so hoch wie die der neuen GPT-5-Familie von OpenAI und entspricht in etwa der Länge von 1.600 Textseiten, was in etwa dem Umfang der christlichen Bibel entspricht.
Ein weiteres herausragendes Merkmal ist das Denkbudget, das es den Entwicklern ermöglicht, den Umfang der Überlegungen festzulegen, die das Modell anstellt, bevor es eine Antwort erzeugt.
Ein ähnlicher Mechanismus findet sich in anderen aktuellen Open-Source-Versionen, darunter Nvidias Nemotron-Nano-9B-v2, das ebenfalls über Hugging Face zugänglich ist.
In der Praxis ermöglicht dies den Teams, die Leistung auf der Grundlage der Komplexität der Aufgabe und der erforderlichen Effizienz der Bereitstellung zu kalibrieren.
Die Budgetwerte werden in Vielfachen von 512 Token angegeben, wobei 0 einen direkten Reaktionsmodus ermöglicht.
Konkurrenzfähige Leistung bei Benchmarks Dritter
Veröffentlichte Benchmark-Ergebnisse platzieren Seed-OSS-36B unter den leistungsstärksten großen Open-Source-Modellen. Insbesondere die Instruct-Version erzielt in mehreren Bereichen Spitzenergebnisse.
- Mathematik und logisches Denken: Seed-OSS-36B-Instruct erzielt 91,7 % bei AIME24 und 65 bei BeyondAIME, was jeweils dem Stand der Technik bei Open-Source-Modellen (SOTA) entspricht.
- Codierung: Auf LiveCodeBench v6 erreicht das Instruct-Modell 67,4, eine weitere SOTA-Marke.
- Fähigkeit zu langem Kontext: Bei RULER mit 128K Kontextlänge erreicht es 94,6, das höchste gemeldete Open-Source-Ergebnis.
- Leistung des Basismodells: Die Base-Variante mit synthetischen Daten erreicht 65,1 Punkte bei MMLU-Pro und 81,7 Punkte bei MATH - beides führende Ergebnisse in ihren Kategorien.
Das nicht-synthetische Basismodell liegt zwar bei mehreren Metriken leicht zurück, ist aber dennoch wettbewerbsfähig.
Es übertrifft die synthetische Version bei GPQA-D und bietet Forschern eine sauberere, anweisungsneutrale Basis für Tests.
Für Unternehmen, die offene Alternativen evaluieren, zeigen diese Ergebnisse, dass Seed-OSS vielversprechend für mathematikintensive, kodierende und kontextreiche Anwendungen ist und gleichzeitig die Flexibilität für Forschungsszenarien bewahrt.
Zugang und Einsatz
Neben der Leistung legt das Seed-Team auch großen Wert auf die Zugänglichkeit für Entwickler. Die Modelle können über Hugging Face Transformers bereitgestellt werden, wobei die Quantisierung in 4-Bit- und 8-Bit-Formaten erfolgt, um den Speicherbedarf zu minimieren.
Sie lassen sich auch in vLLM integrieren, um eine skalierbare Bereitstellung zu ermöglichen, einschließlich Einrichtungsbeispielen und API-Server-Richtlinien.
Um die Einführung weiter zu vereinfachen, stellt das Team Skripte für die Inferenz, die Anpassung von Eingabeaufforderungen und die Toolintegration bereit.
Für technische Leiter, die kleine Teams leiten oder mit begrenzten Budgets arbeiten, machen diese Ressourcen das Experimentieren mit 36-Milliarden-Parameter-Modellen leichter machbar.
Lizenzierung und Überlegungen für Entscheidungsträger in Unternehmen
Da diese Modelle unter Apache-2.0 verfügbar sind, können sie ohne restriktive Lizenzierung eingesetzt werden - ein wesentlicher Vorteil für Teams, die rechtliche und betriebliche Faktoren abwägen.
Für Führungskräfte, die das Open-Source-Ökosystem bewerten, hebt diese Veröffentlichung drei wichtige Punkte hervor:
- Erstklassige Benchmark-Ergebnisse in den Bereichen Mathematik, Kodierung und Argumentation in langen Kontexten,
- ein ausgewogenes Verhältnis zwischen leistungsstarken, synthetisch trainierten Modellen und unvoreingenommenen Forschungsgrundlagen.
- Zugänglichkeitsfunktionen, die die betriebliche Komplexität für rationalisierte Entwicklungseinheiten reduzieren.
Durch die Kombination von hoher Leistung und anpassungsfähigem Einsatz unter einer offenen Lizenz hat das Seed-Team von ByteDance die Möglichkeiten für Unternehmen, Forscher und Entwickler erweitert.
KI deckt versteckte Absichten in Nachrichteninhalten auf
Modelle im Stil von ChatGPT werden derzeit darauf trainiert, die zugrunde liegende Perspektive eines Nachrichtenartikels aufzudecken – selbst wenn diese Sichtweise hinter Zitaten, Framing oder einer F
TikTok führt Schalter ein, um KI-gestützte Inhalte im Feed zu begrenzen
TikTok, ursprünglich eine Plattform für von Nutzern erstellte Videos, führt eine neue Funktion ein, mit der Nutzer regulieren können, wie viel KI-generierte Inhalte in ihrem „For You”-Feed angezeigt w
Anthropics Claude 4.1 übertrifft GPT-5 bei Coding-Benchmarks vor dessen Markteinführung
Anthropic hat am Montag eine verbesserte Version seines führenden KI-Modells vorgestellt und damit einen neuen Maßstab für die Leistung bei Softwareentwicklungsaufgaben gesetzt. Mit dieser Einführung





Heim






