ByteDanceのオープンソースSeed-OSS-36Bモデルが512Kトークンコンテキストをサポート

家

ニュース

2025年11月29日

LawrenceLopez

106

# TikTok # nlp

ByteDanceのオープンソースSeed-OSS-36Bモデルが512Kトークンコンテキストをサポート

ホワイトハウスがこの人気ソーシャルメディア・プラットフォームに参加したことで再び話題になっているTikTokだが、その親会社である中国の大手テック企業ByteDanceもまた、驚きの発表を行った。

同社のAI研究部門であるシード・チームは本日、AIコード・リポジトリHugging FaceでSeed-OSS-36Bを発表したのだ。

Seed-OSS-36Bは、洗練された推論と開発者フレンドリーな使用のために構築されたオープンソースの大規模言語モデル（LLM）の新シリーズで、OpenAIやAnthropicの主要なものを含む多くの競合する米国で開発されたモデルよりも長いトークンコンテキストを特徴としています。

このコレクションには3つの主要なバリエーションがあります：

合成データを含むSeed-OSS-36B-Base
合成データなしのSeed-OSS-36B-Base
Seed-OSS-36B-インストラクト

Seed-OSS-36B-Baseモデルの合成バージョンと非合成バージョンの両方をリリースすることで、Seedチームは実世界のパフォーマンスと研究適応性のバランスをとることを目指しました。

補助的な命令データで学習させた合成データバージョンは、確立されたベンチマークでより強力な結果を達成し、より高性能な汎用モデルとして意図されています。

対照的に、非合成モデルは、これらの機能拡張を取り除き、合成命令データによる潜在的なバイアスを低減する明確なベースを提供します。

両方のバリエーションを提供することで、研究者がトレーニング後のテクニックを研究するための偏りのないベースラインを提供する一方で、実用的なユーザーに改善された結果を提供しています。

一方、Seed-OSS-36B-Instructモデルは、インストラクションデータを使用してポストトレーニングされ、ベースモデルとしてのみ機能するのではなく、タスクの実行とインストラクションの遵守に焦点を当てている。

3つのモデルはすべてApache-2.0の下でライセンスされており、企業の研究者や開発者による自由な利用、変更、共有が可能です。

これは、ByteDanceがライセンス料やAPI使用料を請求することなく、社内業務や顧客向けサービスに関わらず、商用アプリケーションに統合できることを意味する。

これは、中国企業が先進的なオープンソースモデルを立ち上げるという2025年半ばのトレンドに続くもので、OpenAIは最近リリースしたオープンソースのgpt-oss duetと歩調を合わせている。

SeedチームはSeed-OSSをグローバルに使用できるように設計し、推論における適応性、タスク指向の機能、多言語環境を強調した。

2023年に設立されたSeed Teamは、研究と実用的なアプリケーションの両方に適した基礎的なモデルを作成することに重点を置いています。

設計とコア機能

Seed-OSS-36Bの構造には、因果言語モデリング、グループ化クエリーアテンション、SwiGLU活性化、RMSNorm、RoPE位置エンコーディングなど、認知された設計要素が組み込まれている。

各モデルには、64層に分散された360億のパラメータが含まれ、155,000のトークンの語彙をサポートしている。

特徴的なのは、固有のロングコンテクスト容量で、長い文書や論理シーケンスを劣化なく処理するために、最大512,000トークンをサポートしている。

これはOpenAIの新しいGPT-5ファミリーの2倍の容量であり、およそ1600ページのテキストの長さに相当する。

もうひとつの際立った特徴は思考バジェットで、開発者はモデルが答えを生成する前に適用する推論の量を定義することができる。

同様の仕組みは、NvidiaのNemotron-Nano-9B-v2など、最近のオープンソースリリースにも見られる。

実用的な面では、これによってチームは、タスクの複雑さと展開効率の必要性に基づいてパフォーマンスを調整することができる。

バジェット値は512トークンの倍数で表示され、0に設定するとダイレクト・レスポンス・モードになります。

サードパーティベンチマークでの競争力

公開されているベンチマーク結果では、Seed-OSS-36Bはオープンソースの大規模モデルの中でもトップクラスの性能を持っています。特にInstructバージョンは、いくつかのドメインで最先端の結果を達成しています。

数学と推論Seed-OSS-36B-Instructは、AIME24で91.7%、BeyondAIMEで65を記録し、それぞれオープンソースの最先端(SOTA)のパフォーマンスを示しています。
コーディング：LiveCodeBench v6で、Instructモデルは67.4を達成し、これもSOTAマークです。
ロング・コンテキスト・ケイパビリティ：128Kのコンテキスト長を持つRULERにおいて、94.6を達成。
ベースモデルの性能：合成データによるBaseモデルは、MMLU-Proで65.1、MATHで81.7を記録し、両カテゴリーでトップクラスの成績を収めた。

非合成のBaseモデルは、いくつかの指標でやや劣るものの、単独では競争力を保っています。

GPQA-Dでは合成モデルを上回り、研究者に、よりクリーンでインストラクションに中立なテスト用ベースラインを提供している。

オープンな代替案を評価する企業にとって、これらの結果は、Seed-OSSが、研究シナリオの柔軟性を維持しながら、数学集約的、コーディング、およびロングコンテキストのアプリケーションに強い有望性を持っていることを示しています。

アクセスと展開

性能だけでなく、Seed Teamは開発者のアクセシビリティも重視しています。モデルはハギング・フェイス・トランスフォーマーを介して展開可能であり、メモリ使用量を最小化するために4ビットおよび8ビットフォーマットで量子化されています。

また、スケーラブルなサービングのためにvLLMと統合され、セットアップ例とAPIサーバーガイドラインが完備されています。

導入をさらに簡単にするために、チームは推論、プロンプトのカスタマイズ、ツールの統合のためのスクリプトを提供している。

小規模なチームを管理したり、限られた予算で運営しているテクニカル・リードにとって、これらのリソースは、360億パラメータ・モデルの実験をより現実的なものにするのに役立つ。

企業の意思決定者のためのライセンスと考慮事項

Apache-2.0で利用可能なこれらのモデルは、制限のあるライセンスなしで採用することができます。

オープンソースのエコシステムを評価するリーダーにとって、このリリースは3つの重要なポイントを強調しています：

数学、コーディング、およびロングコンテキストの推論におけるトップクラスのベンチマーク結果。
高性能な合成学習済みモデルと、偏りのない研究ベースラインとのバランス。
、合理化されたエンジニアリングユニットの運用の複雑さを軽減するアクセシビリティ機能。

ByteDanceのシードチームは、オープンライセンスのもとで高いパフォーマンスと適応性のあるデプロイメントを組み合わせることで、企業、研究者、開発者が利用できる選択肢を広げました。

AIがニュースコンテンツに潜む隠された意図を明らかにする ChatGPTスタイルのモデルは現在、ニュース記事の根底にある視点を解明するよう訓練されている——たとえその視点が引用文やフレームワーク、あるいは（時に不誠実な）中立性の覆いの下に隠されていても。見出し、リード文、引用文といったセグメントに記事を分割することで、新たなシステムは長文のプロフェッショナルなジャーナリズムにおいても偏りを識別することを学習する。執筆者や発言者の真の立場を把握する能力—

TikTok、フィードのAI生成コンテンツを制限する切り替え機能を公開 TikTokは、もともとユーザー作成動画のハブとして始まったプラットフォームだが、新たに「For You」フィードに表示されるAI生成コンテンツの量をユーザーが調整できる機能を導入する。また、AI生成コンテンツをより精緻に識別する技術も導入している。この新たなAI生成コンテンツ（AIGC）制御機能は、ユーザーのフィード体験をカスタマイズする「トピック管理」ツールに追加される。 TikTok

AnthropicのClaude 4.1、GPT-5発表前にコーディングベンチマークで優れた性能を発揮アンソロピックは月曜日、主力AIモデルの強化版を発表し、ソフトウェアエンジニアリングタスクにおける性能の新たな基準を打ち立てた。この展開により、AIスタートアップは収益性の高いコーディング分野での強固な地位を防衛する態勢を整え、OpenAIからの新たな競争を予期している。新モデル「Claude Opus 4.1」は、AIシステムの現実的なソフトウェア課題解決能力を評価する主要ベンチマーク「SWE-

関連特集おすすめ

アニメーション制作

東華向けAIアニメジェネレーター：ウェブ小説のキャラクターやコミックのアバターを作成する

2026年に最も優れたAIアニメーション生成ツールを探そう。当社が厳選したリストには、見事なウェブ小説のキャラクターやコミックのアバターを作成するための強力なツールが揃っています。無料オプションと有料オプションを実際のテストで比較し、自分に最適な創造的なパートナーを見つけて、今日すぐにXIX.AIであなたの物語を形にしてみましょう。

10 ツール

xix.ai

漫画制作

漫画向けトップAI自動着色ツール：色むらのないフラットカラーを適用

XIX.AIで、2026年版のおすすめマンガ用AI自動着色ツールをご覧ください。厳選されたリストには、一貫性の誤差ゼロでフラットカラーを適用し、生産性を飛躍的に向上させる、高評価の画期的なソリューションが揃っています。無料版と有料版の比較、実地テスト、毎週更新されるランキングを参考に、あなたにぴったりのツールを見つけてください。今すぐAIの力を活用しましょう。

10 ツール

xix.ai

書き込み

AI小説プロファイル作成のトップクリエイター：一貫性のあるキャラクターの動機と致命的な欠点を生成する

深みのあるキャラクターを創り出す、2026年最高のAIフィクションプロファイル作成ツールを発見しましょう。XIX.AIが厳選したこのリストには、一貫した動機や致命的な欠点を生成する、高評価で業界を変革するツールが揃っています。実際のテスト結果をもとに、無料版と有料版を比較してください。今すぐストーリーテリングの可能性を解き放ちましょう。

10 ツール

xix.ai

仕事

AIを活用した価格最適化ソフトのトップ選定：競合他社の動向を追跡し、店舗価格を自動調整

XIX.AIで、2026年最高のAI価格最適化ソフトウェアを見つけましょう。厳選されたリストには、競合他社の動向を追跡し、利益を最大化するために店舗の価格を自動調整する、高評価の画期的なツールが揃っています。実際のテスト結果をもとに、無料版と有料版を比較してください。今すぐ価格設定における優位性を手に入れましょう。

10 ツール

xix.ai

コード

最高のAIコードレビューツール：クリーンコードの遵守を自動化し、レガシーリポジトリのファイルをリファクタリング

XIX.AIで、2026年最高のAIコードレビューツールを発見しましょう。厳選されたこのリストには、クリーンなコードの遵守を自動化し、レガシーリポジトリのファイルをリファクタリングするための、高評価で画期的なツールが揃っています。実際のテスト結果や毎週更新されるランキングを参考に、無料版と有料版を比較してください。今すぐAIの力を活用しましょう。

10 ツール

xix.ai

テキスト読み上げ

ディスレクシアに最適なAI音声合成アプリ：生徒の学習と読解力の向上をサポート

ディスレクシア支援のために厳選された、2026年最新の最高評価AI TTSアプリをご紹介します。専門家によるランキングでは、無料ツールと有料ツールを比較し、読解効率と学習効果を高める強力な機能を詳しく解説しています。生徒の可能性を引き出す、ぜひ試すべき画期的なソリューションをご覧ください。XIX.AIでその第一歩を踏み出しましょう。

10 ツール

xix.ai