オプション
ニュース
マイクロソフトのAIファミリー「VibeVoice」がオープンソース化、90分間の対話に対応、GitHubのスター数が2万7000を超えた

マイクロソフトのAIファミリー「VibeVoice」がオープンソース化、90分間の対話に対応、GitHubのスター数が2万7000を超えた

2026年5月28日
51

マイクロソフトは最近、自動音声認識(ASR)やテキスト読み上げ(TTS)などの機能を備えた、最先端の音声AIモデル群「VibeVoice」をオープンソース化しました。 このプロジェクトは、堅牢な長音源処理、自然な複数話者による対話生成、そしてリアルタイムかつ低遅延のパフォーマンスにより、開発者コミュニティから急速に注目を集めています。すでにGitHubで約27,000件のスターを獲得しています。

MITライセンスの下でオープンソースの研究フレームワークとして公開されたVibeVoiceは、クラウド利用料なしでローカル展開が可能であり、音声合成分野におけるコラボレーションとイノベーションの促進を目指しています。このモデルファミリーは3つのコアモデルで構成されており、それぞれが長文処理、話者の一貫性、自然な流暢性など、従来の音声AIが抱える特定の課題に対応しています。

image.png

VibeVoice-ASR-7B:最大60分間の音声を処理する、構造化音声認識のための強力なツール

VibeVoice-ASR-7Bは、最大60分間の音声ファイルを1回の処理で処理し、構造化された文字起こしを直接出力できる統合型音声認識モデルです。出力結果には話者の識別、正確なタイムスタンプ、発話内容の詳細が含まれ、固有名詞や専門用語の精度を高めるためのカスタムホットワードもサポートしています。 50以上の言語に対応しており、長時間の会議録音やポッドキャストの文字起こしといった複雑なシナリオに最適です。

コミュニティの開発者たちは、macOSおよびWindows向けの音声入力ツール「Vibing」など、このモデルを活用した実用的なツールをすでに開発しています。ユーザーからのフィードバックによると、速度と精度において高いパフォーマンスを発揮し、日々の音声入力の効率を大幅に向上させているとのことです。

VibeVoice-TTS-1.5B:最大 90 分間の複数話者による表現力豊かな音声生成

VibeVoice-TTS-1.5Bは中核となるテキスト読み上げモデルであり、一度に最大90分間の連続音声生成が可能で、最大4人の異なる話者をサポートし、自然な対話シミュレーションを実現します。合成音声は表現力豊かで、自然な間や強調、感情の変化をリアルに再現し、流暢に聞こえるため、ポッドキャスト、長編ナレーション、オーディオブック、または複数キャラクターによる対話に最適です。

1~2人の話者に限定される多くの従来のTTSモデルとは異なり、VibeVoice-TTSは長文および複数話者における一貫性において画期的な進歩を遂げています。そのアーキテクチャは、連続音声トークナイザー(音響的および意味的)と低フレームレート(7.5Hz)を組み合わせることで、長文シーケンスにおける計算効率を大幅に向上させています。

VibeVoice-Realtime-0.5B:約300ミリ秒のレイテンシーを実現するリアルタイムTTS

VibeVoice-Realtime-0.5Bはリアルタイムアプリケーション向けに設計されており、約300ミリ秒のファーストオーディオレイテンシーでストリーミングテキスト入力をサポートしつつ、最大10分間の音声生成が可能です。このモデルは、リアルタイム音声アシスタントやライブストリーミングの吹き替えなど、即時のフィードバックを必要とするインタラクティブなアプリケーションに特に適しています。

さらに、本プロジェクトでは実験的な話者サポートが導入されており、多言語音声や様々な英語スタイルのバリエーションが含まれており、開発者により幅広いカスタマイズオプションを提供します。

AIbaseレビュー:MicrosoftによるVibeVoiceのオープンソース化は、高性能な音声AIへの参入障壁を下げるだけでなく、完全なローカル展開ソリューションも提供します。このプロジェクトは、悪用されるリスクがあるとして一時的に公開が停止されましたが、音声透かしや音声による免責事項などのセキュリティ対策を実施した後、責任あるAI開発の原則に沿って再開されました。開発者は現在、GitHubやHugging Faceからモデルウェイトを入手し、Colabなどのプラットフォームを通じて迅速にテストを行うことができます。

Apple Silicon向けの最適化を含むオープンソースコミュニティからの継続的な貢献により、VibeVoiceはコンテンツ作成、アクセシビリティツール、音声インタラクション分野での採用を加速させる態勢が整っています。関心のある開発者は、Microsoftの公式プロジェクトページにアクセスして詳細を確認できます。

プロジェクトURL: https://github.com/microsoft/VibeVoice

関連記事
杭州上城区が浙江省で初めてAIGCオーディオビジュアル「ゴールデンテンメジャース」を推進、50億元の産業基金を設立 杭州上城区が浙江省で初めてAIGCオーディオビジュアル「ゴールデンテンメジャース」を推進、50億元の産業基金を設立 16日には、杭州の上城区でAIGCオーディオビジュアル産業イノベーションエコシステム会議が開催されました。この会議では、同省が初めてAIGCオーディオビジュアル産業向けの専門政策を発表しました。「ゴールデン・テン」と呼ばれるこの政策は、技術革新、コスト削減、コンテンツ品質の向上、人材育成、グローバル展開といった、産業成長に関わるあらゆる側面を対象としています。この政策には強力なインセンティブも含まれています。技術革新に関しては、AIGCツール、AIバーチャル撮影、AIインタラクティブナラティブ
MIIT、AIモデルコンテキストプロトコルを含む121の業界標準について一般の意見を求める MIIT、AIモデルコンテキストプロトコルを含む121の業界標準について一般の意見を求める 中国工業情報化省は、「人工知能セキュリティガバナンスモデルコンテキストプロトコルのアプリケーションセキュリティ要求」を含む121件の産業標準化プロジェクトについて、一般からの意見を求める通知を正式に発表しました。この公告は、中国がAIの基盤となる標準や安全監督枠組みを確立する取り組みにおいて重要なマイルストーンとなります。一般からの意見募集期間中は、モデルコンテキストプロトコルのアプリケーションセキュリティに焦点を当て、標準化された技術仕様を通じて、マルチモーダルインタラクション、長文処理、クロ
オープンAI、米国防総省と提携 ChatGPTのアンインストール件数が295%増加 オープンAI、米国防総省と提携 ChatGPTのアンインストール件数が295%増加 公衆の怒り:OpenAIの軍事提携が「アンインストールブーム」を引き起こす最近、AI分野のリーダーであるOpenAIは、米国国防総省との深い協力関係を発表し、自社のAIモデルを極秘の軍事ネットワークに統合するとした。このニュースは米国内で広範なユーザーからの反発を招き、「ChatGPTボイコット」運動が盛り上がっている。市場分析会社Sensor Towerによると、2026年2月28日にOpenAIが正式にこの協力関係を発表した当日、米国市場におけるChatGPTモバイルアプリのアンインスト
関連特集おすすめ
チャットボット これらのロールプレイツールで、自分だけのAIラブストーリーを作ろう
これらのロールプレイツールで、自分だけのAIラブストーリーを作ろう

没入感のある物語を紡ぐための、2026年最新の高評価AIロールプレイツールをご紹介。XIX.AIが厳選したこのリストには、創造的なストーリーテリングと情感豊かな深みを解き放つ、強力で画期的なアシスタントが揃っています。実際のテスト結果をもとに、無料版と有料版を比較しましょう。今すぐあなただけの旅を始めましょう。

10 ツール
xix.ai
テキスト読み上げ インディーゲーム開発者向けのおすすめAIボイスツール:RPGやビジュアルノベルのボイス収録時間を短縮
インディーゲーム開発者向けのおすすめAIボイスツール:RPGやビジュアルノベルのボイス収録時間を短縮

ゲーム開発者必見!2026年おすすめのAIボイスツールを紹介!XIX.AIが厳選したリストには、RPGやビジュアルノベルのボイス収録にかかる時間とコストを削減する、高評価で業界を変革するソリューションが揃っています。無料版と有料版の比較、実地テスト、毎週更新されるランキングをチェックしましょう。あなたにぴったりのボイスツールを今すぐ見つけましょう!

10 ツール
xix.ai
教育と学習 最高のAIスペースドリピートツール:医学生や法律専攻の学生のための学習スケジュール最適化
最高のAIスペースドリピートツール:医学生や法律専攻の学生のための学習スケジュール最適化

2026年に最も優れたAIを活用した反復学習ツールをXIX.AIが厳選してご紹介します。私たちが推薦するこれらの画期的なツールは、医学や法律を学ぶ学生が学習計画を最適化し、知識をより効果的に定着させるのに役立ちます。無料版と有料版を実際のテスト結果や毎週更新されるランキングをもとに比較してみてください。今すぐ学習効率を高めましょう。

10 ツール
xix.ai
動画作成 脚本作成とビジュアルストーリーテリングに最適なAIテキスト・トゥ・ビデオ・プラットフォーム
脚本作成とビジュアルストーリーテリングに最適なAIテキスト・トゥ・ビデオ・プラットフォーム

2026年最新・最高のAIテキストから動画生成プラットフォーム:脚本作成やビジュアルストーリーテリングに最適なツールをご紹介。テキストを魅力的な動画に変える、画期的なソリューションをご覧ください。毎週更新されるランキングと実地テストに基づき、無料版と有料版の比較も可能です。創造性と生産性を高める、あなたにぴったりのプラットフォームを見つけましょう。XIX.AIで厳選されたラインナップをご覧ください。

10 ツール
xix.ai
チャットボット AIマルチエージェントオーケストレーター:自然言語を通じて複雑な自動化ワークフローを設計する
AIマルチエージェントオーケストレーター:自然言語を通じて複雑な自動化ワークフローを設計する

2026年最新情報:自然言語を通じて複雑な自動化ワークフローを設計するための最適なAIマルチエージェントオーケストレーターを発見しましょう。当社が厳選したリストには、タスクのシームレスな自動化とインテリジェントなプロセス管理に最適な高評価の強力なプラットフォームが掲載されています。無料オプションと有料オプションを実際の使用例を交えて比較しましょう。XIX.AIが毎週更新する専門的なランキングを活用して、AIの力を最大限に引き出しましょう。

10 ツール
xix.ai
画像編集 最高のAIノイズリダクションソフトウェア:低照度の夜間撮影で発生する粒状ノイズやアーチファクトを除去する
最高のAIノイズリダクションソフトウェア:低照度の夜間撮影で発生する粒状ノイズやアーチファクトを除去する

2026年に最も優れたAIノイズリダクションソフトウェアを探そう。低照度の夜間撮影に最適なこれらのツールは、無料版と有料版を比較しており、実際のテスト結果や毎週更新されるランキングも掲載されている。粒状ノイズや不要なアーティファクトを簡単に除去できる。XIX.AIでAIの力を最大限に活用しよう。

10 ツール
xix.ai
コメント (0)
0/500
OR