Stability AI、6分間の楽曲を生成できる音声モデルを発表
Stable Diffusionの開発元であるStability AIは、「Stability Audio 3.0」と名付けられた新しいオーディオモデルシリーズを発表した。同社によると、フラッグシップモデルは6分を超えるプロ品質の音楽トラックを生成することができるという。
Stability Audio 3.0の傘下として、同社はsmall SFX(パラメータ数4億5900万)、small(パラメータ数4億5900万)、medium(パラメータ数14億)、large(パラメータ数27億)の4つのモデルを導入しています。2つのsmallモデルは、デバイス上でのサウンドおよび音楽生成を目的として設計されており、最大出力時間は2分です。
ミディアムおよびラージモデルは、音楽的構造とメロディの一貫性を保ちつつ、最大6分20秒までの完全な楽曲を生成可能です。これは、2024年にリリースされたStable Audio 2.0で実現可能な再生時間の2倍以上となります。
Stability AIは、小型SFXモデル、小型モデル、中型モデルをオープンウェイトで公開しており、誰でもこれらを利用・修正できるようになっています。同社は2024年に、最大47秒の音楽生成を可能にする「Stable Audio Open」を導入しました。この新しいモデルファミリーは、以前のオープンソースモデルに比べて大幅な進歩を遂げています。

画像提供:StabilityAI
Largeモデルは、APIおよび有料のセルフホスティングサービスを通じてのみ利用可能です。さらに、年間売上高が100万ドルを超える企業は、エンタープライズライセンスの取得が義務付けられています。
GoogleやElevenLabsなど、多くの企業が音楽生成用のモデルやツールをリリースしています。しかし、SunoやUdioを巡る現在進行中の法的紛争が示しているように、データのライセンスや音楽レーベルとの提携は、これらのサービスの長期的な存続にとって極めて重要となる可能性があります。
昨年、Stability AIはワーナー・ミュージック・グループおよびユニバーサル・ミュージック・グループと、モデルおよび音楽制作ツールの開発に関する契約を締結しました。同社は、最新のオーディオモデルが完全にライセンスされたデータを用いて学習されていると述べています。
このAIスタートアップは、プロのミュージシャン向けに特化した新製品群を開発中だが、具体的な機能については明らかにしていない。ユニバーサル・オーディオやフェンダーで最高デジタル責任者を務めたイーサン・カプラン氏が同社に加わり、Stabilityのプロフェッショナル音楽部門を率いることになった。
複数のAI企業が、音楽業界の幹部を採用することで信頼性を高めている。今年初め、Sunoは元MerlinのCEOであるジェレミー・シロタ氏を最高商業責任者(CCO)に任命した。ElevenLabsもまた、インディーズ音楽出版社Kobalt出身のデレク・コーノイヤー氏を、音楽事業の戦略責任者として迎え入れた。
関連記事
Spotify、主要開発者を支援する鍵としてAIを強調
AI駆動の開発は重要な節目に達したのか?Spotifyは確かにそう示唆している。今週の第4四半期決算発表で、同社はトップエンジニアが「12月以降、一行のコードも書いていない」と明かした。この発言はSpotify共同CEOグスタフ・セーデルストロームによるもので、同氏はAIを活用して製品開発を加速させている点も強調した。特筆すべきは、Spotifyが2025年を通じてストリーミングアプリに50以上の
ジャネット・ジャクソンの「Rhythm Nation」が原因で、一部のウィンドウズ・ノートパソコンが何年もクラッシュしていた。
The Vergeの長年の読者なら、ジャネット・ジャクソンの「リズム・ネイション」ミュージックビデオを近くで再生するだけで、特定のWindowsノートパソコンがクラッシュするという奇妙な事件を覚えているかもしれない。現在、PCWorldが取り上げているブログ記事で、マイクロソフト社員のレイモンド・チェンが、この問題に対処するために設計されたフィルターが「少なくともWindows 7」までは存在して
SoundCloud、ユーザーの音楽でAIを訓練していないと明言
TechCrunchが報じたように、音楽共有プラットフォームSoundCloudは昨年2月、利用規約を控えめに改訂し、ユーザーが作成した素材を使ったAIモデルのトレーニングを許可する新たな規定を導入した。同社は、モデルのトレーニングにユーザーコンテンツを実際に使用したことはないとしているが、将来的にはそのような使用の可能性を残している。SoundCloudのシニア・ヴァイス・プレジデントでコミュニ
関連特集おすすめ
コメント (0)
0/500
Stable Diffusionの開発元であるStability AIは、「Stability Audio 3.0」と名付けられた新しいオーディオモデルシリーズを発表した。同社によると、フラッグシップモデルは6分を超えるプロ品質の音楽トラックを生成することができるという。
Stability Audio 3.0の傘下として、同社はsmall SFX(パラメータ数4億5900万)、small(パラメータ数4億5900万)、medium(パラメータ数14億)、large(パラメータ数27億)の4つのモデルを導入しています。2つのsmallモデルは、デバイス上でのサウンドおよび音楽生成を目的として設計されており、最大出力時間は2分です。
ミディアムおよびラージモデルは、音楽的構造とメロディの一貫性を保ちつつ、最大6分20秒までの完全な楽曲を生成可能です。これは、2024年にリリースされたStable Audio 2.0で実現可能な再生時間の2倍以上となります。
Stability AIは、小型SFXモデル、小型モデル、中型モデルをオープンウェイトで公開しており、誰でもこれらを利用・修正できるようになっています。同社は2024年に、最大47秒の音楽生成を可能にする「Stable Audio Open」を導入しました。この新しいモデルファミリーは、以前のオープンソースモデルに比べて大幅な進歩を遂げています。

画像提供:StabilityAI
Largeモデルは、APIおよび有料のセルフホスティングサービスを通じてのみ利用可能です。さらに、年間売上高が100万ドルを超える企業は、エンタープライズライセンスの取得が義務付けられています。
GoogleやElevenLabsなど、多くの企業が音楽生成用のモデルやツールをリリースしています。しかし、SunoやUdioを巡る現在進行中の法的紛争が示しているように、データのライセンスや音楽レーベルとの提携は、これらのサービスの長期的な存続にとって極めて重要となる可能性があります。
昨年、Stability AIはワーナー・ミュージック・グループおよびユニバーサル・ミュージック・グループと、モデルおよび音楽制作ツールの開発に関する契約を締結しました。同社は、最新のオーディオモデルが完全にライセンスされたデータを用いて学習されていると述べています。
このAIスタートアップは、プロのミュージシャン向けに特化した新製品群を開発中だが、具体的な機能については明らかにしていない。ユニバーサル・オーディオやフェンダーで最高デジタル責任者を務めたイーサン・カプラン氏が同社に加わり、Stabilityのプロフェッショナル音楽部門を率いることになった。
複数のAI企業が、音楽業界の幹部を採用することで信頼性を高めている。今年初め、Sunoは元MerlinのCEOであるジェレミー・シロタ氏を最高商業責任者(CCO)に任命した。ElevenLabsもまた、インディーズ音楽出版社Kobalt出身のデレク・コーノイヤー氏を、音楽事業の戦略責任者として迎え入れた。
Spotify、主要開発者を支援する鍵としてAIを強調
AI駆動の開発は重要な節目に達したのか?Spotifyは確かにそう示唆している。今週の第4四半期決算発表で、同社はトップエンジニアが「12月以降、一行のコードも書いていない」と明かした。この発言はSpotify共同CEOグスタフ・セーデルストロームによるもので、同氏はAIを活用して製品開発を加速させている点も強調した。特筆すべきは、Spotifyが2025年を通じてストリーミングアプリに50以上の
ジャネット・ジャクソンの「Rhythm Nation」が原因で、一部のウィンドウズ・ノートパソコンが何年もクラッシュしていた。
The Vergeの長年の読者なら、ジャネット・ジャクソンの「リズム・ネイション」ミュージックビデオを近くで再生するだけで、特定のWindowsノートパソコンがクラッシュするという奇妙な事件を覚えているかもしれない。現在、PCWorldが取り上げているブログ記事で、マイクロソフト社員のレイモンド・チェンが、この問題に対処するために設計されたフィルターが「少なくともWindows 7」までは存在して





家






