オプション
ニュース
EleutherAIがAIトレーニング用の大規模ライセンステキストデータセットを公開

EleutherAIがAIトレーニング用の大規模ライセンステキストデータセットを公開

2025年8月30日
0

EleutherAIがAIトレーニング用の大規模ライセンステキストデータセットを公開

EleutherAI、主要なAI研究グループは、AIモデルトレーニング用の最大規模のライセンスおよびオープンドメインテキストのコレクションを公開しました。

Common Pile v0.1と名付けられたこの8テラバイトのデータセットは、AIスタートアップのPoolside、Hugging Face、およびさまざまな学術機関と協力して2年間で開発されました。このデータセットは、EleutherAIの新しいモデルComma v0.1-1TおよびComma v0.1-2Tのトレーニングに使用され、組織はこれらのモデルが無許可の著作権付きデータでトレーニングされたモデルと同等の性能を発揮すると主張しています。

OpenAIを含むAI企業は、著作権付きの本やジャーナルを含むウェブスクレイピングデータを使用したモデルトレーニングに関する法的挑戦に直面しています。一部はコンテンツプロバイダーとライセンス契約を結んでいますが、多くは米国のフェアユース原則に依存して、許可なく著作権付き素材でトレーニングを行っています。

EleutherAIは、これらの訴訟がAI業界の透明性を大幅に低下させ、モデルの機能や弱点への洞察を制限し、広範な研究コミュニティに悪影響を及ぼしていると主張しています。

「法的挑戦はモデルトレーニングのデータ調達慣行を大きく変えていませんが、AI企業の公開性を劇的に減らしました」と、EleutherAIのエグゼクティブディレクターであるステラ・ビダーマンは、金曜日のHugging Faceのブログ投稿で述べました。「我々が話した一部の企業の研究者は、訴訟を理由にデータ中心の研究を共有できないと述べています。」

Common Pile v0.1は、Hugging FaceのAIプラットフォームおよびGitHubで利用可能で、法律相談を受けて開発され、米国議会図書館やインターネットアーカイブによってデジタル化された30万冊の公共ドメインの本などのソースが含まれています。EleutherAIはまた、OpenAIのWhisperモデルを使用してオーディオコンテンツを文字起こししました。

EleutherAIは、Comma v0.1-1TおよびComma v0.1-2TがCommon Pile v0.1の品質を示し、開発者が独自システムと競争力のあるモデルを作成できると主張しています。両モデルは、70億のパラメータを持ち、データセットの一部でトレーニングされ、Metaの元のLlamaモデルとコーディング、画像理解、数学ベンチマークで競合します。

TechCrunch All Stage Passで200ドル以上節約

よりスマートに革新。より早く成長。より深くネットワーク。Precursor Ventures、NEA、Index Ventures、Underscore VCなどのビジョナリーとつながり、洞察、ワークショップ、貴重なコネクションの1日を過ごしましょう。

TechCrunch All Stage Passで200ドル以上節約

よりスマートに革新。より早く成長。より深くネットワーク。Precursor Ventures、NEA、Index Ventures、Underscore VCなどのビジョナリーとつながり、洞察、ワークショップ、貴重なコネクションの1日を過ごしましょう。

ボストン、MA | 7月15日 いますぐ登録

パラメータ、しばしばウェイトと呼ばれるものは、AIモデルの動作や応答を形作る内部要素です。

「無許可のテキストが高性能に不可欠だという考えは根拠がありません」とビダーマンは投稿で述べました。「公開ライセンスや公共ドメインのデータがよりアクセスしやすくなるにつれて、そのようなコンテンツでトレーニングされたモデルが大幅に改善すると予想しています。」

Common Pile v0.1は、EleutherAIの過去の論争の一部に対処しています。数年前、グループは著作権付き素材を含むオープンデータセットThe Pileを公開し、AIトレーニングでの使用に対して批判と法的精査を受けました。

EleutherAIは、研究およびインフラのパートナーと協力して、オープンデータセットをより定期的に公開することを約束しています。

太平洋時間午前9:48更新: ビダーマンはXで、EleutherAIがデータセットとモデルの公開に貢献し、トロント大学などのパートナーが研究を共同主導したと述べました。

関連記事
ハワイアン・ビーチでの逃避行:新たな絆と意外な展開 ハワイアン・ビーチでの逃避行:新たな絆と意外な展開 自然のままのハワイのビーチで、太陽の光が肌を温め、波が穏やかなリズムを刻む。ジョシュにとって、このビジョンは長年の献身を経て現実のものとなった。静かな逃避行から始まった旅は、やがて新たな友情と予期せぬ展開に満ちたスリリングな旅へと急展開する。ハワイの美しい海岸で繰り広げられる、人とのつながり、ビーチサイドでの楽しみ、そして予期せぬ変化の魅惑的な物語に浸ってみてください。ハイライト長年の夢を叶
オジー・オズボーンの「クレイジー・トレイン」アニメーション・ビデオ:そのアートとインパクトを深く掘り下げる オジー・オズボーンの「クレイジー・トレイン」アニメーション・ビデオ:そのアートとインパクトを深く掘り下げる オジー・オズボーンの「Crazy Train」は、ヘヴィ・メタルの古典としての地位を超越し、文化の金字塔を体現している。そのアニメーション・ミュージック・ビデオは、曲の生のエネルギーとテーマの深みを増幅させる印象的な映像の旅を提供する。この記事では、ビデオの芸術的な選択、核となるメッセージ、不朽の影響力について検証する。主なハイライトCrazy Train」のビデオは、大胆なモノクロのスケッ
XXXTentacion AIカバー:マーヴィンズ・ルーム再現の分析 XXXTentacion AIカバー:マーヴィンズ・ルーム再現の分析 AI生成音楽の領域は急速に進化し、魅力的かつ複雑な可能性を提供しています。顕著な例は、故XXXTentacionのスタイルで再構築されたDrakeの有名なトラック「マーヴィンズ・ルーム」のAI作成カバーです。このデジタル創作は多様な感情を呼び起こし、音楽、創造性、遺産の保存におけるAIの役割について重要な議論を促します。このXXXTentacion AIカバーの意義とその広範な影響を掘り下げましょ
コメント (0)
0/200
トップに戻ります
OR