オプション
ニュース
EleutherAIがAIトレーニング用の大規模ライセンステキストデータセットを公開

EleutherAIがAIトレーニング用の大規模ライセンステキストデータセットを公開

2025年8月30日
89

EleutherAIがAIトレーニング用の大規模ライセンステキストデータセットを公開

EleutherAI、主要なAI研究グループは、AIモデルトレーニング用の最大規模のライセンスおよびオープンドメインテキストのコレクションを公開しました。

Common Pile v0.1と名付けられたこの8テラバイトのデータセットは、AIスタートアップのPoolside、Hugging Face、およびさまざまな学術機関と協力して2年間で開発されました。このデータセットは、EleutherAIの新しいモデルComma v0.1-1TおよびComma v0.1-2Tのトレーニングに使用され、組織はこれらのモデルが無許可の著作権付きデータでトレーニングされたモデルと同等の性能を発揮すると主張しています。

OpenAIを含むAI企業は、著作権付きの本やジャーナルを含むウェブスクレイピングデータを使用したモデルトレーニングに関する法的挑戦に直面しています。一部はコンテンツプロバイダーとライセンス契約を結んでいますが、多くは米国のフェアユース原則に依存して、許可なく著作権付き素材でトレーニングを行っています。

EleutherAIは、これらの訴訟がAI業界の透明性を大幅に低下させ、モデルの機能や弱点への洞察を制限し、広範な研究コミュニティに悪影響を及ぼしていると主張しています。

「法的挑戦はモデルトレーニングのデータ調達慣行を大きく変えていませんが、AI企業の公開性を劇的に減らしました」と、EleutherAIのエグゼクティブディレクターであるステラ・ビダーマンは、金曜日のHugging Faceのブログ投稿で述べました。「我々が話した一部の企業の研究者は、訴訟を理由にデータ中心の研究を共有できないと述べています。」

Common Pile v0.1は、Hugging FaceのAIプラットフォームおよびGitHubで利用可能で、法律相談を受けて開発され、米国議会図書館やインターネットアーカイブによってデジタル化された30万冊の公共ドメインの本などのソースが含まれています。EleutherAIはまた、OpenAIのWhisperモデルを使用してオーディオコンテンツを文字起こししました。

EleutherAIは、Comma v0.1-1TおよびComma v0.1-2TがCommon Pile v0.1の品質を示し、開発者が独自システムと競争力のあるモデルを作成できると主張しています。両モデルは、70億のパラメータを持ち、データセットの一部でトレーニングされ、Metaの元のLlamaモデルとコーディング、画像理解、数学ベンチマークで競合します。

TechCrunch All Stage Passで200ドル以上節約

よりスマートに革新。より早く成長。より深くネットワーク。Precursor Ventures、NEA、Index Ventures、Underscore VCなどのビジョナリーとつながり、洞察、ワークショップ、貴重なコネクションの1日を過ごしましょう。

TechCrunch All Stage Passで200ドル以上節約

よりスマートに革新。より早く成長。より深くネットワーク。Precursor Ventures、NEA、Index Ventures、Underscore VCなどのビジョナリーとつながり、洞察、ワークショップ、貴重なコネクションの1日を過ごしましょう。

ボストン、MA | 7月15日 いますぐ登録

パラメータ、しばしばウェイトと呼ばれるものは、AIモデルの動作や応答を形作る内部要素です。

「無許可のテキストが高性能に不可欠だという考えは根拠がありません」とビダーマンは投稿で述べました。「公開ライセンスや公共ドメインのデータがよりアクセスしやすくなるにつれて、そのようなコンテンツでトレーニングされたモデルが大幅に改善すると予想しています。」

Common Pile v0.1は、EleutherAIの過去の論争の一部に対処しています。数年前、グループは著作権付き素材を含むオープンデータセットThe Pileを公開し、AIトレーニングでの使用に対して批判と法的精査を受けました。

EleutherAIは、研究およびインフラのパートナーと協力して、オープンデータセットをより定期的に公開することを約束しています。

太平洋時間午前9:48更新: ビダーマンはXで、EleutherAIがデータセットとモデルの公開に貢献し、トロント大学などのパートナーが研究を共同主導したと述べました。

関連記事
「Cursor Composer 2」対「Claude Opus 4.6」:ベンチマークテストがAIコーディングを巡る新たな議論を巻き起こす 「Cursor Composer 2」対「Claude Opus 4.6」:ベンチマークテストがAIコーディングを巡る新たな議論を巻き起こす 3月19日、Cursorは自社開発のコーディングモデル「Composer 2」を正式にリリースした。 この発表は開発者コミュニティで即座に議論を巻き起こした。Cursorによると、Composer 2はTerminal-Bench 2.0で61.7%のスコアを記録し、同一のテスト条件下でClaude Opus 4.6の58.0%を大幅に上回ったという。Anthropicのフラッグシップモデルが、自
「StrictlyVC サンフランシスコ」に、TDKベンチャーズやReplitなどのリーダーが集結 「StrictlyVC サンフランシスコ」に、TDKベンチャーズやReplitなどのリーダーが集結 今年最初のStrictlyVCイベントが、あっという間にサンフランシスコで開催されます。 4月30日にセントロ・フィリピーノ・カルチュラル・センターで開催される本イベントのチケットは、現在も販売中です。豪華なスピーカー陣が登壇するこのイベントでは、StrictlyVCならではのネットワーキングやコミュニティ交流に加え、資金調達に関する最新の知見を求めるAI分野のイノベーターや起業家の方々にとって、
Notionは、ワークスペースをAIエージェントのハブへと変革します Notionは、ワークスペースをAIエージェントのハブへと変革します 生産性向上ソフトウェア企業であるNotionが、「エージェント時代」に突入する。水曜日にライブ配信された製品発表会で、共同ノート作成アプリで知られるNotionは、カスタムAIエージェントの機能を拡張し、外部エージェントと連携し、あらゆるデータベースからデータを取得できる自動化された多段階ワークフローをチームが構築できるようにする新しい開発者向けプラットフォームを発表した。複数のツールやデータソー
関連特集おすすめ
書き込み ラジオおよびポッドキャスト用の最適なAIスクリプティングツール:魅力的なオーディオコマーシャルを作成する
ラジオおよびポッドキャスト用の最適なAIスクリプティングツール:魅力的なオーディオコマーシャルを作成する

XIX.AIで2026年に最も優れたAIスクリプティングツールを探そう。厳選された高評価のリストには、魅力的なオーディオコマーシャルを迅速に作成するための強力で革新的なソリューションが掲載されている。無料版と有料版を実際のテストと毎週更新されるランキングで比較してみよう。今日からあなたの創造性を解き放ってください!

10 ツール
xix.ai
仕事 最高のAI契約書レビューソフトウェア:法的な抜け穴やコンプライアンス上のリスクを即座に特定
最高のAI契約書レビューソフトウェア:法的な抜け穴やコンプライアンス上のリスクを即座に特定

XIX.AIで、2026年最高のAI契約書レビューソフトウェアを見つけましょう。厳選された高評価のリストには、法的抜け穴やコンプライアンス上のリスクを瞬時に特定する強力なツールが揃っています。実際のテスト結果や毎週更新されるランキングをもとに、無料版と有料版を比較できます。安全かつ効率的な契約書分析を実現する、画期的なソリューションを見つけましょう。今すぐ決定版ガイドをご覧ください。

10 ツール
xix.ai
アニメーション制作 東華向けAIアニメジェネレーター:ウェブ小説のキャラクターやコミックのアバターを作成する
東華向けAIアニメジェネレーター:ウェブ小説のキャラクターやコミックのアバターを作成する

2026年に最も優れたAIアニメーション生成ツールを探そう。当社が厳選したリストには、見事なウェブ小説のキャラクターやコミックのアバターを作成するための強力なツールが揃っています。無料オプションと有料オプションを実際のテストで比較し、自分に最適な創造的なパートナーを見つけて、今日すぐにXIX.AIであなたの物語を形にしてみましょう。

10 ツール
xix.ai
漫画制作 漫画向けトップAI自動着色ツール:色むらのないフラットカラーを適用
漫画向けトップAI自動着色ツール:色むらのないフラットカラーを適用

XIX.AIで、2026年版のおすすめマンガ用AI自動着色ツールをご覧ください。厳選されたリストには、一貫性の誤差ゼロでフラットカラーを適用し、生産性を飛躍的に向上させる、高評価の画期的なソリューションが揃っています。無料版と有料版の比較、実地テスト、毎週更新されるランキングを参考に、あなたにぴったりのツールを見つけてください。今すぐAIの力を活用しましょう。

10 ツール
xix.ai
書き込み AI小説プロファイル作成のトップクリエイター:一貫性のあるキャラクターの動機と致命的な欠点を生成する
AI小説プロファイル作成のトップクリエイター:一貫性のあるキャラクターの動機と致命的な欠点を生成する

深みのあるキャラクターを創り出す、2026年最高のAIフィクションプロファイル作成ツールを発見しましょう。XIX.AIが厳選したこのリストには、一貫した動機や致命的な欠点を生成する、高評価で業界を変革するツールが揃っています。実際のテスト結果をもとに、無料版と有料版を比較してください。今すぐストーリーテリングの可能性を解き放ちましょう。

10 ツール
xix.ai
仕事 AIを活用した価格最適化ソフトのトップ選定:競合他社の動向を追跡し、店舗価格を自動調整
AIを活用した価格最適化ソフトのトップ選定:競合他社の動向を追跡し、店舗価格を自動調整

XIX.AIで、2026年最高のAI価格最適化ソフトウェアを見つけましょう。厳選されたリストには、競合他社の動向を追跡し、利益を最大化するために店舗の価格を自動調整する、高評価の画期的なツールが揃っています。実際のテスト結果をもとに、無料版と有料版を比較してください。今すぐ価格設定における優位性を手に入れましょう。

10 ツール
xix.ai
コメント (2)
0/500
NicholasLewis
NicholasLewis 2026年3月10日 19:01:03 JST

Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?

RyanLopez
RyanLopez 2026年2月2日 17:00:51 JST

Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

OR