EleutherAIがAIトレーニング用の大規模ライセンステキストデータセットを公開

EleutherAI、主要なAI研究グループは、AIモデルトレーニング用の最大規模のライセンスおよびオープンドメインテキストのコレクションを公開しました。
Common Pile v0.1と名付けられたこの8テラバイトのデータセットは、AIスタートアップのPoolside、Hugging Face、およびさまざまな学術機関と協力して2年間で開発されました。このデータセットは、EleutherAIの新しいモデルComma v0.1-1TおよびComma v0.1-2Tのトレーニングに使用され、組織はこれらのモデルが無許可の著作権付きデータでトレーニングされたモデルと同等の性能を発揮すると主張しています。
OpenAIを含むAI企業は、著作権付きの本やジャーナルを含むウェブスクレイピングデータを使用したモデルトレーニングに関する法的挑戦に直面しています。一部はコンテンツプロバイダーとライセンス契約を結んでいますが、多くは米国のフェアユース原則に依存して、許可なく著作権付き素材でトレーニングを行っています。
EleutherAIは、これらの訴訟がAI業界の透明性を大幅に低下させ、モデルの機能や弱点への洞察を制限し、広範な研究コミュニティに悪影響を及ぼしていると主張しています。
「法的挑戦はモデルトレーニングのデータ調達慣行を大きく変えていませんが、AI企業の公開性を劇的に減らしました」と、EleutherAIのエグゼクティブディレクターであるステラ・ビダーマンは、金曜日のHugging Faceのブログ投稿で述べました。「我々が話した一部の企業の研究者は、訴訟を理由にデータ中心の研究を共有できないと述べています。」
Common Pile v0.1は、Hugging FaceのAIプラットフォームおよびGitHubで利用可能で、法律相談を受けて開発され、米国議会図書館やインターネットアーカイブによってデジタル化された30万冊の公共ドメインの本などのソースが含まれています。EleutherAIはまた、OpenAIのWhisperモデルを使用してオーディオコンテンツを文字起こししました。
EleutherAIは、Comma v0.1-1TおよびComma v0.1-2TがCommon Pile v0.1の品質を示し、開発者が独自システムと競争力のあるモデルを作成できると主張しています。両モデルは、70億のパラメータを持ち、データセットの一部でトレーニングされ、Metaの元のLlamaモデルとコーディング、画像理解、数学ベンチマークで競合します。
TechCrunch All Stage Passで200ドル以上節約
よりスマートに革新。より早く成長。より深くネットワーク。Precursor Ventures、NEA、Index Ventures、Underscore VCなどのビジョナリーとつながり、洞察、ワークショップ、貴重なコネクションの1日を過ごしましょう。
TechCrunch All Stage Passで200ドル以上節約
よりスマートに革新。より早く成長。より深くネットワーク。Precursor Ventures、NEA、Index Ventures、Underscore VCなどのビジョナリーとつながり、洞察、ワークショップ、貴重なコネクションの1日を過ごしましょう。
ボストン、MA | 7月15日 いますぐ登録パラメータ、しばしばウェイトと呼ばれるものは、AIモデルの動作や応答を形作る内部要素です。
「無許可のテキストが高性能に不可欠だという考えは根拠がありません」とビダーマンは投稿で述べました。「公開ライセンスや公共ドメインのデータがよりアクセスしやすくなるにつれて、そのようなコンテンツでトレーニングされたモデルが大幅に改善すると予想しています。」
Common Pile v0.1は、EleutherAIの過去の論争の一部に対処しています。数年前、グループは著作権付き素材を含むオープンデータセットThe Pileを公開し、AIトレーニングでの使用に対して批判と法的精査を受けました。
EleutherAIは、研究およびインフラのパートナーと協力して、オープンデータセットをより定期的に公開することを約束しています。
太平洋時間午前9:48更新: ビダーマンはXで、EleutherAIがデータセットとモデルの公開に貢献し、トロント大学などのパートナーが研究を共同主導したと述べました。
関連記事
「Cursor Composer 2」対「Claude Opus 4.6」:ベンチマークテストがAIコーディングを巡る新たな議論を巻き起こす
3月19日、Cursorは自社開発のコーディングモデル「Composer 2」を正式にリリースした。 この発表は開発者コミュニティで即座に議論を巻き起こした。Cursorによると、Composer 2はTerminal-Bench 2.0で61.7%のスコアを記録し、同一のテスト条件下でClaude Opus 4.6の58.0%を大幅に上回ったという。Anthropicのフラッグシップモデルが、自
「StrictlyVC サンフランシスコ」に、TDKベンチャーズやReplitなどのリーダーが集結
今年最初のStrictlyVCイベントが、あっという間にサンフランシスコで開催されます。 4月30日にセントロ・フィリピーノ・カルチュラル・センターで開催される本イベントのチケットは、現在も販売中です。豪華なスピーカー陣が登壇するこのイベントでは、StrictlyVCならではのネットワーキングやコミュニティ交流に加え、資金調達に関する最新の知見を求めるAI分野のイノベーターや起業家の方々にとって、
Notionは、ワークスペースをAIエージェントのハブへと変革します
生産性向上ソフトウェア企業であるNotionが、「エージェント時代」に突入する。水曜日にライブ配信された製品発表会で、共同ノート作成アプリで知られるNotionは、カスタムAIエージェントの機能を拡張し、外部エージェントと連携し、あらゆるデータベースからデータを取得できる自動化された多段階ワークフローをチームが構築できるようにする新しい開発者向けプラットフォームを発表した。複数のツールやデータソー
関連特集おすすめ
コメント (2)
0/500
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

EleutherAI、主要なAI研究グループは、AIモデルトレーニング用の最大規模のライセンスおよびオープンドメインテキストのコレクションを公開しました。
Common Pile v0.1と名付けられたこの8テラバイトのデータセットは、AIスタートアップのPoolside、Hugging Face、およびさまざまな学術機関と協力して2年間で開発されました。このデータセットは、EleutherAIの新しいモデルComma v0.1-1TおよびComma v0.1-2Tのトレーニングに使用され、組織はこれらのモデルが無許可の著作権付きデータでトレーニングされたモデルと同等の性能を発揮すると主張しています。
OpenAIを含むAI企業は、著作権付きの本やジャーナルを含むウェブスクレイピングデータを使用したモデルトレーニングに関する法的挑戦に直面しています。一部はコンテンツプロバイダーとライセンス契約を結んでいますが、多くは米国のフェアユース原則に依存して、許可なく著作権付き素材でトレーニングを行っています。
EleutherAIは、これらの訴訟がAI業界の透明性を大幅に低下させ、モデルの機能や弱点への洞察を制限し、広範な研究コミュニティに悪影響を及ぼしていると主張しています。
「法的挑戦はモデルトレーニングのデータ調達慣行を大きく変えていませんが、AI企業の公開性を劇的に減らしました」と、EleutherAIのエグゼクティブディレクターであるステラ・ビダーマンは、金曜日のHugging Faceのブログ投稿で述べました。「我々が話した一部の企業の研究者は、訴訟を理由にデータ中心の研究を共有できないと述べています。」
Common Pile v0.1は、Hugging FaceのAIプラットフォームおよびGitHubで利用可能で、法律相談を受けて開発され、米国議会図書館やインターネットアーカイブによってデジタル化された30万冊の公共ドメインの本などのソースが含まれています。EleutherAIはまた、OpenAIのWhisperモデルを使用してオーディオコンテンツを文字起こししました。
EleutherAIは、Comma v0.1-1TおよびComma v0.1-2TがCommon Pile v0.1の品質を示し、開発者が独自システムと競争力のあるモデルを作成できると主張しています。両モデルは、70億のパラメータを持ち、データセットの一部でトレーニングされ、Metaの元のLlamaモデルとコーディング、画像理解、数学ベンチマークで競合します。
TechCrunch All Stage Passで200ドル以上節約
よりスマートに革新。より早く成長。より深くネットワーク。Precursor Ventures、NEA、Index Ventures、Underscore VCなどのビジョナリーとつながり、洞察、ワークショップ、貴重なコネクションの1日を過ごしましょう。
TechCrunch All Stage Passで200ドル以上節約
よりスマートに革新。より早く成長。より深くネットワーク。Precursor Ventures、NEA、Index Ventures、Underscore VCなどのビジョナリーとつながり、洞察、ワークショップ、貴重なコネクションの1日を過ごしましょう。
ボストン、MA | 7月15日 いますぐ登録パラメータ、しばしばウェイトと呼ばれるものは、AIモデルの動作や応答を形作る内部要素です。
「無許可のテキストが高性能に不可欠だという考えは根拠がありません」とビダーマンは投稿で述べました。「公開ライセンスや公共ドメインのデータがよりアクセスしやすくなるにつれて、そのようなコンテンツでトレーニングされたモデルが大幅に改善すると予想しています。」
Common Pile v0.1は、EleutherAIの過去の論争の一部に対処しています。数年前、グループは著作権付き素材を含むオープンデータセットThe Pileを公開し、AIトレーニングでの使用に対して批判と法的精査を受けました。
EleutherAIは、研究およびインフラのパートナーと協力して、オープンデータセットをより定期的に公開することを約束しています。
太平洋時間午前9:48更新: ビダーマンはXで、EleutherAIがデータセットとモデルの公開に貢献し、トロント大学などのパートナーが研究を共同主導したと述べました。
「Cursor Composer 2」対「Claude Opus 4.6」:ベンチマークテストがAIコーディングを巡る新たな議論を巻き起こす
3月19日、Cursorは自社開発のコーディングモデル「Composer 2」を正式にリリースした。 この発表は開発者コミュニティで即座に議論を巻き起こした。Cursorによると、Composer 2はTerminal-Bench 2.0で61.7%のスコアを記録し、同一のテスト条件下でClaude Opus 4.6の58.0%を大幅に上回ったという。Anthropicのフラッグシップモデルが、自
「StrictlyVC サンフランシスコ」に、TDKベンチャーズやReplitなどのリーダーが集結
今年最初のStrictlyVCイベントが、あっという間にサンフランシスコで開催されます。 4月30日にセントロ・フィリピーノ・カルチュラル・センターで開催される本イベントのチケットは、現在も販売中です。豪華なスピーカー陣が登壇するこのイベントでは、StrictlyVCならではのネットワーキングやコミュニティ交流に加え、資金調達に関する最新の知見を求めるAI分野のイノベーターや起業家の方々にとって、
Notionは、ワークスペースをAIエージェントのハブへと変革します
生産性向上ソフトウェア企業であるNotionが、「エージェント時代」に突入する。水曜日にライブ配信された製品発表会で、共同ノート作成アプリで知られるNotionは、カスタムAIエージェントの機能を拡張し、外部エージェントと連携し、あらゆるデータベースからデータを取得できる自動化された多段階ワークフローをチームが構築できるようにする新しい開発者向けプラットフォームを発表した。複数のツールやデータソー
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀





家






