EleutherAI stellt riesigen lizenzierten Textdatensatz für KI-Training vor

EleutherAI, eine führende KI-Forschungsgruppe, hat eine der größten Sammlungen lizenzierter und gemeinfreier Texte für das Training von KI-Modellen veröffentlicht.
Der Datensatz namens Common Pile v0.1, der 8 Terabyte umfasst, wurde über zwei Jahre hinweg in Zusammenarbeit mit den KI-Startups Poolside, Hugging Face und verschiedenen akademischen Institutionen entwickelt. Er wurde verwendet, um zwei neue EleutherAI-Modelle, Comma v0.1-1T und Comma v0.1-2T, zu trainieren, die laut der Organisation die Leistung von Modellen erreichen, die mit nicht lizenzierten, urheberrechtlich geschützten Daten trainiert wurden.
KI-Unternehmen, einschließlich OpenAI, sehen sich rechtlichen Herausforderungen gegenüber, weil sie web-gescrapte Daten, einschließlich urheberrechtlich geschützter Bücher und Zeitschriften, für das Modelltraining verwenden. Während einige Lizenzvereinbarungen mit Inhalteanbietern haben, berufen sich viele auf die US-amerikanische Fair-Use-Doktrin, um das Training mit urheberrechtlich geschütztem Material ohne Erlaubnis zu rechtfertigen.
EleutherAI argumentiert, dass diese Klagen die Transparenz in der KI-Branche erheblich reduziert haben, was die Einblicke in die Funktionsweise und Schwächen von Modellen einschränkt und der breiteren Forschungsgemeinschaft schadet.
„Rechtliche Herausforderungen haben die Praktiken zur Datenbeschaffung für das Modelltraining nicht wesentlich verändert, aber sie haben die Offenheit von KI-Unternehmen stark verringert“, sagte Stella Biderman, Geschäftsführerin von EleutherAI, in einem Blogbeitrag auf Hugging Face am Freitag. „Forscher bei einigen Unternehmen, mit denen wir gesprochen haben, nennen Klagen als Grund, warum sie ihre datenzentrierte Forschung nicht teilen können.“
Der Common Pile v0.1, verfügbar auf der KI-Plattform von Hugging Face und GitHub, wurde mit rechtlicher Beratung entwickelt und umfasst Quellen wie 300.000 gemeinfreie Bücher, die von der Library of Congress und dem Internet Archive digitalisiert wurden. EleutherAI nutzte auch das Whisper-Modell von OpenAI, um Audioinhalte zu transkribieren.
EleutherAI behauptet, dass Comma v0.1-1T und Comma v0.1-2T die Qualität des Common Pile v0.1 demonstrieren und Entwicklern ermöglichen, Modelle zu erstellen, die mit proprietären Systemen konkurrieren können. Beide Modelle, mit 7 Milliarden Parametern und trainiert auf einem Teil des Datensatzes, rivalisieren mit dem ursprünglichen Llama-Modell von Meta in den Bereichen Programmierung, Bildverständnis und mathematischen Benchmarks.
Sparen Sie über 200 $ bei Ihrem TechCrunch All Stage Pass
Intelligenter innovieren. Schneller wachsen. Tiefer vernetzen. Verbinden Sie sich mit Visionären von Precursor Ventures, NEA, Index Ventures, Underscore VC und mehr für einen Tag voller Einblicke, Workshops und wertvoller Verbindungen.
Sparen Sie über 200 $ bei Ihrem TechCrunch All Stage Pass
Intelligenter innovieren. Schneller wachsen. Tiefer vernetzen. Verbinden Sie sich mit Visionären von Precursor Ventures, NEA, Index Ventures, Underscore VC und mehr für einen Tag voller Einblicke, Workshops und wertvoller Verbindungen.
Boston, MA | 15. Juli JETZT REGISTRIERENParameter, oft als Gewichte bezeichnet, sind die internen Elemente eines KI-Modells, die sein Verhalten und seine Reaktionen prägen.
„Die Annahme, dass nicht lizenzierter Text für hohe Leistung unerlässlich ist, ist unbegründet“, erklärte Biderman in ihrem Beitrag. „Da offen lizenzierte und gemeinfreie Daten zugänglicher werden, erwarten wir erhebliche Verbesserungen bei Modellen, die mit solchen Inhalten trainiert werden.“
Der Common Pile v0.1 beantwortet teilweise die früheren Kontroversen von EleutherAI. Vor Jahren veröffentlichte die Gruppe The Pile, einen offenen Datensatz, der urheberrechtlich geschütztes Material enthielt, was Kritik und rechtliche Prüfungen für dessen Verwendung im KI-Training nach sich zog.
EleutherAI verpflichtet sich, regelmäßig offene Datensätze zu veröffentlichen und mit Forschungs- und Infrastrukturpartnern zusammenzuarbeiten.
Aktualisiert um 9:48 Uhr Pazifischer Zeit: Biderman bemerkte auf X, dass EleutherAI zum Datensatz und der Modellfreigabe beigetragen hat, mit erheblicher Beteiligung von Partnern wie der University of Toronto, die die Forschung mitgeleitet hat.
Verwandter Artikel
Cursor AI, ein Startup im Bereich Programmierung, will nach einer bedeutenden Investition von SpaceX 200 Mitarbeiter im asiatisch-pazifischen Raum einstellen
Das KI-Coding-Startup Cursor hat eine umfassende globale Expansion angekündigt und plant, in den nächsten sechs Monaten 200 Mitarbeiter im asiatisch-pazifischen Raum einzustellen. Zu den wichtigsten P
Claude wurde zur Erstellung bösartiger npm-Pakete genutzt: Über 670 kompromittierte Pakete gefährden Open Source
Ein kürzlich aufgetretener Cybersicherheitsvorfall zeigt, wie große Sprachmodelle (LLMs) für die Entwicklung von Schadsoftware missbraucht werden. Der Sicherheitsforscher Sibi Moosa entdeckte einen An
Reliance stellt einen 110-Milliarden-Dollar-Investitionsplan für KI vor, während Indien seinen Technologieausbau vorantreibt
Mukesh Ambani, der milliardenschwere Vorsitzende des indischen Mischkonzerns Reliance, kündigte am Donnerstag einen Plan im Umfang von 10 Billionen Rupien (rund 110 Milliarden US-Dollar) an, um in den
Empfehlungen zu verwandten Spezialthemen
Kommentare (2)
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

EleutherAI, eine führende KI-Forschungsgruppe, hat eine der größten Sammlungen lizenzierter und gemeinfreier Texte für das Training von KI-Modellen veröffentlicht.
Der Datensatz namens Common Pile v0.1, der 8 Terabyte umfasst, wurde über zwei Jahre hinweg in Zusammenarbeit mit den KI-Startups Poolside, Hugging Face und verschiedenen akademischen Institutionen entwickelt. Er wurde verwendet, um zwei neue EleutherAI-Modelle, Comma v0.1-1T und Comma v0.1-2T, zu trainieren, die laut der Organisation die Leistung von Modellen erreichen, die mit nicht lizenzierten, urheberrechtlich geschützten Daten trainiert wurden.
KI-Unternehmen, einschließlich OpenAI, sehen sich rechtlichen Herausforderungen gegenüber, weil sie web-gescrapte Daten, einschließlich urheberrechtlich geschützter Bücher und Zeitschriften, für das Modelltraining verwenden. Während einige Lizenzvereinbarungen mit Inhalteanbietern haben, berufen sich viele auf die US-amerikanische Fair-Use-Doktrin, um das Training mit urheberrechtlich geschütztem Material ohne Erlaubnis zu rechtfertigen.
EleutherAI argumentiert, dass diese Klagen die Transparenz in der KI-Branche erheblich reduziert haben, was die Einblicke in die Funktionsweise und Schwächen von Modellen einschränkt und der breiteren Forschungsgemeinschaft schadet.
„Rechtliche Herausforderungen haben die Praktiken zur Datenbeschaffung für das Modelltraining nicht wesentlich verändert, aber sie haben die Offenheit von KI-Unternehmen stark verringert“, sagte Stella Biderman, Geschäftsführerin von EleutherAI, in einem Blogbeitrag auf Hugging Face am Freitag. „Forscher bei einigen Unternehmen, mit denen wir gesprochen haben, nennen Klagen als Grund, warum sie ihre datenzentrierte Forschung nicht teilen können.“
Der Common Pile v0.1, verfügbar auf der KI-Plattform von Hugging Face und GitHub, wurde mit rechtlicher Beratung entwickelt und umfasst Quellen wie 300.000 gemeinfreie Bücher, die von der Library of Congress und dem Internet Archive digitalisiert wurden. EleutherAI nutzte auch das Whisper-Modell von OpenAI, um Audioinhalte zu transkribieren.
EleutherAI behauptet, dass Comma v0.1-1T und Comma v0.1-2T die Qualität des Common Pile v0.1 demonstrieren und Entwicklern ermöglichen, Modelle zu erstellen, die mit proprietären Systemen konkurrieren können. Beide Modelle, mit 7 Milliarden Parametern und trainiert auf einem Teil des Datensatzes, rivalisieren mit dem ursprünglichen Llama-Modell von Meta in den Bereichen Programmierung, Bildverständnis und mathematischen Benchmarks.
Sparen Sie über 200 $ bei Ihrem TechCrunch All Stage Pass
Intelligenter innovieren. Schneller wachsen. Tiefer vernetzen. Verbinden Sie sich mit Visionären von Precursor Ventures, NEA, Index Ventures, Underscore VC und mehr für einen Tag voller Einblicke, Workshops und wertvoller Verbindungen.
Sparen Sie über 200 $ bei Ihrem TechCrunch All Stage Pass
Intelligenter innovieren. Schneller wachsen. Tiefer vernetzen. Verbinden Sie sich mit Visionären von Precursor Ventures, NEA, Index Ventures, Underscore VC und mehr für einen Tag voller Einblicke, Workshops und wertvoller Verbindungen.
Boston, MA | 15. Juli JETZT REGISTRIERENParameter, oft als Gewichte bezeichnet, sind die internen Elemente eines KI-Modells, die sein Verhalten und seine Reaktionen prägen.
„Die Annahme, dass nicht lizenzierter Text für hohe Leistung unerlässlich ist, ist unbegründet“, erklärte Biderman in ihrem Beitrag. „Da offen lizenzierte und gemeinfreie Daten zugänglicher werden, erwarten wir erhebliche Verbesserungen bei Modellen, die mit solchen Inhalten trainiert werden.“
Der Common Pile v0.1 beantwortet teilweise die früheren Kontroversen von EleutherAI. Vor Jahren veröffentlichte die Gruppe The Pile, einen offenen Datensatz, der urheberrechtlich geschütztes Material enthielt, was Kritik und rechtliche Prüfungen für dessen Verwendung im KI-Training nach sich zog.
EleutherAI verpflichtet sich, regelmäßig offene Datensätze zu veröffentlichen und mit Forschungs- und Infrastrukturpartnern zusammenzuarbeiten.
Aktualisiert um 9:48 Uhr Pazifischer Zeit: Biderman bemerkte auf X, dass EleutherAI zum Datensatz und der Modellfreigabe beigetragen hat, mit erheblicher Beteiligung von Partnern wie der University of Toronto, die die Forschung mitgeleitet hat.
Cursor AI, ein Startup im Bereich Programmierung, will nach einer bedeutenden Investition von SpaceX 200 Mitarbeiter im asiatisch-pazifischen Raum einstellen
Das KI-Coding-Startup Cursor hat eine umfassende globale Expansion angekündigt und plant, in den nächsten sechs Monaten 200 Mitarbeiter im asiatisch-pazifischen Raum einzustellen. Zu den wichtigsten P
Claude wurde zur Erstellung bösartiger npm-Pakete genutzt: Über 670 kompromittierte Pakete gefährden Open Source
Ein kürzlich aufgetretener Cybersicherheitsvorfall zeigt, wie große Sprachmodelle (LLMs) für die Entwicklung von Schadsoftware missbraucht werden. Der Sicherheitsforscher Sibi Moosa entdeckte einen An
Reliance stellt einen 110-Milliarden-Dollar-Investitionsplan für KI vor, während Indien seinen Technologieausbau vorantreibt
Mukesh Ambani, der milliardenschwere Vorsitzende des indischen Mischkonzerns Reliance, kündigte am Donnerstag einen Plan im Umfang von 10 Billionen Rupien (rund 110 Milliarden US-Dollar) an, um in den
Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?
Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀





Heim






