Option
Heim
Nachricht
EleutherAI stellt riesigen lizenzierten Textdatensatz für KI-Training vor

EleutherAI stellt riesigen lizenzierten Textdatensatz für KI-Training vor

30. August 2025
0

EleutherAI stellt riesigen lizenzierten Textdatensatz für KI-Training vor

EleutherAI, eine führende KI-Forschungsgruppe, hat eine der größten Sammlungen lizenzierter und gemeinfreier Texte für das Training von KI-Modellen veröffentlicht.

Der Datensatz namens Common Pile v0.1, der 8 Terabyte umfasst, wurde über zwei Jahre hinweg in Zusammenarbeit mit den KI-Startups Poolside, Hugging Face und verschiedenen akademischen Institutionen entwickelt. Er wurde verwendet, um zwei neue EleutherAI-Modelle, Comma v0.1-1T und Comma v0.1-2T, zu trainieren, die laut der Organisation die Leistung von Modellen erreichen, die mit nicht lizenzierten, urheberrechtlich geschützten Daten trainiert wurden.

KI-Unternehmen, einschließlich OpenAI, sehen sich rechtlichen Herausforderungen gegenüber, weil sie web-gescrapte Daten, einschließlich urheberrechtlich geschützter Bücher und Zeitschriften, für das Modelltraining verwenden. Während einige Lizenzvereinbarungen mit Inhalteanbietern haben, berufen sich viele auf die US-amerikanische Fair-Use-Doktrin, um das Training mit urheberrechtlich geschütztem Material ohne Erlaubnis zu rechtfertigen.

EleutherAI argumentiert, dass diese Klagen die Transparenz in der KI-Branche erheblich reduziert haben, was die Einblicke in die Funktionsweise und Schwächen von Modellen einschränkt und der breiteren Forschungsgemeinschaft schadet.

„Rechtliche Herausforderungen haben die Praktiken zur Datenbeschaffung für das Modelltraining nicht wesentlich verändert, aber sie haben die Offenheit von KI-Unternehmen stark verringert“, sagte Stella Biderman, Geschäftsführerin von EleutherAI, in einem Blogbeitrag auf Hugging Face am Freitag. „Forscher bei einigen Unternehmen, mit denen wir gesprochen haben, nennen Klagen als Grund, warum sie ihre datenzentrierte Forschung nicht teilen können.“

Der Common Pile v0.1, verfügbar auf der KI-Plattform von Hugging Face und GitHub, wurde mit rechtlicher Beratung entwickelt und umfasst Quellen wie 300.000 gemeinfreie Bücher, die von der Library of Congress und dem Internet Archive digitalisiert wurden. EleutherAI nutzte auch das Whisper-Modell von OpenAI, um Audioinhalte zu transkribieren.

EleutherAI behauptet, dass Comma v0.1-1T und Comma v0.1-2T die Qualität des Common Pile v0.1 demonstrieren und Entwicklern ermöglichen, Modelle zu erstellen, die mit proprietären Systemen konkurrieren können. Beide Modelle, mit 7 Milliarden Parametern und trainiert auf einem Teil des Datensatzes, rivalisieren mit dem ursprünglichen Llama-Modell von Meta in den Bereichen Programmierung, Bildverständnis und mathematischen Benchmarks.

Sparen Sie über 200 $ bei Ihrem TechCrunch All Stage Pass

Intelligenter innovieren. Schneller wachsen. Tiefer vernetzen. Verbinden Sie sich mit Visionären von Precursor Ventures, NEA, Index Ventures, Underscore VC und mehr für einen Tag voller Einblicke, Workshops und wertvoller Verbindungen.

Sparen Sie über 200 $ bei Ihrem TechCrunch All Stage Pass

Intelligenter innovieren. Schneller wachsen. Tiefer vernetzen. Verbinden Sie sich mit Visionären von Precursor Ventures, NEA, Index Ventures, Underscore VC und mehr für einen Tag voller Einblicke, Workshops und wertvoller Verbindungen.

Boston, MA | 15. Juli JETZT REGISTRIEREN

Parameter, oft als Gewichte bezeichnet, sind die internen Elemente eines KI-Modells, die sein Verhalten und seine Reaktionen prägen.

„Die Annahme, dass nicht lizenzierter Text für hohe Leistung unerlässlich ist, ist unbegründet“, erklärte Biderman in ihrem Beitrag. „Da offen lizenzierte und gemeinfreie Daten zugänglicher werden, erwarten wir erhebliche Verbesserungen bei Modellen, die mit solchen Inhalten trainiert werden.“

Der Common Pile v0.1 beantwortet teilweise die früheren Kontroversen von EleutherAI. Vor Jahren veröffentlichte die Gruppe The Pile, einen offenen Datensatz, der urheberrechtlich geschütztes Material enthielt, was Kritik und rechtliche Prüfungen für dessen Verwendung im KI-Training nach sich zog.

EleutherAI verpflichtet sich, regelmäßig offene Datensätze zu veröffentlichen und mit Forschungs- und Infrastrukturpartnern zusammenzuarbeiten.

Aktualisiert um 9:48 Uhr Pazifischer Zeit: Biderman bemerkte auf X, dass EleutherAI zum Datensatz und der Modellfreigabe beigetragen hat, mit erheblicher Beteiligung von Partnern wie der University of Toronto, die die Forschung mitgeleitet hat.

Verwandter Artikel
Hawaiianische Strand-Eskapaden: Neue Bindungen und überraschende Wendungen Hawaiianische Strand-Eskapaden: Neue Bindungen und überraschende Wendungen Stellen Sie sich vor, Sie liegen an einem unberührten hawaiianischen Strand, die Sonne wärmt Ihre Haut, die Wellen erzeugen einen beruhigenden Rhythmus. Für Josh wurde diese Vision nach Jahren der Hi
Ozzy Osbournes animiertes Video Ozzy Osbournes animiertes Video "Crazy Train": Ein tiefer Einblick in seine Kunst und Wirkung Crazy Train" von Ozzy Osbourne ist nicht nur ein Klassiker des Heavy Metal, sondern auch ein kultureller Meilenstein. Das animierte Musikvideo bietet eine beeindruckende visuelle Reise, die die rohe
XXXTentacion KI-Cover: Analyse der Neuinterpretation von Marvin's Room XXXTentacion KI-Cover: Analyse der Neuinterpretation von Marvin's Room Der Bereich der KI-generierten Musik entwickelt sich rasant weiter und bietet faszinierende, aber komplexe Möglichkeiten. Ein markantes Beispiel ist das KI-gestaltete Cover von Drakes bekanntem Titel
Kommentare (0)
0/200
Zurück nach oben
OR