EleutherAI stellt riesigen lizenzierten Textdatensatz für KI-Training vor

Heim

Nachricht

30. August 2025

WillSmith

EleutherAI stellt riesigen lizenzierten Textdatensatz für KI-Training vor

EleutherAI, eine führende KI-Forschungsgruppe, hat eine der größten Sammlungen lizenzierter und gemeinfreier Texte für das Training von KI-Modellen veröffentlicht.

Der Datensatz namens Common Pile v0.1, der 8 Terabyte umfasst, wurde über zwei Jahre hinweg in Zusammenarbeit mit den KI-Startups Poolside, Hugging Face und verschiedenen akademischen Institutionen entwickelt. Er wurde verwendet, um zwei neue EleutherAI-Modelle, Comma v0.1-1T und Comma v0.1-2T, zu trainieren, die laut der Organisation die Leistung von Modellen erreichen, die mit nicht lizenzierten, urheberrechtlich geschützten Daten trainiert wurden.

KI-Unternehmen, einschließlich OpenAI, sehen sich rechtlichen Herausforderungen gegenüber, weil sie web-gescrapte Daten, einschließlich urheberrechtlich geschützter Bücher und Zeitschriften, für das Modelltraining verwenden. Während einige Lizenzvereinbarungen mit Inhalteanbietern haben, berufen sich viele auf die US-amerikanische Fair-Use-Doktrin, um das Training mit urheberrechtlich geschütztem Material ohne Erlaubnis zu rechtfertigen.

EleutherAI argumentiert, dass diese Klagen die Transparenz in der KI-Branche erheblich reduziert haben, was die Einblicke in die Funktionsweise und Schwächen von Modellen einschränkt und der breiteren Forschungsgemeinschaft schadet.

„Rechtliche Herausforderungen haben die Praktiken zur Datenbeschaffung für das Modelltraining nicht wesentlich verändert, aber sie haben die Offenheit von KI-Unternehmen stark verringert“, sagte Stella Biderman, Geschäftsführerin von EleutherAI, in einem Blogbeitrag auf Hugging Face am Freitag. „Forscher bei einigen Unternehmen, mit denen wir gesprochen haben, nennen Klagen als Grund, warum sie ihre datenzentrierte Forschung nicht teilen können.“

Der Common Pile v0.1, verfügbar auf der KI-Plattform von Hugging Face und GitHub, wurde mit rechtlicher Beratung entwickelt und umfasst Quellen wie 300.000 gemeinfreie Bücher, die von der Library of Congress und dem Internet Archive digitalisiert wurden. EleutherAI nutzte auch das Whisper-Modell von OpenAI, um Audioinhalte zu transkribieren.

EleutherAI behauptet, dass Comma v0.1-1T und Comma v0.1-2T die Qualität des Common Pile v0.1 demonstrieren und Entwicklern ermöglichen, Modelle zu erstellen, die mit proprietären Systemen konkurrieren können. Beide Modelle, mit 7 Milliarden Parametern und trainiert auf einem Teil des Datensatzes, rivalisieren mit dem ursprünglichen Llama-Modell von Meta in den Bereichen Programmierung, Bildverständnis und mathematischen Benchmarks.

Sparen Sie über 200 $ bei Ihrem TechCrunch All Stage Pass

Intelligenter innovieren. Schneller wachsen. Tiefer vernetzen. Verbinden Sie sich mit Visionären von Precursor Ventures, NEA, Index Ventures, Underscore VC und mehr für einen Tag voller Einblicke, Workshops und wertvoller Verbindungen.

Sparen Sie über 200 $ bei Ihrem TechCrunch All Stage Pass

Intelligenter innovieren. Schneller wachsen. Tiefer vernetzen. Verbinden Sie sich mit Visionären von Precursor Ventures, NEA, Index Ventures, Underscore VC und mehr für einen Tag voller Einblicke, Workshops und wertvoller Verbindungen.

Boston, MA | 15. Juli JETZT REGISTRIEREN

Parameter, oft als Gewichte bezeichnet, sind die internen Elemente eines KI-Modells, die sein Verhalten und seine Reaktionen prägen.

„Die Annahme, dass nicht lizenzierter Text für hohe Leistung unerlässlich ist, ist unbegründet“, erklärte Biderman in ihrem Beitrag. „Da offen lizenzierte und gemeinfreie Daten zugänglicher werden, erwarten wir erhebliche Verbesserungen bei Modellen, die mit solchen Inhalten trainiert werden.“

Der Common Pile v0.1 beantwortet teilweise die früheren Kontroversen von EleutherAI. Vor Jahren veröffentlichte die Gruppe The Pile, einen offenen Datensatz, der urheberrechtlich geschütztes Material enthielt, was Kritik und rechtliche Prüfungen für dessen Verwendung im KI-Training nach sich zog.

EleutherAI verpflichtet sich, regelmäßig offene Datensätze zu veröffentlichen und mit Forschungs- und Infrastrukturpartnern zusammenzuarbeiten.

Aktualisiert um 9:48 Uhr Pazifischer Zeit: Biderman bemerkte auf X, dass EleutherAI zum Datensatz und der Modellfreigabe beigetragen hat, mit erheblicher Beteiligung von Partnern wie der University of Toronto, die die Forschung mitgeleitet hat.

Verwandter Artikel

Cursor AI, ein Startup im Bereich Programmierung, will nach einer bedeutenden Investition von SpaceX 200 Mitarbeiter im asiatisch-pazifischen Raum einstellen Das KI-Coding-Startup Cursor hat eine umfassende globale Expansion angekündigt und plant, in den nächsten sechs Monaten 200 Mitarbeiter im asiatisch-pazifischen Raum einzustellen. Zu den wichtigsten P

Claude wurde zur Erstellung bösartiger npm-Pakete genutzt: Über 670 kompromittierte Pakete gefährden Open Source Ein kürzlich aufgetretener Cybersicherheitsvorfall zeigt, wie große Sprachmodelle (LLMs) für die Entwicklung von Schadsoftware missbraucht werden. Der Sicherheitsforscher Sibi Moosa entdeckte einen An

Reliance stellt einen 110-Milliarden-Dollar-Investitionsplan für KI vor, während Indien seinen Technologieausbau vorantreibt Mukesh Ambani, der milliardenschwere Vorsitzende des indischen Mischkonzerns Reliance, kündigte am Donnerstag einen Plan im Umfang von 10 Billionen Rupien (rund 110 Milliarden US-Dollar) an, um in den

Empfehlungen zu verwandten Spezialthemen

Animationserstellung

AI-Anime-Generator für Donghua: Erstellen Sie Charaktere für Web-Romane und Comic-Avatare

Entdecken Sie die besten AI-Anime-Generatoren für Donghua im Jahr 2026. Unsere hochbewertete, sorgfältig ausgewählte Liste bietet leistungsstarke Tools, mit denen Sie atemberaubende Charaktere für Webromane und Comic-Avatare erstellen können. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand realer Tests. Finden Sie Ihren perfekten kreativen Partner und bringen Sie Ihre Geschichten noch heute bei XIX.AI zum Leben.

10 Tools

xix.ai

Comic-Erstellung

Die besten KI-Tools zur automatischen Kolorierung von Manga: Flache Farben ohne Konsistenzfehler anwenden

Entdecken Sie bei XIX.AI die besten KI-Tools zur automatischen Kolorierung von Manga für das Jahr 2026. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Lösungen, die flächige Farben ohne Konsistenzfehler auftragen und so Ihre Produktivität steigern. Entdecken Sie Vergleiche zwischen kostenlosen und kostenpflichtigen Angeboten, Praxistests und wöchentlich aktualisierte Rankings, um das für Sie perfekte Tool zu finden. Nutzen Sie noch heute Ihren KI-Vorteil.

10 Tools

xix.ai

Schreiben

Die besten KI-Profilersteller: Erstellen Sie konsistente Charaktermotivationen und fatale Schwächen

Entdecken Sie die besten KI-Tools zur Charakterentwicklung für 2026, mit denen Sie facettenreiche Figuren erschaffen können. Die von XIX.AI zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die konsistente Motivationen und fatale Schwächen generieren. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Entfalten Sie jetzt Ihr Potenzial als Geschichtenerzähler.

10 Tools

xix.ai

Geschäft

Die beste Software zur Preisoptimierung mittels KI: Beobachten Sie die Konkurrenz und passen Sie Ihre Shop-Preise automatisch an

Entdecken Sie auf XIX.AI die beste Software zur Preisoptimierung mittels KI für 2026. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools, die Ihre Mitbewerber beobachten und Ihre Shop-Preise automatisch anpassen, um den maximalen Gewinn zu erzielen. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests. Sichern Sie sich jetzt Ihren Preisvorteil.

10 Tools

xix.ai

Code

Die besten KI-Code-Prüfer: Automatisierung der Einhaltung von Clean-Code-Standards und Refactoring von Dateien in älteren Repositorys

Entdecken Sie die besten KI-Code-Reviewer des Jahres 2026 auf XIX.AI. Unsere sorgfältig zusammengestellte Liste enthält erstklassige, bahnbrechende Tools zur Automatisierung der Einhaltung von Clean-Code-Standards und zur Refaktorisierung von Dateien in älteren Repositorys. Vergleichen Sie kostenlose und kostenpflichtige Optionen anhand von Praxistests und wöchentlich aktualisierten Rankings. Sichern Sie sich noch heute Ihren KI-Vorsprung.

10 Tools

xix.ai

Text-zu-Sprache

Die besten KI-Sprachausgabe-Apps für Legasthenie: Unterstützung für das Lernen und effizienteres Lesen bei Schülern

Entdecken Sie die besten KI-TTS-Apps des Jahres 2026, die speziell zur Unterstützung bei Legasthenie ausgewählt wurden. In unseren Experten-Rankings vergleichen wir kostenlose und kostenpflichtige Tools und stellen leistungsstarke Funktionen für mehr Leseeffizienz und besseren Lernerfolg vor. Entdecken Sie bahnbrechende Lösungen, die Sie unbedingt ausprobieren sollten, um das Potenzial Ihrer Schüler voll auszuschöpfen. Beginnen Sie Ihre Reise bei XIX.AI.

10 Tools

xix.ai

Kommentare (2)

0/500

Bitte melden Sie sich zuerst an

NicholasLewis

10. März 2026 11:01:03 MEZ

Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?

RyanLopez

2. Februar 2026 09:00:51 MEZ

Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

Top -Nachrichten

AI Builder und Power Automate Revolutionieren die Dokumentenzusammenfassung KI -Hosts des Notebooklm -Podcasts, das jetzt für Interviews verfügbar ist China stellt nationale Standards für humanoide Roboter und verkörperte Intelligenz vor Ramp-Daten zeigen, dass die Akzeptanz von KI in Unternehmen sinkt Bing Image Creator Tutorial: Anleitung zur KI-Kunstgenerierung Lernen Sie, AI-Musik mit Ihrer Stimme zu erstellen: ein Schritt-für-Schritt-Suno-Tutorial iMyFone MagicMic: Echtzeit-AI-Stimmerveränderer Bewertung und Tutorial Top AI-Videogeneratoren 2025: Pika Labs im Vergleich zu Alternativen DeepSeek V4 revolutioniert multimodale KI Embodied Intelligence stellt ersten Branchenstandard zur Eindämmung unkontrollierten Wachstums vor

Mehr

Vorgestellt