option
Maison
Nouvelles
EleutherAI Dévoile un Ensemble de Données Textuelles Sous Licence Massive pour l'Entraînement d'IA

EleutherAI Dévoile un Ensemble de Données Textuelles Sous Licence Massive pour l'Entraînement d'IA

30 août 2025
89

EleutherAI Dévoile un Ensemble de Données Textuelles Sous Licence Massive pour l

EleutherAI, un groupe de recherche en IA de premier plan, a lancé l'une des plus grandes collections de textes sous licence et en domaine public pour l'entraînement de modèles d'IA.

Nommé le Common Pile v0.1, cet ensemble de données de 8 téraoctets a été développé sur deux ans avec les startups IA Poolside, Hugging Face, et diverses institutions académiques. Il a été utilisé pour entraîner deux nouveaux modèles d'EleutherAI, Comma v0.1-1T et Comma v0.1-2T, dont l'organisation affirme qu'ils égalent les performances des modèles entraînés sur des données sous copyright non licenciées.

Les entreprises d'IA, y compris OpenAI, font face à des défis juridiques concernant leur utilisation de données extraites du web, y compris des livres et journaux sous copyright, pour l'entraînement de modèles. Bien que certaines aient des accords de licence avec des fournisseurs de contenu, beaucoup s'appuient sur la doctrine américaine du fair use pour justifier l'entraînement sur du matériel sous copyright sans autorisation.

EleutherAI soutient que ces poursuites ont considérablement réduit la transparence dans l'industrie de l'IA, limitant la compréhension des fonctionnalités et des faiblesses des modèles, ce qui nuit à la communauté de recherche au sens large.

« Les défis juridiques n'ont pas significativement modifié les pratiques de sourcing de données pour l'entraînement des modèles, mais ils ont fortement réduit l'ouverture des entreprises d'IA », a déclaré Stella Biderman, directrice exécutive d'EleutherAI, dans un article de blog sur Hugging Face vendredi. « Les chercheurs de certaines entreprises avec lesquelles nous avons parlé citent les poursuites comme la raison pour laquelle ils ne peuvent pas partager leurs recherches axées sur les données. »

Le Common Pile v0.1, disponible sur la plateforme IA de Hugging Face et GitHub, a été développé avec une consultation juridique et inclut des sources comme 300 000 livres du domaine public numérisés par la Bibliothèque du Congrès et l'Internet Archive. EleutherAI a également utilisé le modèle Whisper d'OpenAI pour transcrire du contenu audio.

EleutherAI affirme que Comma v0.1-1T et Comma v0.1-2T démontrent la qualité du Common Pile v0.1, permettant aux développeurs de créer des modèles compétitifs avec des systèmes propriétaires. Les deux modèles, avec 7 milliards de paramètres et entraînés sur une partie de l'ensemble de données, rivalisent avec le modèle Llama original de Meta dans les benchmarks de codage, de compréhension d'images et de mathématiques.

Économisez Plus de 200 $ sur Votre Pass Toutes Étapes TechCrunch

Innovez plus intelligemment. Croissez plus vite. Réseautez plus profondément. Connectez-vous avec des visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC, et plus encore pour une journée d'insights, d'ateliers et de connexions précieuses.

Économisez Plus de 200 $ sur Votre Pass Toutes Étapes TechCrunch

Innovez plus intelligemment. Croissez plus vite. Réseautez plus profondément. Connectez-vous avec des visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC, et plus encore pour une journée d'insights, d'ateliers et de connexions précieuses.

Boston, MA | 15 juillet INSCRIVEZ-VOUS MAINTENANT

Les paramètres, souvent appelés poids, sont les éléments internes d'un modèle d'IA qui façonnent son comportement et ses réponses.

« La croyance que le texte non licencié est essentiel pour des performances élevées est infondée », a déclaré Biderman dans son article. « À mesure que les données sous licence ouverte et du domaine public deviennent plus accessibles, nous anticipons des améliorations significatives dans les modèles entraînés sur ce contenu. »

Le Common Pile v0.1 répond en partie aux controverses passées d'EleutherAI. Il y a des années, le groupe a publié The Pile, un ensemble de données ouvert contenant du matériel sous copyright, qui a suscité des critiques et un examen juridique pour son utilisation dans l'entraînement d'IA.

EleutherAI s'engage à publier des ensembles de données ouverts plus régulièrement, en collaborant avec des partenaires de recherche et d'infrastructure.

Mis à jour à 9h48, heure du Pacifique : Biderman a noté sur X qu'EleutherAI a contribué à la publication de l'ensemble de données et du modèle, avec une implication significative de partenaires comme l'Université de Toronto, qui a co-dirigé la recherche.

Article connexe
Le mode adulte de ChatGPT est à nouveau reporté ; Ultraman : privilégier l'intelligence avant tout Le mode adulte de ChatGPT est à nouveau reporté ; Ultraman : privilégier l'intelligence avant tout OpenAI reporte une nouvelle fois le lancement d'une fonctionnalité controversée et se concentre sur la personnalisation et l'interaction proactiveLa question de savoir si un « contenu inapproprié » do
Baidu Health teste en interne son assistant médical basé sur l'IA, DoctorClaw, pour la recherche documentaire et l'assistance administrative à court terme Baidu Health teste en interne son assistant médical basé sur l'IA, DoctorClaw, pour la recherche documentaire et l'assistance administrative à court terme Baidu Health aurait commencé à tester en interne un assistant intelligent basé sur l'IA, destiné aux médecins. Baptisé en interne « DoctorClaw » (la version « Lobster Doctor »), ce produit marque
Cursor Composer 2 contre Claude Opus 4.6 : un test de performance relance le débat sur la programmation par IA Cursor Composer 2 contre Claude Opus 4.6 : un test de performance relance le débat sur la programmation par IA Le 19 mars, Cursor a officiellement lancé son modèle de codage développé en interne, Composer 2. Cette annonce a immédiatement suscité des discussions au sein de la communauté des développeurs : selon
Recommandations de sujets spéciaux liés
Édition d'images Generateurs d'art par intelligence artificielle pour storyboards de courts drames : personnages de fantasy et de romance urbaine
Generateurs d'art par intelligence artificielle pour storyboards de courts drames : personnages de fantasy et de romance urbaine

2026 : Découvrez les meilleurs générateurs d’art artificiel pour les storyboards de courts métrages. Notre liste sélectionnée présente des outils hautement réputés pour créer des personnages captivants dans les genres fantasy et romance urbaine. Comparez les options gratuites et payantes, consultez les résultats de tests réels et trouvez le partenaire créatif idéal pour vous. Recevez chaque semaine des classements mis à jour et des conseils d’experts de XIX.AI. Commencez dès aujourd’hui à visualiser votre histoire !

10 outils
xix.ai
en écrivant Meilleurs outils d’scriptage AI pour la radio et la production de podcasts : rédiger des publicités audio captivantes
Meilleurs outils d’scriptage AI pour la radio et la production de podcasts : rédiger des publicités audio captivantes

Découvrez les 20 meilleurs outils de scriptage AI pour la radio et la production de podcasts en 2026 sur XIX.AI. Notre liste, soigneusement sélectionnée et hautement réputée, propose des solutions puissantes et révolutionnaires pour créer rapidement des publicités audio captivantes. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mises à jour chaque semaine. Développez votre potentiel créatif dès aujourd’hui !

10 outils
xix.ai
Entreprise Le meilleur logiciel d'analyse de contrats basé sur l'IA : identifiez instantanément les failles juridiques et les risques de non-conformité
Le meilleur logiciel d'analyse de contrats basé sur l'IA : identifiez instantanément les failles juridiques et les risques de non-conformité

Découvrez les meilleurs logiciels d'analyse de contrats basés sur l'IA pour 2026 sur XIX.AI. Notre sélection triée sur le volet et très bien notée regroupe des outils performants qui détectent instantanément les failles juridiques et les risques de non-conformité. Comparez les options gratuites et payantes grâce à des tests concrets et à des classements mis à jour chaque semaine. Trouvez la solution qui changera la donne pour une analyse de contrats sécurisée et efficace. Découvrez dès maintenant le guide complet.

10 outils
xix.ai
Création d'animations Generateur d'animation AI pour Donghua : Créer des personnages de romans web et des avatars de bandes dessinées
Generateur d'animation AI pour Donghua : Créer des personnages de romans web et des avatars de bandes dessinées

Découvrez les meilleurs générateurs d’animés AI de 2026 pour la création de doublages en chinois. Notre liste, sélectionnée avec soin, propose des outils puissants pour créer des personnages incroyables pour des romans web et des avatars de comics. Comparez les options gratuites et payantes grâce à des tests réels. Trouvez le partenaire créatif idéal et donnez vie à vos histoires dès aujourd’hui sur XIX.AI.

10 outils
xix.ai
Création de bande dessinée Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence
Les meilleurs outils d'auto-coloration IA pour les mangas : appliquez des couleurs unies sans aucune erreur de cohérence

Découvrez les meilleurs outils d'auto-coloration IA pour mangas de 2026 sur XIX.AI. Notre sélection regroupe des solutions de premier plan qui changent la donne : elles appliquent des couleurs unies sans aucune erreur de cohérence, ce qui booste votre productivité. Consultez nos comparatifs entre versions gratuites et payantes, nos tests en conditions réelles et nos classements mis à jour chaque semaine pour trouver l'outil qui vous convient le mieux. Profitez dès aujourd'hui de l'avantage de l'IA.

10 outils
xix.ai
en écrivant Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales
Les meilleurs créateurs de profils de fiction basés sur l'IA : générer des motivations de personnages cohérentes et des faiblesses fatales

Découvrez les meilleurs outils de création de profils de personnages basés sur l'IA de 2026 pour donner de la profondeur à vos personnages. La sélection de XIX.AI regroupe les outils les mieux notés et les plus innovants, capables de générer des motivations cohérentes et des défauts fatals. Comparez les options gratuites et payantes grâce à des tests concrets. Libérez dès maintenant votre potentiel de narration.

10 outils
xix.ai
commentaires (2)
0/500
NicholasLewis
NicholasLewis 10 mars 2026 11:01:03 UTC+01:00

Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?

RyanLopez
RyanLopez 2 février 2026 09:00:51 UTC+01:00

Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

OR