EleutherAI Dévoile un Ensemble de Données Textuelles Sous Licence Massive pour l'Entraînement d'IA

EleutherAI, un groupe de recherche en IA de premier plan, a lancé l'une des plus grandes collections de textes sous licence et en domaine public pour l'entraînement de modèles d'IA.
Nommé le Common Pile v0.1, cet ensemble de données de 8 téraoctets a été développé sur deux ans avec les startups IA Poolside, Hugging Face, et diverses institutions académiques. Il a été utilisé pour entraîner deux nouveaux modèles d'EleutherAI, Comma v0.1-1T et Comma v0.1-2T, dont l'organisation affirme qu'ils égalent les performances des modèles entraînés sur des données sous copyright non licenciées.
Les entreprises d'IA, y compris OpenAI, font face à des défis juridiques concernant leur utilisation de données extraites du web, y compris des livres et journaux sous copyright, pour l'entraînement de modèles. Bien que certaines aient des accords de licence avec des fournisseurs de contenu, beaucoup s'appuient sur la doctrine américaine du fair use pour justifier l'entraînement sur du matériel sous copyright sans autorisation.
EleutherAI soutient que ces poursuites ont considérablement réduit la transparence dans l'industrie de l'IA, limitant la compréhension des fonctionnalités et des faiblesses des modèles, ce qui nuit à la communauté de recherche au sens large.
« Les défis juridiques n'ont pas significativement modifié les pratiques de sourcing de données pour l'entraînement des modèles, mais ils ont fortement réduit l'ouverture des entreprises d'IA », a déclaré Stella Biderman, directrice exécutive d'EleutherAI, dans un article de blog sur Hugging Face vendredi. « Les chercheurs de certaines entreprises avec lesquelles nous avons parlé citent les poursuites comme la raison pour laquelle ils ne peuvent pas partager leurs recherches axées sur les données. »
Le Common Pile v0.1, disponible sur la plateforme IA de Hugging Face et GitHub, a été développé avec une consultation juridique et inclut des sources comme 300 000 livres du domaine public numérisés par la Bibliothèque du Congrès et l'Internet Archive. EleutherAI a également utilisé le modèle Whisper d'OpenAI pour transcrire du contenu audio.
EleutherAI affirme que Comma v0.1-1T et Comma v0.1-2T démontrent la qualité du Common Pile v0.1, permettant aux développeurs de créer des modèles compétitifs avec des systèmes propriétaires. Les deux modèles, avec 7 milliards de paramètres et entraînés sur une partie de l'ensemble de données, rivalisent avec le modèle Llama original de Meta dans les benchmarks de codage, de compréhension d'images et de mathématiques.
Économisez Plus de 200 $ sur Votre Pass Toutes Étapes TechCrunch
Innovez plus intelligemment. Croissez plus vite. Réseautez plus profondément. Connectez-vous avec des visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC, et plus encore pour une journée d'insights, d'ateliers et de connexions précieuses.
Économisez Plus de 200 $ sur Votre Pass Toutes Étapes TechCrunch
Innovez plus intelligemment. Croissez plus vite. Réseautez plus profondément. Connectez-vous avec des visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC, et plus encore pour une journée d'insights, d'ateliers et de connexions précieuses.
Boston, MA | 15 juillet INSCRIVEZ-VOUS MAINTENANTLes paramètres, souvent appelés poids, sont les éléments internes d'un modèle d'IA qui façonnent son comportement et ses réponses.
« La croyance que le texte non licencié est essentiel pour des performances élevées est infondée », a déclaré Biderman dans son article. « À mesure que les données sous licence ouverte et du domaine public deviennent plus accessibles, nous anticipons des améliorations significatives dans les modèles entraînés sur ce contenu. »
Le Common Pile v0.1 répond en partie aux controverses passées d'EleutherAI. Il y a des années, le groupe a publié The Pile, un ensemble de données ouvert contenant du matériel sous copyright, qui a suscité des critiques et un examen juridique pour son utilisation dans l'entraînement d'IA.
EleutherAI s'engage à publier des ensembles de données ouverts plus régulièrement, en collaborant avec des partenaires de recherche et d'infrastructure.
Mis à jour à 9h48, heure du Pacifique : Biderman a noté sur X qu'EleutherAI a contribué à la publication de l'ensemble de données et du modèle, avec une implication significative de partenaires comme l'Université de Toronto, qui a co-dirigé la recherche.
Article connexe
Escapades sur la plage d'Hawaï : Nouveaux liens et virages surprenants
Imaginez-vous sur une plage hawaïenne immaculée, la lumière du soleil réchauffant votre peau, les vagues créant un rythme apaisant. Pour Josh, cette vision est devenue réalité après des années de dév
La vidéo animée "Crazy Train" d'Ozzy Osbourne : Une plongée en profondeur dans son art et son impact
Crazy Train" d'Ozzy Osbourne transcende son statut de classique du heavy metal et incarne un jalon culturel. Son vidéoclip animé offre un voyage visuel saisissant qui amplifie l'énergie brute et la p
Couverture AI de XXXTentacion : Analyse de la recréation de Marvin's Room
Le domaine de la musique générée par IA progresse rapidement, offrant des possibilités fascinantes mais complexes. Un exemple frappant est la couverture créée par IA de la célèbre chanson de Drake, 'M
commentaires (0)
0/200
EleutherAI, un groupe de recherche en IA de premier plan, a lancé l'une des plus grandes collections de textes sous licence et en domaine public pour l'entraînement de modèles d'IA.
Nommé le Common Pile v0.1, cet ensemble de données de 8 téraoctets a été développé sur deux ans avec les startups IA Poolside, Hugging Face, et diverses institutions académiques. Il a été utilisé pour entraîner deux nouveaux modèles d'EleutherAI, Comma v0.1-1T et Comma v0.1-2T, dont l'organisation affirme qu'ils égalent les performances des modèles entraînés sur des données sous copyright non licenciées.
Les entreprises d'IA, y compris OpenAI, font face à des défis juridiques concernant leur utilisation de données extraites du web, y compris des livres et journaux sous copyright, pour l'entraînement de modèles. Bien que certaines aient des accords de licence avec des fournisseurs de contenu, beaucoup s'appuient sur la doctrine américaine du fair use pour justifier l'entraînement sur du matériel sous copyright sans autorisation.
EleutherAI soutient que ces poursuites ont considérablement réduit la transparence dans l'industrie de l'IA, limitant la compréhension des fonctionnalités et des faiblesses des modèles, ce qui nuit à la communauté de recherche au sens large.
« Les défis juridiques n'ont pas significativement modifié les pratiques de sourcing de données pour l'entraînement des modèles, mais ils ont fortement réduit l'ouverture des entreprises d'IA », a déclaré Stella Biderman, directrice exécutive d'EleutherAI, dans un article de blog sur Hugging Face vendredi. « Les chercheurs de certaines entreprises avec lesquelles nous avons parlé citent les poursuites comme la raison pour laquelle ils ne peuvent pas partager leurs recherches axées sur les données. »
Le Common Pile v0.1, disponible sur la plateforme IA de Hugging Face et GitHub, a été développé avec une consultation juridique et inclut des sources comme 300 000 livres du domaine public numérisés par la Bibliothèque du Congrès et l'Internet Archive. EleutherAI a également utilisé le modèle Whisper d'OpenAI pour transcrire du contenu audio.
EleutherAI affirme que Comma v0.1-1T et Comma v0.1-2T démontrent la qualité du Common Pile v0.1, permettant aux développeurs de créer des modèles compétitifs avec des systèmes propriétaires. Les deux modèles, avec 7 milliards de paramètres et entraînés sur une partie de l'ensemble de données, rivalisent avec le modèle Llama original de Meta dans les benchmarks de codage, de compréhension d'images et de mathématiques.
Économisez Plus de 200 $ sur Votre Pass Toutes Étapes TechCrunch
Innovez plus intelligemment. Croissez plus vite. Réseautez plus profondément. Connectez-vous avec des visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC, et plus encore pour une journée d'insights, d'ateliers et de connexions précieuses.
Économisez Plus de 200 $ sur Votre Pass Toutes Étapes TechCrunch
Innovez plus intelligemment. Croissez plus vite. Réseautez plus profondément. Connectez-vous avec des visionnaires de Precursor Ventures, NEA, Index Ventures, Underscore VC, et plus encore pour une journée d'insights, d'ateliers et de connexions précieuses.
Boston, MA | 15 juillet INSCRIVEZ-VOUS MAINTENANTLes paramètres, souvent appelés poids, sont les éléments internes d'un modèle d'IA qui façonnent son comportement et ses réponses.
« La croyance que le texte non licencié est essentiel pour des performances élevées est infondée », a déclaré Biderman dans son article. « À mesure que les données sous licence ouverte et du domaine public deviennent plus accessibles, nous anticipons des améliorations significatives dans les modèles entraînés sur ce contenu. »
Le Common Pile v0.1 répond en partie aux controverses passées d'EleutherAI. Il y a des années, le groupe a publié The Pile, un ensemble de données ouvert contenant du matériel sous copyright, qui a suscité des critiques et un examen juridique pour son utilisation dans l'entraînement d'IA.
EleutherAI s'engage à publier des ensembles de données ouverts plus régulièrement, en collaborant avec des partenaires de recherche et d'infrastructure.
Mis à jour à 9h48, heure du Pacifique : Biderman a noté sur X qu'EleutherAI a contribué à la publication de l'ensemble de données et du modèle, avec une implication significative de partenaires comme l'Université de Toronto, qui a co-dirigé la recherche.












