opción
Hogar
Noticias
EleutherAI presenta un conjunto de datos de texto licenciado masivo para entrenamiento de IA

EleutherAI presenta un conjunto de datos de texto licenciado masivo para entrenamiento de IA

30 de agosto de 2025
89

EleutherAI presenta un conjunto de datos de texto licenciado masivo para entrenamiento de IA

EleutherAI, un grupo líder en investigación de IA, ha lanzado una de las colecciones más grandes de texto licenciado y de dominio público para el entrenamiento de modelos de IA.

Llamado Common Pile v0.1, este conjunto de datos de 8 terabytes fue desarrollado durante dos años con startups de IA como Poolside, Hugging Face y varias instituciones académicas. Fue utilizado para entrenar dos nuevos modelos de EleutherAI, Comma v0.1-1T y Comma v0.1-2T, que la organización afirma que igualan el rendimiento de modelos entrenados con datos protegidos por derechos de autor sin licencia.

Empresas de IA, incluyendo OpenAI, enfrentan desafíos legales por el uso de datos obtenidos de la web, incluyendo libros y revistas protegidos por derechos de autor, para el entrenamiento de modelos. Aunque algunas tienen acuerdos de licencia con proveedores de contenido, muchas dependen de la doctrina de uso justo de EE. UU. para justificar el entrenamiento con material protegido sin permiso.

EleutherAI argumenta que estas demandas han reducido significativamente la transparencia en la industria de la IA, limitando la comprensión sobre el funcionamiento y las debilidades de los modelos, lo que perjudica a la comunidad de investigación en general.

“Los desafíos legales no han alterado significativamente las prácticas de obtención de datos para el entrenamiento de modelos, pero han reducido drásticamente la apertura de las empresas de IA,” dijo Stella Biderman, directora ejecutiva de EleutherAI, en una publicación de blog en Hugging Face el viernes. “Investigadores de algunas empresas con las que hemos hablado citan las demandas como la razón por la que no pueden compartir su investigación centrada en datos.”

El Common Pile v0.1, disponible en la plataforma de IA de Hugging Face y GitHub, fue desarrollado con consulta legal e incluye fuentes como 300,000 libros de dominio público digitalizados por la Biblioteca del Congreso y el Internet Archive. EleutherAI también utilizó el modelo Whisper de OpenAI para transcribir contenido de audio.

EleutherAI afirma que Comma v0.1-1T y Comma v0.1-2T demuestran la calidad del Common Pile v0.1, permitiendo a los desarrolladores crear modelos competitivos con sistemas propietarios. Ambos modelos, con 7 mil millones de parámetros y entrenados en una porción del conjunto de datos, rivalizan con el modelo Llama original de Meta en pruebas de codificación, comprensión de imágenes y matemáticas.

Ahorra más de $200 en tu pase TechCrunch All Stage

Innova de manera más inteligente. Crece más rápido. Conecta más profundamente. Conecta con visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC y más para un día de conocimientos, talleres y conexiones valiosas.

Ahorra más de $200 en tu pase TechCrunch All Stage

Innova de manera más inteligente. Crece más rápido. Conecta más profundamente. Conecta con visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC y más para un día de conocimientos, talleres y conexiones valiosas.

Boston, MA | 15 de julio REGÍSTRATE AHORA

Los parámetros, a menudo llamados pesos, son los elementos internos de un modelo de IA que dan forma a su comportamiento y respuestas.

“La creencia de que el texto sin licencia es esencial para un alto rendimiento no tiene fundamento,” afirmó Biderman en su publicación. “A medida que los datos de dominio público y con licencia abierta se vuelven más accesibles, anticipamos mejoras significativas en los modelos entrenados con dicho contenido.”

El Common Pile v0.1 aborda parcialmente las controversias pasadas de EleutherAI. Hace años, el grupo lanzó The Pile, un conjunto de datos abierto que contenía material protegido por derechos de autor, lo que atrajo críticas y escrutinio legal por su uso en el entrenamiento de IA.

EleutherAI se compromete a lanzar conjuntos de datos abiertos con mayor regularidad, colaborando con socios de investigación e infraestructura.

Actualizado a las 9:48 a.m. Pacífico: Biderman señaló en X que EleutherAI contribuyó al lanzamiento del conjunto de datos y el modelo, con una participación significativa de socios como la Universidad de Toronto, que co-lideró la investigación.

Artículo relacionado
Baidu Health prueba internamente el asistente médico basado en IA «DoctorClaw» para la búsqueda de información académica y la asistencia administrativa a corto plazo Baidu Health prueba internamente el asistente médico basado en IA «DoctorClaw» para la búsqueda de información académica y la asistencia administrativa a corto plazo Según se ha informado, Baidu Health ha iniciado las pruebas internas de un asistente inteligente con IA profesional diseñado para médicos. Conocido internamente como «DoctorClaw» (la versión «Lobster
Cursor Composer 2 frente a Claude Opus 4.6: una prueba de rendimiento reaviva el debate sobre la programación con IA Cursor Composer 2 frente a Claude Opus 4.6: una prueba de rendimiento reaviva el debate sobre la programación con IA El 19 de marzo, Cursor lanzó oficialmente su modelo de programación propio, Composer 2. El anuncio desató un debate inmediato en la comunidad de desarrolladores: según Cursor, Composer 2 obtuvo una pu
StrictlyVC San Francisco reunirá a líderes de TDK Ventures, Replit y otras empresas StrictlyVC San Francisco reunirá a líderes de TDK Ventures, Replit y otras empresas El primer evento de StrictlyVC del año llega a San Francisco antes de lo que imaginas. Aún quedan entradas disponibles para nuestro encuentro del 30 de abril en el Centro Cultural Filipino Sentro, que
Recomendaciones de temas especiales relacionados
escribiendo Los mejores herramientas de scripting AI para la radio y los podcasts: Crea anuncios de audio atractivos.
Los mejores herramientas de scripting AI para la radio y los podcasts: Crea anuncios de audio atractivos.

Descubra los mejores herramientas de scripting de IA para la radio y los podcasts en 2026 en XIX.AI. Nuestra lista seleccionada y altamente valorada incluye soluciones poderosas que cambiarán completamente la forma en que crea anuncios de audio atractivos. Compare opciones gratuitas y pagadas mediante pruebas reales y clasificaciones actualizadas semanalmente. ¡Despliegue todo su potencial creativo hoy mismo!

10 herramientas
xix.ai
Negocio El mejor software de revisión de contratos con IA: detecta al instante las lagunas legales y los riesgos de cumplimiento normativo
El mejor software de revisión de contratos con IA: detecta al instante las lagunas legales y los riesgos de cumplimiento normativo

Descubre el mejor software de revisión de contratos con IA de 2026 en XIX.AI. Nuestra lista, cuidadosamente seleccionada y con las mejores valoraciones, incluye potentes herramientas que detectan al instante las lagunas legales y los riesgos de cumplimiento normativo. Compara las opciones gratuitas con las de pago gracias a pruebas en condiciones reales y a clasificaciones que se actualizan semanalmente. Encuentra la solución revolucionaria que necesitas para un análisis de contratos seguro y eficiente. Explora ahora la guía definitiva.

10 herramientas
xix.ai
Creación de animación Generador de anime AI para Donghua: Crea personajes para novelas web y avatares para cómics
Generador de anime AI para Donghua: Crea personajes para novelas web y avatares para cómics

Descubra los mejores generadores de anime de IA para donghua en 2026. Nuestra lista seleccionada y calificada incluye herramientas poderosas para crear increíbles personajes para novelas web y avatares de cómics. Compare opciones gratuitas y pagadas a través de pruebas reales. Encuentre su compañero creativo ideal y dé vida a sus historias hoy mismo en XIX.AI.

10 herramientas
xix.ai
Creación de cómics Las mejores herramientas de coloración automática con IA para manga: aplica colores planos sin ningún error de coherencia
Las mejores herramientas de coloración automática con IA para manga: aplica colores planos sin ningún error de coherencia

Descubre las mejores herramientas de coloración automática con IA para manga de 2026 en XIX.AI. Nuestra lista seleccionada incluye soluciones revolucionarias y mejor valoradas que aplican colores planos sin ningún error de consistencia, lo que potencia tu productividad. Explora comparativas entre opciones gratuitas y de pago, pruebas en condiciones reales y clasificaciones actualizadas semanalmente para encontrar la opción perfecta para ti. Aprovecha hoy mismo las ventajas de la IA.

10 herramientas
xix.ai
escribiendo Los mejores creadores de perfiles de ficción con IA: cómo generar motivaciones y defectos fatales coherentes para los personajes
Los mejores creadores de perfiles de ficción con IA: cómo generar motivaciones y defectos fatales coherentes para los personajes

Descubre los mejores creadores de perfiles de ficción con IA de 2026 para dar vida a personajes profundos. La selección de XIX.AI incluye herramientas de primera categoría y revolucionarias que generan motivaciones coherentes y defectos fatales. Compara las opciones gratuitas con las de pago mediante pruebas en el mundo real. Libera ahora tu potencial narrativo.

10 herramientas
xix.ai
Negocio El mejor software de optimización de precios con IA: realiza un seguimiento de la competencia y ajusta automáticamente los precios de la tienda
El mejor software de optimización de precios con IA: realiza un seguimiento de la competencia y ajusta automáticamente los precios de la tienda

Descubre el mejor software de optimización de precios con IA de 2026 en XIX.AI. Nuestra selección incluye herramientas de primera categoría y revolucionarias que analizan a la competencia y ajustan automáticamente los precios de tu tienda para maximizar los beneficios. Compara las opciones gratuitas con las de pago mediante pruebas reales. Aprovecha ahora tu ventaja competitiva en materia de precios.

10 herramientas
xix.ai
comentario (2)
0/500
NicholasLewis
NicholasLewis 10 de marzo de 2026 11:01:03 GMT+01:00

Наконец-то качественные данные для обучения ИИ! 😄 Но интересно, как это повлияет на конкуренцию между OpenAI и другими компаниями. Может, скоро увидим более умные модели?

RyanLopez
RyanLopez 2 de febrero de 2026 09:00:51 GMT+01:00

Wow, 8 terabytes of legally licensed text is a game-changer! It's fantastic to see more high-quality, transparent data becoming available. This should really help push open-source AI models forward and maybe even challenge some of the big players who rely on murkier data sources. Hopefully, it leads to more reliable and ethically-sound systems. Can't wait to see what gets built on this! 🚀

OR