EleutherAI presenta un conjunto de datos de texto licenciado masivo para entrenamiento de IA

Hogar

Noticias

30 de agosto de 2025

WillSmith

EleutherAI presenta un conjunto de datos de texto licenciado masivo para entrenamiento de IA

EleutherAI, un grupo líder en investigación de IA, ha lanzado una de las colecciones más grandes de texto licenciado y de dominio público para el entrenamiento de modelos de IA.

Llamado Common Pile v0.1, este conjunto de datos de 8 terabytes fue desarrollado durante dos años con startups de IA como Poolside, Hugging Face y varias instituciones académicas. Fue utilizado para entrenar dos nuevos modelos de EleutherAI, Comma v0.1-1T y Comma v0.1-2T, que la organización afirma que igualan el rendimiento de modelos entrenados con datos protegidos por derechos de autor sin licencia.

Empresas de IA, incluyendo OpenAI, enfrentan desafíos legales por el uso de datos obtenidos de la web, incluyendo libros y revistas protegidos por derechos de autor, para el entrenamiento de modelos. Aunque algunas tienen acuerdos de licencia con proveedores de contenido, muchas dependen de la doctrina de uso justo de EE. UU. para justificar el entrenamiento con material protegido sin permiso.

EleutherAI argumenta que estas demandas han reducido significativamente la transparencia en la industria de la IA, limitando la comprensión sobre el funcionamiento y las debilidades de los modelos, lo que perjudica a la comunidad de investigación en general.

“Los desafíos legales no han alterado significativamente las prácticas de obtención de datos para el entrenamiento de modelos, pero han reducido drásticamente la apertura de las empresas de IA,” dijo Stella Biderman, directora ejecutiva de EleutherAI, en una publicación de blog en Hugging Face el viernes. “Investigadores de algunas empresas con las que hemos hablado citan las demandas como la razón por la que no pueden compartir su investigación centrada en datos.”

El Common Pile v0.1, disponible en la plataforma de IA de Hugging Face y GitHub, fue desarrollado con consulta legal e incluye fuentes como 300,000 libros de dominio público digitalizados por la Biblioteca del Congreso y el Internet Archive. EleutherAI también utilizó el modelo Whisper de OpenAI para transcribir contenido de audio.

EleutherAI afirma que Comma v0.1-1T y Comma v0.1-2T demuestran la calidad del Common Pile v0.1, permitiendo a los desarrolladores crear modelos competitivos con sistemas propietarios. Ambos modelos, con 7 mil millones de parámetros y entrenados en una porción del conjunto de datos, rivalizan con el modelo Llama original de Meta en pruebas de codificación, comprensión de imágenes y matemáticas.

Ahorra más de $200 en tu pase TechCrunch All Stage

Innova de manera más inteligente. Crece más rápido. Conecta más profundamente. Conecta con visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC y más para un día de conocimientos, talleres y conexiones valiosas.

Ahorra más de $200 en tu pase TechCrunch All Stage

Innova de manera más inteligente. Crece más rápido. Conecta más profundamente. Conecta con visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC y más para un día de conocimientos, talleres y conexiones valiosas.

Boston, MA | 15 de julio REGÍSTRATE AHORA

Los parámetros, a menudo llamados pesos, son los elementos internos de un modelo de IA que dan forma a su comportamiento y respuestas.

“La creencia de que el texto sin licencia es esencial para un alto rendimiento no tiene fundamento,” afirmó Biderman en su publicación. “A medida que los datos de dominio público y con licencia abierta se vuelven más accesibles, anticipamos mejoras significativas en los modelos entrenados con dicho contenido.”

El Common Pile v0.1 aborda parcialmente las controversias pasadas de EleutherAI. Hace años, el grupo lanzó The Pile, un conjunto de datos abierto que contenía material protegido por derechos de autor, lo que atrajo críticas y escrutinio legal por su uso en el entrenamiento de IA.

EleutherAI se compromete a lanzar conjuntos de datos abiertos con mayor regularidad, colaborando con socios de investigación e infraestructura.

Actualizado a las 9:48 a.m. Pacífico: Biderman señaló en X que EleutherAI contribuyó al lanzamiento del conjunto de datos y el modelo, con una participación significativa de socios como la Universidad de Toronto, que co-lideró la investigación.

Artículo relacionado

Escapadas a playas hawaianas: Nuevos lazos y giros sorprendentes Imagínese en una playa hawaiana virgen, con la luz del sol calentándole la piel y las olas creando un ritmo relajante. Para Josh, esta visión se hizo realidad tras años de dedicación. Lo que comienza

El vídeo animado "Crazy Train" de Ozzy Osbourne: Una inmersión profunda en su arte e impacto Crazy Train" de Ozzy Osbourne trasciende su condición de clásico del heavy metal y representa un hito cultural. Su vídeo musical animado ofrece un impactante viaje visual que amplifica la cruda energ

Cubierta de IA de XXXTentacion: Análisis de la recreación de Marvin's Room El ámbito de la música generada por IA está avanzando rápidamente, ofreciendo posibilidades fascinantes pero complejas. Un ejemplo sorprendente es la cubierta creada por IA de la reconocida canción de

comentario (0)

0/200

Entregar

Noticias principales

Gemini 2.5 Pro ahora ilimitado y más barato que Claude, GPT-4O Generadores de Video AI Top de 2025: Pika Labs vs Alternativas Doblaje AI: Guía Definitiva para la Creación de Voz Realista La IA de Cambium transforma la madera de los desechos en madera Operai mejora el asistente de voz de IA para mejores chats Cómo garantizar que sus datos sean confiables para la integración de IA Notebooklm se expande a nivel mundial, agrega diapositivas y verificación de hechos mejorada Los ajustes a los centros de datos de EE. UU. Podrían desbloquear 76 GW de nueva capacidad de potencia Google utiliza IA para suspender más de 39 millones de cuentas publicitarias por sospecha de fraude AI Computing para consumir la potencia de múltiples NYC para 2026, dice el fundador

Más

Presentado