EleutherAI Revela Conjunto de Dados de Texto Licenciado Massivo para Treinamento de IA

Lar

Notícias

30 de Agosto de 2025

WillSmith

EleutherAI Revela Conjunto de Dados de Texto Licenciado Massivo para Treinamento de IA

EleutherAI, um grupo líder em pesquisa de IA, lançou uma das maiores coleções de texto licenciado e de domínio aberto para treinamento de modelos de IA.

Chamado de Common Pile v0.1, este conjunto de dados de 8 terabytes foi desenvolvido ao longo de dois anos com startups de IA Poolside, Hugging Face e várias instituições acadêmicas. Ele foi usado para treinar dois novos modelos da EleutherAI, Comma v0.1-1T e Comma v0.1-2T, que a organização afirma igualarem o desempenho de modelos treinados com dados protegidos por direitos autorais não licenciados.

Empresas de IA, incluindo OpenAI, enfrentam desafios legais pelo uso de dados extraídos da web, incluindo livros e periódicos protegidos por direitos autorais, para treinamento de modelos. Embora algumas tenham acordos de licenciamento com provedores de conteúdo, muitas dependem da doutrina de uso justo dos EUA para justificar o treinamento com material protegido sem permissão.

A EleutherAI argumenta que esses processos reduziram significativamente a transparência na indústria de IA, limitando a compreensão sobre o funcionamento e as fraquezas dos modelos, o que prejudica a comunidade de pesquisa em geral.

“Os desafios legais não alteraram significativamente as práticas de obtenção de dados para treinamento de modelos, mas reduziram drasticamente a abertura das empresas de IA,” disse Stella Biderman, diretora executiva da EleutherAI, em um post no blog da Hugging Face na sexta-feira. “Pesquisadores de algumas empresas com as quais conversamos citam processos como a razão pela qual não podem compartilhar suas pesquisas centradas em dados.”

O Common Pile v0.1, disponível na plataforma de IA da Hugging Face e no GitHub, foi desenvolvido com consultoria jurídica e inclui fontes como 300.000 livros de domínio público digitalizados pela Biblioteca do Congresso e pelo Internet Archive. A EleutherAI também utilizou o modelo Whisper da OpenAI para transcrever conteúdo de áudio.

A EleutherAI afirma que o Comma v0.1-1T e o Comma v0.1-2T demonstram a qualidade do Common Pile v0.1, permitindo que desenvolvedores criem modelos competitivos com sistemas proprietários. Ambos os modelos, com 7 bilhões de parâmetros e treinados em uma parte do conjunto de dados, rivalizam com o modelo Llama original da Meta em benchmarks de codificação, compreensão de imagens e matemática.

Economize Mais de $200 no Seu Passe de Todas as Etapas do TechCrunch

Inove de forma mais inteligente. Cresça mais rápido. Conecte-se mais profundamente. Conecte-se com visionários da Precursor Ventures, NEA, Index Ventures, Underscore VC e mais para um dia de insights, workshops e conexões valiosas.

Economize Mais de $200 no Seu Passe de Todas as Etapas do TechCrunch

Inove de forma mais inteligente. Cresça mais rápido. Conecte-se mais profundamente. Conecte-se com visionários da Precursor Ventures, NEA, Index Ventures, Underscore VC e mais para um dia de insights, workshops e conexões valiosas.

Boston, MA | 15 de julho REGISTRE-SE AGORA

Parâmetros, frequentemente chamados de pesos, são os elementos internos de um modelo de IA que moldam seu comportamento e respostas.

“A crença de que texto não licenciado é essencial para alto desempenho é infundada,” afirmou Biderman em seu post. “À medida que dados licenciados abertamente e de domínio público se tornam mais acessíveis, esperamos melhorias significativas em modelos treinados com esse conteúdo.”

O Common Pile v0.1 aborda parcialmente as controvérsias passadas da EleutherAI. Anos atrás, o grupo lançou o The Pile, um conjunto de dados aberto contendo material protegido por direitos autorais, que atraiu críticas e escrutínio legal por seu uso em treinamento de IA.

A EleutherAI promete lançar conjuntos de dados abertos com mais regularidade, colaborando com parceiros de pesquisa e infraestrutura.

Atualizado às 9:48 da manhã, horário do Pacífico: Biderman observou no X que a EleutherAI contribuiu para o lançamento do conjunto de dados e do modelo, com envolvimento significativo de parceiros como a Universidade de Toronto, que co-liderou a pesquisa.

Artigo relacionado

Escapadas na praia do Havaí: Novos vínculos e reviravoltas surpreendentes Imagine-se em uma praia imaculada do Havaí, com a luz do sol aquecendo sua pele e as ondas criando um ritmo relaxante. Para Josh, essa visão se tornou realidade após anos de dedicação. O que começa c

Vídeo animado 'Crazy Train' de Ozzy Osbourne: Um mergulho profundo em sua arte e impacto "Crazy Train", de Ozzy Osbourne, transcende seu status de clássico do heavy metal, incorporando um marco cultural. Seu videoclipe animado oferece uma jornada visual impressionante que amplifica a ene

Capa de IA do XXXTentacion: Analisando a Recriação de Marvin's Room O campo da música gerada por IA está avançando rapidamente, oferecendo possibilidades fascinantes, porém complexas. Um exemplo marcante é a capa criada por IA da famosa música de Drake, 'Marvin's Room

Comentários (0)

0/200

Enviar

Principais notícias

Gemini 2.5 Pro agora ilimitado e mais barato que Claude, GPT-4o Geradores de Vídeo AI Top de 2025: Pika Labs vs Alternativas Dublagem AI: Guia Definitivo para Criação de Voz Realista A IA de Cambium transforma a madeira desperdiçada em madeira serrada O OpenAI aprimora o assistente de voz da IA para bate -papos melhores Como garantir que seus dados sejam confiáveis para a integração de IA Notebooklm se expande globalmente, adiciona slides e verificação de fatos aprimorada Tweaks to Us Data Centers podem desbloquear 76 GW de nova capacidade de energia O Google utiliza a IA para suspender mais de 39 milhões de contas de anúncios por suspeita de fraude Ai computando para consumir poder de múltiplos NYCs até 2026, diz o fundador

Mais

Apresentou