Hugging Face: como as empresas podem reduzir os custos de IA e, ao mesmo tempo, manter o desempenho

Lar

Notícias

2 de Dezembro de 2025

HenryWalker

# GPUS

Hugging Face: como as empresas podem reduzir os custos de IA e, ao mesmo tempo, manter o desempenho

Muitas empresas partem do pressuposto de que o desenvolvimento de IA exige um enorme poder computacional, o que as leva a priorizar a simples aquisição de mais recursos.

No entanto, Sasha Luccioni, líder de IA e clima da Hugging Face, sugere um caminho diferente. E se o foco mudasse para o uso da IA de forma mais inteligente? Em vez de buscar incessantemente uma capacidade de computação adicional (e muitas vezes excessiva), as empresas poderiam melhorar o desempenho e a precisão do modelo.

Luccioni argumenta que a questão central está na abordagem: as empresas devem buscar uma computação mais inteligente, e não apenas mais dela.

"Estamos deixando de lado os métodos mais inteligentes porque estamos fixados na necessidade de mais FLOPS, mais GPUs e mais tempo", explicou ela.

Aqui estão cinco estratégias principais da Hugging Face para ajudar empresas de todos os tamanhos a implementar a IA de forma mais eficiente.

1: Selecione o modelo certo para a tarefa

Resista ao impulso de usar modelos maciços e de uso geral para todos os aplicativos. Modelos especializados ou destilados muitas vezes podem alcançar uma precisão equivalente, ou até superior, para tarefas específicas, a um custo significativamente menor e com consumo de energia reduzido.

A pesquisa de Luccioni indica que um modelo específico para uma tarefa pode consumir de 20 a 30 vezes menos energia do que um modelo de uso geral. "Esses modelos são criados para uma única finalidade, ao contrário dos grandes modelos de linguagem projetados para lidar com qualquer consulta", afirmou ela.

A destilação de modelos é crucial aqui. Um modelo em escala real pode ser inicialmente treinado e posteriormente refinado para uma função específica. Por exemplo, Luccioni apontou que o DeepSeek R1 é tão grande que a maioria das organizações não pode se dar ao luxo de executá-lo, geralmente exigindo pelo menos 8 GPUs. Em contrapartida, as versões destiladas podem ser de 10 a 30 vezes menores e operar em uma única GPU.

Ela também destacou os benefícios de eficiência dos modelos de código aberto, que eliminam a necessidade de treinamento do zero. Diferentemente de alguns anos atrás, quando as empresas desperdiçavam recursos na busca de modelos adequados, agora elas podem começar com um modelo básico e ajustá-lo às suas necessidades.

"Isso promove a inovação colaborativa e incremental, em vez de esforços isolados em que todos treinam seus próprios modelos, desperdiçando efetivamente recursos computacionais", disse Luccioni.

Há uma percepção crescente de que os custos da IA generativa geralmente superam seus benefícios, o que leva à desilusão das empresas. Embora os usos genéricos, como a composição de e-mails ou a transcrição de reuniões, sejam genuinamente úteis, os modelos específicos de tarefas ainda exigem um esforço considerável. Os modelos prontos para uso geralmente são insuficientes e mais caros, de acordo com Luccioni.

Preencher essa lacuna representa a próxima fronteira de valor agregado. "A maioria das empresas deseja a realização de uma tarefa específica", observou Luccioni. "Elas não estão buscando inteligência artificial geral (AGI); elas querem inteligência especializada. Esse é o desafio que precisamos enfrentar."

2. Tornar a eficiência o padrão

Integre os princípios da "teoria do incentivo" ao design do sistema, defina orçamentos computacionais conservadores, limite os recursos geradores sempre ativos e exija que os usuários optem por modos de computação de alto custo.

Na ciência comportamental, a "teoria do empurrão" envolve orientar sutilmente as escolhas para incentivar comportamentos positivos. Luccioni citou o exemplo clássico da oferta de talheres em refeições para viagem: fazer com que os utensílios sejam uma escolha opcional, em vez de incluí-los por padrão, pode reduzir drasticamente o desperdício.

"A simples mudança de um modelo de opção de exclusão para um modelo de opção de inclusão pode influenciar poderosamente o comportamento do usuário", explicou Luccioni.

As configurações padrão geralmente levam ao uso desnecessário e ao aumento dos custos, pois os modelos executam tarefas que não deveriam fazer. Por exemplo, alguns mecanismos de pesquisa agora geram automaticamente resumos de IA na parte superior dos resultados. Luccioni também observou que, recentemente, ao usar o GPT-5 da OpenAI, o modelo adotou como padrão o modo de raciocínio completo até mesmo para consultas muito simples.

"Para mim, isso deveria ser a exceção", disse ela. Se eu perguntar: "Qual é o sentido da vida?", é claro que um resumo da IA pode ser útil. Mas para perguntas como "Como está o tempo em Montreal?" ou "Qual é o horário de funcionamento da minha farmácia local? Não preciso de um resumo generativo. O padrão deve ser sem raciocínio".

3. Otimizar a utilização do hardware

Implemente lotes, ajuste a precisão numérica e faça o ajuste fino dos tamanhos dos lotes para a geração de hardware específica a fim de minimizar o desperdício de memória e o consumo de energia.

As empresas devem avaliar suas necessidades específicas: O modelo precisa ser executado continuamente? Ele enfrentará solicitações em tempo real, talvez 100 de uma vez? Nesses casos, a otimização sempre ativa é essencial, observou Luccioni. No entanto, em muitos outros cenários, isso não é necessário; os modelos podem ser executados periodicamente para conservar a memória, e o agrupamento pode otimizar o uso da memória.

"É um desafio de engenharia, mas muito específico, por isso é difícil dar conselhos gerais como 'destilar todos os modelos' ou 'alterar a precisão de tudo'", disse Luccioni.

Em um estudo recente, ela descobriu que o tamanho ideal do lote é altamente dependente do hardware, até o modelo ou versão específica. Aumentar o tamanho do lote em apenas uma unidade pode, às vezes, aumentar o consumo de energia porque o modelo requer mais recursos de memória.

"Esse é um aspecto que as pessoas geralmente ignoram. Elas pensam: 'Vou apenas maximizar o tamanho do lote', mas a verdadeira eficiência vem do ajuste meticuloso de todas essas variáveis. O resultado é um sistema altamente otimizado, mas adaptado a um contexto muito específico", explicou Luccioni.

4. Incentive a transparência energética

Os incentivos promovem mudanças. Com isso em mente, a Hugging Face lançou o AI Energy Score no início deste ano. Essa iniciativa promove a eficiência energética usando um sistema de classificação de 1 a 5 estrelas, em que os modelos mais eficientes recebem a designação de "cinco estrelas".

Pode ser considerado como um "Energy Star para IA", inspirado no programa federal de longa data que define padrões de eficiência e rotula os aparelhos qualificados com seu logotipo.

"Durante décadas, essa classificação por estrelas foi um poderoso motivador. As pessoas queriam isso", disse Luccioni. "Conseguir um impacto semelhante com o Energy Score seria fantástico."

A Hugging Face criou uma tabela de classificação pública, que planeja atualizar com novos modelos, como DeepSeek e GPT-oss, em setembro, e continuar atualizando a cada seis meses ou à medida que novos modelos forem surgindo. O objetivo é que os desenvolvedores de modelos vejam uma classificação alta como um "distintivo de honra", observou Luccioni.

5. Repensar a mentalidade de que "mais computação é melhor"

Em vez de buscar os maiores clusters de GPU, comece perguntando: "Qual é a maneira mais inteligente de alcançar o resultado desejado?" Para vários aplicativos, arquiteturas mais inteligentes e conjuntos de dados mais bem selecionados produzem melhores resultados do que o dimensionamento de força bruta.

"Acredito que a maioria das pessoas provavelmente não precisa de tantas GPUs quanto pensa", afirmou Luccioni. Ela incentivou as empresas a reconsiderar as tarefas reais que suas GPUs realizarão, por que elas são necessárias, como essas tarefas eram realizadas anteriormente e quais benefícios tangíveis as GPUs adicionais realmente proporcionarão.

"Isso se tornou uma corrida para o fundo do poço, em que todos acham que precisam de um cluster maior", disse ela. "A chave é analisar para que você está usando a IA, quais técnicas específicas são necessárias e o que essas técnicas realmente exigem."

Artigo relacionado

Amazon compromete US $ 100 bilhões para a IA em 2025 Apesar do recente burburinho sugerindo que a Deepseek inauguraria uma era de orçamentos reduzidos de IA, não há indicação de que a grande tecnologia esteja batendo nos freios. Pelo contrário, eles estão pisando no gás. A Amazon é o mais recente gigante a revelar um plano de gastos com IA, prevendo mais de US $ 100 bilhões em capi

Nvidia revela as GPUs de próxima geração: Blackwell Ultra, Vera Rubin, Feynman Na conferência GTC 2025 da NVIDIA em San Jose, na terça -feira, o CEO Jensen Huang apresentou uma programação de GPUs que chegaram ao mercado nos próximos meses. A estrela do show? A GPU de Vera Rubin, prevista para uma liberação de 2026 no segundo tempo. Esta besta possui dezenas de gigabytes de memória e vem com um custos

O StrictlyVC de São Francisco reunirá líderes da TDK Ventures, da Replit e de outras empresas O primeiro evento StrictlyVC do ano está chegando a São Francisco mais cedo do que você imagina. Ainda há ingressos disponíveis para nosso encontro de 30 de abril no Sentro Filipino Cultural Center, c

Recomendações de tópicos especiais relacionados

Negócios

O melhor software de revisão de contratos com IA: identifique lacunas jurídicas e riscos de conformidade instantaneamente

Descubra os melhores softwares de análise de contratos com IA de 2026 no XIX.AI. Nossa lista, cuidadosamente selecionada e com as melhores avaliações, apresenta ferramentas poderosas que identificam instantaneamente lacunas jurídicas e riscos de conformidade. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Encontre a solução revolucionária para uma análise segura e eficiente de contratos. Explore agora o guia definitivo.

10 ferramentas

xix.ai

Criação de Animação

Gerador de Animações AI para Donghua: Crie Personagens para Romances Online e Avatares para Quadrinhos

Descubra os melhores geradores de animações AI de 2026 para a criação de donghua. Nossa lista selecionada apresenta ferramentas poderosas para criar personagens incríveis para romances online e avatares para quadrinhos. Compare opções gratuitas e pagas com testes reais. Encontre o parceiro criativo perfeito para dar vida às suas histórias hoje mesmo no XIX.AI.

10 ferramentas

xix.ai

Criação de quadrinhos

As melhores ferramentas de colorização automática com IA para mangás: aplique cores planas sem erros de consistência

Descubra as melhores ferramentas de colorização automática por IA para mangás de 2026 no XIX.AI. Nossa lista selecionada apresenta soluções de ponta e revolucionárias que aplicam cores planas sem nenhum erro de consistência, aumentando sua produtividade. Explore comparações entre versões gratuitas e pagas, testes práticos e rankings atualizados semanalmente para encontrar a opção ideal para você. Aproveite hoje mesmo as vantagens da IA.

10 ferramentas

xix.ai

escrita

Os melhores criadores de perfis de ficção com IA: gerar motivações consistentes para personagens e falhas fatais

Descubra os melhores criadores de perfis de ficção com IA de 2026 para criar personagens complexos. A lista selecionada pela XIX.AI apresenta ferramentas de ponta e revolucionárias que geram motivações consistentes e falhas fatais. Compare as opções gratuitas com as pagas por meio de testes práticos. Liberte agora o seu potencial narrativo.

10 ferramentas

xix.ai

Negócios

Os melhores softwares de otimização de preços com IA: acompanhe os concorrentes e ajuste automaticamente os preços da loja

Descubra os melhores softwares de otimização de preços com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta ferramentas de ponta e revolucionárias que monitoram os concorrentes e ajustam automaticamente os preços da sua loja para maximizar o lucro. Compare opções gratuitas e pagas com testes práticos. Obtenha sua vantagem competitiva em preços agora mesmo.

10 ferramentas

xix.ai

código

Os melhores revisores de código com IA: automatize a conformidade com o código limpo e refatore arquivos de repositórios legados

Descubra os melhores revisores de código com IA de 2026 no XIX.AI. Nossa lista selecionada apresenta ferramentas de ponta e revolucionárias para automatizar a conformidade com o código limpo e refatorar arquivos de repositórios legados. Compare opções gratuitas e pagas com testes práticos e rankings atualizados semanalmente. Obtenha sua vantagem com IA hoje mesmo.

10 ferramentas

xix.ai