Lar
Hugging Face: como as empresas podem reduzir os custos de IA e, ao mesmo tempo, manter o desempenho

Muitas empresas partem do pressuposto de que o desenvolvimento de IA exige um enorme poder computacional, o que as leva a priorizar a simples aquisição de mais recursos.
No entanto, Sasha Luccioni, líder de IA e clima da Hugging Face, sugere um caminho diferente. E se o foco mudasse para o uso da IA de forma mais inteligente? Em vez de buscar incessantemente uma capacidade de computação adicional (e muitas vezes excessiva), as empresas poderiam melhorar o desempenho e a precisão do modelo.
Luccioni argumenta que a questão central está na abordagem: as empresas devem buscar uma computação mais inteligente, e não apenas mais dela.
"Estamos deixando de lado os métodos mais inteligentes porque estamos fixados na necessidade de mais FLOPS, mais GPUs e mais tempo", explicou ela.
Aqui estão cinco estratégias principais da Hugging Face para ajudar empresas de todos os tamanhos a implementar a IA de forma mais eficiente.
1: Selecione o modelo certo para a tarefa
Resista ao impulso de usar modelos maciços e de uso geral para todos os aplicativos. Modelos especializados ou destilados muitas vezes podem alcançar uma precisão equivalente, ou até superior, para tarefas específicas, a um custo significativamente menor e com consumo de energia reduzido.
A pesquisa de Luccioni indica que um modelo específico para uma tarefa pode consumir de 20 a 30 vezes menos energia do que um modelo de uso geral. "Esses modelos são criados para uma única finalidade, ao contrário dos grandes modelos de linguagem projetados para lidar com qualquer consulta", afirmou ela.
A destilação de modelos é crucial aqui. Um modelo em escala real pode ser inicialmente treinado e posteriormente refinado para uma função específica. Por exemplo, Luccioni apontou que o DeepSeek R1 é tão grande que a maioria das organizações não pode se dar ao luxo de executá-lo, geralmente exigindo pelo menos 8 GPUs. Em contrapartida, as versões destiladas podem ser de 10 a 30 vezes menores e operar em uma única GPU.
Ela também destacou os benefícios de eficiência dos modelos de código aberto, que eliminam a necessidade de treinamento do zero. Diferentemente de alguns anos atrás, quando as empresas desperdiçavam recursos na busca de modelos adequados, agora elas podem começar com um modelo básico e ajustá-lo às suas necessidades.
"Isso promove a inovação colaborativa e incremental, em vez de esforços isolados em que todos treinam seus próprios modelos, desperdiçando efetivamente recursos computacionais", disse Luccioni.
Há uma percepção crescente de que os custos da IA generativa geralmente superam seus benefícios, o que leva à desilusão das empresas. Embora os usos genéricos, como a composição de e-mails ou a transcrição de reuniões, sejam genuinamente úteis, os modelos específicos de tarefas ainda exigem um esforço considerável. Os modelos prontos para uso geralmente são insuficientes e mais caros, de acordo com Luccioni.
Preencher essa lacuna representa a próxima fronteira de valor agregado. "A maioria das empresas deseja a realização de uma tarefa específica", observou Luccioni. "Elas não estão buscando inteligência artificial geral (AGI); elas querem inteligência especializada. Esse é o desafio que precisamos enfrentar."
2. Tornar a eficiência o padrão
Integre os princípios da "teoria do incentivo" ao design do sistema, defina orçamentos computacionais conservadores, limite os recursos geradores sempre ativos e exija que os usuários optem por modos de computação de alto custo.
Na ciência comportamental, a "teoria do empurrão" envolve orientar sutilmente as escolhas para incentivar comportamentos positivos. Luccioni citou o exemplo clássico da oferta de talheres em refeições para viagem: fazer com que os utensílios sejam uma escolha opcional, em vez de incluí-los por padrão, pode reduzir drasticamente o desperdício.
"A simples mudança de um modelo de opção de exclusão para um modelo de opção de inclusão pode influenciar poderosamente o comportamento do usuário", explicou Luccioni.
As configurações padrão geralmente levam ao uso desnecessário e ao aumento dos custos, pois os modelos executam tarefas que não deveriam fazer. Por exemplo, alguns mecanismos de pesquisa agora geram automaticamente resumos de IA na parte superior dos resultados. Luccioni também observou que, recentemente, ao usar o GPT-5 da OpenAI, o modelo adotou como padrão o modo de raciocínio completo até mesmo para consultas muito simples.
"Para mim, isso deveria ser a exceção", disse ela. Se eu perguntar: "Qual é o sentido da vida?", é claro que um resumo da IA pode ser útil. Mas para perguntas como "Como está o tempo em Montreal?" ou "Qual é o horário de funcionamento da minha farmácia local? Não preciso de um resumo generativo. O padrão deve ser sem raciocínio".
3. Otimizar a utilização do hardware
Implemente lotes, ajuste a precisão numérica e faça o ajuste fino dos tamanhos dos lotes para a geração de hardware específica a fim de minimizar o desperdício de memória e o consumo de energia.
As empresas devem avaliar suas necessidades específicas: O modelo precisa ser executado continuamente? Ele enfrentará solicitações em tempo real, talvez 100 de uma vez? Nesses casos, a otimização sempre ativa é essencial, observou Luccioni. No entanto, em muitos outros cenários, isso não é necessário; os modelos podem ser executados periodicamente para conservar a memória, e o agrupamento pode otimizar o uso da memória.
"É um desafio de engenharia, mas muito específico, por isso é difícil dar conselhos gerais como 'destilar todos os modelos' ou 'alterar a precisão de tudo'", disse Luccioni.
Em um estudo recente, ela descobriu que o tamanho ideal do lote é altamente dependente do hardware, até o modelo ou versão específica. Aumentar o tamanho do lote em apenas uma unidade pode, às vezes, aumentar o consumo de energia porque o modelo requer mais recursos de memória.
"Esse é um aspecto que as pessoas geralmente ignoram. Elas pensam: 'Vou apenas maximizar o tamanho do lote', mas a verdadeira eficiência vem do ajuste meticuloso de todas essas variáveis. O resultado é um sistema altamente otimizado, mas adaptado a um contexto muito específico", explicou Luccioni.
4. Incentive a transparência energética
Os incentivos promovem mudanças. Com isso em mente, a Hugging Face lançou o AI Energy Score no início deste ano. Essa iniciativa promove a eficiência energética usando um sistema de classificação de 1 a 5 estrelas, em que os modelos mais eficientes recebem a designação de "cinco estrelas".
Pode ser considerado como um "Energy Star para IA", inspirado no programa federal de longa data que define padrões de eficiência e rotula os aparelhos qualificados com seu logotipo.
"Durante décadas, essa classificação por estrelas foi um poderoso motivador. As pessoas queriam isso", disse Luccioni. "Conseguir um impacto semelhante com o Energy Score seria fantástico."
A Hugging Face criou uma tabela de classificação pública, que planeja atualizar com novos modelos, como DeepSeek e GPT-oss, em setembro, e continuar atualizando a cada seis meses ou à medida que novos modelos forem surgindo. O objetivo é que os desenvolvedores de modelos vejam uma classificação alta como um "distintivo de honra", observou Luccioni.
5. Repensar a mentalidade de que "mais computação é melhor"
Em vez de buscar os maiores clusters de GPU, comece perguntando: "Qual é a maneira mais inteligente de alcançar o resultado desejado?" Para vários aplicativos, arquiteturas mais inteligentes e conjuntos de dados mais bem selecionados produzem melhores resultados do que o dimensionamento de força bruta.
"Acredito que a maioria das pessoas provavelmente não precisa de tantas GPUs quanto pensa", afirmou Luccioni. Ela incentivou as empresas a reconsiderar as tarefas reais que suas GPUs realizarão, por que elas são necessárias, como essas tarefas eram realizadas anteriormente e quais benefícios tangíveis as GPUs adicionais realmente proporcionarão.
"Isso se tornou uma corrida para o fundo do poço, em que todos acham que precisam de um cluster maior", disse ela. "A chave é analisar para que você está usando a IA, quais técnicas específicas são necessárias e o que essas técnicas realmente exigem."
Artigo relacionado
Amazon compromete US $ 100 bilhões para a IA em 2025
Apesar do recente burburinho sugerindo que a Deepseek inauguraria uma era de orçamentos reduzidos de IA, não há indicação de que a grande tecnologia esteja batendo nos freios. Pelo contrário, eles estão pisando no gás. A Amazon é o mais recente gigante a revelar um plano de gastos com IA, prevendo mais de US $ 100 bilhões em capi
Nvidia revela as GPUs de próxima geração: Blackwell Ultra, Vera Rubin, Feynman
Na conferência GTC 2025 da NVIDIA em San Jose, na terça -feira, o CEO Jensen Huang apresentou uma programação de GPUs que chegaram ao mercado nos próximos meses. A estrela do show? A GPU de Vera Rubin, prevista para uma liberação de 2026 no segundo tempo. Esta besta possui dezenas de gigabytes de memória e vem com um custos
O StrictlyVC de São Francisco reunirá líderes da TDK Ventures, da Replit e de outras empresas
O primeiro evento StrictlyVC do ano está chegando a São Francisco mais cedo do que você imagina. Ainda há ingressos disponíveis para nosso encontro de 30 de abril no Sentro Filipino Cultural Center, c
Recomendações de tópicos especiais relacionados
Comentários (0)

Muitas empresas partem do pressuposto de que o desenvolvimento de IA exige um enorme poder computacional, o que as leva a priorizar a simples aquisição de mais recursos.
No entanto, Sasha Luccioni, líder de IA e clima da Hugging Face, sugere um caminho diferente. E se o foco mudasse para o uso da IA de forma mais inteligente? Em vez de buscar incessantemente uma capacidade de computação adicional (e muitas vezes excessiva), as empresas poderiam melhorar o desempenho e a precisão do modelo.
Luccioni argumenta que a questão central está na abordagem: as empresas devem buscar uma computação mais inteligente, e não apenas mais dela.
"Estamos deixando de lado os métodos mais inteligentes porque estamos fixados na necessidade de mais FLOPS, mais GPUs e mais tempo", explicou ela.
Aqui estão cinco estratégias principais da Hugging Face para ajudar empresas de todos os tamanhos a implementar a IA de forma mais eficiente.
1: Selecione o modelo certo para a tarefa
Resista ao impulso de usar modelos maciços e de uso geral para todos os aplicativos. Modelos especializados ou destilados muitas vezes podem alcançar uma precisão equivalente, ou até superior, para tarefas específicas, a um custo significativamente menor e com consumo de energia reduzido.
A pesquisa de Luccioni indica que um modelo específico para uma tarefa pode consumir de 20 a 30 vezes menos energia do que um modelo de uso geral. "Esses modelos são criados para uma única finalidade, ao contrário dos grandes modelos de linguagem projetados para lidar com qualquer consulta", afirmou ela.
A destilação de modelos é crucial aqui. Um modelo em escala real pode ser inicialmente treinado e posteriormente refinado para uma função específica. Por exemplo, Luccioni apontou que o DeepSeek R1 é tão grande que a maioria das organizações não pode se dar ao luxo de executá-lo, geralmente exigindo pelo menos 8 GPUs. Em contrapartida, as versões destiladas podem ser de 10 a 30 vezes menores e operar em uma única GPU.
Ela também destacou os benefícios de eficiência dos modelos de código aberto, que eliminam a necessidade de treinamento do zero. Diferentemente de alguns anos atrás, quando as empresas desperdiçavam recursos na busca de modelos adequados, agora elas podem começar com um modelo básico e ajustá-lo às suas necessidades.
"Isso promove a inovação colaborativa e incremental, em vez de esforços isolados em que todos treinam seus próprios modelos, desperdiçando efetivamente recursos computacionais", disse Luccioni.
Há uma percepção crescente de que os custos da IA generativa geralmente superam seus benefícios, o que leva à desilusão das empresas. Embora os usos genéricos, como a composição de e-mails ou a transcrição de reuniões, sejam genuinamente úteis, os modelos específicos de tarefas ainda exigem um esforço considerável. Os modelos prontos para uso geralmente são insuficientes e mais caros, de acordo com Luccioni.
Preencher essa lacuna representa a próxima fronteira de valor agregado. "A maioria das empresas deseja a realização de uma tarefa específica", observou Luccioni. "Elas não estão buscando inteligência artificial geral (AGI); elas querem inteligência especializada. Esse é o desafio que precisamos enfrentar."
2. Tornar a eficiência o padrão
Integre os princípios da "teoria do incentivo" ao design do sistema, defina orçamentos computacionais conservadores, limite os recursos geradores sempre ativos e exija que os usuários optem por modos de computação de alto custo.
Na ciência comportamental, a "teoria do empurrão" envolve orientar sutilmente as escolhas para incentivar comportamentos positivos. Luccioni citou o exemplo clássico da oferta de talheres em refeições para viagem: fazer com que os utensílios sejam uma escolha opcional, em vez de incluí-los por padrão, pode reduzir drasticamente o desperdício.
"A simples mudança de um modelo de opção de exclusão para um modelo de opção de inclusão pode influenciar poderosamente o comportamento do usuário", explicou Luccioni.
As configurações padrão geralmente levam ao uso desnecessário e ao aumento dos custos, pois os modelos executam tarefas que não deveriam fazer. Por exemplo, alguns mecanismos de pesquisa agora geram automaticamente resumos de IA na parte superior dos resultados. Luccioni também observou que, recentemente, ao usar o GPT-5 da OpenAI, o modelo adotou como padrão o modo de raciocínio completo até mesmo para consultas muito simples.
"Para mim, isso deveria ser a exceção", disse ela. Se eu perguntar: "Qual é o sentido da vida?", é claro que um resumo da IA pode ser útil. Mas para perguntas como "Como está o tempo em Montreal?" ou "Qual é o horário de funcionamento da minha farmácia local? Não preciso de um resumo generativo. O padrão deve ser sem raciocínio".
3. Otimizar a utilização do hardware
Implemente lotes, ajuste a precisão numérica e faça o ajuste fino dos tamanhos dos lotes para a geração de hardware específica a fim de minimizar o desperdício de memória e o consumo de energia.
As empresas devem avaliar suas necessidades específicas: O modelo precisa ser executado continuamente? Ele enfrentará solicitações em tempo real, talvez 100 de uma vez? Nesses casos, a otimização sempre ativa é essencial, observou Luccioni. No entanto, em muitos outros cenários, isso não é necessário; os modelos podem ser executados periodicamente para conservar a memória, e o agrupamento pode otimizar o uso da memória.
"É um desafio de engenharia, mas muito específico, por isso é difícil dar conselhos gerais como 'destilar todos os modelos' ou 'alterar a precisão de tudo'", disse Luccioni.
Em um estudo recente, ela descobriu que o tamanho ideal do lote é altamente dependente do hardware, até o modelo ou versão específica. Aumentar o tamanho do lote em apenas uma unidade pode, às vezes, aumentar o consumo de energia porque o modelo requer mais recursos de memória.
"Esse é um aspecto que as pessoas geralmente ignoram. Elas pensam: 'Vou apenas maximizar o tamanho do lote', mas a verdadeira eficiência vem do ajuste meticuloso de todas essas variáveis. O resultado é um sistema altamente otimizado, mas adaptado a um contexto muito específico", explicou Luccioni.
4. Incentive a transparência energética
Os incentivos promovem mudanças. Com isso em mente, a Hugging Face lançou o AI Energy Score no início deste ano. Essa iniciativa promove a eficiência energética usando um sistema de classificação de 1 a 5 estrelas, em que os modelos mais eficientes recebem a designação de "cinco estrelas".
Pode ser considerado como um "Energy Star para IA", inspirado no programa federal de longa data que define padrões de eficiência e rotula os aparelhos qualificados com seu logotipo.
"Durante décadas, essa classificação por estrelas foi um poderoso motivador. As pessoas queriam isso", disse Luccioni. "Conseguir um impacto semelhante com o Energy Score seria fantástico."
A Hugging Face criou uma tabela de classificação pública, que planeja atualizar com novos modelos, como DeepSeek e GPT-oss, em setembro, e continuar atualizando a cada seis meses ou à medida que novos modelos forem surgindo. O objetivo é que os desenvolvedores de modelos vejam uma classificação alta como um "distintivo de honra", observou Luccioni.
5. Repensar a mentalidade de que "mais computação é melhor"
Em vez de buscar os maiores clusters de GPU, comece perguntando: "Qual é a maneira mais inteligente de alcançar o resultado desejado?" Para vários aplicativos, arquiteturas mais inteligentes e conjuntos de dados mais bem selecionados produzem melhores resultados do que o dimensionamento de força bruta.
"Acredito que a maioria das pessoas provavelmente não precisa de tantas GPUs quanto pensa", afirmou Luccioni. Ela incentivou as empresas a reconsiderar as tarefas reais que suas GPUs realizarão, por que elas são necessárias, como essas tarefas eram realizadas anteriormente e quais benefícios tangíveis as GPUs adicionais realmente proporcionarão.
"Isso se tornou uma corrida para o fundo do poço, em que todos acham que precisam de um cluster maior", disse ela. "A chave é analisar para que você está usando a IA, quais técnicas específicas são necessárias e o que essas técnicas realmente exigem."
Amazon compromete US $ 100 bilhões para a IA em 2025
Apesar do recente burburinho sugerindo que a Deepseek inauguraria uma era de orçamentos reduzidos de IA, não há indicação de que a grande tecnologia esteja batendo nos freios. Pelo contrário, eles estão pisando no gás. A Amazon é o mais recente gigante a revelar um plano de gastos com IA, prevendo mais de US $ 100 bilhões em capi
Nvidia revela as GPUs de próxima geração: Blackwell Ultra, Vera Rubin, Feynman
Na conferência GTC 2025 da NVIDIA em San Jose, na terça -feira, o CEO Jensen Huang apresentou uma programação de GPUs que chegaram ao mercado nos próximos meses. A estrela do show? A GPU de Vera Rubin, prevista para uma liberação de 2026 no segundo tempo. Esta besta possui dezenas de gigabytes de memória e vem com um custos
O StrictlyVC de São Francisco reunirá líderes da TDK Ventures, da Replit e de outras empresas
O primeiro evento StrictlyVC do ano está chegando a São Francisco mais cedo do que você imagina. Ainda há ingressos disponíveis para nosso encontro de 30 de abril no Sentro Filipino Cultural Center, c











