Lar
Aberta dos advogados de benchmarks de IA específicos para o setor: eis por que isso importa

Resultados de desempenho de benchmark são uma característica comum quando novos modelos de IA são lançados, demonstrando suas capacidades em uma variedade de tarefas gerais, como matemática escolar (GSM8K) ou raciocínio de nível de pós-graduação (GPQA). No entanto, esses benchmarks muitas vezes não atendem às necessidades específicas de várias indústrias.
Também: ChatGPT agora lembrará tudo o que você lhe contar - como um verdadeiro assistente pessoal
Programa Pioneiros da OpenAI
Para preencher essa lacuna, a OpenAI lançou o Programa Pioneiros da OpenAI, projetado para aprimorar o desenvolvimento de modelos de IA para indústrias específicas e aplicações práticas. Esta iniciativa é um esforço de foco duplo onde empresas fazem parceria com os pesquisadores da OpenAI para criar avaliações mais personalizadas e refinar modelos para atender a domínios específicos.
estamos lançando o programa pioneiros da openai -- uma parceria entre a openai e empresas que desenvolvem produtos avançados de IA para (a) ajustar intensivamente modelos que superem em tarefas específicas de alto valor de domínio, e (b) construir melhores avaliações do mundo real que permitam às indústrias melhorar… https://t.co/cCvkGmYqJd
— Brad Lightcap (@bradlightcap) 9 de abril de 2025
Em um recente post de blog, a OpenAI destacou que setores como jurídico, financeiro, seguros, saúde e contabilidade carecem de uma fonte abrangente de benchmarks. Para abordar isso, a OpenAI planeja colaborar com várias empresas de cada setor para desenvolver essas avaliações. Essa abordagem visa não apenas aprimorar o desenvolvimento de modelos, mas também promover maior confiança entre o público e as tecnologias de IA.
Também: A IA não está atingindo um limite, está apenas ficando inteligente demais para benchmarks, diz a Anthropic
Pesquisas identificaram a ausência de benchmarks específicos do setor como um desafio significativo para a IA em ambientes empresariais. Por exemplo, Silvio Savarese, que lidera a Salesforce AI Research, discutiu o conceito de Inteligência Geral Empresarial (EGI) em um post de blog. EGI foca em soluções avançadas de IA adaptadas a domínios de negócios específicos. Em uma discussão com a ZDNET, ele enfatizou a importância de desenvolver benchmarks que avaliem funções específicas de domínio como um passo chave para alcançar o EGI.
Refinando modelos existentes
Além de criar novas avaliações, a OpenAI trabalhará com empresas para refinar modelos existentes para três casos de uso específicos da indústria por meio de um método chamado ajuste fino por reforço (RFT). A OpenAI fornecerá orientação sobre a implementação do RFT, permitindo que as empresas decidam como melhor implantar esses modelos, que devem estar prontos para uso em larga escala, segundo a OpenAI.
Também: A corrida de modelos de IA ficou muito mais acirrada, dizem estudiosos de Stanford
O grupo inicial que participa deste programa incluirá um número seleto de startups focadas em casos de uso com impacto significativo no mundo real. Se sua empresa atender a esses critérios, você pode se inscrever enviando informações básicas da empresa através da página do Programa Pioneiros da OpenAI.
Receba as principais notícias da manhã em sua caixa de entrada todos os dias com nosso boletim Tech Today.
Artigo relacionado
Como proteger bens, edifícios e a saúde pessoal?
Em um mundo imprevisível, a proteção tornou-se uma necessidade estratégica — e não apenas uma opção. Seja para proteger as finanças, reforçar edifícios ou cuidar da saúde pessoal, a estabilidade a lon
O navegador Comet com IA é lançado com suporte total à multitarefa no iPad
O navegador com IA da Perplexity, o Comet, lançou oficialmente sua versão para iPad, agora totalmente compatível com o iPadOS. A atualização traz navegação em múltiplas janelas, suporte à multitarefa
A Trace arrecadou 3 milhões de dólares para superar os obstáculos na adoção de agentes de IA empresariais.
Apesar de seu potencial, os agentes de IA têm tido dificuldades para ganhar espaço no ambiente empresarial. Uma startup emergente acredita que o problema central é a falta de contexto.Lançada como parte do grupo de verão de 2025 da Y Combinator, a T
Recomendações de tópicos especiais relacionados
Comentários (23)
산업별 AI 벤치마크라... 솔직히 말해서 이미 늦은 감이 있죠. ㅋㅋ 의료나 금융 같은 분야에선 어제도 벤치마크 필요하다고 했는데, OpenAI가 이제서야 주장하다니. 뒤쳐지는 걸 인정한 건가? 🧐
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It’s like trying to judge a chef by how fast they run. Industry-tailored tests make so much sense for real-world applications. Excited to see where this goes! 😄
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It's like trying to judge a chef by how fast they can run. Excited to see tailored benchmarks evolve! 😄
OpenAI's push for industry-specific AI benchmarks is a breath of fresh air! Finally, someone's addressing the real-world needs of different sectors, not just generic tasks. It's about time we see AI models tailored to specific industries. Can't wait to see how this evolves! 🚀

Resultados de desempenho de benchmark são uma característica comum quando novos modelos de IA são lançados, demonstrando suas capacidades em uma variedade de tarefas gerais, como matemática escolar (GSM8K) ou raciocínio de nível de pós-graduação (GPQA). No entanto, esses benchmarks muitas vezes não atendem às necessidades específicas de várias indústrias.
Também: ChatGPT agora lembrará tudo o que você lhe contar - como um verdadeiro assistente pessoal
Programa Pioneiros da OpenAI
Para preencher essa lacuna, a OpenAI lançou o Programa Pioneiros da OpenAI, projetado para aprimorar o desenvolvimento de modelos de IA para indústrias específicas e aplicações práticas. Esta iniciativa é um esforço de foco duplo onde empresas fazem parceria com os pesquisadores da OpenAI para criar avaliações mais personalizadas e refinar modelos para atender a domínios específicos.
estamos lançando o programa pioneiros da openai -- uma parceria entre a openai e empresas que desenvolvem produtos avançados de IA para (a) ajustar intensivamente modelos que superem em tarefas específicas de alto valor de domínio, e (b) construir melhores avaliações do mundo real que permitam às indústrias melhorar… https://t.co/cCvkGmYqJd
— Brad Lightcap (@bradlightcap) 9 de abril de 2025
Em um recente post de blog, a OpenAI destacou que setores como jurídico, financeiro, seguros, saúde e contabilidade carecem de uma fonte abrangente de benchmarks. Para abordar isso, a OpenAI planeja colaborar com várias empresas de cada setor para desenvolver essas avaliações. Essa abordagem visa não apenas aprimorar o desenvolvimento de modelos, mas também promover maior confiança entre o público e as tecnologias de IA.
Também: A IA não está atingindo um limite, está apenas ficando inteligente demais para benchmarks, diz a Anthropic
Pesquisas identificaram a ausência de benchmarks específicos do setor como um desafio significativo para a IA em ambientes empresariais. Por exemplo, Silvio Savarese, que lidera a Salesforce AI Research, discutiu o conceito de Inteligência Geral Empresarial (EGI) em um post de blog. EGI foca em soluções avançadas de IA adaptadas a domínios de negócios específicos. Em uma discussão com a ZDNET, ele enfatizou a importância de desenvolver benchmarks que avaliem funções específicas de domínio como um passo chave para alcançar o EGI.
Refinando modelos existentes
Além de criar novas avaliações, a OpenAI trabalhará com empresas para refinar modelos existentes para três casos de uso específicos da indústria por meio de um método chamado ajuste fino por reforço (RFT). A OpenAI fornecerá orientação sobre a implementação do RFT, permitindo que as empresas decidam como melhor implantar esses modelos, que devem estar prontos para uso em larga escala, segundo a OpenAI.
Também: A corrida de modelos de IA ficou muito mais acirrada, dizem estudiosos de Stanford
O grupo inicial que participa deste programa incluirá um número seleto de startups focadas em casos de uso com impacto significativo no mundo real. Se sua empresa atender a esses critérios, você pode se inscrever enviando informações básicas da empresa através da página do Programa Pioneiros da OpenAI.
Receba as principais notícias da manhã em sua caixa de entrada todos os dias com nosso boletim Tech Today.
Como proteger bens, edifícios e a saúde pessoal?
Em um mundo imprevisível, a proteção tornou-se uma necessidade estratégica — e não apenas uma opção. Seja para proteger as finanças, reforçar edifícios ou cuidar da saúde pessoal, a estabilidade a lon
O navegador Comet com IA é lançado com suporte total à multitarefa no iPad
O navegador com IA da Perplexity, o Comet, lançou oficialmente sua versão para iPad, agora totalmente compatível com o iPadOS. A atualização traz navegação em múltiplas janelas, suporte à multitarefa
A Trace arrecadou 3 milhões de dólares para superar os obstáculos na adoção de agentes de IA empresariais.
Apesar de seu potencial, os agentes de IA têm tido dificuldades para ganhar espaço no ambiente empresarial. Uma startup emergente acredita que o problema central é a falta de contexto.Lançada como parte do grupo de verão de 2025 da Y Combinator, a T
산업별 AI 벤치마크라... 솔직히 말해서 이미 늦은 감이 있죠. ㅋㅋ 의료나 금융 같은 분야에선 어제도 벤치마크 필요하다고 했는데, OpenAI가 이제서야 주장하다니. 뒤쳐지는 걸 인정한 건가? 🧐
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It’s like trying to judge a chef by how fast they run. Industry-tailored tests make so much sense for real-world applications. Excited to see where this goes! 😄
This article really opened my eyes to how generic AI benchmarks miss the mark for specific industries! It's like trying to judge a chef by how fast they can run. Excited to see tailored benchmarks evolve! 😄
OpenAI's push for industry-specific AI benchmarks is a breath of fresh air! Finally, someone's addressing the real-world needs of different sectors, not just generic tasks. It's about time we see AI models tailored to specific industries. Can't wait to see how this evolves! 🚀











