

Os pesquisadores desenvolvem rival de código aberto ao modelo de 'raciocínio' de US $ 50 do OpenAI por menos de US $ 50
21 de Abril de 2025
JosephWalker
30

Na sexta -feira passada, um artigo de pesquisa inovador da IA especialistas em Stanford e da Universidade de Washington entrou em cena, revelando que eles conseguiram desenvolver um modelo de "raciocínio" da IA, apelidado de S1, por menos de US $ 50 em créditos de computação em nuvem. Essa revelação está agitando o mundo da IA, pois o S1 se mantém contra modelos de primeira linha como o OpenAi da Open e o Deepseek's R1 quando se trata de enfrentar os desafios de matemática e codificação.
O modelo S1, juntamente com todos os detalhes suculentos de seus dados e código de treinamento, agora está em disputa no Github. A equipe começou as coisas com um modelo básico comum e depois o colocou através do Wringer com uma técnica chamada destilação. Esse processo envolve espremer o suco de "raciocínio" de outro modelo de IA treinando suas respostas. Nesse caso, a S1 obteve sua inteligência do modelo experimental de pensamento flash flash do Google. É uma tática semelhante ao que os pesquisadores de Berkeley usaram para criar seu próprio modelo de raciocínio de IA por cerca de US $ 450 no mês passado.
Para alguns, a ideia de que uma pequena equipe de pesquisadores ainda pode fazer ondas no campo da IA sem um orçamento maciço é emocionante. Mas o surgimento de S1 também gera algumas perguntas sérias sobre o futuro do desenvolvimento do modelo de IA. Se um modelo que rivaliza com aqueles construídos com milhões pode ser replicado com um orçamento apertado, o que é impedir que todos façam o mesmo?
Não é de surpreender que os grandes jogadores da IA não estejam emocionados. O OpenAI, por exemplo, apontou os dedos para a Deepseek, acusando -os de usar seus dados da API para alimentar a destilação do modelo. Enquanto isso, a equipe S1 estava focada em encontrar a maneira mais direta de obter um sólido desempenho de raciocínio e algo chamado "escala no tempo de teste", onde um modelo de IA recebe mais tempo para pensar antes de responder. Essas são as mesmas inovações que o modelo O1 do OpenAI trouxe para a mesa, que outras pessoas como Deepseek tentaram imitar com seus próprios métodos.
O artigo S1 sugere que você pode destilar modelos de raciocínio com um conjunto de dados relativamente pequeno usando uma técnica conhecida como ajuste fino supervisionado (SFT). Isso envolve o treinamento do modelo de IA para copiar comportamentos específicos de um conjunto de dados e é mais barato que o aprendizado de reforço em larga escala que o DeepSeek usou para o modelo R1, que compete com o OpenAI da O1.
O Google torna o Gemini 2.0 Flash Thinking Experimental disponível gratuitamente através de sua plataforma de estúdio do Google AI, embora com limites diários. Mas há um problema-os termos do Google não permitem a engenharia reversa de seus modelos para criar serviços concorrentes. Estamos esperando para receber uma resposta do Google nisso.
O modelo S1 em si começou a vida como um modelo de IA modesto e pronta para o Laboratório Qwen do Alibaba, que qualquer pessoa pode baixar gratuitamente. Para treinar S1, os pesquisadores montam um conjunto de dados de apenas 1.000 perguntas cuidadosamente escolhidas, juntamente com as respostas e o processo de "pensamento" por trás de cada um, cortesia do Gemini 2.0 do Google. Todo o processo de treinamento levou menos de 30 minutos em 16 GPUs NVIDIA H100. De acordo com Niklas Muennighff, pesquisador de Stanford envolvido no projeto, você pode fazer isso hoje por cerca de US $ 20 em custos de computação.
Os pesquisadores também fizeram uma jogada inteligente para fazer com que a S1 verifique seu trabalho e estender seu tempo de "pensamento"-eles simplesmente disseram para "esperar". Adicionar essa palavra durante o processo de raciocínio da S1 ajudou a apresentar respostas um pouco mais precisas, de acordo com o artigo.
Olhando para o 2025, gigantes da tecnologia como Meta, Google e Microsoft estão prontos para despejar centenas de bilhões em infraestrutura de IA, grande parte das quais irá para treinar a próxima onda dos modelos de IA. Embora a destilação prove ser uma maneira eficaz de recriar os recursos de IA em barato, isso não levará à criação de modelos de IA inovadores e novos em breve.
Artigo relacionado
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN
The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries
Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some
Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them.
Opinions on
Comentários (0)
0/200






Na sexta -feira passada, um artigo de pesquisa inovador da IA especialistas em Stanford e da Universidade de Washington entrou em cena, revelando que eles conseguiram desenvolver um modelo de "raciocínio" da IA, apelidado de S1, por menos de US $ 50 em créditos de computação em nuvem. Essa revelação está agitando o mundo da IA, pois o S1 se mantém contra modelos de primeira linha como o OpenAi da Open e o Deepseek's R1 quando se trata de enfrentar os desafios de matemática e codificação.
O modelo S1, juntamente com todos os detalhes suculentos de seus dados e código de treinamento, agora está em disputa no Github. A equipe começou as coisas com um modelo básico comum e depois o colocou através do Wringer com uma técnica chamada destilação. Esse processo envolve espremer o suco de "raciocínio" de outro modelo de IA treinando suas respostas. Nesse caso, a S1 obteve sua inteligência do modelo experimental de pensamento flash flash do Google. É uma tática semelhante ao que os pesquisadores de Berkeley usaram para criar seu próprio modelo de raciocínio de IA por cerca de US $ 450 no mês passado.
Para alguns, a ideia de que uma pequena equipe de pesquisadores ainda pode fazer ondas no campo da IA sem um orçamento maciço é emocionante. Mas o surgimento de S1 também gera algumas perguntas sérias sobre o futuro do desenvolvimento do modelo de IA. Se um modelo que rivaliza com aqueles construídos com milhões pode ser replicado com um orçamento apertado, o que é impedir que todos façam o mesmo?
Não é de surpreender que os grandes jogadores da IA não estejam emocionados. O OpenAI, por exemplo, apontou os dedos para a Deepseek, acusando -os de usar seus dados da API para alimentar a destilação do modelo. Enquanto isso, a equipe S1 estava focada em encontrar a maneira mais direta de obter um sólido desempenho de raciocínio e algo chamado "escala no tempo de teste", onde um modelo de IA recebe mais tempo para pensar antes de responder. Essas são as mesmas inovações que o modelo O1 do OpenAI trouxe para a mesa, que outras pessoas como Deepseek tentaram imitar com seus próprios métodos.
O artigo S1 sugere que você pode destilar modelos de raciocínio com um conjunto de dados relativamente pequeno usando uma técnica conhecida como ajuste fino supervisionado (SFT). Isso envolve o treinamento do modelo de IA para copiar comportamentos específicos de um conjunto de dados e é mais barato que o aprendizado de reforço em larga escala que o DeepSeek usou para o modelo R1, que compete com o OpenAI da O1.
O Google torna o Gemini 2.0 Flash Thinking Experimental disponível gratuitamente através de sua plataforma de estúdio do Google AI, embora com limites diários. Mas há um problema-os termos do Google não permitem a engenharia reversa de seus modelos para criar serviços concorrentes. Estamos esperando para receber uma resposta do Google nisso.
O modelo S1 em si começou a vida como um modelo de IA modesto e pronta para o Laboratório Qwen do Alibaba, que qualquer pessoa pode baixar gratuitamente. Para treinar S1, os pesquisadores montam um conjunto de dados de apenas 1.000 perguntas cuidadosamente escolhidas, juntamente com as respostas e o processo de "pensamento" por trás de cada um, cortesia do Gemini 2.0 do Google. Todo o processo de treinamento levou menos de 30 minutos em 16 GPUs NVIDIA H100. De acordo com Niklas Muennighff, pesquisador de Stanford envolvido no projeto, você pode fazer isso hoje por cerca de US $ 20 em custos de computação.
Os pesquisadores também fizeram uma jogada inteligente para fazer com que a S1 verifique seu trabalho e estender seu tempo de "pensamento"-eles simplesmente disseram para "esperar". Adicionar essa palavra durante o processo de raciocínio da S1 ajudou a apresentar respostas um pouco mais precisas, de acordo com o artigo.
Olhando para o 2025, gigantes da tecnologia como Meta, Google e Microsoft estão prontos para despejar centenas de bilhões em infraestrutura de IA, grande parte das quais irá para treinar a próxima onda dos modelos de IA. Embora a destilação prove ser uma maneira eficaz de recriar os recursos de IA em barato, isso não levará à criação de modelos de IA inovadores e novos em breve.












