研究人員以低於50美元的價格開發了OpenAI $ 50“推理”模型的開源競爭對手
2025年04月21日
JosephWalker
30

上週五,斯坦福大學和華盛頓大學的AI專家的一份開創性的研究論文襲擊了現場,透露,他們設法開發了一種被稱為S1的AI“推理”模型,以低於50美元的雲計算學分。由於S1在應對數學和編碼挑戰方面,S1與Openai的O1和DeepSeek的R1等頂級模型保持著自己的態度。
S1模型以及其培訓數據和代碼的所有多汁細節現在都可以在GitHub上搶購。該團隊用一台經過普通的基本模型開始了事情,然後用一種稱為蒸餾的技術將其放在扭架上。此過程涉及通過培訓其響應來從另一個AI模型中榨取“推理”果汁。在這種情況下,S1從Google的Gemini 2.0 Flash思維實驗模型中獲得了智能。這與伯克利研究人員所用來的AI推理模式的策略類似,上個月約為450美元。
對於某些人來說,一小群研究人員仍然可以在沒有大規模預算的情況下在AI領域揮舞著這一想法令人興奮。但是S1的出現也引發了有關AI模型開發未來的一些嚴重問題。如果可以在預算上複製具有數百萬美元的模型,那麼什麼才能阻止每個人做同樣的事情?
毫不奇怪,AI中的大型球員並不激動。例如,Openai將手指指向DeepSeek,指責他們使用其API數據來促進模型蒸餾。同時,S1團隊專注於找到最直接的方法來實現紮實的推理性能和所謂的“測試時間擴展”,在該方法中,AI模型在回答之前有更多的時間思考。這些是Openai的O1模型帶到餐桌上的創新,像DeepSeek這樣的其他人試圖模仿自己的方法。
S1論文建議您使用一種稱為監督微調(SFT)的技術將推理模型蒸餾出相對較小的數據集。這涉及培訓AI模型以復制數據集的特定行為,並且比DeepSeek用於其R1模型的大規模增強學習更便宜,該模型與OpenAI的O1競爭。
Google通過其Google AI Studio平台免費提供Gemini 2.0 Flash Thinking實驗,儘管每日限制。但是有一個捕捉 - Google的術語不允許對其模型進行反向工程來創建競爭服務。我們正在等待從Google那裡聽到的。
S1模型本身是從阿里巴巴的Qwen實驗室開始的一種謙虛,現成的AI模型,任何人都可以免費下載。為了培訓S1,研究人員將僅1000個精心選擇的問題的數據集以及每個人背後的“思考”過程組合在一起,由Google的Gemini 2.0提供。整個訓練過程在16個NVIDIA H100 GPU上花費了不到30分鐘。參與該項目的斯坦福大學研究人員Niklas Muennighoff表示,您今天可以以約20美元的計算成本來實現這一目標。
研究人員還採取了巧妙的舉動,以使S1雙重檢查其工作並擴展其“思考”時間 - 他們只是告訴它“等待”。該論文說,在S1的推理過程中添加這個詞有助於提出更準確的答案。
展望2025年,Meta,Google和Microsoft等科技巨頭將倒入數億美元的AI基礎架構,其中大部分將用於培訓下一波AI模型。雖然蒸餾被證明是一種以便宜的方式重新創建AI功能的有效方法,但它不會很快就可以創建全新的,開創性的AI模型。
相關文章
Former DeepSeeker and collaborators release new method for training reliable AI agents: RAGEN
The Year of AI Agents: A Closer Look at 2025's Expectations and Realities2025 was heralded by many experts as the year when AI agents—specialized AI systems powered by advanced large language and multimodal models from companies like OpenAI, Anthropic, Google, and DeepSeek—would finally take center
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries
Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some
Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them.
Opinions on
評論 (0)
0/200






上週五,斯坦福大學和華盛頓大學的AI專家的一份開創性的研究論文襲擊了現場,透露,他們設法開發了一種被稱為S1的AI“推理”模型,以低於50美元的雲計算學分。由於S1在應對數學和編碼挑戰方面,S1與Openai的O1和DeepSeek的R1等頂級模型保持著自己的態度。
S1模型以及其培訓數據和代碼的所有多汁細節現在都可以在GitHub上搶購。該團隊用一台經過普通的基本模型開始了事情,然後用一種稱為蒸餾的技術將其放在扭架上。此過程涉及通過培訓其響應來從另一個AI模型中榨取“推理”果汁。在這種情況下,S1從Google的Gemini 2.0 Flash思維實驗模型中獲得了智能。這與伯克利研究人員所用來的AI推理模式的策略類似,上個月約為450美元。
對於某些人來說,一小群研究人員仍然可以在沒有大規模預算的情況下在AI領域揮舞著這一想法令人興奮。但是S1的出現也引發了有關AI模型開發未來的一些嚴重問題。如果可以在預算上複製具有數百萬美元的模型,那麼什麼才能阻止每個人做同樣的事情?
毫不奇怪,AI中的大型球員並不激動。例如,Openai將手指指向DeepSeek,指責他們使用其API數據來促進模型蒸餾。同時,S1團隊專注於找到最直接的方法來實現紮實的推理性能和所謂的“測試時間擴展”,在該方法中,AI模型在回答之前有更多的時間思考。這些是Openai的O1模型帶到餐桌上的創新,像DeepSeek這樣的其他人試圖模仿自己的方法。
S1論文建議您使用一種稱為監督微調(SFT)的技術將推理模型蒸餾出相對較小的數據集。這涉及培訓AI模型以復制數據集的特定行為,並且比DeepSeek用於其R1模型的大規模增強學習更便宜,該模型與OpenAI的O1競爭。
Google通過其Google AI Studio平台免費提供Gemini 2.0 Flash Thinking實驗,儘管每日限制。但是有一個捕捉 - Google的術語不允許對其模型進行反向工程來創建競爭服務。我們正在等待從Google那裡聽到的。
S1模型本身是從阿里巴巴的Qwen實驗室開始的一種謙虛,現成的AI模型,任何人都可以免費下載。為了培訓S1,研究人員將僅1000個精心選擇的問題的數據集以及每個人背後的“思考”過程組合在一起,由Google的Gemini 2.0提供。整個訓練過程在16個NVIDIA H100 GPU上花費了不到30分鐘。參與該項目的斯坦福大學研究人員Niklas Muennighoff表示,您今天可以以約20美元的計算成本來實現這一目標。
研究人員還採取了巧妙的舉動,以使S1雙重檢查其工作並擴展其“思考”時間 - 他們只是告訴它“等待”。該論文說,在S1的推理過程中添加這個詞有助於提出更準確的答案。
展望2025年,Meta,Google和Microsoft等科技巨頭將倒入數億美元的AI基礎架構,其中大部分將用於培訓下一波AI模型。雖然蒸餾被證明是一種以便宜的方式重新創建AI功能的有效方法,但它不會很快就可以創建全新的,開創性的AI模型。












