AI基準:我們現在應該忽略它們嗎?
2025年04月10日
MarkWilson
79
歡迎來到TechCrunch的常規AI通訊!我們正在休息一下,但請放心,您仍然可以在TechCrunch的這裡獲得我們所有的AI覆蓋範圍,包括我的專欄,日常分析和新聞。是否想每天將這些故事直接進入您的收件箱?只需在此處註冊我們的每日新聞通訊即可。
本週,埃隆·馬斯克(Elon Musk)的AI創業公司XAI放棄了他們最新的旗艦AI車型Grok 3,該車型正在為公司的Grok Chatbot應用程序提供動力。他們以高達200,000 gpu的培訓,它的表現優於其他頂級型號,包括來自OpenAI的一些頂級型號,用於數學,編碼等基準。
但是,讓我們談談這些基準實際上是什麼意思。
在TC上,我們報告了這些基準數字,即使我們並不總是為此感到興奮,因為它們是AI行業試圖展示其模型如何改善的幾種方式之一。事實是,這些流行的AI基准通常專注於晦澀的東西,並給出的分數並不能真正反映出AI對人們實際關心的事情的處理能力。
沃頓教授的伊桑·莫利克(Ethan Mollick)上X上說,真正需要更好的測試和獨立團體來運行它們。他指出,AI公司經常報告自己的基準結果,這使得很難完全信任它們。
莫利克寫道:“公共基準既是'meh'又飽和,因此根據口味的食物評論會像食品評論一樣進行大量的AI測試。” “如果AI對於工作至關重要,我們需要更多。”
那裡有很多人試圖為AI提出新的基準,但是沒人能同意最好的。有些人認為基準應該將重點放在經濟影響上是有用的,而另一些基準則認為現實世界中的採用和有用性是成功的真正衡量。
這場辯論可能會永遠進行。也許,就像X用戶Roon建議的那樣,除非有重大的AI突破,否則我們應該更少注意新型號和基準。即使這意味著錯過一些AI炒作,這可能會更好。
如前所述,本週在AI中休息一下。感謝您與我們,讀者一起堅持所有的風風雨雨。直到下一次。
消息

圖片來源:內森·萊恩 /彭博 /蓋蒂圖像 Openai試圖“未經許可” CHATGPT。馬克斯寫道,即使是在艱難或有爭議的話題上,他們也如何改變他們的人工智能發展方法來擁抱“智力自由”。
Openai的前首席技術官Mira Murati擁有一個名為Thinking Machines Lab的新創業公司。他們正在研究工具,以“使人工智能為[人們]的獨特需求和目標努力”。
Xai發布了Grok 3,並在iOS和Web的Grok應用程序中添加了新功能。
Meta將於今年春季舉辦首次針對生成AI的開發人員會議。它是駱駝模特之後的稱為紫杉龍,並於4月29日發生。
保羅寫了關於OpenEurollm的文章,這是一個大約20個組織的項目,以建立“歐洲透明AI”的基礎模型,該模型尊重所有歐盟語言的“語言和文化多樣性”。
研究論文

圖片來源:Jakub Porzycki / Nurphoto / Getty Images OpenAI研究人員提出了一種新的AI基準,稱為SWE-Lancer,以測試AI的編碼程度。它由1,400多個自由軟件工程任務組成,從修復錯誤並添加功能到建議技術實施。
Openai說,最佳模特,Anthropic的Claude 3.5十四行詩,在完整的SWE-Lancer Benchmark上僅得分40.3%,這表明AI還有很長的路要走。他們沒有測試像Openai的O3-Mini或中國DeepSeek的R1這樣的新模型。
本週模型
一家名為Stepfun的中國人工智能公司發布了一個名為Step-Audio的“開放” AI模型,可以理解和發表中文,英語和日語的演講。用戶甚至可以調整合成音頻的情感和方言,包括唱歌。
Stepfun是擁有寬鬆許可證的幾家資金資助的中國AI初創公司之一。他們成立於2023年,最近在包括中國國有私募股權公司在內的投資者那裡結束了價值數億美元的資金。
抓起袋

圖片來源:研究 AI研究小組NOUS Research聲稱已發布了將推理與“直觀語言模型能力”相結合的最早的AI模型之一。
他們的模型DeepHermes-3預覽可以在短時和長的“思想鏈”之間切換,以平衡準確性和計算能力。在“推理”模式下,需要更多時間來解決更嚴重的問題並在此過程中顯示其思維過程。
據報導,Anthropic計劃很快發布類似的模型,Openai表示它正在使用近期路線圖。
相關文章
Google搜索引入了複雜的多部分查詢的“ AI模式”
Google推出了“ AI模式”,以搜索與競爭對手的困惑AI和ChatgptGoogle在AI Arena中加強遊戲,並在其搜索引擎中啟動了實驗性的“ AI模式”功能。旨在進行困惑AI和Openai的Chatgpt搜索之類
Chatgpt主意使用用戶名在某些人中引發了“令人毛骨悚然”的問題
Chatgpt的一些用戶最近遇到了一個奇怪的新功能:聊天機器人偶爾在解決問題時使用他們的名字。這不是以前其通常行為的一部分,許多用戶報告Chatgpt提到了他們的名字,而沒有被告知該怎麼稱呼。意見
Openai增強了Chatgpt,以回憶以前的對話
Openai在周四發表了一項重大宣布,內容涉及在Chatgpt中推出一個名為“ Memory”的新功能。這種漂亮的工具旨在通過記住您以前談論的內容來使您與AI的聊天更為個性化。想像一下,每次開始新的轉換時都不必重複自己
評論 (55)
0/200
FredAnderson
2025年04月10日 13:30:25
Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!
0
WilliamYoung
2025年04月11日 03:44:49
AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!
0
ChristopherDavis
2025年04月10日 13:20:05
Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!
0
StephenLee
2025年04月10日 20:29:13
Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!
0
TimothyRoberts
2025年04月11日 06:46:34
Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!
0
NoahGreen
2025年04月11日 12:48:46
I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!
0






歡迎來到TechCrunch的常規AI通訊!我們正在休息一下,但請放心,您仍然可以在TechCrunch的這裡獲得我們所有的AI覆蓋範圍,包括我的專欄,日常分析和新聞。是否想每天將這些故事直接進入您的收件箱?只需在此處註冊我們的每日新聞通訊即可。
本週,埃隆·馬斯克(Elon Musk)的AI創業公司XAI放棄了他們最新的旗艦AI車型Grok 3,該車型正在為公司的Grok Chatbot應用程序提供動力。他們以高達200,000 gpu的培訓,它的表現優於其他頂級型號,包括來自OpenAI的一些頂級型號,用於數學,編碼等基準。
但是,讓我們談談這些基準實際上是什麼意思。
在TC上,我們報告了這些基準數字,即使我們並不總是為此感到興奮,因為它們是AI行業試圖展示其模型如何改善的幾種方式之一。事實是,這些流行的AI基准通常專注於晦澀的東西,並給出的分數並不能真正反映出AI對人們實際關心的事情的處理能力。
沃頓教授的伊桑·莫利克(Ethan Mollick)上X上說,真正需要更好的測試和獨立團體來運行它們。他指出,AI公司經常報告自己的基準結果,這使得很難完全信任它們。
莫利克寫道:“公共基準既是'meh'又飽和,因此根據口味的食物評論會像食品評論一樣進行大量的AI測試。” “如果AI對於工作至關重要,我們需要更多。”
那裡有很多人試圖為AI提出新的基準,但是沒人能同意最好的。有些人認為基準應該將重點放在經濟影響上是有用的,而另一些基準則認為現實世界中的採用和有用性是成功的真正衡量。
這場辯論可能會永遠進行。也許,就像X用戶Roon建議的那樣,除非有重大的AI突破,否則我們應該更少注意新型號和基準。即使這意味著錯過一些AI炒作,這可能會更好。
如前所述,本週在AI中休息一下。感謝您與我們,讀者一起堅持所有的風風雨雨。直到下一次。
消息
Openai的前首席技術官Mira Murati擁有一個名為Thinking Machines Lab的新創業公司。他們正在研究工具,以“使人工智能為[人們]的獨特需求和目標努力”。
Xai發布了Grok 3,並在iOS和Web的Grok應用程序中添加了新功能。
Meta將於今年春季舉辦首次針對生成AI的開發人員會議。它是駱駝模特之後的稱為紫杉龍,並於4月29日發生。
保羅寫了關於OpenEurollm的文章,這是一個大約20個組織的項目,以建立“歐洲透明AI”的基礎模型,該模型尊重所有歐盟語言的“語言和文化多樣性”。
研究論文
Openai說,最佳模特,Anthropic的Claude 3.5十四行詩,在完整的SWE-Lancer Benchmark上僅得分40.3%,這表明AI還有很長的路要走。他們沒有測試像Openai的O3-Mini或中國DeepSeek的R1這樣的新模型。
本週模型
一家名為Stepfun的中國人工智能公司發布了一個名為Step-Audio的“開放” AI模型,可以理解和發表中文,英語和日語的演講。用戶甚至可以調整合成音頻的情感和方言,包括唱歌。
Stepfun是擁有寬鬆許可證的幾家資金資助的中國AI初創公司之一。他們成立於2023年,最近在包括中國國有私募股權公司在內的投資者那裡結束了價值數億美元的資金。
抓起袋
他們的模型DeepHermes-3預覽可以在短時和長的“思想鏈”之間切換,以平衡準確性和計算能力。在“推理”模式下,需要更多時間來解決更嚴重的問題並在此過程中顯示其思維過程。
據報導,Anthropic計劃很快發布類似的模型,Openai表示它正在使用近期路線圖。




Honestly, AI Benchmarks can be a bit misleading sometimes. I signed up for the daily newsletter hoping for some clarity, but it's just more of the same hype. Maybe we should indeed ignore them for now until there's a more reliable standard. Keep up the good work on the coverage though!




AIのベンチマークって本当に信用できるのかな?毎日のニュースレターに登録したけど、期待していたほど役立つ情報は得られなかった。もう少し信頼できる基準が出てくるまで無視したほうがいいかもね。でも、他のカバレッジは素晴らしいよ!




Los benchmarks de IA a veces pueden ser engañosos. Me suscribí al boletín diario esperando más claridad, pero solo es más de lo mismo. Quizás deberíamos ignorarlos por ahora hasta que haya un estándar más confiable. ¡Sigan con el buen trabajo en la cobertura!




Os benchmarks de IA podem ser um pouco enganosos às vezes. Me inscrevi no boletim diário esperando alguma clareza, mas é só mais do mesmo hype. Talvez devêssemos mesmo ignorá-los por enquanto até que haja um padrão mais confiável. Continuem o bom trabalho na cobertura!




Thực sự thì các benchmarks của AI đôi khi có thể gây hiểu lầm. Tôi đã đăng ký nhận bản tin hàng ngày mong có thêm sự rõ ràng, nhưng lại chỉ nhận được thêm những lời quảng cáo. Có lẽ chúng ta nên bỏ qua chúng tạm thời cho đến khi có tiêu chuẩn đáng tin cậy hơn. Nhưng công việc bao quát của các bạn thì tuyệt vời!




I used to rely on AI benchmarks to gauge the performance of new tech, but this article made me think twice. Maybe we're focusing too much on numbers and not enough on practical use. Still, it's a good read for anyone in the AI field. Worth a ponder!












