“智商:AI評估的有缺陷的措施”

在最近的一次新聞活動中,OpenAI的首席執行官Sam Altman分享了他對AI「智商」快速進步的看法。他提到:「非常粗略地說,我感覺——這不是科學上精確的,這只是一種直覺或精神上的回答——每年我們在智商上進步一個標準差。」Altman並不是唯一使用智商作為AI進步衡量標準的人;社群媒體影響者也常將AI模型進行智商測試並分享結果。
然而,許多專家認為,用智商來評估AI的能力不僅不夠充分,還具有誤導性。牛津大學專注於科技與監管的學者Sandra Wachter對TechCrunch表示:「使用我們評估人類的相同標準來描述能力或進展非常誘人,但這就像拿蘋果與橘子比較。」
在新聞發布會上,Altman似乎將智商等同於智能。然而,智商測試更多是關於特定類型智能的相對測量,而非絕對測量。它們通常被視為邏輯和抽象推理的良好指標,但在實踐智能——幫助解決實際問題的能力——方面則顯不足。此外,它們僅能提供某人能力的瞬間快照。
Wachter指出:「智商是用來測量人類能力的工具——本身就充滿爭議——基於科學家認為人類智能的樣貌。但你不能用相同的標準來描述AI的能力。汽車比人類跑得快,潛艇在潛水方面更出色。但這不意味著汽車或潛艇超越了人類智能。你將某個方面的表現等同於人類智能,而人類智能遠比這複雜得多。」
智商測試的起源與優生學有關,這是一種已被否定的通過選擇性育種改善人類的理論。要在這些測試中表現出色,你需要良好的工作記憶和對西方文化規範的熟悉,這可能引入偏見。華盛頓大學研究倫理AI的博士候選人Os Keyes認為,如果AI模型在智商測試中表現良好,這更多反映了測試的缺陷,而非模型的能力。Keyes說:「如果你的記憶力和耐心幾乎無限,這些測試很容易被操縱。智商測試是測量認知、意識和智能的極其有限方式,這一點在數位電腦發明之前我們就已知。」
AI在智商測試中可能具有不公平的優勢,因為模型擁有龐大的記憶和知識庫。它們常在公開的網頁數據上進行訓練,其中包含大量智商測試題目。倫敦國王學院專攻AI的研究員Mike Cook指出:「測試往往重複非常相似的模式——提高智商的幾乎萬無一失的方法就是練習智商測試,這正是每個模型實際上所做的。當我學習某事物時,我不會像AI這樣,以完美清晰的方式將其輸入我的大腦100萬次,也無法在無雜訊或信號損失的情況下處理它。」
Cook還指出,智商測試帶有固有的偏見,是為人類設計以評估一般問題解決能力的。它們不適合AI,因為AI以不同方式處理問題。他說:「烏鴉可能會使用工具從盒子中取出食物,但這不意味著它能進入哈佛讀書。當我解決數學問題時,我的大腦還要應對是否正確閱讀頁面上的文字、不去想回家路上要買的東西,或者房間裡現在是否太冷。換句話說,人類大腦在解決問題時——無論是智商測試還是其他問題——需要應對更多的事情,而且比AI得到的幫助少得多。」
AI Now研究所的首席AI科學家Heidy Khlaaf對TechCrunch表示,我們需要更好的方式來測試AI。她說:「在計算歷史中,我們從未將計算能力直接與人類能力相比,因為計算的本質意味著系統早已能完成超出人類能力的任務。直接將系統表現與人類能力比較是一個新近現象,且備受爭議,圍繞著不斷擴展且變動的AI系統評估基準的爭議。」
相關文章
Salesforce 揭曉 Slack 中 AI 數位隊友以對抗 Microsoft Copilot
Salesforce 推出全新工作場所 AI 策略,於週一宣布在 Slack 對話中引入專屬的「數位隊友」。全新工具 Agentforce in Slack 讓企業能夠創建並部署針對特定任務的 AI 代理,這些代理可搜尋工作場所聊天記錄、存取公司資料,並在員工日常工作的訊息平台內執行操作。「正如專業員工協作解決問題,我們的客戶需要 AI 代理共同合作,為客戶和員工解決問題,」Salesforce
甲骨文40億美元Nvidia晶片投資推動德州AI數據中心
據《金融時報》報導,甲骨文計劃投資約40億美元於Nvidia晶片,為OpenAI在德州開發的大型新數據中心提供動力。這筆交易是迄今為止最大的晶片收購之一,凸顯了對AI運算資源的激增需求。該設施位於德州阿比林,是美國首個「星門」數據中心。由OpenAI和軟銀支持,屬於建設大規模AI基礎設施的更廣泛計劃的一部分。該德州中心預計明年完工,將提供1.2吉瓦的運算能力,位列全球最大之列。甲骨文計劃採購約40
Meta AI應用程式將推出高級訂閱與廣告
Meta的AI應用程式即將推出付費訂閱服務,類似於OpenAI、Google和Microsoft等競爭對手的產品。在2025年第一季財報電話會議中,Meta首席執行官馬克·祖克柏格概述了高級服務的計劃,讓用戶能夠使用更強大的運算能力或Meta AI的額外功能。為了與ChatGPT競爭,Meta本週推出了一款獨立的AI應用程式,允許用戶直接與聊天機器人互動並進行圖像生成。該聊天機器人目前擁有近10億
評論 (45)
0/200
PatrickMartinez
2025-04-22 14:29:16
A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔
0
RalphMitchell
2025-04-22 06:56:36
サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔
0
GregoryJones
2025-04-21 15:45:40
サム・アルトマンがAIの「IQ」について語ったのは興味深いけど、私には少し曖昧すぎる感じがする。「ビジョンやスピリチュアルな答え」?本当に?もっと具体的なデータが必要だよ!それでも、AIがどれだけ早く成長しているかを見るのはクールだね。🤔
0
JonathanKing
2025-04-17 01:41:37
La perspectiva de Sam Altman sobre el 'IQ' de la IA es interesante, pero me parece un poco demasiado vaga. ¿'Vibe o respuesta espiritual'? Vamos, necesitamos datos más concretos. Aún así, es genial ver lo rápido que está creciendo la IA. 🤔
0
ArthurThomas
2025-04-15 14:03:27
Sam Altman's take on AI's 'IQ' growth is pretty wild! Every year a standard deviation? That's like AI is leveling up faster than my favorite RPG character! But honestly, using IQ to measure AI feels off. It's like judging a fish by its ability to climb a tree. Still, it's a cool vibe to think about! 🤔🚀
0
TimothyHernández
2025-04-15 10:02:54
Sam Altman's take on AI's 'IQ' is interesting, but it feels a bit too vague for me. 'Vibe or spiritual answer'? Come on, we need more concrete data! Still, it's cool to see how fast AI is growing. 🤔
0
在最近的一次新聞活動中,OpenAI的首席執行官Sam Altman分享了他對AI「智商」快速進步的看法。他提到:「非常粗略地說,我感覺——這不是科學上精確的,這只是一種直覺或精神上的回答——每年我們在智商上進步一個標準差。」Altman並不是唯一使用智商作為AI進步衡量標準的人;社群媒體影響者也常將AI模型進行智商測試並分享結果。
然而,許多專家認為,用智商來評估AI的能力不僅不夠充分,還具有誤導性。牛津大學專注於科技與監管的學者Sandra Wachter對TechCrunch表示:「使用我們評估人類的相同標準來描述能力或進展非常誘人,但這就像拿蘋果與橘子比較。」
在新聞發布會上,Altman似乎將智商等同於智能。然而,智商測試更多是關於特定類型智能的相對測量,而非絕對測量。它們通常被視為邏輯和抽象推理的良好指標,但在實踐智能——幫助解決實際問題的能力——方面則顯不足。此外,它們僅能提供某人能力的瞬間快照。
Wachter指出:「智商是用來測量人類能力的工具——本身就充滿爭議——基於科學家認為人類智能的樣貌。但你不能用相同的標準來描述AI的能力。汽車比人類跑得快,潛艇在潛水方面更出色。但這不意味著汽車或潛艇超越了人類智能。你將某個方面的表現等同於人類智能,而人類智能遠比這複雜得多。」
智商測試的起源與優生學有關,這是一種已被否定的通過選擇性育種改善人類的理論。要在這些測試中表現出色,你需要良好的工作記憶和對西方文化規範的熟悉,這可能引入偏見。華盛頓大學研究倫理AI的博士候選人Os Keyes認為,如果AI模型在智商測試中表現良好,這更多反映了測試的缺陷,而非模型的能力。Keyes說:「如果你的記憶力和耐心幾乎無限,這些測試很容易被操縱。智商測試是測量認知、意識和智能的極其有限方式,這一點在數位電腦發明之前我們就已知。」
AI在智商測試中可能具有不公平的優勢,因為模型擁有龐大的記憶和知識庫。它們常在公開的網頁數據上進行訓練,其中包含大量智商測試題目。倫敦國王學院專攻AI的研究員Mike Cook指出:「測試往往重複非常相似的模式——提高智商的幾乎萬無一失的方法就是練習智商測試,這正是每個模型實際上所做的。當我學習某事物時,我不會像AI這樣,以完美清晰的方式將其輸入我的大腦100萬次,也無法在無雜訊或信號損失的情況下處理它。」
Cook還指出,智商測試帶有固有的偏見,是為人類設計以評估一般問題解決能力的。它們不適合AI,因為AI以不同方式處理問題。他說:「烏鴉可能會使用工具從盒子中取出食物,但這不意味著它能進入哈佛讀書。當我解決數學問題時,我的大腦還要應對是否正確閱讀頁面上的文字、不去想回家路上要買的東西,或者房間裡現在是否太冷。換句話說,人類大腦在解決問題時——無論是智商測試還是其他問題——需要應對更多的事情,而且比AI得到的幫助少得多。」
AI Now研究所的首席AI科學家Heidy Khlaaf對TechCrunch表示,我們需要更好的方式來測試AI。她說:「在計算歷史中,我們從未將計算能力直接與人類能力相比,因為計算的本質意味著系統早已能完成超出人類能力的任務。直接將系統表現與人類能力比較是一個新近現象,且備受爭議,圍繞著不斷擴展且變動的AI系統評估基準的爭議。」



A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔




サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔




サム・アルトマンがAIの「IQ」について語ったのは興味深いけど、私には少し曖昧すぎる感じがする。「ビジョンやスピリチュアルな答え」?本当に?もっと具体的なデータが必要だよ!それでも、AIがどれだけ早く成長しているかを見るのはクールだね。🤔




La perspectiva de Sam Altman sobre el 'IQ' de la IA es interesante, pero me parece un poco demasiado vaga. ¿'Vibe o respuesta espiritual'? Vamos, necesitamos datos más concretos. Aún así, es genial ver lo rápido que está creciendo la IA. 🤔




Sam Altman's take on AI's 'IQ' growth is pretty wild! Every year a standard deviation? That's like AI is leveling up faster than my favorite RPG character! But honestly, using IQ to measure AI feels off. It's like judging a fish by its ability to climb a tree. Still, it's a cool vibe to think about! 🤔🚀




Sam Altman's take on AI's 'IQ' is interesting, but it feels a bit too vague for me. 'Vibe or spiritual answer'? Come on, we need more concrete data! Still, it's cool to see how fast AI is growing. 🤔












