選項
首頁
新聞
“智商:AI評估的有缺陷的措施”

“智商:AI評估的有缺陷的措施”

2025-04-08
107

“智商:AI評估的有缺陷的措施”

在最近的一次新聞活動中,OpenAI的首席執行官Sam Altman分享了他對AI「智商」快速進步的看法。他提到:「非常粗略地說,我感覺——這不是科學上精確的,這只是一種直覺或精神上的回答——每年我們在智商上進步一個標準差。」Altman並不是唯一使用智商作為AI進步衡量標準的人;社群媒體影響者也常將AI模型進行智商測試並分享結果。

然而,許多專家認為,用智商來評估AI的能力不僅不夠充分,還具有誤導性。牛津大學專注於科技與監管的學者Sandra Wachter對TechCrunch表示:「使用我們評估人類的相同標準來描述能力或進展非常誘人,但這就像拿蘋果與橘子比較。」

在新聞發布會上,Altman似乎將智商等同於智能。然而,智商測試更多是關於特定類型智能的相對測量,而非絕對測量。它們通常被視為邏輯和抽象推理的良好指標,但在實踐智能——幫助解決實際問題的能力——方面則顯不足。此外,它們僅能提供某人能力的瞬間快照。

Wachter指出:「智商是用來測量人類能力的工具——本身就充滿爭議——基於科學家認為人類智能的樣貌。但你不能用相同的標準來描述AI的能力。汽車比人類跑得快,潛艇在潛水方面更出色。但這不意味著汽車或潛艇超越了人類智能。你將某個方面的表現等同於人類智能,而人類智能遠比這複雜得多。」

智商測試的起源與優生學有關,這是一種已被否定的通過選擇性育種改善人類的理論。要在這些測試中表現出色,你需要良好的工作記憶和對西方文化規範的熟悉,這可能引入偏見。華盛頓大學研究倫理AI的博士候選人Os Keyes認為,如果AI模型在智商測試中表現良好,這更多反映了測試的缺陷,而非模型的能力。Keyes說:「如果你的記憶力和耐心幾乎無限,這些測試很容易被操縱。智商測試是測量認知、意識和智能的極其有限方式,這一點在數位電腦發明之前我們就已知。」

AI在智商測試中可能具有不公平的優勢,因為模型擁有龐大的記憶和知識庫。它們常在公開的網頁數據上進行訓練,其中包含大量智商測試題目。倫敦國王學院專攻AI的研究員Mike Cook指出:「測試往往重複非常相似的模式——提高智商的幾乎萬無一失的方法就是練習智商測試,這正是每個模型實際上所做的。當我學習某事物時,我不會像AI這樣,以完美清晰的方式將其輸入我的大腦100萬次,也無法在無雜訊或信號損失的情況下處理它。」

Cook還指出,智商測試帶有固有的偏見,是為人類設計以評估一般問題解決能力的。它們不適合AI,因為AI以不同方式處理問題。他說:「烏鴉可能會使用工具從盒子中取出食物,但這不意味著它能進入哈佛讀書。當我解決數學問題時,我的大腦還要應對是否正確閱讀頁面上的文字、不去想回家路上要買的東西,或者房間裡現在是否太冷。換句話說,人類大腦在解決問題時——無論是智商測試還是其他問題——需要應對更多的事情,而且比AI得到的幫助少得多。」

AI Now研究所的首席AI科學家Heidy Khlaaf對TechCrunch表示,我們需要更好的方式來測試AI。她說:「在計算歷史中,我們從未將計算能力直接與人類能力相比,因為計算的本質意味著系統早已能完成超出人類能力的任務。直接將系統表現與人類能力比較是一個新近現象,且備受爭議,圍繞著不斷擴展且變動的AI系統評估基準的爭議。」

相關文章
「Dot AI 伴侶應用程式宣布關閉,停止個人化服務」 「Dot AI 伴侶應用程式宣布關閉,停止個人化服務」 根據 Dot 開發商於週五發佈的公告,Dot 將停止營運。Dot 背後的新創公司 New Computer 在其網站上表示,這項服務將持續提供至 10 月 5 日,讓使用者有時間匯出個人資料。此應用程式於今年初由共同創辦人 Sam Whitmore 與前 Apple 設計專家 Jason Yuan 合作推出。Dot 進入日益受到關注的情感 AI 伴侶領域,將自己定位為可適應的數位朋友,可根據使用者
Anthropic 解決 AI 產生盜版書籍的法律案件 Anthropic 解決 AI 產生盜版書籍的法律案件 Anthropic 已與美國作家就一宗重大版權糾紛達成和解,同意擬議的集體訴訟和解方案,以避免可能耗費巨資的審判。該協議於本週二在法庭文件中提交,源於該人工智能公司使用盜版文學作品訓練其 Claude 模型的指控。雖然此案源於作家 Andrea Bartz、Charles Graeber 和 Kirk Wallace Johnson 的訴訟,但和解細節仍然保密。他們於 2023 年提出訴訟,指控
Figma 向所有用戶發佈 AI 驅動的應用程式生成工具 Figma 向所有用戶發佈 AI 驅動的應用程式生成工具 Figma Make 是今年初推出的創新提示應用程式開發平台,目前已正式退出測試版,並向所有使用者推出。這個突破性的工具加入了 Google 的 Gemini Code Assist 和 Microsoft 的 GitHub Copilot 等人工智能編碼助手的行列,讓創作者無需傳統的編程專業知識,即可將自然語言描述轉換為功能原型和應用程式。Figma Make 在測試階段原本只有高級「Full
評論 (45)
0/200
PatrickMartinez
PatrickMartinez 2025-04-22 14:29:16

A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔

RalphMitchell
RalphMitchell 2025-04-22 06:56:36

サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔

GregoryJones
GregoryJones 2025-04-21 15:45:40

サム・アルトマンがAIの「IQ」について語ったのは興味深いけど、私には少し曖昧すぎる感じがする。「ビジョンやスピリチュアルな答え」?本当に?もっと具体的なデータが必要だよ!それでも、AIがどれだけ早く成長しているかを見るのはクールだね。🤔

JonathanKing
JonathanKing 2025-04-17 01:41:37

La perspectiva de Sam Altman sobre el 'IQ' de la IA es interesante, pero me parece un poco demasiado vaga. ¿'Vibe o respuesta espiritual'? Vamos, necesitamos datos más concretos. Aún así, es genial ver lo rápido que está creciendo la IA. 🤔

ArthurThomas
ArthurThomas 2025-04-15 14:03:27

Sam Altman's take on AI's 'IQ' growth is pretty wild! Every year a standard deviation? That's like AI is leveling up faster than my favorite RPG character! But honestly, using IQ to measure AI feels off. It's like judging a fish by its ability to climb a tree. Still, it's a cool vibe to think about! 🤔🚀

TimothyHernández
TimothyHernández 2025-04-15 10:02:54

Sam Altman's take on AI's 'IQ' is interesting, but it feels a bit too vague for me. 'Vibe or spiritual answer'? Come on, we need more concrete data! Still, it's cool to see how fast AI is growing. 🤔

回到頂部
OR