選項
首頁
新聞
“智商:AI評估的有缺陷的措施”

“智商:AI評估的有缺陷的措施”

2025-04-08
176

“智商:AI評估的有缺陷的措施”

在最近的一次新聞活動中,OpenAI的首席執行官Sam Altman分享了他對AI「智商」快速進步的看法。他提到:「非常粗略地說,我感覺——這不是科學上精確的,這只是一種直覺或精神上的回答——每年我們在智商上進步一個標準差。」Altman並不是唯一使用智商作為AI進步衡量標準的人;社群媒體影響者也常將AI模型進行智商測試並分享結果。

然而,許多專家認為,用智商來評估AI的能力不僅不夠充分,還具有誤導性。牛津大學專注於科技與監管的學者Sandra Wachter對TechCrunch表示:「使用我們評估人類的相同標準來描述能力或進展非常誘人,但這就像拿蘋果與橘子比較。」

在新聞發布會上,Altman似乎將智商等同於智能。然而,智商測試更多是關於特定類型智能的相對測量,而非絕對測量。它們通常被視為邏輯和抽象推理的良好指標,但在實踐智能——幫助解決實際問題的能力——方面則顯不足。此外,它們僅能提供某人能力的瞬間快照。

Wachter指出:「智商是用來測量人類能力的工具——本身就充滿爭議——基於科學家認為人類智能的樣貌。但你不能用相同的標準來描述AI的能力。汽車比人類跑得快,潛艇在潛水方面更出色。但這不意味著汽車或潛艇超越了人類智能。你將某個方面的表現等同於人類智能,而人類智能遠比這複雜得多。」

智商測試的起源與優生學有關,這是一種已被否定的通過選擇性育種改善人類的理論。要在這些測試中表現出色,你需要良好的工作記憶和對西方文化規範的熟悉,這可能引入偏見。華盛頓大學研究倫理AI的博士候選人Os Keyes認為,如果AI模型在智商測試中表現良好,這更多反映了測試的缺陷,而非模型的能力。Keyes說:「如果你的記憶力和耐心幾乎無限,這些測試很容易被操縱。智商測試是測量認知、意識和智能的極其有限方式,這一點在數位電腦發明之前我們就已知。」

AI在智商測試中可能具有不公平的優勢,因為模型擁有龐大的記憶和知識庫。它們常在公開的網頁數據上進行訓練,其中包含大量智商測試題目。倫敦國王學院專攻AI的研究員Mike Cook指出:「測試往往重複非常相似的模式——提高智商的幾乎萬無一失的方法就是練習智商測試,這正是每個模型實際上所做的。當我學習某事物時,我不會像AI這樣,以完美清晰的方式將其輸入我的大腦100萬次,也無法在無雜訊或信號損失的情況下處理它。」

Cook還指出,智商測試帶有固有的偏見,是為人類設計以評估一般問題解決能力的。它們不適合AI,因為AI以不同方式處理問題。他說:「烏鴉可能會使用工具從盒子中取出食物,但這不意味著它能進入哈佛讀書。當我解決數學問題時,我的大腦還要應對是否正確閱讀頁面上的文字、不去想回家路上要買的東西,或者房間裡現在是否太冷。換句話說,人類大腦在解決問題時——無論是智商測試還是其他問題——需要應對更多的事情,而且比AI得到的幫助少得多。」

AI Now研究所的首席AI科學家Heidy Khlaaf對TechCrunch表示,我們需要更好的方式來測試AI。她說:「在計算歷史中,我們從未將計算能力直接與人類能力相比,因為計算的本質意味著系統早已能完成超出人類能力的任務。直接將系統表現與人類能力比較是一個新近現象,且備受爭議,圍繞著不斷擴展且變動的AI系統評估基準的爭議。」

相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能 WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能 廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖 Kakao Mobility 概述了針對實體人工智慧的第 4 級自動駕駛路線圖 Kakao Mobility 計畫內部開發第 4 級自動駕駛技術,作為其實體人工智慧策略的一環。在首爾COEX舉行的2026年世界資訊科技展(World IT Show)會議上,Kakao Mobility副總裁兼實體AI部門負責人金鎮奎(Kim Jin-kyu)發表了該發展藍圖。他的演講聚焦於實體AI時代以移動平台為核心的自動駕駛服務。據韓聯社報導,這場名為「超越構想,付諸行動:AI 推動現
巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要 巴里·迪勒:隨著通用人工智慧(AGI)日益臨近,對山姆·奧特曼的信任已無關緊要 儘管近期有報導指出相反的看法,但億萬富翁媒體大亨巴里·迪勒並不認為 OpenAI 執行長山姆·奧特曼不可信。迪勒本週在《華爾街日報》的「萬物未來」會議上發言時,為奧特曼辯護;奧特曼此前曾遭到部分前同事和董事會成員指控,指稱他偶爾會採取操縱和欺騙手段。身為奧特曼好友的迪勒,當時正回應一個關於人們是否應信任奧特曼、以確保人工智慧造福人類的問題。具體而言,提問者探討了被稱為「通用人工智慧」(AGI)的理
相關專題推薦
商業 頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格
頂尖 AI 定價優化軟體:追蹤競爭對手並自動調整商店價格

立即在 XIX.AI 探索 2026 年最佳 AI 定價優化軟體。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,這些工具不僅能追蹤競爭對手,還能自動調整您的商店價格,以實現利潤最大化。透過實際測試,比較免費與付費方案的差異。立即掌握您的定價優勢。

10 個工具
xix.ai
代碼 最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案
最佳 AI 程式碼審查工具:自動化確保程式碼整潔度,並重構舊版儲存庫檔案

立即在 XIX.AI 探索 2026 年最佳 AI 程式碼審查工具。我們精心挑選的清單收錄了備受好評、能徹底改變遊戲規則的工具,可自動確保程式碼符合規範,並重構舊版儲存庫檔案。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即掌握您的 AI 競爭優勢。

10 個工具
xix.ai
文字轉語音 專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率
專為閱讀障礙設計的頂尖 AI 語音合成應用程式:協助學生提升學習與閱讀效率

探索 2026 年最新精選、專為閱讀障礙者設計的頂級 AI 語音合成(TTS)應用程式。我們的專家評比將免費與付費工具進行對照,重點介紹能提升閱讀效率與學習成效的強大功能。發掘這些必試且能帶來革命性改變的解決方案,釋放學生的潛能。立即前往 XIX.AI 展開您的探索之旅。

10 個工具
xix.ai
漫畫創作 少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效
少年漫畫頂尖 AI 生成器:打造高張力動作場面與能量特效

立即前往 XIX.AI,探索 2026 年最優秀的少年漫畫 AI 生成工具。我們精心挑選的頂級清單,匯集了能打造高張力動作場面與動態能量特效的強大工具。透過實際測試,比較免費與付費選項的差異。釋放您的創作潛能,今天就開始打造史詩級漫畫吧!

15 個工具
xix.ai
商業 最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支
最佳 AI 支出追蹤工具:掃描收據並自動分類公司開支

2026 年最新最佳 AI 報銷管理工具:備受好評的解決方案,可自動掃描收據並分類企業支出。探索強大且顛覆傳統的解決方案,助您輕鬆管理報銷、精準追蹤財務,並簡化合規流程。我們精心整理並每週更新的免費與付費方案比較指南,將協助您找到最合適的選擇。透過 XIX.AI 的專家精選,釋放您的 AI 優勢。

10 個工具
xix.ai
商業 最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試
最佳 AI 招聘工具:篩選履歷與自動化安排候選人面試

在 XIX.AI 探索 2026 年最新且評價最高的 AI 招聘工具。我們精心挑選的清單收錄了強大且具顛覆性的解決方案,可協助篩選履歷並自動化安排候選人面試。透過實際測試與每週更新的排行榜,比較免費與付費選項。立即找到最適合您的招聘助手,並優化您的招聘流程!

10 個工具
xix.ai
評論 (48)
0/500
AnthonyGonzalez
AnthonyGonzalez 2026-01-31 08:00:15

interesting perspective! always thought of AI as a super-fast learner, not something we could measure with something like IQ. sam’s analogy does make it relatable, but i agree—AI probably needs its own new rating system entirely. 🤔

BillyYoung
BillyYoung 2025-11-15 18:30:35

Это точно! IQ — устаревший инструмент для оценки ИИ 🤖 Интеллект многогранен — творчество, эмоции, адаптация куда важнее сухих цифр. Интересно, какие метрики придут на смену?

CharlesWhite
CharlesWhite 2025-11-05 04:30:35

¿IQ para medir IA? 😅 Qué idea más anticuada. Sam Altman tiene razón en que es una métrica limitada. Los humanos tenemos inteligencias múltiples, ¿por qué reducirlo todo a un número? Me pregunto si no deberíamos desarrollar nuevas formas de evaluar capacidades como creatividad o empatía en sistemas de IA. ¡Eso sí sería revolucionario!

PatrickMartinez
PatrickMartinez 2025-04-22 14:29:16

A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔

RalphMitchell
RalphMitchell 2025-04-22 06:56:36

サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか?それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね?🤔

GregoryJones
GregoryJones 2025-04-21 15:45:40

サム・アルトマンがAIの「IQ」について語ったのは興味深いけど、私には少し曖昧すぎる感じがする。「ビジョンやスピリチュアルな答え」?本当に?もっと具体的なデータが必要だよ!それでも、AIがどれだけ早く成長しているかを見るのはクールだね。🤔

OR