“智商：AI評估的有缺陷的措施”

首頁

新聞

“智商：AI評估的有缺陷的措施”

2025-04-08

EdwardYoung

107

# ai # iq tests

“智商：AI評估的有缺陷的措施”

在最近的一次新聞活動中，OpenAI的首席執行官Sam Altman分享了他對AI「智商」快速進步的看法。他提到：「非常粗略地說，我感覺——這不是科學上精確的，這只是一種直覺或精神上的回答——每年我們在智商上進步一個標準差。」Altman並不是唯一使用智商作為AI進步衡量標準的人；社群媒體影響者也常將AI模型進行智商測試並分享結果。

然而，許多專家認為，用智商來評估AI的能力不僅不夠充分，還具有誤導性。牛津大學專注於科技與監管的學者Sandra Wachter對TechCrunch表示：「使用我們評估人類的相同標準來描述能力或進展非常誘人，但這就像拿蘋果與橘子比較。」

在新聞發布會上，Altman似乎將智商等同於智能。然而，智商測試更多是關於特定類型智能的相對測量，而非絕對測量。它們通常被視為邏輯和抽象推理的良好指標，但在實踐智能——幫助解決實際問題的能力——方面則顯不足。此外，它們僅能提供某人能力的瞬間快照。

Wachter指出：「智商是用來測量人類能力的工具——本身就充滿爭議——基於科學家認為人類智能的樣貌。但你不能用相同的標準來描述AI的能力。汽車比人類跑得快，潛艇在潛水方面更出色。但這不意味著汽車或潛艇超越了人類智能。你將某個方面的表現等同於人類智能，而人類智能遠比這複雜得多。」

智商測試的起源與優生學有關，這是一種已被否定的通過選擇性育種改善人類的理論。要在這些測試中表現出色，你需要良好的工作記憶和對西方文化規範的熟悉，這可能引入偏見。華盛頓大學研究倫理AI的博士候選人Os Keyes認為，如果AI模型在智商測試中表現良好，這更多反映了測試的缺陷，而非模型的能力。Keyes說：「如果你的記憶力和耐心幾乎無限，這些測試很容易被操縱。智商測試是測量認知、意識和智能的極其有限方式，這一點在數位電腦發明之前我們就已知。」

AI在智商測試中可能具有不公平的優勢，因為模型擁有龐大的記憶和知識庫。它們常在公開的網頁數據上進行訓練，其中包含大量智商測試題目。倫敦國王學院專攻AI的研究員Mike Cook指出：「測試往往重複非常相似的模式——提高智商的幾乎萬無一失的方法就是練習智商測試，這正是每個模型實際上所做的。當我學習某事物時，我不會像AI這樣，以完美清晰的方式將其輸入我的大腦100萬次，也無法在無雜訊或信號損失的情況下處理它。」

Cook還指出，智商測試帶有固有的偏見，是為人類設計以評估一般問題解決能力的。它們不適合AI，因為AI以不同方式處理問題。他說：「烏鴉可能會使用工具從盒子中取出食物，但這不意味著它能進入哈佛讀書。當我解決數學問題時，我的大腦還要應對是否正確閱讀頁面上的文字、不去想回家路上要買的東西，或者房間裡現在是否太冷。換句話說，人類大腦在解決問題時——無論是智商測試還是其他問題——需要應對更多的事情，而且比AI得到的幫助少得多。」

AI Now研究所的首席AI科學家Heidy Khlaaf對TechCrunch表示，我們需要更好的方式來測試AI。她說：「在計算歷史中，我們從未將計算能力直接與人類能力相比，因為計算的本質意味著系統早已能完成超出人類能力的任務。直接將系統表現與人類能力比較是一個新近現象，且備受爭議，圍繞著不斷擴展且變動的AI系統評估基準的爭議。」

「Dot AI 伴侶應用程式宣布關閉，停止個人化服務」根據 Dot 開發商於週五發佈的公告，Dot 將停止營運。Dot 背後的新創公司 New Computer 在其網站上表示，這項服務將持續提供至 10 月 5 日，讓使用者有時間匯出個人資料。此應用程式於今年初由共同創辦人 Sam Whitmore 與前 Apple 設計專家 Jason Yuan 合作推出。Dot 進入日益受到關注的情感 AI 伴侶領域，將自己定位為可適應的數位朋友，可根據使用者

Anthropic 解決 AI 產生盜版書籍的法律案件 Anthropic 已與美國作家就一宗重大版權糾紛達成和解，同意擬議的集體訴訟和解方案，以避免可能耗費巨資的審判。該協議於本週二在法庭文件中提交，源於該人工智能公司使用盜版文學作品訓練其 Claude 模型的指控。雖然此案源於作家 Andrea Bartz、Charles Graeber 和 Kirk Wallace Johnson 的訴訟，但和解細節仍然保密。他們於 2023 年提出訴訟，指控

Figma 向所有用戶發佈 AI 驅動的應用程式生成工具 Figma Make 是今年初推出的創新提示應用程式開發平台，目前已正式退出測試版，並向所有使用者推出。這個突破性的工具加入了 Google 的 Gemini Code Assist 和 Microsoft 的 GitHub Copilot 等人工智能編碼助手的行列，讓創作者無需傳統的編程專業知識，即可將自然語言描述轉換為功能原型和應用程式。Figma Make 在測試階段原本只有高級「Full

評論 (45)

0/200

提交

PatrickMartinez

2025-04-22 14:29:16

A visão de Sam Altman sobre o crescimento do IQ da IA é intrigante, mas me parece um pouco vaga. É legal pensar que a IA está ficando mais inteligente a cada ano, mas como medimos isso? Ainda assim, é um conceito divertido para refletir tomando um café. ☕ Talvez eles devessem desenvolver uma métrica mais concreta? 🤔

RalphMitchell

2025-04-22 06:56:36

サム・アルトマンのAIのIQ成長に関する見解は興味深いですが、私には少し曖昧に感じます。AIが毎年賢くなると思うのはクールですが、それをどう測るのでしょうか？それでも、コーヒーを飲みながら考える楽しいコンセプトですね。☕もっと具体的な指標を開発すべきかもしれませんね？🤔

GregoryJones

2025-04-21 15:45:40

サム・アルトマンがAIの「IQ」について語ったのは興味深いけど、私には少し曖昧すぎる感じがする。「ビジョンやスピリチュアルな答え」？本当に？もっと具体的なデータが必要だよ！それでも、AIがどれだけ早く成長しているかを見るのはクールだね。🤔

JonathanKing

2025-04-17 01:41:37

La perspectiva de Sam Altman sobre el 'IQ' de la IA es interesante, pero me parece un poco demasiado vaga. ¿'Vibe o respuesta espiritual'? Vamos, necesitamos datos más concretos. Aún así, es genial ver lo rápido que está creciendo la IA. 🤔

ArthurThomas

2025-04-15 14:03:27

Sam Altman's take on AI's 'IQ' growth is pretty wild! Every year a standard deviation? That's like AI is leveling up faster than my favorite RPG character! But honestly, using IQ to measure AI feels off. It's like judging a fish by its ability to climb a tree. Still, it's a cool vibe to think about! 🤔🚀

TimothyHernández

2025-04-15 10:02:54

Sam Altman's take on AI's 'IQ' is interesting, but it feels a bit too vague for me. 'Vibe or spiritual answer'? Come on, we need more concrete data! Still, it's cool to see how fast AI is growing. 🤔

頭號新聞

2025頂級AI影片生成器：Pika Labs與其他對比 Gemini 2.5 Pro現在比Claude，GPT-4O更便宜，更便宜 AI配音：真實聲音創作終極指南 Cambium的AI將垃圾木頭變成木材 AI Builder和Power Automate革新文件摘要 Openai增強了AI語音助手以進行更好的聊天如何確保您的數據值得信賴AI集成 NotebookLM在全球範圍內擴展，添加幻燈片並增強了事實檢查對美國數據中心的調整可以解鎖76 GW的新電源容量 Google利用AI暫停了超過3900萬的廣告帳戶，以涉嫌欺詐

精選