模型簡介
OpenAI o3-mini 已針對STEM推理進行優化。o3-mini 以中等推理努力程度在數學、程式設計和科學方面達到 o1 的效能,同時提供更快的回應速度。
向左向右滑動以查看更多
語言理解能力
通常會做出語義錯誤的判斷,從而導致響應中明顯的邏輯斷開連接。
6.6
知識覆蓋範圍
擁有主流學科的核心知識,但對尖端跨學科領域的覆蓋範圍有限。
8.7
推理能力
可以通過三個以上的步驟執行邏輯推理,儘管在處理非線性關係時效率下降。
7.9
模型比較
o3-mini-2025-01-31 vs Qwen2.5-7B-Instruct
與Qwen2一樣,Qwen2.5語言模型支援高達128K個tokens,並且可以生成高達8K個tokens。它們還持續支援超過29種語言,包括中文、英文、法文、西班牙文、葡萄牙文、德文、義大利文、俄文、日文、韓文、越南文、泰文、阿拉伯文等。
o3-mini-2025-01-31 vs Spark-X1
科大訊飛發佈的推理模型Spark X1,在國內數學任務領先的基礎上,針對推理、文本生成和語言理解等通用任務的表現,對標OpenAI的o1和DeepSeek的R1。
相關模型
o3-2025-04-16 (high)
O3 是 OpenAI 最新發布的推理模型,其基準指標顯著超越先前模型。
o4-mini-2025-04-16 (high)
o4-mini 處於高階模式,具備更長的反應時間與更強的推理能力。
gpt-oss-120b (high)
GPT-OSS系列,是OpenAI近年來首度發布的開源模型家族。
GPT-5.2-2025-12-11 (high)
由OpenAI正式推出的最新、備受期待且強大的次世代大型語言模型(LLM)——GPT-5,其版本為gpt-5.2。
gpt-oss-120b (high)
GPT-OSS 系列,是 OpenAI 近年來發表的第一個開放原始碼機型系列。
相關文件
Claude 被用於製作惡意 npm 套件:逾 670 個套件遭入侵,威脅開源社群
一則近期發生的網路安全事件揭露了大型語言模型(LLMs)如何被用作開發惡意軟體的工具。資安研究員 Sibi Moosa 發現一名化名為「mousie-5212-super-formatter」的攻擊者,利用 Anthropic 的 Claude AI 生成有害程式碼,並污染 npm 套件生態系統。 在短時間內,超過 670 個惡意套件被上傳至 npm 套件庫,此類攻擊的速度與自動化程度引發了高度警
隨著印度加速推動科技發展,信實集團公布了1,100億美元的人工智慧投資計畫
印度信實集團(Reliance)的億萬富豪主席穆克什·安巴尼(Mukesh Ambani)於週四宣布,將斥資10兆盧比(約合1,100億美元),在未來七年間於印度各地建設人工智慧運算基礎設施。安巴尼週四在新德里舉行的「印度人工智慧影響力峰會」上表示,這筆投資將用於支持吉瓦級數據中心、全國性的邊緣運算網路,以及與信實集團旗下Jio電信平台整合的新人工智慧服務。安巴尼指出,信實集團已開始在古吉拉特邦的
智源WITA以首份合規申報書為「裸體」機器人互動畫下句點
具身智能領域已達成一項重要里程碑。根據上海市網絡信息辦公室的最新公告,智源研究所研發的WITA大模型已成功完成備案,成為國內首個符合規範部署的具身智能交互大模型。這項成就不僅僅是取得許可證。WITA 的核心宗旨在於讓類人型機器人能夠真正進行對話、感知情緒,並發展出鮮明的個性。它專為機器人互動場景設計,透過自然且富有情感表達的溝通方式,將冰冷的機械軀體轉化為具備連續記憶與個人特質的「矽基夥伴」。 作
一項人類學研究指出,經過潤飾的人工智慧產出內容會削弱人類的思考能力
當你看到人工智慧瞬間產出一段結構完善、邏輯清晰的程式碼或文件時,是否會不假思索地選擇相信它?根據AIbase 的報導,領先的人工智慧公司Anthropic最近發布了一份名為《AI 流暢度指數》的研究報告。 在分析了近 10,000 份匿名Claude對話樣本後,這項研究揭露了一個令人擔憂的趨勢:AI 產出的內容看起來越是精緻,使用者就越不願意去查證事實。報告揭示,當Claude產出小型應用程式、網
英國各政府部門就人工智慧資料中心的能源需求產生分歧
英國政府正面臨一項重大挑戰:在推動清潔能源的同時,力求成為人工智慧領域的全球領導者。然而,負責這些目標的各部會之間卻顯現出嚴重的分歧。 科學、創新與技術部(DSIT)與能源安全及淨零部(DESNZ)對於人工智慧資料中心的未來電力需求,持著截然不同的預測。DSIT預測,到2030年,人工智慧資料中心將需要6吉瓦的電力;而DESNZ的估計則不到該數字的十分之一。 這項差距引起了非營利組織「Foxglo





首頁
