671B
模型參數數量
DeepSeek
附屬組織
開源
許可證類型
2024-12-26
發佈時間
模型簡介
DeepSeek-V3 的評估分數高於其他開源模型,例如 Qwen2.5-72B 和 Llama-3.1-405B,其表現與世界上頂尖的閉源模型如 GPT-4o 和 Claude-3.5-Sonnet 不相上下。
向左向右滑動以查看更多
語言理解能力
通常會做出語義錯誤的判斷,從而導致響應中明顯的邏輯斷開連接。
6.8
知識覆蓋範圍
擁有主流學科的核心知識,但對尖端跨學科領域的覆蓋範圍有限。
8.8
推理能力
無法維持連貫的推理鏈,通常會導致因果關係或錯誤估計。
6.7
模型比較
相關模型
DeepSeek-V3.2
Deepseek V3系列模型的最新版本。
DeepSeek-V3.2-Exp
Deepseek V3 系列機型的最新實驗版本。
DeepSeek-R1-0528
最新版本的 Deepseek R1。
DeepSeek-V3-0324
DeepSeek-V3 在多項評估中超越 Qwen2.5-72B 與 Llama-3.1-405B 等開源模型,性能媲美 GPT-4 與 Claude-3.5-Sonnet 等頂尖閉源模型。
DeepSeek-R1-0528
Deepseek R1 的最新版本。
相關文件
DeepSeek-V3揭曉:硬體感知AI設計如何降低成本並提升效能
DeepSeek-V3:AI發展的成本效益飛躍AI產業正處於十字路口。雖然大型語言模型(LLMs)日益強大,其運算需求卻急劇上升,使尖端AI開發對大多數組織而言成本過高。DeepSeek-V3透過證明智慧硬體-軟體協同設計—而非僅靠暴力擴展—能在成本僅為一小部分的情況下實現頂尖效能,挑戰此趨勢。僅在2,048 NVIDIA H800 GPUs上訓練,DeepSeek-V3利用多頭潛在注意力(MLA
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
OpenAI 悄悄修改章程,使解僱阿爾特曼變得更困難
繼 2023 年的「政變式」事件後,OpenAI 透過更新公司章程,進一步鞏固了對執行長山姆·奧特曼(Sam Altman)的保障。近期公布的法院文件顯示,奧特曼的職位如今已穩如磐石,面對外部干預或內部董事會試圖罷免他的行動,其職位設有大幅提高的防線。在伊隆·馬斯克(Elon Musk)對 OpenAI 提起的訴訟中,一名專家證人指出,這些變更是在公司轉型為營利模式的過程中悄然進行的。與先前僅需簡





首頁
