DeepSeek的R1和V3編碼技巧測試了:我們尚未註定
介紹 DeepSeek:AI 領域的新玩家
DeepSeek 於週末突然登場,憑藉三個引人注目的原因吸引全球關注:
- 它是一款來自中國的 AI 聊天機器人,與常見的美國產品截然不同。
- 它是開源的,這在科技社群中意義重大。
- 它所需的基礎設施遠少於其他重量級競爭對手,使其成為一個引人入勝的選擇。
雖然美國政府對 TikTok 及其可能涉及中國政府的程式碼審查引起關注,但 DeepSeek 從中國的出現自然也引來類似目光。然而,我們在此不談政治。讓我們深入探討 DeepSeek V3 和 DeepSeek R1 在編碼任務中與其他 AI 模型的比較。
根據 DeepSeek 自身的指引:
- 選擇 V3 處理需要深度和精確度的任務,例如解決複雜數學問題或生成複雜程式碼。
- 選擇 R1 當需要快速、高量應用時,例如客戶支援自動化或基本文字處理。
您可以在聊天介面中使用一個小按鈕在 R1 和 V3 之間切換。如果按鈕顯示藍色,您正在使用 R1。

David Gewirtz/ZDNET 截圖 那麼,它們的表現如何?兩個模型都展現潛力,但並非完美無瑕。讓我們來看看結果。
測試 1:製作 WordPress 外掛
我的第一個測試靈感來自我妻子為她的線上團體需要一個管理參與設備的 WordPress 外掛。這是一個經典案例,外掛需接受一份名單、排序,並確保重複項目不相鄰。我已將此挑戰丟給許多 AI,這是一個棘手的任務。

David Gewirtz/ZDNET 截圖 DeepSeek V3 完美達成,創建了符合需求的用戶介面和程式邏輯。R1 採取不同方式,先提供了長達 4502 字的分析才分享程式碼。其用戶介面較廣泛,但介面和邏輯都有效,因此 R1 也通過了。

David Gewirtz/ZDNET 截圖 
David Gewirtz/ZDNET 截圖 目前,V3 和 R1 在四個測試中各通過一個。
測試 2:重寫字串函數
一名用戶在捐款欄位輸入美元和美分時遇到問題,我的原始程式碼不允許這樣。任務是修改程式以接受兩者。DeepSeek 確實生成功能性程式碼,但仍有改進空間。
V3 的程式碼過於冗長且重複,而 R1 在生成程式碼前的推理也過於冗長。兩者都驗證了最多兩位小數,但對極大數字的處理不佳。R1 使用 JavaScript 的 Number 轉換未檢查邊緣情況,可能導致崩潰。
有趣的是,R1 提供了一份不錯的測試案例清單:

David Gewirtz/ZDNET 截圖 我將這一分給 V3,因為其程式碼不會崩潰且能產生預期結果。R1 因非字串輸入可能導致崩潰而失敗。V3 在四個測試中贏得兩分,R1 得一分。
測試 3:追蹤惱人錯誤
此測試源於我難以找到的一個錯誤。挑戰在於錯誤訊息的明顯答案是錯的,這常會誤導 AI。解決它需要理解 WordPress API 呼叫、看透錯誤訊息並精確定位錯誤。
V3 和 R1 幾乎給出相同答案,雙雙通過此測試,V3 在四個測試中贏得三分,R1 得兩分。DeepSeek 已超越 Gemini、Copilot、Claude 和 Meta。
測試 4:製作腳本
此測試很難,因為涉及三個環境:AppleScript、Chrome 物件模型和 Keyboard Maestro。ChatGPT 完美通過,但 DeepSeek V3 和 R1 表現不佳。兩者都未理解將任務分配給 Keyboard Maestro 和 Chrome 的需求,且 AppleScript 知識薄弱。
R1 做出錯誤假設,例如假設總是存在前台視窗且前台程式總是 Chrome。這使 V3 在四個測試中得三分、一失敗,R1 得兩分、兩失敗。
最終想法
DeepSeek 堅持使用如 Gmail 的公共雲端電子郵件而非我的企業域名令人沮喪。測試過程中的響應問題也使測試時間超出預期。
我最初因以下錯誤無法註冊:
DeepSeek 的線上服務近期遭受大規模惡意攻擊。為確保服務持續,註冊暫時僅限 +86 電話號碼。現有用戶可正常登入。感謝您的理解與支持。
進入後,我得以執行測試。DeepSeek 的程式碼傾向於冗長。測試 4 的 AppleScript 既不正確又過長。測試 2 的正規表達式本可更易維護,但 V3 正確完成。
V3 擊敗 Gemini、Copilot 和 Meta 令人印象深刻,但仍處於舊 GPT-3.5 水平,顯示有成長空間。R1 的表現令人失望。若需程式設計幫助,我會選擇 ChatGPT。
儘管如此,對於一個使用較少基礎設施的新工具,DeepSeek 絕對值得關注。
您有何看法?您試過 DeepSeek 嗎?您使用 AI 進行程式設計支援嗎?請在下方評論中告訴我們。
在社交媒體上關注我的每日項目更新,訂閱我的每週新聞簡訊,並在 Twitter/X (@DavidGewirtz)、Facebook (Facebook.com/DavidGewirtz)、Instagram (Instagram.com/DavidGewirtz)、Bluesky (@DavidGewirtz.com) 及 YouTube (YouTube.com/DavidGewirtzTV) 與我聯繫。
相關文章
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
相關專題推薦
評論 (14)
0/500
Als Entwickler finde ich es super, dass jetzt auch China mit DeepSeek in den Open-Source-AI-Markt einsteigt. Die Coding-Tests klingen vielversprechend – vielleicht wird die Konkurrenz zwischen den Modellen ja endlich mal die Preise drücken. Hoffentlich bleibt das Projekt langfristig unabhängig und wird nicht von irgendwelchen Firmen vereinnahmt. 🤔
DeepSeek's open-source approach is a game-changer! I'm stoked to see a Chinese AI shaking things up. The coding skills are solid, but I wonder how it’ll stack against giants like GPT in the long run. Exciting times! 🚀
DeepSeek's open-source approach is super cool! It's wild to see a Chinese AI shaking up the game like this. I wonder how it'll stack up against ChatGPT in real-world coding tasks. Excited to try it out! 😄
DeepSeek's R1 and V3 are pretty cool, but let's be real, they're not perfect. The coding skills are decent, but sometimes it feels like they're just guessing. Still, it's refreshing to see a new player from China in the AI space! Keep improving, DeepSeek! 👏
介紹 DeepSeek:AI 領域的新玩家
DeepSeek 於週末突然登場,憑藉三個引人注目的原因吸引全球關注:
- 它是一款來自中國的 AI 聊天機器人,與常見的美國產品截然不同。
- 它是開源的,這在科技社群中意義重大。
- 它所需的基礎設施遠少於其他重量級競爭對手,使其成為一個引人入勝的選擇。
雖然美國政府對 TikTok 及其可能涉及中國政府的程式碼審查引起關注,但 DeepSeek 從中國的出現自然也引來類似目光。然而,我們在此不談政治。讓我們深入探討 DeepSeek V3 和 DeepSeek R1 在編碼任務中與其他 AI 模型的比較。
根據 DeepSeek 自身的指引:
- 選擇 V3 處理需要深度和精確度的任務,例如解決複雜數學問題或生成複雜程式碼。
- 選擇 R1 當需要快速、高量應用時,例如客戶支援自動化或基本文字處理。
您可以在聊天介面中使用一個小按鈕在 R1 和 V3 之間切換。如果按鈕顯示藍色,您正在使用 R1。
那麼,它們的表現如何?兩個模型都展現潛力,但並非完美無瑕。讓我們來看看結果。
測試 1:製作 WordPress 外掛
我的第一個測試靈感來自我妻子為她的線上團體需要一個管理參與設備的 WordPress 外掛。這是一個經典案例,外掛需接受一份名單、排序,並確保重複項目不相鄰。我已將此挑戰丟給許多 AI,這是一個棘手的任務。
DeepSeek V3 完美達成,創建了符合需求的用戶介面和程式邏輯。R1 採取不同方式,先提供了長達 4502 字的分析才分享程式碼。其用戶介面較廣泛,但介面和邏輯都有效,因此 R1 也通過了。
目前,V3 和 R1 在四個測試中各通過一個。
測試 2:重寫字串函數
一名用戶在捐款欄位輸入美元和美分時遇到問題,我的原始程式碼不允許這樣。任務是修改程式以接受兩者。DeepSeek 確實生成功能性程式碼,但仍有改進空間。
V3 的程式碼過於冗長且重複,而 R1 在生成程式碼前的推理也過於冗長。兩者都驗證了最多兩位小數,但對極大數字的處理不佳。R1 使用 JavaScript 的 Number 轉換未檢查邊緣情況,可能導致崩潰。
有趣的是,R1 提供了一份不錯的測試案例清單:
我將這一分給 V3,因為其程式碼不會崩潰且能產生預期結果。R1 因非字串輸入可能導致崩潰而失敗。V3 在四個測試中贏得兩分,R1 得一分。
測試 3:追蹤惱人錯誤
此測試源於我難以找到的一個錯誤。挑戰在於錯誤訊息的明顯答案是錯的,這常會誤導 AI。解決它需要理解 WordPress API 呼叫、看透錯誤訊息並精確定位錯誤。
V3 和 R1 幾乎給出相同答案,雙雙通過此測試,V3 在四個測試中贏得三分,R1 得兩分。DeepSeek 已超越 Gemini、Copilot、Claude 和 Meta。
測試 4:製作腳本
此測試很難,因為涉及三個環境:AppleScript、Chrome 物件模型和 Keyboard Maestro。ChatGPT 完美通過,但 DeepSeek V3 和 R1 表現不佳。兩者都未理解將任務分配給 Keyboard Maestro 和 Chrome 的需求,且 AppleScript 知識薄弱。
R1 做出錯誤假設,例如假設總是存在前台視窗且前台程式總是 Chrome。這使 V3 在四個測試中得三分、一失敗,R1 得兩分、兩失敗。
最終想法
DeepSeek 堅持使用如 Gmail 的公共雲端電子郵件而非我的企業域名令人沮喪。測試過程中的響應問題也使測試時間超出預期。
我最初因以下錯誤無法註冊:
DeepSeek 的線上服務近期遭受大規模惡意攻擊。為確保服務持續,註冊暫時僅限 +86 電話號碼。現有用戶可正常登入。感謝您的理解與支持。
進入後,我得以執行測試。DeepSeek 的程式碼傾向於冗長。測試 4 的 AppleScript 既不正確又過長。測試 2 的正規表達式本可更易維護,但 V3 正確完成。
V3 擊敗 Gemini、Copilot 和 Meta 令人印象深刻,但仍處於舊 GPT-3.5 水平,顯示有成長空間。R1 的表現令人失望。若需程式設計幫助,我會選擇 ChatGPT。
儘管如此,對於一個使用較少基礎設施的新工具,DeepSeek 絕對值得關注。
您有何看法?您試過 DeepSeek 嗎?您使用 AI 進行程式設計支援嗎?請在下方評論中告訴我們。
在社交媒體上關注我的每日項目更新,訂閱我的每週新聞簡訊,並在 Twitter/X (@DavidGewirtz)、Facebook (Facebook.com/DavidGewirtz)、Instagram (Instagram.com/DavidGewirtz)、Bluesky (@DavidGewirtz.com) 及 YouTube (YouTube.com/DavidGewirtzTV) 與我聯繫。
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Anthropic 的實驗性 AI「Claude」在電子商務測試中完成了談判與交易
隨著人工智慧的快速發展,Anthropic 上週五悄悄推出了一項名為「Project Deal」的內部實驗,展現了人工智慧在電子商務領域的潛力。該實驗讓其人工智慧模型 Claude 在封閉的市場環境中自主處理買賣及價格協商,並涉及真實的金融交易。實驗的核心是一個建構於 Slack 平台上的內部市場,Claude 在其中同時擔任買方與賣方的談判代表。它首先訪談了 69 名員工,以收集他們的買賣意圖及
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
Als Entwickler finde ich es super, dass jetzt auch China mit DeepSeek in den Open-Source-AI-Markt einsteigt. Die Coding-Tests klingen vielversprechend – vielleicht wird die Konkurrenz zwischen den Modellen ja endlich mal die Preise drücken. Hoffentlich bleibt das Projekt langfristig unabhängig und wird nicht von irgendwelchen Firmen vereinnahmt. 🤔
DeepSeek's open-source approach is a game-changer! I'm stoked to see a Chinese AI shaking things up. The coding skills are solid, but I wonder how it’ll stack against giants like GPT in the long run. Exciting times! 🚀
DeepSeek's open-source approach is super cool! It's wild to see a Chinese AI shaking up the game like this. I wonder how it'll stack up against ChatGPT in real-world coding tasks. Excited to try it out! 😄
DeepSeek's R1 and V3 are pretty cool, but let's be real, they're not perfect. The coding skills are decent, but sometimes it feels like they're just guessing. Still, it's refreshing to see a new player from China in the AI space! Keep improving, DeepSeek! 👏





首頁






