DeepSeek的R1和V3編碼技巧測試了:我們尚未註定
介紹 DeepSeek:AI 領域的新玩家
DeepSeek 於週末突然登場,憑藉三個引人注目的原因吸引全球關注:
- 它是一款來自中國的 AI 聊天機器人,與常見的美國產品截然不同。
- 它是開源的,這在科技社群中意義重大。
- 它所需的基礎設施遠少於其他重量級競爭對手,使其成為一個引人入勝的選擇。
雖然美國政府對 TikTok 及其可能涉及中國政府的程式碼審查引起關注,但 DeepSeek 從中國的出現自然也引來類似目光。然而,我們在此不談政治。讓我們深入探討 DeepSeek V3 和 DeepSeek R1 在編碼任務中與其他 AI 模型的比較。
根據 DeepSeek 自身的指引:
- 選擇 V3 處理需要深度和精確度的任務,例如解決複雜數學問題或生成複雜程式碼。
- 選擇 R1 當需要快速、高量應用時,例如客戶支援自動化或基本文字處理。
您可以在聊天介面中使用一個小按鈕在 R1 和 V3 之間切換。如果按鈕顯示藍色,您正在使用 R1。

David Gewirtz/ZDNET 截圖 那麼,它們的表現如何?兩個模型都展現潛力,但並非完美無瑕。讓我們來看看結果。
測試 1:製作 WordPress 外掛
我的第一個測試靈感來自我妻子為她的線上團體需要一個管理參與設備的 WordPress 外掛。這是一個經典案例,外掛需接受一份名單、排序,並確保重複項目不相鄰。我已將此挑戰丟給許多 AI,這是一個棘手的任務。

David Gewirtz/ZDNET 截圖 DeepSeek V3 完美達成,創建了符合需求的用戶介面和程式邏輯。R1 採取不同方式,先提供了長達 4502 字的分析才分享程式碼。其用戶介面較廣泛,但介面和邏輯都有效,因此 R1 也通過了。

David Gewirtz/ZDNET 截圖 
David Gewirtz/ZDNET 截圖 目前,V3 和 R1 在四個測試中各通過一個。
測試 2:重寫字串函數
一名用戶在捐款欄位輸入美元和美分時遇到問題,我的原始程式碼不允許這樣。任務是修改程式以接受兩者。DeepSeek 確實生成功能性程式碼,但仍有改進空間。
V3 的程式碼過於冗長且重複,而 R1 在生成程式碼前的推理也過於冗長。兩者都驗證了最多兩位小數,但對極大數字的處理不佳。R1 使用 JavaScript 的 Number 轉換未檢查邊緣情況,可能導致崩潰。
有趣的是,R1 提供了一份不錯的測試案例清單:

David Gewirtz/ZDNET 截圖 我將這一分給 V3,因為其程式碼不會崩潰且能產生預期結果。R1 因非字串輸入可能導致崩潰而失敗。V3 在四個測試中贏得兩分,R1 得一分。
測試 3:追蹤惱人錯誤
此測試源於我難以找到的一個錯誤。挑戰在於錯誤訊息的明顯答案是錯的,這常會誤導 AI。解決它需要理解 WordPress API 呼叫、看透錯誤訊息並精確定位錯誤。
V3 和 R1 幾乎給出相同答案,雙雙通過此測試,V3 在四個測試中贏得三分,R1 得兩分。DeepSeek 已超越 Gemini、Copilot、Claude 和 Meta。
測試 4:製作腳本
此測試很難,因為涉及三個環境:AppleScript、Chrome 物件模型和 Keyboard Maestro。ChatGPT 完美通過,但 DeepSeek V3 和 R1 表現不佳。兩者都未理解將任務分配給 Keyboard Maestro 和 Chrome 的需求,且 AppleScript 知識薄弱。
R1 做出錯誤假設,例如假設總是存在前台視窗且前台程式總是 Chrome。這使 V3 在四個測試中得三分、一失敗,R1 得兩分、兩失敗。
最終想法
DeepSeek 堅持使用如 Gmail 的公共雲端電子郵件而非我的企業域名令人沮喪。測試過程中的響應問題也使測試時間超出預期。
我最初因以下錯誤無法註冊:
DeepSeek 的線上服務近期遭受大規模惡意攻擊。為確保服務持續,註冊暫時僅限 +86 電話號碼。現有用戶可正常登入。感謝您的理解與支持。
進入後,我得以執行測試。DeepSeek 的程式碼傾向於冗長。測試 4 的 AppleScript 既不正確又過長。測試 2 的正規表達式本可更易維護,但 V3 正確完成。
V3 擊敗 Gemini、Copilot 和 Meta 令人印象深刻,但仍處於舊 GPT-3.5 水平,顯示有成長空間。R1 的表現令人失望。若需程式設計幫助,我會選擇 ChatGPT。
儘管如此,對於一個使用較少基礎設施的新工具,DeepSeek 絕對值得關注。
您有何看法?您試過 DeepSeek 嗎?您使用 AI 進行程式設計支援嗎?請在下方評論中告訴我們。
在社交媒體上關注我的每日項目更新,訂閱我的每週新聞簡訊,並在 Twitter/X (@DavidGewirtz)、Facebook (Facebook.com/DavidGewirtz)、Instagram (Instagram.com/DavidGewirtz)、Bluesky (@DavidGewirtz.com) 及 YouTube (YouTube.com/DavidGewirtzTV) 與我聯繫。
相關文章
耀科傳媒首部AIGC劇集《秦嶺青銅之謎》今日上線,主演均由AI選角
今日,耀科傳媒的AIGC奇幻懸疑短劇《秦嶺青銅秘事》正式上線。本劇由該公司首批簽約的兩位AI演員秦凌月與林西妍主演,故事背景設定在神秘莫測的秦嶺礦區。 劇情追隨退休情報官秦月帶領團隊深入該區域,揭開一樁塵封已久的礦難,以及跨越兩代人的血祭真相——這份真相就隱藏在受限的地下區域,正是科學探索與古代巫術交匯之處。作為中國最早完全由AI數位人支持的電影之一,該劇在籌備階段便引發了業界熱烈討論,而關於其A
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
相關專題推薦
評論 (14)
0/500
Als Entwickler finde ich es super, dass jetzt auch China mit DeepSeek in den Open-Source-AI-Markt einsteigt. Die Coding-Tests klingen vielversprechend – vielleicht wird die Konkurrenz zwischen den Modellen ja endlich mal die Preise drücken. Hoffentlich bleibt das Projekt langfristig unabhängig und wird nicht von irgendwelchen Firmen vereinnahmt. 🤔
DeepSeek's open-source approach is a game-changer! I'm stoked to see a Chinese AI shaking things up. The coding skills are solid, but I wonder how it’ll stack against giants like GPT in the long run. Exciting times! 🚀
DeepSeek's open-source approach is super cool! It's wild to see a Chinese AI shaking up the game like this. I wonder how it'll stack up against ChatGPT in real-world coding tasks. Excited to try it out! 😄
DeepSeek's R1 and V3 are pretty cool, but let's be real, they're not perfect. The coding skills are decent, but sometimes it feels like they're just guessing. Still, it's refreshing to see a new player from China in the AI space! Keep improving, DeepSeek! 👏
介紹 DeepSeek:AI 領域的新玩家
DeepSeek 於週末突然登場,憑藉三個引人注目的原因吸引全球關注:
- 它是一款來自中國的 AI 聊天機器人,與常見的美國產品截然不同。
- 它是開源的,這在科技社群中意義重大。
- 它所需的基礎設施遠少於其他重量級競爭對手,使其成為一個引人入勝的選擇。
雖然美國政府對 TikTok 及其可能涉及中國政府的程式碼審查引起關注,但 DeepSeek 從中國的出現自然也引來類似目光。然而,我們在此不談政治。讓我們深入探討 DeepSeek V3 和 DeepSeek R1 在編碼任務中與其他 AI 模型的比較。
根據 DeepSeek 自身的指引:
- 選擇 V3 處理需要深度和精確度的任務,例如解決複雜數學問題或生成複雜程式碼。
- 選擇 R1 當需要快速、高量應用時,例如客戶支援自動化或基本文字處理。
您可以在聊天介面中使用一個小按鈕在 R1 和 V3 之間切換。如果按鈕顯示藍色,您正在使用 R1。
那麼,它們的表現如何?兩個模型都展現潛力,但並非完美無瑕。讓我們來看看結果。
測試 1:製作 WordPress 外掛
我的第一個測試靈感來自我妻子為她的線上團體需要一個管理參與設備的 WordPress 外掛。這是一個經典案例,外掛需接受一份名單、排序,並確保重複項目不相鄰。我已將此挑戰丟給許多 AI,這是一個棘手的任務。
DeepSeek V3 完美達成,創建了符合需求的用戶介面和程式邏輯。R1 採取不同方式,先提供了長達 4502 字的分析才分享程式碼。其用戶介面較廣泛,但介面和邏輯都有效,因此 R1 也通過了。
目前,V3 和 R1 在四個測試中各通過一個。
測試 2:重寫字串函數
一名用戶在捐款欄位輸入美元和美分時遇到問題,我的原始程式碼不允許這樣。任務是修改程式以接受兩者。DeepSeek 確實生成功能性程式碼,但仍有改進空間。
V3 的程式碼過於冗長且重複,而 R1 在生成程式碼前的推理也過於冗長。兩者都驗證了最多兩位小數,但對極大數字的處理不佳。R1 使用 JavaScript 的 Number 轉換未檢查邊緣情況,可能導致崩潰。
有趣的是,R1 提供了一份不錯的測試案例清單:
我將這一分給 V3,因為其程式碼不會崩潰且能產生預期結果。R1 因非字串輸入可能導致崩潰而失敗。V3 在四個測試中贏得兩分,R1 得一分。
測試 3:追蹤惱人錯誤
此測試源於我難以找到的一個錯誤。挑戰在於錯誤訊息的明顯答案是錯的,這常會誤導 AI。解決它需要理解 WordPress API 呼叫、看透錯誤訊息並精確定位錯誤。
V3 和 R1 幾乎給出相同答案,雙雙通過此測試,V3 在四個測試中贏得三分,R1 得兩分。DeepSeek 已超越 Gemini、Copilot、Claude 和 Meta。
測試 4:製作腳本
此測試很難,因為涉及三個環境:AppleScript、Chrome 物件模型和 Keyboard Maestro。ChatGPT 完美通過,但 DeepSeek V3 和 R1 表現不佳。兩者都未理解將任務分配給 Keyboard Maestro 和 Chrome 的需求,且 AppleScript 知識薄弱。
R1 做出錯誤假設,例如假設總是存在前台視窗且前台程式總是 Chrome。這使 V3 在四個測試中得三分、一失敗,R1 得兩分、兩失敗。
最終想法
DeepSeek 堅持使用如 Gmail 的公共雲端電子郵件而非我的企業域名令人沮喪。測試過程中的響應問題也使測試時間超出預期。
我最初因以下錯誤無法註冊:
DeepSeek 的線上服務近期遭受大規模惡意攻擊。為確保服務持續,註冊暫時僅限 +86 電話號碼。現有用戶可正常登入。感謝您的理解與支持。
進入後,我得以執行測試。DeepSeek 的程式碼傾向於冗長。測試 4 的 AppleScript 既不正確又過長。測試 2 的正規表達式本可更易維護,但 V3 正確完成。
V3 擊敗 Gemini、Copilot 和 Meta 令人印象深刻,但仍處於舊 GPT-3.5 水平,顯示有成長空間。R1 的表現令人失望。若需程式設計幫助,我會選擇 ChatGPT。
儘管如此,對於一個使用較少基礎設施的新工具,DeepSeek 絕對值得關注。
您有何看法?您試過 DeepSeek 嗎?您使用 AI 進行程式設計支援嗎?請在下方評論中告訴我們。
在社交媒體上關注我的每日項目更新,訂閱我的每週新聞簡訊,並在 Twitter/X (@DavidGewirtz)、Facebook (Facebook.com/DavidGewirtz)、Instagram (Instagram.com/DavidGewirtz)、Bluesky (@DavidGewirtz.com) 及 YouTube (YouTube.com/DavidGewirtzTV) 與我聯繫。
耀科傳媒首部AIGC劇集《秦嶺青銅之謎》今日上線,主演均由AI選角
今日,耀科傳媒的AIGC奇幻懸疑短劇《秦嶺青銅秘事》正式上線。本劇由該公司首批簽約的兩位AI演員秦凌月與林西妍主演,故事背景設定在神秘莫測的秦嶺礦區。 劇情追隨退休情報官秦月帶領團隊深入該區域,揭開一樁塵封已久的礦難,以及跨越兩代人的血祭真相——這份真相就隱藏在受限的地下區域,正是科學探索與古代巫術交匯之處。作為中國最早完全由AI數位人支持的電影之一,該劇在籌備階段便引發了業界熱烈討論,而關於其A
薩提亞·納德拉準備利用與OpenAI的新合作關係
週三,一位華爾街分析師直接詢問了微軟執行長薩蒂亞·納德拉,修訂後的OpenAI合作關係將如何影響公司的財務狀況。 納德拉將這一新協議描述為對各方都有利的結果。“我們對與OpenAI的合作感到滿意。我始終非常重視任何合作關係,並確保它能夠實現雙贏。只有這樣,雙方才能保持良好的合作伙伴關係。” 他強調,微軟仍然可以使用OpenAI的智慧財產權,包括其模型和智慧體產品,但不再需要為此向OpenAI支付費用。 談到在2032年之前可以免費使用OpenAI最先進的人工智慧技術,納德拉表示:“
WordPress.com 現已允許 AI 代理程式撰寫並發布文章,還有更多功能
廣受歡迎的網站託管與發佈平台 WordPress.com 現正積極導入 AI 代理程式——此舉可能重塑網路的樣貌與使用體驗。該公司於週五宣布,將允許 AI 代理程式在客戶網站上起草、編輯及發佈內容,同時也能管理留言、更新與修正元資料,並透過標籤和分類來整理內容。所有這些操作皆透過一個介面進行控制,網站擁有者只需使用自然語言指令說明其需求即可。憑藉這些新功能,網站幾乎可以完全由人工指導的 AI 代理
Als Entwickler finde ich es super, dass jetzt auch China mit DeepSeek in den Open-Source-AI-Markt einsteigt. Die Coding-Tests klingen vielversprechend – vielleicht wird die Konkurrenz zwischen den Modellen ja endlich mal die Preise drücken. Hoffentlich bleibt das Projekt langfristig unabhängig und wird nicht von irgendwelchen Firmen vereinnahmt. 🤔
DeepSeek's open-source approach is a game-changer! I'm stoked to see a Chinese AI shaking things up. The coding skills are solid, but I wonder how it’ll stack against giants like GPT in the long run. Exciting times! 🚀
DeepSeek's open-source approach is super cool! It's wild to see a Chinese AI shaking up the game like this. I wonder how it'll stack up against ChatGPT in real-world coding tasks. Excited to try it out! 😄
DeepSeek's R1 and V3 are pretty cool, but let's be real, they're not perfect. The coding skills are decent, but sometimes it feels like they're just guessing. Still, it's refreshing to see a new player from China in the AI space! Keep improving, DeepSeek! 👏





首頁






