我將gpt -4O通過編碼測試進行了,它使它們呈現 - 除了一個奇怪的結果

如果你有在關注科技圈,你可能已經知道 OpenAI 剛剛推出了最新的大型語言模型 GPT-4o,其中「o」代表「omni」。這個新模型承諾在文字、圖形和語音方面具有多功能性,我迫不及待地想用我的標準編碼測試來檢驗它的表現。這些測試已經針對眾多 AI 模型進行過,結果相當引人入勝。請跟著我看到最後,因為有個你不想錯過的轉折。
如果你有興趣進行自己的實驗,請參閱此指南:如何測試 AI 聊天機器人的編碼能力 - 你也可以。它詳細列出了我使用的所有測試,並解釋它們的運作方式以及結果中需要注意的事項。
現在,讓我們來看看每個測試的結果,並比較 GPT-4o 與之前的競爭者如 Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced 以及早期版本的 ChatGPT 的表現。
1. 撰寫 WordPress 插件
以下是 GPT-4o 的用戶界面一瞥:
有趣的是,GPT-4o 主動加入了一個 JavaScript 文件,動態更新兩個欄位的行數。雖然提示中未明確排除 JavaScript,但這種創意方法出乎意料且有效。JavaScript 還增強了隨機化按鈕的功能,允許在不重新整理頁面的情況下產生多組結果。
行數排列正確,根據規格適當分隔了重複項。這段程式碼很穩固,只有一個小問題:隨機化按鈕未獨立成行,但因為提示中未明確要求,所以不扣分。
以下是此次及先前測試的總體結果:
- ChatGPT GPT-4o:界面:良好,功能:良好
- Microsoft Copilot:界面:適當,功能:失敗
- Meta AI:界面:適當,功能:失敗
- Meta Code Llama:完全失敗
- Google Gemini Advanced:界面:良好,功能:失敗
- ChatGPT 4:界面:良好,功能:良好
- ChatGPT 3.5:界面:良好,功能:良好
2. 重寫字串函數
此測試評估模型處理美元和分幣轉換的能力。GPT-4o 成功重寫了程式碼,拒絕可能導致後續行出問題的輸入,確保僅處理有效的美元和分幣值。
我有點失望它未自動將 .75 這類值加上前導零轉為 0.75。然而,由於我未明確要求此功能,這不是 AI 的錯。這提醒我們,即使 AI 提供了功能性程式碼,你可能仍需精煉提示以獲得完全符合需求的結果。
以下是此次及先前測試的總體結果:
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:成功
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
3. 找出惱人錯誤
這個測試很有趣,因為解決方案並不顯而易見。我自己在編碼時最初被這個錯誤難倒,於是向第一個 ChatGPT 模型求助,它立即找出了錯誤,當時真是令人震驚。
相比之下,我測試的其他三個 LLM 都錯過了這個問題的誤導。錯誤訊息指向程式碼的某一部分,但實際問題在其他地方,需要對 WordPress 框架有深入了解才能辨識。
幸運的是,GPT-4o 正確辨識了問題並準確描述了修復方法。
以下是此次及先前測試的總體結果:
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗。極其慘烈。熱情洋溢。表情符號滿天飛。
- Meta AI:成功
- Meta Code Llama:失敗
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
到目前為止,GPT-4o 三戰全勝。讓我們看看它在最後一項測試中的表現。
4. 撰寫腳本
在這項測試中,GPT-4o 實際上提供了超出我要求的內容。這項測試涉及使用鮮為人知的 Mac 腳本工具 Keyboard Maestro、Apple 的 AppleScript 和 Chrome 腳本行為。順便一提,Keyboard Maestro 對我來說是個改變遊戲規則的工具,它能重新編程作業系統和應用程式,使 Mac 成為我的首選生產力工具。
要通過測試,AI 需要正確概述一個結合 Keyboard Maestro 程式碼、AppleScript 和 Chrome API 功能的解決方案。
令人驚訝的是,GPT-4o 給了我兩個不同版本:
兩個版本都正確與 Keyboard Maestro 互動,但它們在處理大小寫敏感性上有所不同。左邊的版本不正確,因為 AppleScript 不支援「as lowercase」。右邊的版本使用「contains」且不區分大小寫,運作正常。
我給 GPT-4o 通過,但持保留態度,因為它確實提供了可用的程式碼。然而,返回兩個選項,其中一個不正確,讓我需要額外工作來評估和選擇正確的選項。這可能和我自己編寫程式碼一樣耗時。
以下是此次及先前測試的總體結果:
- ChatGPT GPT-4o:成功,但有保留
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:失敗
- Google Gemini Advanced:成功
- ChatGPT 4:成功
- ChatGPT 3.5:失敗
總體結果
以下是所有模型在四項測試中的表現:
- ChatGPT GPT-4o:4 項全數成功,但有一次奇怪的雙選答案
- Microsoft Copilot:0 項成功
- Meta AI:1 項成功
- Meta Code Llama:1 項成功
- Google Gemini Advanced:1 項成功
- ChatGPT 4:4 項全數成功
- ChatGPT 3.5:3 項成功
到目前為止,ChatGPT 一直是我的編碼助手首選。它總是能交付(除了偶爾失誤)。其他 AI 在我的測試中大多表現不佳。但 GPT-4o 在最後的雙答案回應中讓我有些意外,這讓我好奇這個模型內部發生了什麼導致這樣的問題。
儘管如此,GPT-4o 仍是我的編碼測試中的最佳表現者,所以我可能會繼續使用它並熟悉它的特性。或者,我可能會回到 ChatGPT Plus 的 GPT-3.5 或 GPT-4。請繼續關注,下次 ChatGPT 更新模型時,我一定會重新運行這些測試,看看它能否在所有四項測試中始終選擇正確答案。
你有沒有用這些 AI 模型進行編碼?你的經驗如何?請在下方留言分享。
相關文章
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
OpenAI 悄悄修改章程,使解僱阿爾特曼變得更困難
繼 2023 年的「政變式」事件後,OpenAI 透過更新公司章程,進一步鞏固了對執行長山姆·奧特曼(Sam Altman)的保障。近期公布的法院文件顯示,奧特曼的職位如今已穩如磐石,面對外部干預或內部董事會試圖罷免他的行動,其職位設有大幅提高的防線。在伊隆·馬斯克(Elon Musk)對 OpenAI 提起的訴訟中,一名專家證人指出,這些變更是在公司轉型為營利模式的過程中悄然進行的。與先前僅需簡
相關專題推薦
評論 (22)
0/500
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

如果你有在關注科技圈,你可能已經知道 OpenAI 剛剛推出了最新的大型語言模型 GPT-4o,其中「o」代表「omni」。這個新模型承諾在文字、圖形和語音方面具有多功能性,我迫不及待地想用我的標準編碼測試來檢驗它的表現。這些測試已經針對眾多 AI 模型進行過,結果相當引人入勝。請跟著我看到最後,因為有個你不想錯過的轉折。
如果你有興趣進行自己的實驗,請參閱此指南:如何測試 AI 聊天機器人的編碼能力 - 你也可以。它詳細列出了我使用的所有測試,並解釋它們的運作方式以及結果中需要注意的事項。
現在,讓我們來看看每個測試的結果,並比較 GPT-4o 與之前的競爭者如 Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced 以及早期版本的 ChatGPT 的表現。
1. 撰寫 WordPress 插件
以下是 GPT-4o 的用戶界面一瞥:
有趣的是,GPT-4o 主動加入了一個 JavaScript 文件,動態更新兩個欄位的行數。雖然提示中未明確排除 JavaScript,但這種創意方法出乎意料且有效。JavaScript 還增強了隨機化按鈕的功能,允許在不重新整理頁面的情況下產生多組結果。
行數排列正確,根據規格適當分隔了重複項。這段程式碼很穩固,只有一個小問題:隨機化按鈕未獨立成行,但因為提示中未明確要求,所以不扣分。
以下是此次及先前測試的總體結果:
- ChatGPT GPT-4o:界面:良好,功能:良好
- Microsoft Copilot:界面:適當,功能:失敗
- Meta AI:界面:適當,功能:失敗
- Meta Code Llama:完全失敗
- Google Gemini Advanced:界面:良好,功能:失敗
- ChatGPT 4:界面:良好,功能:良好
- ChatGPT 3.5:界面:良好,功能:良好
2. 重寫字串函數
此測試評估模型處理美元和分幣轉換的能力。GPT-4o 成功重寫了程式碼,拒絕可能導致後續行出問題的輸入,確保僅處理有效的美元和分幣值。
我有點失望它未自動將 .75 這類值加上前導零轉為 0.75。然而,由於我未明確要求此功能,這不是 AI 的錯。這提醒我們,即使 AI 提供了功能性程式碼,你可能仍需精煉提示以獲得完全符合需求的結果。
以下是此次及先前測試的總體結果:
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:成功
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
3. 找出惱人錯誤
這個測試很有趣,因為解決方案並不顯而易見。我自己在編碼時最初被這個錯誤難倒,於是向第一個 ChatGPT 模型求助,它立即找出了錯誤,當時真是令人震驚。
相比之下,我測試的其他三個 LLM 都錯過了這個問題的誤導。錯誤訊息指向程式碼的某一部分,但實際問題在其他地方,需要對 WordPress 框架有深入了解才能辨識。
幸運的是,GPT-4o 正確辨識了問題並準確描述了修復方法。
以下是此次及先前測試的總體結果:
- ChatGPT GPT-4o:成功
- Microsoft Copilot:失敗。極其慘烈。熱情洋溢。表情符號滿天飛。
- Meta AI:成功
- Meta Code Llama:失敗
- Google Gemini Advanced:失敗
- ChatGPT 4:成功
- ChatGPT 3.5:成功
到目前為止,GPT-4o 三戰全勝。讓我們看看它在最後一項測試中的表現。
4. 撰寫腳本
在這項測試中,GPT-4o 實際上提供了超出我要求的內容。這項測試涉及使用鮮為人知的 Mac 腳本工具 Keyboard Maestro、Apple 的 AppleScript 和 Chrome 腳本行為。順便一提,Keyboard Maestro 對我來說是個改變遊戲規則的工具,它能重新編程作業系統和應用程式,使 Mac 成為我的首選生產力工具。
要通過測試,AI 需要正確概述一個結合 Keyboard Maestro 程式碼、AppleScript 和 Chrome API 功能的解決方案。
令人驚訝的是,GPT-4o 給了我兩個不同版本:
兩個版本都正確與 Keyboard Maestro 互動,但它們在處理大小寫敏感性上有所不同。左邊的版本不正確,因為 AppleScript 不支援「as lowercase」。右邊的版本使用「contains」且不區分大小寫,運作正常。
我給 GPT-4o 通過,但持保留態度,因為它確實提供了可用的程式碼。然而,返回兩個選項,其中一個不正確,讓我需要額外工作來評估和選擇正確的選項。這可能和我自己編寫程式碼一樣耗時。
以下是此次及先前測試的總體結果:
- ChatGPT GPT-4o:成功,但有保留
- Microsoft Copilot:失敗
- Meta AI:失敗
- Meta Code Llama:失敗
- Google Gemini Advanced:成功
- ChatGPT 4:成功
- ChatGPT 3.5:失敗
總體結果
以下是所有模型在四項測試中的表現:
- ChatGPT GPT-4o:4 項全數成功,但有一次奇怪的雙選答案
- Microsoft Copilot:0 項成功
- Meta AI:1 項成功
- Meta Code Llama:1 項成功
- Google Gemini Advanced:1 項成功
- ChatGPT 4:4 項全數成功
- ChatGPT 3.5:3 項成功
到目前為止,ChatGPT 一直是我的編碼助手首選。它總是能交付(除了偶爾失誤)。其他 AI 在我的測試中大多表現不佳。但 GPT-4o 在最後的雙答案回應中讓我有些意外,這讓我好奇這個模型內部發生了什麼導致這樣的問題。
儘管如此,GPT-4o 仍是我的編碼測試中的最佳表現者,所以我可能會繼續使用它並熟悉它的特性。或者,我可能會回到 ChatGPT Plus 的 GPT-3.5 或 GPT-4。請繼續關注,下次 ChatGPT 更新模型時,我一定會重新運行這些測試,看看它能否在所有四項測試中始終選擇正確答案。
你有沒有用這些 AI 模型進行編碼?你的經驗如何?請在下方留言分享。
DeepSeek Code 即將推出
隨著人工智慧技術的加速發展,DeepSeek 正處於一個令人振奮的轉捩點。這家人工智慧公司最近透露,已獲得超過 700 億元的資金。管理層強調,公司致力於突破性的人工智慧研究,而非追求眼前的商業利益。這一戰略轉向表明 DeepSeek 將全力投入新產品的開發,尤其是眾人矚目的 DeepSeek Code。DeepSeek Code 的規劃已逐漸成形,該公司職缺頁面已發布數個相關職位,例如「Agen
馬斯克的 Grok:1.5 兆個參數與游標程式碼吸收——是遊戲規則的改變者,還是虛張聲勢?
伊隆·馬斯克終於有所行動。在人工智慧程式設計的競賽中,OpenAI 和 Anthropic 正加速前進,而 xAI 似乎落後了。馬斯克曾多次表示其目標是與 Claude 抗衡,然而儘管 Grok4.X 系列已進行多次更新,成果在理論上看似不錯,但在實際應用中卻未能達標,兩者之間的差距幾乎未見縮小。不過,這次他握有一張新王牌。馬斯克在 X 平台上證實,Grok 的新版本即將問世。 這款基礎模型第九版
OpenAI 悄悄修改章程,使解僱阿爾特曼變得更困難
繼 2023 年的「政變式」事件後,OpenAI 透過更新公司章程,進一步鞏固了對執行長山姆·奧特曼(Sam Altman)的保障。近期公布的法院文件顯示,奧特曼的職位如今已穩如磐石,面對外部干預或內部董事會試圖罷免他的行動,其職位設有大幅提高的防線。在伊隆·馬斯克(Elon Musk)對 OpenAI 提起的訴訟中,一名專家證人指出,這些變更是在公司轉型為營利模式的過程中悄然進行的。與先前僅需簡
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔





首頁






