選項
首頁
新聞
我將gpt -4O通過編碼測試進行了,它使它們呈現 - 除了一個奇怪的結果

我將gpt -4O通過編碼測試進行了,它使它們呈現 - 除了一個奇怪的結果

2025-04-17
63

我將gpt -4O通過編碼測試進行了,它使它們呈現 - 除了一個奇怪的結果

如果你有在關注科技圈,你可能已經知道 OpenAI 剛剛推出了最新的大型語言模型 GPT-4o,其中「o」代表「omni」。這個新模型承諾在文字、圖形和語音方面具有多功能性,我迫不及待地想用我的標準編碼測試來檢驗它的表現。這些測試已經針對眾多 AI 模型進行過,結果相當引人入勝。請跟著我看到最後,因為有個你不想錯過的轉折。

如果你有興趣進行自己的實驗,請參閱此指南:如何測試 AI 聊天機器人的編碼能力 - 你也可以。它詳細列出了我使用的所有測試,並解釋它們的運作方式以及結果中需要注意的事項。

現在,讓我們來看看每個測試的結果,並比較 GPT-4o 與之前的競爭者如 Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced 以及早期版本的 ChatGPT 的表現。

1. 撰寫 WordPress 插件

以下是 GPT-4o 的用戶界面一瞥:

有趣的是,GPT-4o 主動加入了一個 JavaScript 文件,動態更新兩個欄位的行數。雖然提示中未明確排除 JavaScript,但這種創意方法出乎意料且有效。JavaScript 還增強了隨機化按鈕的功能,允許在不重新整理頁面的情況下產生多組結果。

行數排列正確,根據規格適當分隔了重複項。這段程式碼很穩固,只有一個小問題:隨機化按鈕未獨立成行,但因為提示中未明確要求,所以不扣分。

以下是此次及先前測試的總體結果:

  • ChatGPT GPT-4o:界面:良好,功能:良好
  • Microsoft Copilot:界面:適當,功能:失敗
  • Meta AI:界面:適當,功能:失敗
  • Meta Code Llama:完全失敗
  • Google Gemini Advanced:界面:良好,功能:失敗
  • ChatGPT 4:界面:良好,功能:良好
  • ChatGPT 3.5:界面:良好,功能:良好

2. 重寫字串函數

此測試評估模型處理美元和分幣轉換的能力。GPT-4o 成功重寫了程式碼,拒絕可能導致後續行出問題的輸入,確保僅處理有效的美元和分幣值。

我有點失望它未自動將 .75 這類值加上前導零轉為 0.75。然而,由於我未明確要求此功能,這不是 AI 的錯。這提醒我們,即使 AI 提供了功能性程式碼,你可能仍需精煉提示以獲得完全符合需求的結果。

以下是此次及先前測試的總體結果:

  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失敗
  • Meta AI:失敗
  • Meta Code Llama:成功
  • Google Gemini Advanced:失敗
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

3. 找出惱人錯誤

這個測試很有趣,因為解決方案並不顯而易見。我自己在編碼時最初被這個錯誤難倒,於是向第一個 ChatGPT 模型求助,它立即找出了錯誤,當時真是令人震驚。

相比之下,我測試的其他三個 LLM 都錯過了這個問題的誤導。錯誤訊息指向程式碼的某一部分,但實際問題在其他地方,需要對 WordPress 框架有深入了解才能辨識。

幸運的是,GPT-4o 正確辨識了問題並準確描述了修復方法。

以下是此次及先前測試的總體結果:

  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失敗。極其慘烈。熱情洋溢。表情符號滿天飛。
  • Meta AI:成功
  • Meta Code Llama:失敗
  • Google Gemini Advanced:失敗
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

到目前為止,GPT-4o 三戰全勝。讓我們看看它在最後一項測試中的表現。

4. 撰寫腳本

在這項測試中,GPT-4o 實際上提供了超出我要求的內容。這項測試涉及使用鮮為人知的 Mac 腳本工具 Keyboard Maestro、Apple 的 AppleScript 和 Chrome 腳本行為。順便一提,Keyboard Maestro 對我來說是個改變遊戲規則的工具,它能重新編程作業系統和應用程式,使 Mac 成為我的首選生產力工具。

要通過測試,AI 需要正確概述一個結合 Keyboard Maestro 程式碼、AppleScript 和 Chrome API 功能的解決方案。

令人驚訝的是,GPT-4o 給了我兩個不同版本:

兩個版本都正確與 Keyboard Maestro 互動,但它們在處理大小寫敏感性上有所不同。左邊的版本不正確,因為 AppleScript 不支援「as lowercase」。右邊的版本使用「contains」且不區分大小寫,運作正常。

我給 GPT-4o 通過,但持保留態度,因為它確實提供了可用的程式碼。然而,返回兩個選項,其中一個不正確,讓我需要額外工作來評估和選擇正確的選項。這可能和我自己編寫程式碼一樣耗時。

以下是此次及先前測試的總體結果:

  • ChatGPT GPT-4o:成功,但有保留
  • Microsoft Copilot:失敗
  • Meta AI:失敗
  • Meta Code Llama:失敗
  • Google Gemini Advanced:成功
  • ChatGPT 4:成功
  • ChatGPT 3.5:失敗

總體結果

以下是所有模型在四項測試中的表現:

  • ChatGPT GPT-4o:4 項全數成功,但有一次奇怪的雙選答案
  • Microsoft Copilot:0 項成功
  • Meta AI:1 項成功
  • Meta Code Llama:1 項成功
  • Google Gemini Advanced:1 項成功
  • ChatGPT 4:4 項全數成功
  • ChatGPT 3.5:3 項成功

到目前為止,ChatGPT 一直是我的編碼助手首選。它總是能交付(除了偶爾失誤)。其他 AI 在我的測試中大多表現不佳。但 GPT-4o 在最後的雙答案回應中讓我有些意外,這讓我好奇這個模型內部發生了什麼導致這樣的問題。

儘管如此,GPT-4o 仍是我的編碼測試中的最佳表現者,所以我可能會繼續使用它並熟悉它的特性。或者,我可能會回到 ChatGPT Plus 的 GPT-3.5 或 GPT-4。請繼續關注,下次 ChatGPT 更新模型時,我一定會重新運行這些測試,看看它能否在所有四項測試中始終選擇正確答案。

你有沒有用這些 AI 模型進行編碼?你的經驗如何?請在下方留言分享。

相關文章
Elgato推出多功能Stream Deck整合解決方案 Elgato推出多功能Stream Deck整合解決方案 Elgato在Computex展會上展示了其創新的「Stream Deck無處不在」計畫,推出了適用於PC的虛擬Stream Deck軟體、以太網擴展塢配件、無品牌標誌的Stream Deck模組以整合進各種產品,以及新的剪刀式按鍵,提供類似鍵盤的觸感體驗。Elgato總經理Julian Fest表示:「這些進展將Stream Deck的應用範圍擴展到新受眾,從開發者和DIY愛好者到尋求可靠介面的
川普的5000億美元星門計畫引領全球AI創新 川普的5000億美元星門計畫引領全球AI創新 在技術快速進步的時代,爭奪人工智慧(AI)主導地位已成為關鍵的地緣政治與經濟挑戰。在唐納德·川普的領導下,美國啟動了星門計畫,一項耗資5000億美元的倡議,旨在確保美國在AI基礎設施中的領導地位。這一大膽舉措凸顯了與中國在塑造AI技術未來方面的激烈競爭。本文探討星門計畫的範圍、戰略意義及其改變全球AI格局的潛力。重點星門計畫承諾投入5000億美元推進AI基礎設施。唐納德·川普推出此計畫以強化美國的
AI音樂翻唱:創作獨特歌曲的終極指南 AI音樂翻唱:創作獨特歌曲的終極指南 人工智能(AI)革新了音樂製作,引入了重新詮釋歌曲的創新方式。AI歌曲翻唱讓使用者能夠使用不同藝術家的聲音打造獨特的熱門曲目版本。本指南探討了AI歌曲翻唱的基礎知識、運作機制以及開始創作的最佳免費工具。主要亮點AI歌曲翻唱利用機器學習,將歌曲轉換為不同的聲音風格。TopMediAI和Covers.ai是生成AI歌曲翻唱的領先免費平台。使用者可以存取多樣化的聲音模型,以獲得創作靈活性。AI生成的音樂
評論 (20)
0/200
JonathanAllen
JonathanAllen 2025-04-26 19:46:22

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 2025-04-26 02:21:39

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 2025-04-24 19:41:59

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 2025-04-23 13:12:28

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

NicholasClark
NicholasClark 2025-04-23 10:12:49

GPT-4oのコードスキルには感心しました!私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい!でも、その一つのバグ、修正してほしいですね、OpenAI!😅

DavidThomas
DavidThomas 2025-04-23 01:04:24

GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔

回到頂部
OR