オプション
ニュース
私はコーディングテストを介してGPT -4oを入れました、そしてそれはそれらを拡張しました - 1つの奇妙な結果を除いて

私はコーディングテストを介してGPT -4oを入れました、そしてそれはそれらを拡張しました - 1つの奇妙な結果を除いて

2025年4月17日
63

私はコーディングテストを介してGPT -4oを入れました、そしてそれはそれらを拡張しました -  1つの奇妙な結果を除いて

技術界をフォローしているなら、OpenAIが最新の大規模言語モデルGPT-4oをリリースしたことをご存知でしょう。"o"は"omni"を意味します。この新モデルはテキスト、グラフィック、音声での汎用性を約束し、私は標準のコーディングテストでその性能を試すのが待ちきれませんでした。これらのテストはさまざまなAIモデルに対して実行され、非常に興味深い結果が得られました。最後まで読んでください、驚くべき展開がありますよ。

自分で実験したい場合は、このガイドをチェックしてください:AIチャットボットのコーディング能力をテストする方法 - あなたもできます。私が使用するすべてのテストと、その仕組みや結果で何を見るべきかの詳細な説明が記載されています。

では、GPT-4oがMicrosoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced、ChatGPTの旧バージョンと比較してどうだったか、テストごとの結果を見ていきましょう。

1. WordPressプラグインの作成

GPT-4oのユーザーインターフェースを少し見てみましょう:

興味深いことに、GPT-4oはJavaScriptファイルを含め、両方のフィールドの行数を動的に更新しました。プロンプトでJavaScriptを明確に禁止していなかったため、この創造的なアプローチは予想外で効果的でした。JavaScriptはRandomizeボタンの機能も強化し、ページ全体をリフレッシュせずに複数の結果セットを可能にします。

行は正しく配置され、重複も仕様通りに適切に分離されていました。コードはしっかりしており、1つだけ小さな不満:Randomizeボタンが独立した行に配置されていなかった点ですが、プロンプトで指定していなかったので減点はありません。

これと以前のテストの総合結果は以下の通りです:

  • ChatGPT GPT-4o: インターフェース:良好、機能:良好
  • Microsoft Copilot: インターフェース:適切、機能:失敗
  • Meta AI: インターフェース:適切、機能:失敗
  • Meta Code Llama: 完全な失敗
  • Google Gemini Advanced: インターフェース:良好、機能:失敗
  • ChatGPT 4: インターフェース:良好、機能:良好
  • ChatGPT 3.5: インターフェース:良好、機能:良好

2. 文字列関数の書き換え

このテストは、ドルとセントの変換を扱うモデルの能力を評価します。GPT-4oは後続の行で問題を引き起こす可能性のある入力を拒否するコードを書き換え、有効なドルとセントの値のみが処理されるようにしました。

.75のような値に自動で0を付けて0.75に変換しなかった点には少し失望しました。しかし、この機能を明示的に要求していなかったので、AIのミスではありません。AIが機能的なコードを提供しても、正確なニーズを得るにはプロンプトを調整する必要があることを思い出させます。

これと以前のテストの総合結果は以下の通りです:

  • ChatGPT GPT-4o: 成功
  • Microsoft Copilot: 失敗
  • Meta AI: 失敗
  • Meta Code Llama: 成功
  • Google Gemini Advanced: 失敗
  • ChatGPT 4: 成功
  • ChatGPT 3.5: 成功

3. 厄介なバグの発見

このテストは、解決策がすぐには明らかでないため興味深いです。私自身がコーディング中にこのエラーで最初は困惑し、最初のChatGPTモデルに助けを求めました。それは即座にエラーを見つけ、当時としては驚くべきことでした。

対照的に、テストした他の3つのLLMはこの問題の誤った方向性を見逃しました。エラーメッセージはコードの1つの部分を指しますが、実際の問題は別の場所にあり、WordPressフレームワークの深い知識が必要です。

幸い、GPT-4oは問題を正確に特定し、修正方法を正確に説明しました。

これと以前のテストの総合結果は以下の通りです:

  • ChatGPT GPT-4o: 成功
  • Microsoft Copilot: 失敗。壮観に。熱心に。絵文字付きで。
  • Meta AI: 成功
  • Meta Code Llama: 失敗
  • Google Gemini Advanced: 失敗
  • ChatGPT 4: 成功
  • ChatGPT 3.5: 成功

これまでGPT-4oは3つすべてで成功しています。最後のテストでどうなるか見てみましょう。

4. スクリプトの作成

このテストに対し、GPT-4oは私が求めた以上のものを提供しました。テストでは、Keyboard Maestro、AppleのAppleScript、Chromeのスクリプト動作という珍しいMacスクリプティングツールを使用します。ちなみに、Keyboard Maestroは私にとって革新的で、OSやアプリケーションを再プログラムできるため、Macを生産性の主力にしています。

合格するには、Keyboard Maestroコード、AppleScript、Chrome API機能を組み合わせた解決策を正確に概要する必要があります。

驚くべきことに、GPT-4oは2つの異なるバージョンを提供しました:

両方のバージョンはKeyboard Maestroと正しく連携しましたが、大文字小文字の扱いが異なります。左のバージョンはAppleScriptが「as lowercase」をサポートしないため誤っていました。右のバージョンは「contains」を使用し、大文字小文字を区別せず、問題なく動作しました。

GPT-4oは動作するコードを提供したので、慎重ながら合格とします。しかし、2つの選択肢を返し、その1つが誤っていたため、どれが正しいかを評価するのに余計な作業が必要でした。それは自分でコードを書くのと同じくらい時間がかかったかもしれません。

これと以前のテストの総合結果は以下の通りです:

  • ChatGPT GPT-4o: 成功、ただし留保付き
  • Microsoft Copilot: 失敗
  • Meta AI: 失敗
  • Meta Code Llama: 失敗
  • Google Gemini Advanced: 成功
  • ChatGPT 4: 成功
  • ChatGPT 3.5: 失敗

総合結果

4つのテストにおける全モデルの結果は以下の通りです:

  • ChatGPT GPT-4o: 4/4成功、ただし1つの奇妙な二択回答あり
  • Microsoft Copilot: 0/4成功
  • Meta AI: 1/4成功
  • Meta Code Llama: 1/4成功
  • Google Gemini Advanced: 1/4成功
  • ChatGPT 4: 4/4成功
  • ChatGPT 3.5: 3/4成功

これまで、ChatGPTはコーディング支援の主力でした。いつも期待に応えてくれます(そうでない場合を除く)。他のAIは私のテストでほとんど失敗しました。しかし、GPT-4oは最後の二択回答で予想外の展開を見せました。このモデル内で何が起こっているのか、なぜそのような不具合が生じたのか疑問に思います。

それでも、GPT-4oは私のコーディングテストで最高のパフォーマーなので、その癖に慣れるために使い続けるでしょう。あるいは、ChatGPT PlusのGPT-3.5やGPT-4に戻るかもしれません。次にChatGPTがモデルを更新したら、4つのテストすべてで正しい回答を一貫して選べるか再テストします。続報をお楽しみに。

これらのAIモデルでコーディングを試したことがありますか?あなたの経験はどうでしたか?以下のコメントで教えてください。

関連記事
Elgatoが多用途なStream Deck統合ソリューションを発表 Elgatoが多用途なStream Deck統合ソリューションを発表 ElgatoはComputexで革新的な「Stream Deck Everywhere」イニシアチブを公開し、PC向けの仮想Stream Deckソフトウェア、イーサネットドックアクセサリー、さまざまな製品に統合するためのブランドなしのStream Deckモジュール、そして触覚的でキーボードのような体験を提供する新しいシザースイッチキーを導入しました。「これらの進歩により、Stream Deck
トランプの5000億ドルスターゲートプロジェクトがグローバルAIイノベーションをリード トランプの5000億ドルスターゲートプロジェクトがグローバルAIイノベーションをリード 急速な技術進歩の時代において、人工知能(AI)の覇権を握る競争は、地政学的および経済的な重要な課題として浮上しています。ドナルド・トランプのリーダーシップの下、米国はAIインフラにおけるリーダーシップを確保するための5000億ドルのイニシアチブであるスターゲートプロジェクトを立ち上げました。この大胆な取り組みは、AI技術の未来を形成するための中国との激化する競争を強調しています。この記事では、スタ
AIミュージックカバー:ユニークな曲を作成するための究極ガイド AIミュージックカバー:ユニークな曲を作成するための究極ガイド 人工知能(AI)は音楽制作に革命をもたらし、曲を再構築する革新的な方法を導入しました。AIソングカバーは、さまざまなアーティストの声を使用して、人気曲の独特なバージョンを制作することを可能にします。このガイドでは、AIソングカバーの基本、仕組み、そして無料で始められる最高のツールを探ります。主なハイライトAIソングカバーは、機械学習を活用して異なるボーカルスタイルで曲を変換します。TopMediA
コメント (20)
0/200
JonathanAllen
JonathanAllen 2025年4月26日 20:46:22 JST

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 2025年4月26日 3:21:39 JST

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 2025年4月24日 20:41:59 JST

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 2025年4月23日 14:12:28 JST

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

NicholasClark
NicholasClark 2025年4月23日 11:12:49 JST

GPT-4oのコードスキルには感心しました!私のテストをほぼ全てクリアしましたが、一つの奇妙な結果が気になります。テキスト、グラフィック、ボイスでの多才さは素晴らしい!でも、その一つのバグ、修正してほしいですね、OpenAI!😅

DavidThomas
DavidThomas 2025年4月23日 2:04:24 JST

GPT-4o is impressive, acing most of my coding tests! But that one weird result threw me off. Still, it's versatile across text, graphics, and voice. If only it could explain that odd outcome, it'd be perfect! 🤔

トップに戻ります
OR