私はコーディングテストを介してGPT -4oを入れました、そしてそれはそれらを拡張しました - 1つの奇妙な結果を除いて

技術界をフォローしているなら、OpenAIが最新の大規模言語モデルGPT-4oをリリースしたことをご存知でしょう。"o"は"omni"を意味します。この新モデルはテキスト、グラフィック、音声での汎用性を約束し、私は標準のコーディングテストでその性能を試すのが待ちきれませんでした。これらのテストはさまざまなAIモデルに対して実行され、非常に興味深い結果が得られました。最後まで読んでください、驚くべき展開がありますよ。
自分で実験したい場合は、このガイドをチェックしてください:AIチャットボットのコーディング能力をテストする方法 - あなたもできます。私が使用するすべてのテストと、その仕組みや結果で何を見るべきかの詳細な説明が記載されています。
では、GPT-4oがMicrosoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced、ChatGPTの旧バージョンと比較してどうだったか、テストごとの結果を見ていきましょう。
1. WordPressプラグインの作成
GPT-4oのユーザーインターフェースを少し見てみましょう:
興味深いことに、GPT-4oはJavaScriptファイルを含め、両方のフィールドの行数を動的に更新しました。プロンプトでJavaScriptを明確に禁止していなかったため、この創造的なアプローチは予想外で効果的でした。JavaScriptはRandomizeボタンの機能も強化し、ページ全体をリフレッシュせずに複数の結果セットを可能にします。
行は正しく配置され、重複も仕様通りに適切に分離されていました。コードはしっかりしており、1つだけ小さな不満:Randomizeボタンが独立した行に配置されていなかった点ですが、プロンプトで指定していなかったので減点はありません。
これと以前のテストの総合結果は以下の通りです:
- ChatGPT GPT-4o: インターフェース:良好、機能:良好
- Microsoft Copilot: インターフェース:適切、機能:失敗
- Meta AI: インターフェース:適切、機能:失敗
- Meta Code Llama: 完全な失敗
- Google Gemini Advanced: インターフェース:良好、機能:失敗
- ChatGPT 4: インターフェース:良好、機能:良好
- ChatGPT 3.5: インターフェース:良好、機能:良好
2. 文字列関数の書き換え
このテストは、ドルとセントの変換を扱うモデルの能力を評価します。GPT-4oは後続の行で問題を引き起こす可能性のある入力を拒否するコードを書き換え、有効なドルとセントの値のみが処理されるようにしました。
.75のような値に自動で0を付けて0.75に変換しなかった点には少し失望しました。しかし、この機能を明示的に要求していなかったので、AIのミスではありません。AIが機能的なコードを提供しても、正確なニーズを得るにはプロンプトを調整する必要があることを思い出させます。
これと以前のテストの総合結果は以下の通りです:
- ChatGPT GPT-4o: 成功
- Microsoft Copilot: 失敗
- Meta AI: 失敗
- Meta Code Llama: 成功
- Google Gemini Advanced: 失敗
- ChatGPT 4: 成功
- ChatGPT 3.5: 成功
3. 厄介なバグの発見
このテストは、解決策がすぐには明らかでないため興味深いです。私自身がコーディング中にこのエラーで最初は困惑し、最初のChatGPTモデルに助けを求めました。それは即座にエラーを見つけ、当時としては驚くべきことでした。
対照的に、テストした他の3つのLLMはこの問題の誤った方向性を見逃しました。エラーメッセージはコードの1つの部分を指しますが、実際の問題は別の場所にあり、WordPressフレームワークの深い知識が必要です。
幸い、GPT-4oは問題を正確に特定し、修正方法を正確に説明しました。
これと以前のテストの総合結果は以下の通りです:
- ChatGPT GPT-4o: 成功
- Microsoft Copilot: 失敗。壮観に。熱心に。絵文字付きで。
- Meta AI: 成功
- Meta Code Llama: 失敗
- Google Gemini Advanced: 失敗
- ChatGPT 4: 成功
- ChatGPT 3.5: 成功
これまでGPT-4oは3つすべてで成功しています。最後のテストでどうなるか見てみましょう。
4. スクリプトの作成
このテストに対し、GPT-4oは私が求めた以上のものを提供しました。テストでは、Keyboard Maestro、AppleのAppleScript、Chromeのスクリプト動作という珍しいMacスクリプティングツールを使用します。ちなみに、Keyboard Maestroは私にとって革新的で、OSやアプリケーションを再プログラムできるため、Macを生産性の主力にしています。
合格するには、Keyboard Maestroコード、AppleScript、Chrome API機能を組み合わせた解決策を正確に概要する必要があります。
驚くべきことに、GPT-4oは2つの異なるバージョンを提供しました:
両方のバージョンはKeyboard Maestroと正しく連携しましたが、大文字小文字の扱いが異なります。左のバージョンはAppleScriptが「as lowercase」をサポートしないため誤っていました。右のバージョンは「contains」を使用し、大文字小文字を区別せず、問題なく動作しました。
GPT-4oは動作するコードを提供したので、慎重ながら合格とします。しかし、2つの選択肢を返し、その1つが誤っていたため、どれが正しいかを評価するのに余計な作業が必要でした。それは自分でコードを書くのと同じくらい時間がかかったかもしれません。
これと以前のテストの総合結果は以下の通りです:
- ChatGPT GPT-4o: 成功、ただし留保付き
- Microsoft Copilot: 失敗
- Meta AI: 失敗
- Meta Code Llama: 失敗
- Google Gemini Advanced: 成功
- ChatGPT 4: 成功
- ChatGPT 3.5: 失敗
総合結果
4つのテストにおける全モデルの結果は以下の通りです:
- ChatGPT GPT-4o: 4/4成功、ただし1つの奇妙な二択回答あり
- Microsoft Copilot: 0/4成功
- Meta AI: 1/4成功
- Meta Code Llama: 1/4成功
- Google Gemini Advanced: 1/4成功
- ChatGPT 4: 4/4成功
- ChatGPT 3.5: 3/4成功
これまで、ChatGPTはコーディング支援の主力でした。いつも期待に応えてくれます(そうでない場合を除く)。他のAIは私のテストでほとんど失敗しました。しかし、GPT-4oは最後の二択回答で予想外の展開を見せました。このモデル内で何が起こっているのか、なぜそのような不具合が生じたのか疑問に思います。
それでも、GPT-4oは私のコーディングテストで最高のパフォーマーなので、その癖に慣れるために使い続けるでしょう。あるいは、ChatGPT PlusのGPT-3.5やGPT-4に戻るかもしれません。次にChatGPTがモデルを更新したら、4つのテストすべてで正しい回答を一貫して選べるか再テストします。続報をお楽しみに。
これらのAIモデルでコーディングを試したことがありますか?あなたの経験はどうでしたか?以下のコメントで教えてください。
関連記事
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(
OpenAI、アルトマン氏の解任を困難にするため、密かに定款を変更
2023年のクーデターのような事態を受けて、OpenAIは定款を改定し、サム・アルトマンCEOに対する保護措置をさらに強化した。最近公開された裁判文書によると、アルトマン氏の地位は今や揺るぎないものとなっており、外部からの干渉や、取締役会による解任の動きに対する障壁が大幅に高まっている。イーロン・マスクがOpenAIを相手取った訴訟における専門家証人は、これらの変更が同社が営利モデルへ移行する過程
Meta AIがFacebookマーケットプレイスでの購入者からのメッセージに対応するようになりました
Facebookは木曜日、Facebook Marketplaceに、購入者からの問い合わせへの自動返信を含む新たなMeta AI機能を導入すると発表した。同プラットフォームでは、AIを活用して出品手続きの迅速化や出品者プロフィールの要約を行うほか、出品者が商品ページで配送オプションを提供できるようになった。出品者は購入者からの問い合わせを頻繁に受けるため、FacebookはMeta AIを活用し
関連特集おすすめ
コメント (22)
0/500
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

技術界をフォローしているなら、OpenAIが最新の大規模言語モデルGPT-4oをリリースしたことをご存知でしょう。"o"は"omni"を意味します。この新モデルはテキスト、グラフィック、音声での汎用性を約束し、私は標準のコーディングテストでその性能を試すのが待ちきれませんでした。これらのテストはさまざまなAIモデルに対して実行され、非常に興味深い結果が得られました。最後まで読んでください、驚くべき展開がありますよ。
自分で実験したい場合は、このガイドをチェックしてください:AIチャットボットのコーディング能力をテストする方法 - あなたもできます。私が使用するすべてのテストと、その仕組みや結果で何を見るべきかの詳細な説明が記載されています。
では、GPT-4oがMicrosoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced、ChatGPTの旧バージョンと比較してどうだったか、テストごとの結果を見ていきましょう。
1. WordPressプラグインの作成
GPT-4oのユーザーインターフェースを少し見てみましょう:
興味深いことに、GPT-4oはJavaScriptファイルを含め、両方のフィールドの行数を動的に更新しました。プロンプトでJavaScriptを明確に禁止していなかったため、この創造的なアプローチは予想外で効果的でした。JavaScriptはRandomizeボタンの機能も強化し、ページ全体をリフレッシュせずに複数の結果セットを可能にします。
行は正しく配置され、重複も仕様通りに適切に分離されていました。コードはしっかりしており、1つだけ小さな不満:Randomizeボタンが独立した行に配置されていなかった点ですが、プロンプトで指定していなかったので減点はありません。
これと以前のテストの総合結果は以下の通りです:
- ChatGPT GPT-4o: インターフェース:良好、機能:良好
- Microsoft Copilot: インターフェース:適切、機能:失敗
- Meta AI: インターフェース:適切、機能:失敗
- Meta Code Llama: 完全な失敗
- Google Gemini Advanced: インターフェース:良好、機能:失敗
- ChatGPT 4: インターフェース:良好、機能:良好
- ChatGPT 3.5: インターフェース:良好、機能:良好
2. 文字列関数の書き換え
このテストは、ドルとセントの変換を扱うモデルの能力を評価します。GPT-4oは後続の行で問題を引き起こす可能性のある入力を拒否するコードを書き換え、有効なドルとセントの値のみが処理されるようにしました。
.75のような値に自動で0を付けて0.75に変換しなかった点には少し失望しました。しかし、この機能を明示的に要求していなかったので、AIのミスではありません。AIが機能的なコードを提供しても、正確なニーズを得るにはプロンプトを調整する必要があることを思い出させます。
これと以前のテストの総合結果は以下の通りです:
- ChatGPT GPT-4o: 成功
- Microsoft Copilot: 失敗
- Meta AI: 失敗
- Meta Code Llama: 成功
- Google Gemini Advanced: 失敗
- ChatGPT 4: 成功
- ChatGPT 3.5: 成功
3. 厄介なバグの発見
このテストは、解決策がすぐには明らかでないため興味深いです。私自身がコーディング中にこのエラーで最初は困惑し、最初のChatGPTモデルに助けを求めました。それは即座にエラーを見つけ、当時としては驚くべきことでした。
対照的に、テストした他の3つのLLMはこの問題の誤った方向性を見逃しました。エラーメッセージはコードの1つの部分を指しますが、実際の問題は別の場所にあり、WordPressフレームワークの深い知識が必要です。
幸い、GPT-4oは問題を正確に特定し、修正方法を正確に説明しました。
これと以前のテストの総合結果は以下の通りです:
- ChatGPT GPT-4o: 成功
- Microsoft Copilot: 失敗。壮観に。熱心に。絵文字付きで。
- Meta AI: 成功
- Meta Code Llama: 失敗
- Google Gemini Advanced: 失敗
- ChatGPT 4: 成功
- ChatGPT 3.5: 成功
これまでGPT-4oは3つすべてで成功しています。最後のテストでどうなるか見てみましょう。
4. スクリプトの作成
このテストに対し、GPT-4oは私が求めた以上のものを提供しました。テストでは、Keyboard Maestro、AppleのAppleScript、Chromeのスクリプト動作という珍しいMacスクリプティングツールを使用します。ちなみに、Keyboard Maestroは私にとって革新的で、OSやアプリケーションを再プログラムできるため、Macを生産性の主力にしています。
合格するには、Keyboard Maestroコード、AppleScript、Chrome API機能を組み合わせた解決策を正確に概要する必要があります。
驚くべきことに、GPT-4oは2つの異なるバージョンを提供しました:
両方のバージョンはKeyboard Maestroと正しく連携しましたが、大文字小文字の扱いが異なります。左のバージョンはAppleScriptが「as lowercase」をサポートしないため誤っていました。右のバージョンは「contains」を使用し、大文字小文字を区別せず、問題なく動作しました。
GPT-4oは動作するコードを提供したので、慎重ながら合格とします。しかし、2つの選択肢を返し、その1つが誤っていたため、どれが正しいかを評価するのに余計な作業が必要でした。それは自分でコードを書くのと同じくらい時間がかかったかもしれません。
これと以前のテストの総合結果は以下の通りです:
- ChatGPT GPT-4o: 成功、ただし留保付き
- Microsoft Copilot: 失敗
- Meta AI: 失敗
- Meta Code Llama: 失敗
- Google Gemini Advanced: 成功
- ChatGPT 4: 成功
- ChatGPT 3.5: 失敗
総合結果
4つのテストにおける全モデルの結果は以下の通りです:
- ChatGPT GPT-4o: 4/4成功、ただし1つの奇妙な二択回答あり
- Microsoft Copilot: 0/4成功
- Meta AI: 1/4成功
- Meta Code Llama: 1/4成功
- Google Gemini Advanced: 1/4成功
- ChatGPT 4: 4/4成功
- ChatGPT 3.5: 3/4成功
これまで、ChatGPTはコーディング支援の主力でした。いつも期待に応えてくれます(そうでない場合を除く)。他のAIは私のテストでほとんど失敗しました。しかし、GPT-4oは最後の二択回答で予想外の展開を見せました。このモデル内で何が起こっているのか、なぜそのような不具合が生じたのか疑問に思います。
それでも、GPT-4oは私のコーディングテストで最高のパフォーマーなので、その癖に慣れるために使い続けるでしょう。あるいは、ChatGPT PlusのGPT-3.5やGPT-4に戻るかもしれません。次にChatGPTがモデルを更新したら、4つのテストすべてで正しい回答を一貫して選べるか再テストします。続報をお楽しみに。
これらのAIモデルでコーディングを試したことがありますか?あなたの経験はどうでしたか?以下のコメントで教えてください。
マスク氏の「Grok」:1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか?
イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX(
OpenAI、アルトマン氏の解任を困難にするため、密かに定款を変更
2023年のクーデターのような事態を受けて、OpenAIは定款を改定し、サム・アルトマンCEOに対する保護措置をさらに強化した。最近公開された裁判文書によると、アルトマン氏の地位は今や揺るぎないものとなっており、外部からの干渉や、取締役会による解任の動きに対する障壁が大幅に高まっている。イーロン・マスクがOpenAIを相手取った訴訟における専門家証人は、これらの変更が同社が営利モデルへ移行する過程
Meta AIがFacebookマーケットプレイスでの購入者からのメッセージに対応するようになりました
Facebookは木曜日、Facebook Marketplaceに、購入者からの問い合わせへの自動返信を含む新たなMeta AI機能を導入すると発表した。同プラットフォームでは、AIを活用して出品手続きの迅速化や出品者プロフィールの要約を行うほか、出品者が商品ページで配送オプションを提供できるようになった。出品者は購入者からの問い合わせを頻繁に受けるため、FacebookはMeta AIを活用し
GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.
Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔
GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔
GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔
GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔





家






