私はコーディングテストを介してGPT -4oを入れました、そしてそれはそれらを拡張しました - 1つの奇妙な結果を除いて

家

ニュース

2025年4月17日

TimothyGonzález

141

私はコーディングテストを介してGPT -4oを入れました、そしてそれはそれらを拡張しました - 1つの奇妙な結果を除いて

技術界をフォローしているなら、OpenAIが最新の大規模言語モデルGPT-4oをリリースしたことをご存知でしょう。"o"は"omni"を意味します。この新モデルはテキスト、グラフィック、音声での汎用性を約束し、私は標準のコーディングテストでその性能を試すのが待ちきれませんでした。これらのテストはさまざまなAIモデルに対して実行され、非常に興味深い結果が得られました。最後まで読んでください、驚くべき展開がありますよ。

自分で実験したい場合は、このガイドをチェックしてください：AIチャットボットのコーディング能力をテストする方法 - あなたもできます。私が使用するすべてのテストと、その仕組みや結果で何を見るべきかの詳細な説明が記載されています。

では、GPT-4oがMicrosoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced、ChatGPTの旧バージョンと比較してどうだったか、テストごとの結果を見ていきましょう。

1. WordPressプラグインの作成

GPT-4oのユーザーインターフェースを少し見てみましょう：

興味深いことに、GPT-4oはJavaScriptファイルを含め、両方のフィールドの行数を動的に更新しました。プロンプトでJavaScriptを明確に禁止していなかったため、この創造的なアプローチは予想外で効果的でした。JavaScriptはRandomizeボタンの機能も強化し、ページ全体をリフレッシュせずに複数の結果セットを可能にします。

行は正しく配置され、重複も仕様通りに適切に分離されていました。コードはしっかりしており、1つだけ小さな不満：Randomizeボタンが独立した行に配置されていなかった点ですが、プロンプトで指定していなかったので減点はありません。

これと以前のテストの総合結果は以下の通りです：

ChatGPT GPT-4o: インターフェース：良好、機能：良好
Microsoft Copilot: インターフェース：適切、機能：失敗
Meta AI: インターフェース：適切、機能：失敗
Meta Code Llama: 完全な失敗
Google Gemini Advanced: インターフェース：良好、機能：失敗
ChatGPT 4: インターフェース：良好、機能：良好
ChatGPT 3.5: インターフェース：良好、機能：良好

2. 文字列関数の書き換え

このテストは、ドルとセントの変換を扱うモデルの能力を評価します。GPT-4oは後続の行で問題を引き起こす可能性のある入力を拒否するコードを書き換え、有効なドルとセントの値のみが処理されるようにしました。

.75のような値に自動で0を付けて0.75に変換しなかった点には少し失望しました。しかし、この機能を明示的に要求していなかったので、AIのミスではありません。AIが機能的なコードを提供しても、正確なニーズを得るにはプロンプトを調整する必要があることを思い出させます。

これと以前のテストの総合結果は以下の通りです：

ChatGPT GPT-4o: 成功
Microsoft Copilot: 失敗
Meta AI: 失敗
Meta Code Llama: 成功
Google Gemini Advanced: 失敗
ChatGPT 4: 成功
ChatGPT 3.5: 成功

3. 厄介なバグの発見

このテストは、解決策がすぐには明らかでないため興味深いです。私自身がコーディング中にこのエラーで最初は困惑し、最初のChatGPTモデルに助けを求めました。それは即座にエラーを見つけ、当時としては驚くべきことでした。

対照的に、テストした他の3つのLLMはこの問題の誤った方向性を見逃しました。エラーメッセージはコードの1つの部分を指しますが、実際の問題は別の場所にあり、WordPressフレームワークの深い知識が必要です。

幸い、GPT-4oは問題を正確に特定し、修正方法を正確に説明しました。

これと以前のテストの総合結果は以下の通りです：

ChatGPT GPT-4o: 成功
Microsoft Copilot: 失敗。壮観に。熱心に。絵文字付きで。
Meta AI: 成功
Meta Code Llama: 失敗
Google Gemini Advanced: 失敗
ChatGPT 4: 成功
ChatGPT 3.5: 成功

これまでGPT-4oは3つすべてで成功しています。最後のテストでどうなるか見てみましょう。

4. スクリプトの作成

このテストに対し、GPT-4oは私が求めた以上のものを提供しました。テストでは、Keyboard Maestro、AppleのAppleScript、Chromeのスクリプト動作という珍しいMacスクリプティングツールを使用します。ちなみに、Keyboard Maestroは私にとって革新的で、OSやアプリケーションを再プログラムできるため、Macを生産性の主力にしています。

合格するには、Keyboard Maestroコード、AppleScript、Chrome API機能を組み合わせた解決策を正確に概要する必要があります。

驚くべきことに、GPT-4oは2つの異なるバージョンを提供しました：

両方のバージョンはKeyboard Maestroと正しく連携しましたが、大文字小文字の扱いが異なります。左のバージョンはAppleScriptが「as lowercase」をサポートしないため誤っていました。右のバージョンは「contains」を使用し、大文字小文字を区別せず、問題なく動作しました。

GPT-4oは動作するコードを提供したので、慎重ながら合格とします。しかし、2つの選択肢を返し、その1つが誤っていたため、どれが正しいかを評価するのに余計な作業が必要でした。それは自分でコードを書くのと同じくらい時間がかかったかもしれません。

これと以前のテストの総合結果は以下の通りです：

ChatGPT GPT-4o: 成功、ただし留保付き
Microsoft Copilot: 失敗
Meta AI: 失敗
Meta Code Llama: 失敗
Google Gemini Advanced: 成功
ChatGPT 4: 成功
ChatGPT 3.5: 失敗

総合結果

4つのテストにおける全モデルの結果は以下の通りです：

ChatGPT GPT-4o: 4/4成功、ただし1つの奇妙な二択回答あり
Microsoft Copilot: 0/4成功
Meta AI: 1/4成功
Meta Code Llama: 1/4成功
Google Gemini Advanced: 1/4成功
ChatGPT 4: 4/4成功
ChatGPT 3.5: 3/4成功

これまで、ChatGPTはコーディング支援の主力でした。いつも期待に応えてくれます（そうでない場合を除く）。他のAIは私のテストでほとんど失敗しました。しかし、GPT-4oは最後の二択回答で予想外の展開を見せました。このモデル内で何が起こっているのか、なぜそのような不具合が生じたのか疑問に思います。

それでも、GPT-4oは私のコーディングテストで最高のパフォーマーなので、その癖に慣れるために使い続けるでしょう。あるいは、ChatGPT PlusのGPT-3.5やGPT-4に戻るかもしれません。次にChatGPTがモデルを更新したら、4つのテストすべてで正しい回答を一貫して選べるか再テストします。続報をお楽しみに。

これらのAIモデルでコーディングを試したことがありますか？あなたの経験はどうでしたか？以下のコメントで教えてください。

マスク氏の「Grok」：1.5兆のパラメータとカーソルコードの統合――ゲームチェンジャーか、それともブラフか？イーロン・マスクがついに動き出した。AI開発競争において、OpenAIとAnthropicは加速している一方、xAIは出遅れているようだ。マスクはたびたび「Claude」に対抗する意向を表明してきたが、Grok4.Xシリーズへの度重なるアップデートにもかかわらず、結果は理論上は良好に見えても実用面では不十分であり、その差はほとんど縮まっていない。しかし、今回、彼には新たな切り札がある。マスクはX（

OpenAI、アルトマン氏の解任を困難にするため、密かに定款を変更 2023年のクーデターのような事態を受けて、OpenAIは定款を改定し、サム・アルトマンCEOに対する保護措置をさらに強化した。最近公開された裁判文書によると、アルトマン氏の地位は今や揺るぎないものとなっており、外部からの干渉や、取締役会による解任の動きに対する障壁が大幅に高まっている。イーロン・マスクがOpenAIを相手取った訴訟における専門家証人は、これらの変更が同社が営利モデルへ移行する過程

Meta AIがFacebookマーケットプレイスでの購入者からのメッセージに対応するようになりました Facebookは木曜日、Facebook Marketplaceに、購入者からの問い合わせへの自動返信を含む新たなMeta AI機能を導入すると発表した。同プラットフォームでは、AIを活用して出品手続きの迅速化や出品者プロフィールの要約を行うほか、出品者が商品ページで配送オプションを提供できるようになった。出品者は購入者からの問い合わせを頻繁に受けるため、FacebookはMeta AIを活用し

関連特集おすすめ

生産性

AIパーソナルウェルネス＆集中力コーチ：バーンアウトの予防とメンタルエネルギーの向上

XIX.AIで、2026年最高のAIパーソナルウェルネス＆集中力向上ツールをご紹介。厳選されたランキングでは、バーンアウトの解消やメンタルエネルギーの向上に役立つ、高評価で画期的なツールを取り上げています。実際のユーザーの声をもとに、無料版と有料版の比較も可能です。今すぐ、最高の生産性とウェルビーイングへの道を開きましょう。

10 ツール

xix.ai

チャットボット

高評価のAI恋愛チャットボット：一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール

xix.ai

教育と学習

最高のAIデータサイエンスメンター：SQL、Pandas、および機械学習ワークフローをマスターしましょう

2026年に最も優れたAIデータサイエンスのメンターを探して、SQL、Pandas、およびMLワークフローをマスターしましょう。XIX.AIで評価の高い厳選されたメンターたちの指導を受けて、力強く、革新的なアドバイスを得てください。無料オプションと有料オプションを実世界の視点から比較しましょう。今日すぐにデータサイエンスのスキルを向上させましょう。

10 ツール

xix.ai

チャットボット

最高のAIを使ったナンパ＆会話トレーニング：社交的な魅力と自信をリアルタイムで高める

XIX.AIで、2026年最高のAIを使った口説き術・会話トレーニングツールを発見しましょう。厳選された高評価のツールが、リアルタイムで社交的な魅力と自信を築くお手伝いをします。無料版と有料版の比較や毎週更新されるランキングを参考に、ぜひ試すべき画期的なツールを探してみてください。今すぐ、あなたの社交力を引き出しましょう。

10 ツール

xix.ai

コード

自動化ユニットテストに最適なAIツール：ワンクリックでJest、PyTest、JUnitのテストケースを生成する

2026年に登場した、自動化ユニットテスト用の最高評価を受けたAIツールを発見してください。当社が厳選したこれらのツールは、Jest、PyTest、JUnitのテストケースを瞬時に生成するための強力で革新的なソリューションです。XIX.AIでは、無料オプションと有料オプションを実際のテストデータと共に比較し、毎週更新されるランキングもご覧いただけます。今すぐAIの力を活用して、開発生産性を向上させましょう。

10 ツール

xix.ai

データ分析

最高のAIデータ可視化ツール：生データからインタラクティブなBIダッシュボードを自動生成

XIX.AIで、2026年最高のAIデータ可視化ツールをご覧ください。厳選された高評価のツール群を活用すれば、生データから強力でインタラクティブなBIダッシュボードを瞬時に自動生成できます。実環境でのテスト結果や毎週更新されるランキングをもとに、無料版と有料版の比較も可能です。今すぐデータの可能性を引き出しましょう。

10 ツール

xix.ai

コメント (22)

0/500

最初にログインしてください

RoyMartínez

2026年5月1日 11:01:09 JST

GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.

PaulYoung

2026年3月15日 9:00:58 JST

Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔

JonathanAllen

2025年4月26日 20:46:22 JST

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris

2025年4月26日 3:21:39 JST

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález

2025年4月24日 20:41:59 JST

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました！しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに！🤔

JustinAnderson

2025年4月23日 14:12:28 JST

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

トップニュース

AI BuilderとPower Automateがドキュメントの要約を革新 AIホストのNotebooklm Podcastのホストは、インタビューに利用できるようになりました中国、国家ヒューマノイドロボット及び具現化された知能の基準を発表企業のAI導入は頭打ち、ランプのデータで明らかに Bing Image Creator チュートリアル: AIアート生成ガイドあなたの声を使用してAIミュージックを作成することを学ぶ：ステップバイステップSunoチュートリアル iMyFone MagicMic：リアルタイムAIボイスチェンジャーのレビューとチュートリアル 2025年トップAIビデオジェネレーター：Pika Labs vs 代替案 DeepSeek V4、マルチモーダルAIのゲームチェンジャーとして登場エンボディッド・インテリジェンス、無秩序な拡大を抑制するための初の業界標準を発表

もっと

特集