オプション
ニュース
私はコーディングテストを介してGPT -4oを入れました、そしてそれはそれらを拡張しました - 1つの奇妙な結果を除いて

私はコーディングテストを介してGPT -4oを入れました、そしてそれはそれらを拡張しました - 1つの奇妙な結果を除いて

2025年4月17日
141

私はコーディングテストを介してGPT -4oを入れました、そしてそれはそれらを拡張しました -  1つの奇妙な結果を除いて

技術界をフォローしているなら、OpenAIが最新の大規模言語モデルGPT-4oをリリースしたことをご存知でしょう。"o"は"omni"を意味します。この新モデルはテキスト、グラフィック、音声での汎用性を約束し、私は標準のコーディングテストでその性能を試すのが待ちきれませんでした。これらのテストはさまざまなAIモデルに対して実行され、非常に興味深い結果が得られました。最後まで読んでください、驚くべき展開がありますよ。

自分で実験したい場合は、このガイドをチェックしてください:AIチャットボットのコーディング能力をテストする方法 - あなたもできます。私が使用するすべてのテストと、その仕組みや結果で何を見るべきかの詳細な説明が記載されています。

では、GPT-4oがMicrosoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced、ChatGPTの旧バージョンと比較してどうだったか、テストごとの結果を見ていきましょう。

1. WordPressプラグインの作成

GPT-4oのユーザーインターフェースを少し見てみましょう:

興味深いことに、GPT-4oはJavaScriptファイルを含め、両方のフィールドの行数を動的に更新しました。プロンプトでJavaScriptを明確に禁止していなかったため、この創造的なアプローチは予想外で効果的でした。JavaScriptはRandomizeボタンの機能も強化し、ページ全体をリフレッシュせずに複数の結果セットを可能にします。

行は正しく配置され、重複も仕様通りに適切に分離されていました。コードはしっかりしており、1つだけ小さな不満:Randomizeボタンが独立した行に配置されていなかった点ですが、プロンプトで指定していなかったので減点はありません。

これと以前のテストの総合結果は以下の通りです:

  • ChatGPT GPT-4o: インターフェース:良好、機能:良好
  • Microsoft Copilot: インターフェース:適切、機能:失敗
  • Meta AI: インターフェース:適切、機能:失敗
  • Meta Code Llama: 完全な失敗
  • Google Gemini Advanced: インターフェース:良好、機能:失敗
  • ChatGPT 4: インターフェース:良好、機能:良好
  • ChatGPT 3.5: インターフェース:良好、機能:良好

2. 文字列関数の書き換え

このテストは、ドルとセントの変換を扱うモデルの能力を評価します。GPT-4oは後続の行で問題を引き起こす可能性のある入力を拒否するコードを書き換え、有効なドルとセントの値のみが処理されるようにしました。

.75のような値に自動で0を付けて0.75に変換しなかった点には少し失望しました。しかし、この機能を明示的に要求していなかったので、AIのミスではありません。AIが機能的なコードを提供しても、正確なニーズを得るにはプロンプトを調整する必要があることを思い出させます。

これと以前のテストの総合結果は以下の通りです:

  • ChatGPT GPT-4o: 成功
  • Microsoft Copilot: 失敗
  • Meta AI: 失敗
  • Meta Code Llama: 成功
  • Google Gemini Advanced: 失敗
  • ChatGPT 4: 成功
  • ChatGPT 3.5: 成功

3. 厄介なバグの発見

このテストは、解決策がすぐには明らかでないため興味深いです。私自身がコーディング中にこのエラーで最初は困惑し、最初のChatGPTモデルに助けを求めました。それは即座にエラーを見つけ、当時としては驚くべきことでした。

対照的に、テストした他の3つのLLMはこの問題の誤った方向性を見逃しました。エラーメッセージはコードの1つの部分を指しますが、実際の問題は別の場所にあり、WordPressフレームワークの深い知識が必要です。

幸い、GPT-4oは問題を正確に特定し、修正方法を正確に説明しました。

これと以前のテストの総合結果は以下の通りです:

  • ChatGPT GPT-4o: 成功
  • Microsoft Copilot: 失敗。壮観に。熱心に。絵文字付きで。
  • Meta AI: 成功
  • Meta Code Llama: 失敗
  • Google Gemini Advanced: 失敗
  • ChatGPT 4: 成功
  • ChatGPT 3.5: 成功

これまでGPT-4oは3つすべてで成功しています。最後のテストでどうなるか見てみましょう。

4. スクリプトの作成

このテストに対し、GPT-4oは私が求めた以上のものを提供しました。テストでは、Keyboard Maestro、AppleのAppleScript、Chromeのスクリプト動作という珍しいMacスクリプティングツールを使用します。ちなみに、Keyboard Maestroは私にとって革新的で、OSやアプリケーションを再プログラムできるため、Macを生産性の主力にしています。

合格するには、Keyboard Maestroコード、AppleScript、Chrome API機能を組み合わせた解決策を正確に概要する必要があります。

驚くべきことに、GPT-4oは2つの異なるバージョンを提供しました:

両方のバージョンはKeyboard Maestroと正しく連携しましたが、大文字小文字の扱いが異なります。左のバージョンはAppleScriptが「as lowercase」をサポートしないため誤っていました。右のバージョンは「contains」を使用し、大文字小文字を区別せず、問題なく動作しました。

GPT-4oは動作するコードを提供したので、慎重ながら合格とします。しかし、2つの選択肢を返し、その1つが誤っていたため、どれが正しいかを評価するのに余計な作業が必要でした。それは自分でコードを書くのと同じくらい時間がかかったかもしれません。

これと以前のテストの総合結果は以下の通りです:

  • ChatGPT GPT-4o: 成功、ただし留保付き
  • Microsoft Copilot: 失敗
  • Meta AI: 失敗
  • Meta Code Llama: 失敗
  • Google Gemini Advanced: 成功
  • ChatGPT 4: 成功
  • ChatGPT 3.5: 失敗

総合結果

4つのテストにおける全モデルの結果は以下の通りです:

  • ChatGPT GPT-4o: 4/4成功、ただし1つの奇妙な二択回答あり
  • Microsoft Copilot: 0/4成功
  • Meta AI: 1/4成功
  • Meta Code Llama: 1/4成功
  • Google Gemini Advanced: 1/4成功
  • ChatGPT 4: 4/4成功
  • ChatGPT 3.5: 3/4成功

これまで、ChatGPTはコーディング支援の主力でした。いつも期待に応えてくれます(そうでない場合を除く)。他のAIは私のテストでほとんど失敗しました。しかし、GPT-4oは最後の二択回答で予想外の展開を見せました。このモデル内で何が起こっているのか、なぜそのような不具合が生じたのか疑問に思います。

それでも、GPT-4oは私のコーディングテストで最高のパフォーマーなので、その癖に慣れるために使い続けるでしょう。あるいは、ChatGPT PlusのGPT-3.5やGPT-4に戻るかもしれません。次にChatGPTがモデルを更新したら、4つのテストすべてで正しい回答を一貫して選べるか再テストします。続報をお楽しみに。

これらのAIモデルでコーディングを試したことがありますか?あなたの経験はどうでしたか?以下のコメントで教えてください。

関連記事
Meta AIがFacebookマーケットプレイスでの購入者からのメッセージに対応するようになりました Meta AIがFacebookマーケットプレイスでの購入者からのメッセージに対応するようになりました Facebookは木曜日、Facebook Marketplaceに、購入者からの問い合わせへの自動返信を含む新たなMeta AI機能を導入すると発表した。同プラットフォームでは、AIを活用して出品手続きの迅速化や出品者プロフィールの要約を行うほか、出品者が商品ページで配送オプションを提供できるようになった。出品者は購入者からの問い合わせを頻繁に受けるため、FacebookはMeta AIを活用し
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した 各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
Googleが「Gemini Notebooks」を発表、NotebookLMとパーソナルナレッジベースを統合 Googleが「Gemini Notebooks」を発表、NotebookLMとパーソナルナレッジベースを統合 Googleは先日、Gemini向けに「Notebooks」機能をリリースしました。これは、ユーザーがパーソナライズされたナレッジベースを作成することで、複雑なプロジェクトを管理しやすくすることを目的としています。このアップデートは、GeminiとAIリサーチアシスタント「NotebookLM」との間のデータギャップを埋めるものであり、Googleが閉ループAIワークフローの構築を目指す取り組みに
関連特集おすすめ
生産性 AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上
AIパーソナルウェルネス&集中力コーチ:バーンアウトの予防とメンタルエネルギーの向上

XIX.AIで、2026年最高のAIパーソナルウェルネス&集中力向上ツールをご紹介。厳選されたランキングでは、バーンアウトの解消やメンタルエネルギーの向上に役立つ、高評価で画期的なツールを取り上げています。実際のユーザーの声をもとに、無料版と有料版の比較も可能です。今すぐ、最高の生産性とウェルビーイングへの道を開きましょう。

10 ツール
xix.ai
チャットボット 高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く
高評価のAI恋愛チャットボット:一貫した個性で長期的な関係を築く

2026年版、本物の長期的なつながりを築くための、高評価のAI恋愛チャットボットをご紹介します。厳選されたリストには、魅力的で一貫性のあるキャラクター、無料版と有料版の比較、そして実地テストの結果が掲載されています。あなたにぴったりのパートナーを見つけて、今すぐXIX.AIで関係を築き始めましょう。

10 ツール
xix.ai
教育と学習 最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう
最高のAIデータサイエンスメンター:SQL、Pandas、および機械学習ワークフローをマスターしましょう

2026年に最も優れたAIデータサイエンスのメンターを探して、SQL、Pandas、およびMLワークフローをマスターしましょう。XIX.AIで評価の高い厳選されたメンターたちの指導を受けて、力強く、革新的なアドバイスを得てください。無料オプションと有料オプションを実世界の視点から比較しましょう。今日すぐにデータサイエンスのスキルを向上させましょう。

10 ツール
xix.ai
チャットボット 最高のAIを使ったナンパ&会話トレーニング:社交的な魅力と自信をリアルタイムで高める
最高のAIを使ったナンパ&会話トレーニング:社交的な魅力と自信をリアルタイムで高める

XIX.AIで、2026年最高のAIを使った口説き術・会話トレーニングツールを発見しましょう。厳選された高評価のツールが、リアルタイムで社交的な魅力と自信を築くお手伝いをします。無料版と有料版の比較や毎週更新されるランキングを参考に、ぜひ試すべき画期的なツールを探してみてください。今すぐ、あなたの社交力を引き出しましょう。

10 ツール
xix.ai
コード 自動化ユニットテストに最適なAIツール:ワンクリックでJest、PyTest、JUnitのテストケースを生成する
自動化ユニットテストに最適なAIツール:ワンクリックでJest、PyTest、JUnitのテストケースを生成する

2026年に登場した、自動化ユニットテスト用の最高評価を受けたAIツールを発見してください。当社が厳選したこれらのツールは、Jest、PyTest、JUnitのテストケースを瞬時に生成するための強力で革新的なソリューションです。XIX.AIでは、無料オプションと有料オプションを実際のテストデータと共に比較し、毎週更新されるランキングもご覧いただけます。今すぐAIの力を活用して、開発生産性を向上させましょう。

10 ツール
xix.ai
データ分析 最高のAIデータ可視化ツール:生データからインタラクティブなBIダッシュボードを自動生成
最高のAIデータ可視化ツール:生データからインタラクティブなBIダッシュボードを自動生成

XIX.AIで、2026年最高のAIデータ可視化ツールをご覧ください。厳選された高評価のツール群を活用すれば、生データから強力でインタラクティブなBIダッシュボードを瞬時に自動生成できます。実環境でのテスト結果や毎週更新されるランキングをもとに、無料版と有料版の比較も可能です。今すぐデータの可能性を引き出しましょう。

10 ツール
xix.ai
コメント (22)
0/500
RoyMartínez
RoyMartínez 2026年5月1日 11:01:09 JST

GPT-4o klingt beeindruckend, aber diese 'eine seltsame Ausnahme' macht mich neugierig. Was war das für ein seltsames Ergebnis? Vielleicht ein Hinweis darauf, dass KI bei bestimmten Logikaufgaben immer noch überraschend 'menschlich' scheitern kann? 🤔 Die Omni-Fähigkeiten sind cool, aber ich frage mich, wie stabil die Performance in allen Modi wirklich ist.

PaulYoung
PaulYoung 2026年3月15日 9:00:58 JST

Bon article ! Les tests de programmation sont toujours révélateurs. Je me demande s’il y a des biais selon les langages utilisés pour l'entraînement… Ou peut-être que c’est lié à la façon dont la requête est formulée ? 🤔

JonathanAllen
JonathanAllen 2025年4月26日 20:46:22 JST

GPT-4o é impressionante, passando na maioria dos meus testes de codificação! Mas aquele resultado estranho me deixou confuso. Ainda assim, é versátil em texto, gráficos e voz. Se ao menos pudesse explicar aquele resultado estranho, seria perfeito! 🤔

WillHarris
WillHarris 2025年4月26日 3:21:39 JST

GPT-4o thật ấn tượng, vượt qua hầu hết các bài kiểm tra mã hóa của tôi! Nhưng kết quả lạ đó làm tôi bối rối. Tuy nhiên, nó rất linh hoạt trong văn bản, đồ họa và giọng nói. Giá mà nó có thể giải thích kết quả lạ đó, thì sẽ hoàn hảo! 🤔

DonaldGonzález
DonaldGonzález 2025年4月24日 20:41:59 JST

GPT-4oは私のコードテストのほとんどを完璧にこなすので感動しました!しかし、その一つの奇妙な結果が気になりました。それでも、テキスト、グラフィック、音声での多様性は素晴らしいです。あの奇妙な結果を説明できれば完璧だったのに!🤔

JustinAnderson
JustinAnderson 2025年4月23日 14:12:28 JST

¡El GPT-4o me impresionó con sus habilidades de codificación! Pasó todos mis tests excepto por un resultado extraño que me dejó pensando. Su versatilidad en texto, gráficos y voz es genial! Pero ese fallo, hay que arreglarlo, OpenAI! 😎

OR