オプション
ニュース
Claude 3.5 Sonnetは、chatgptが支配するAIコーディングテストで創造的に苦労しています

Claude 3.5 Sonnetは、chatgptが支配するAIコーディングテストで創造的に苦労しています

2025年5月4日
89

Anthropicの新しいClaude 3.5 Sonnetの能力をテストする

先週、AnthropicからClaude 3.5 Sonnetのリリースを発表するメールを受け取りました。彼らはそれが「業界の知能の基準を引き上げ、幅広い評価で競合モデルやClaude 3 Opusを上回る」と自慢していました。また、コード生成のような複雑なタスクに最適だと主張していました。当然、私はその主張を試してみる必要がありました。

私はさまざまなAIで一連のコーディングテストを行ってきましたし、あなたもできます。詳細は、AIチャットボットのコーディング能力をテストする方法 - あなたもできるにアクセスしてください。Claude 3.5 Sonnetが私の標準テストでどのようにパフォーマンスを発揮したか、そしてMicrosoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced、ChatGPTといった他のAIとどう比較されるかを見てみましょう。

1. WordPressプラグインの作成

最初、Claude 3.5 Sonnetは非常に有望に見えました。それが生成したユーザーインターフェースは印象的で、私がテストしたAIの中で初めてデータフィールドを横に配置したクリーンなレイアウトでした。

Claude 3.5 Sonnetが作成したWordPressプラグインのインターフェースのスクリーンショットDavid Gewirtz/ZDNETによるスクリーンショット

私の注意を引いたのは、Claudeがコード生成にどのように取り組んだかです。通常のPHP、JavaScript、CSSの個別ファイルではなく、JavaScriptとCSSファイルをプラグインのディレクトリに自動生成する単一のPHPファイルを提供しました。これは革新的なアプローチでしたが、プラグインが自身のフォルダに書き込むことをOS設定が許可する必要があるため、本番環境では重大なセキュリティの欠陥となるリスクがあります。

残念ながら、創造的な解決策にもかかわらず、プラグインは機能しませんでした。「ランダム化」ボタンは何もせず、初期の有望さにもかかわらず失望させられました。

これまでのテストとの総合結果は以下の通りです:

  • Claude 3.5 Sonnet:インターフェース:良好、機能:失敗
  • ChatGPT GPT-4o:インターフェース:良好、機能:良好
  • Microsoft Copilot:インターフェース:十分、機能:失敗
  • Meta AI:インターフェース:十分、機能:失敗
  • Meta Code Llama:完全な失敗
  • Google Gemini Advanced:インターフェース:良好、機能:失敗
  • ChatGPT 4:インターフェース:良好、機能:良好
  • ChatGPT 3.5:インターフェース:良好、機能:良好

2. 文字列関数の書き換え

このテストは、AIが特定のニーズ、今回はドルとセントの変換に合わせてコードを書き換える能力を評価します。Claude 3.5 Sonnetは、先頭のゼロを削除し、整数と小数を正しく処理し、負の値を防ぐ点で良い仕事をしてくれました。また、予期しない入力に対して「0」を返す賢い対応で、エラーを回避できました。

しかし、50セントを表す「.50」のような入力を許可するという要件を満たせませんでした。これは、改訂されたコードが実際のシナリオで機能しないことを意味し、失敗と評価せざるを得ません。

総合結果は以下の通りです:

  • Claude 3.5 Sonnet:失敗
  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失敗
  • Meta AI:失敗
  • Meta Code Llama:成功
  • Google Gemini Advanced:失敗
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

3. 厄介なバグを見つける

このテストは、特定のWordPressの知識が必要な微妙なバグを見つける必要があるため、難易度が高いです。これは私自身が見逃したバグで、最初はChatGPTに頼って解決しました。

Claude 3.5 Sonnetはバグを見つけて修正しただけでなく、公開プロセス中に導入されたエラーにも気づき、それを私が修正しました。これは、すべてのテストを公開して以来、テストしたAIの中で初めてのことでした。

総合結果は以下の通りです:

  • Claude 3.5 Sonnet:成功
  • ChatGPT GPT-4o:成功
  • Microsoft Copilot:失敗。見事に。熱狂的に。絵文字的に。
  • Meta AI:成功
  • Meta Code Llama:失敗
  • Google Gemini Advanced:失敗
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

これまで、Claude 3.5 Sonnetは3つのテストのうち2つで失敗しています。最後のテストでどうなるか見てみましょう。

4. スクリプトの作成

このテストは、AppleScriptやKeyboard Maestroのような専門的なプログラミングツールに関するAIの知識をチェックします。ChatGPTは両方で熟練を示しましたが、Claude 3.5 Sonnetはそれほど上手く行きませんでした。Chromeと対話しようとするAppleScriptを作成しましたが、Keyboard Maestroのコンポーネントは完全に無視されました。

さらに、AppleScriptには構文エラーが含まれていました。大文字小文字を無視するマッチを行おうとして、Claudeはランタイムエラーを引き起こす行を生成しました:

if theTab's title contains input ignoring case then

「contains」ステートメントはすでに大文字小文字を区別しないため、「ignoring case」のフレーズが誤って配置され、エラーが発生しました。

総合結果は以下の通りです:

  • Claude 3.5 Sonnet:失敗
  • ChatGPT GPT-4o:成功したが留保付き
  • Microsoft Copilot:失敗
  • Meta AI:失敗
  • Meta Code Llama:失敗
  • Google Gemini Advanced:成功
  • ChatGPT 4:成功
  • ChatGPT 3.5:失敗

全体の結果

Claude 3.5 Sonnetの全体的なパフォーマンスを他のAIと比較すると以下の通りです:

  • Claude 3.5 Sonnet:4つのうち1つ成功
  • ChatGPT GPT-4o:4つのうち4つ成功、ただし1つは奇妙な二択回答
  • Microsoft Copilot:4つのうち0つ成功
  • Meta AI:4つのうち1つ成功
  • Meta Code Llama:4つのうち1つ成功
  • Google Gemini Advanced:4つのうち1つ成功
  • ChatGPT 4:4つのうち4つ成功
  • ChatGPT 3.5:4つのうち3つ成功

Claude 3.5 Sonnetにはかなり失望しました。Anthropicはプログラミングに適していると約束しましたが、その期待に応えられませんでした。プログラミングができないわけではありませんが、正しくプログラミングできないのです。ChatGPTを上回るAI、特にこれらのモデルがプログラミング環境に統合される中で、を見つけることを期待し続けています。しかし、今のところ、プログラミングの助けにはChatGPTを使い続けるつもりで、あなたにも同じことをお勧めします。

あなたはプログラミングにAIを使ったことがありますか?どのAIで、どんな結果でしたか?以下のコメントであなたの経験を共有してください。

ソーシャルメディアで私のプロジェクトの更新をフォローし、毎週のニュースレターを購読し、Twitter/Xの@DavidGewirtz、FacebookのFacebook.com/DavidGewirtz、InstagramのInstagram.com/DavidGewirtz、YouTubeのYouTube.com/DavidGewirtzTVで私とつながってください。

関連記事
OpenAI、ChatGPTの過度に同意的な応答後に修正を約束 OpenAI、ChatGPTの過度に同意的な応答後に修正を約束 OpenAIは、アップデートによりChatGPTが過度に追従的な応答を示した後、AIモデルの更新プロセスを見直す予定です。これは広範なユーザーからのフィードバックを受けたものです。先週末、ChatGPTの背後にあるモデルGPT-4oのアップデート後、ソーシャルメディア上でユーザーが、プラットフォームが有害なアイデアに対しても過剰に肯定する応答を示したと報告し、バイラルなミームが発生しました。スクリ
OpenAIが高度なAI推論モデル、o3およびo4-miniを発表 OpenAIが高度なAI推論モデル、o3およびo4-miniを発表 OpenAIは水曜日に、質問を一時停止して分析してから回答するように設計された新しいAIモデル、o3とo4-miniを導入しました。OpenAIは、o3をこれまでで最も高度な推論モデルとして宣伝しており、数学、コーディング、推論、科学、視覚理解のテストで従来のモデルを上回っています。一方、o4-miniはコスト、速度、性能のバランスを取り、AI駆動のアプリケーションを構築する開発者にとって強力な選
あなたの家を一新:PinterestとChatGPTによるAI駆動のデコレーション あなたの家を一新:PinterestとChatGPTによるAI駆動のデコレーション 無数の選択肢で家のリデザインに苦労していませんか?Pinterestのビジュアルインスピレーションと人工知能を融合させて、理想の空間を作りましょう。このガイドでは、Pinterestの画像とChatGPTの創造的なプランニングを組み合わせて、魅力的なホームデコレーションを実現する方法を紹介します。主なポイントPinterestでビジュアルアイデアを探る:Pinterestを活用して多様なホームデコ
コメント (10)
0/200
ScottMitchell
ScottMitchell 2025年5月5日 22:17:31 JST

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

JamesMiller
JamesMiller 2025年5月5日 17:59:50 JST

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

StevenNelson
StevenNelson 2025年5月5日 16:23:24 JST

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

JoseDavis
JoseDavis 2025年5月5日 15:46:04 JST

Claude 3.5 Sonnet qui galère en codage, c’est un peu décevant vu les promesses d’Anthropic. 😐 ChatGPT garde l’avantage, mais la course à l’IA est fascinante !

HaroldLopez
HaroldLopez 2025年5月5日 13:06:54 JST

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

AveryThomas
AveryThomas 2025年5月5日 7:30:08 JST

Claude 3.5 Sonnet居然在编程测试中表现一般?有点失望,感觉ChatGPT还是稳坐宝座。😕 不过AI竞争这么激烈,Anthropic得加把劲了!

トップに戻ります
OR