ニュース Claude 3.5 Sonnetは、chatgptが支配するAIコーディングテストで創造的に苦労しています

Claude 3.5 Sonnetは、chatgptが支配するAIコーディングテストで創造的に苦労しています

2025年5月3日
FrankWilliams
2

Anthropicの新しいClaude 3.5ソネットの機能をテストします

先週、Claude 3.5 Sonnetのリリースを発表する人類からメールを受け取りました。彼らは、「幅広い評価でインテリジェンス、競合他社モデル、クロード3オプスを上回るための業界のバーを引き上げる」と自慢しました。彼らはまた、コード生成などの複雑なタスクに最適であると主張しました。当然、私はこれらの主張をテストに入れなければなりませんでした。

さまざまなAIで一連のコーディングテストを実行しましたが、あなたもできます。 AI Chatbotのコーディング機能のテスト方法に移動してください。すべての詳細を見つけることもできます。 Claude 3.5 Sonnetが標準テストに対してどのように実行されたかに飛び込み、Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced、ChatGptなどの他のAISとどのように積み重なっているかを見てみましょう。

1。WordPressプラグインを書きます

当初、Claude 3.5 Sonnetは多くの約束を示しました。生成されたユーザーインターフェイスは印象的で、私がテストしたAIの中で初めてデータフィールドを並べて配置するクリーンなレイアウトがありました。

クロード3.5ソネットによって作成されたWordPressプラグインインターフェイスのスクリーンショット David Gewirtz/Zdnetのスクリーンショット

私の注意を引いたのは、クロードがコード生成にどのようにアプローチしたかでした。 PHP、JavaScript、およびCSS用の通常の個別のファイルの代わりに、JavaScriptとCSSファイルをプラグインのディレクトリに自動生成した単一のPHPファイルを提供しました。これは革新的なアプローチでしたが、Pluginが独自のフォルダーに書き込むことができるOS設定に依存するため、リスクがあります。これは、生産環境での主要なセキュリティ欠陥です。

残念ながら、創造的なソリューションにもかかわらず、プラグインは機能しませんでした。 「ランダム化」ボタンは何もしませんでしたが、最初の約束を考えると残念でした。

以前のテストと比較した集計結果は次のとおりです。

  • Claude 3.5ソネット:インターフェイス:良好、機能:失敗
  • chatgpt gpt-4o:interface:good、functionality:good
  • Microsoft Copilot:Interface:適切、機能:失敗
  • メタAI:インターフェイス:適切な、機能:失敗
  • メタコードラマ:完全な障害
  • Google Gemini Advanced:Interface:Good、機能性:失敗
  • ChatGpt 4:インターフェイス:良い、機能:良い
  • ChatGpt 3.5:インターフェイス:良い、機能:良い

2。文字列関数の書き換え

このテストでは、AIがコードを書き換えて、この場合はドルとセントのコンバージョンについて特定のニーズを満たすことができるかを評価します。 Claude 3.5 Sonnetは、主要なゼロを削除し、整数とデシマを正しく処理し、負の値を防ぐために良い仕事をしました。また、予期しない入力のために「0」をスマートに返しました。これは、エラーを回避するのに役立ちます。

ただし、50セントの「.50」などのエントリを許可することができませんでした。これは要件でした。これは、改訂されたコードが実際のシナリオでは機能しないことを意味するため、失敗としてマークする必要があります。

これが集計結果です:

  • クロード3.5ソネット:失敗
  • chatgpt gpt-4o:成功しました
  • Microsoft Copilot:失敗
  • メタAI:失敗しました
  • メタコードラマ:成功しました
  • Google Gemini Advanced:失敗しました
  • ChatGpt 4:成功しました
  • ChatGpt 3.5:成功しました

3.迷惑なバグを見つける

このテストは、AIが特定のWordPressの知識を必要とする微妙なバグを見つける必要があるため、難しいです。それは私が自分自身を逃したバグであり、最初に解決するためにChatGptに頼らなければなりませんでした。

Claude 3.5ソネットは、バグを見つけて修正しただけでなく、公開プロセス中に導入されたエラーにも気付きました。これは、テストの完全なセットを公開して以来、私がテストしたAISの最初のものでした。

これが集計結果です:

  • クロード3.5ソネット:成功しました
  • chatgpt gpt-4o:成功しました
  • Microsoft Copilot:失敗。壮大に。熱心に。絵文字。
  • メタAI:成功しました
  • メタコードラマ:失敗しました
  • Google Gemini Advanced:失敗しました
  • ChatGpt 4:成功しました
  • ChatGpt 3.5:成功しました

これまでのところ、Claude 3.5 Sonnetは3つのテストのうち2つに失敗しました。最後のものでそれがどうなるか見てみましょう。

4。スクリプトを書く

このテストでは、ApplescriptやキーボードMaestroなどの専門的なプログラミングツールに関するAIの知識をチェックします。 ChatGptは両方で習熟度を示していましたが、Claude 3.5 Sonnetも同様ではありませんでした。 Chromeとの対話を試みたが、キーボードMaestroコンポーネントを完全に無視したApplescriptを書きました。

さらに、Applescriptには構文エラーが含まれていました。マッチをケースに無意識にしようとする際に、クロードはランタイムエラーを引き起こすラインを生成しました。

Thetabのタイトルが入力を無視している場合は、ケースを無視します

「contains」ステートメントはすでにケースに依存しないものであり、「無視するケース」フレーズは見当違いであり、その結果エラーが発生しました。

これが集計結果です:

  • クロード3.5ソネット:失敗
  • chatgpt gpt-4o:成功しましたが、予約があります
  • Microsoft Copilot:失敗
  • メタAI:失敗しました
  • メタコードラマ:失敗しました
  • Google Gemini Advanced:成功しました
  • ChatGpt 4:成功しました
  • ChatGpt 3.5:失敗しました

全体的な結果

Claude 3.5 Sonnetが他のAIと比較して全体でパフォーマンスを発揮する方法は次のとおりです。

  • Claude 3.5ソネット:4人中1人が成功しました
  • chatgpt gpt-4o:4つのうち4つが成功しましたが、1つの奇妙なデュアル選択回答で
  • Microsoft Copilot:4つのうち0が成功しました
  • メタAI:4人中1人が成功しました
  • メタコードラマ:4つのうち1つが成功しました
  • Google Gemini Advanced:4つのうち1つが成功しました
  • ChatGpt 4:4のうち4つが成功しました
  • ChatGpt 3.5:4のうち3つが成功しました

私はクロード3.5ソネットにかなり失望しました。人類は、プログラミングに適していると約束しましたが、それらの期待を満たしていませんでした。プログラムできないということではありません。正しくプログラムすることはできません。特にこれらのモデルがプログラミング環境に統合されるため、ChatGptを上回ることができるAIを見つけたいと考えています。しかし今のところ、私はプログラミングヘルプのためにChatGptに固執しています。同じことをすることをお勧めします。

プログラミングにAIを使用しましたか?どちら、そしてそれはどうでしたか?以下のコメントであなたの経験を共有してください。

ソーシャルメディアのプロジェクトの最新情報をフォローし、毎週のニュースレターを購読し、@davidgewirtzのTwitter/x、 facebook.com/davidgewirtzの@davidgewirtz、 instagram.com/davidgewirtzのInstagram、YouTubeのyoutubeでyoutubeの@davidgewirtzで接続します。

関連記事
Open Deep Search arrives to challenge Perplexity and ChatGPT Search Open Deep Search arrives to challenge Perplexity and ChatGPT Search If you're in the tech world, you've likely heard about the buzz surrounding Open Deep Search (ODS), the new open-source framework from the Sentient Foundation. ODS is making waves by offering a robust alternative to proprietary AI search engines like Perplexity and ChatGPT Search, and it's all about
Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks Use ChatGPT to Craft a Superior Cover Letter: Tips and Tricks Creating a resume that perfectly summarizes your career is challenging enough, but job applications often require a cover letter as well. This letter is your chance to dive into the specifics of why you're interested in the company, what qualifies you for the position, and why you're the best candid
Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner Explore Earth Virtually: ChatGPT and Google Earth Vacation Planner Ever felt the urge to escape the daily grind but found yourself stumped on where to go? Let's dive into a cool way to plan your next getaway without even stepping outside your door. By harnessing the power of ChatGPT and Google Earth, you can embark on a virtual vacation that's both exciting and rel
コメント (0)
0/200
Back to Top
OR