オプション
ニュース
Claude 3.5 Sonnetは、chatgptが支配するAIコーディングテストで創造的に苦労しています

Claude 3.5 Sonnetは、chatgptが支配するAIコーディングテストで創造的に苦労しています

2025年5月4日
66

Anthropicの新しいClaude 3.5ソネットの機能をテストします

先週、Claude 3.5 Sonnetのリリースを発表する人類からメールを受け取りました。彼らは、「幅広い評価でインテリジェンス、競合他社モデル、クロード3オプスを上回るための業界のバーを引き上げる」と自慢しました。彼らはまた、コード生成などの複雑なタスクに最適であると主張しました。当然、私はこれらの主張をテストに入れなければなりませんでした。

さまざまなAIで一連のコーディングテストを実行しましたが、あなたもできます。 AI Chatbotのコーディング機能のテスト方法に移動してください。すべての詳細を見つけることもできます。 Claude 3.5 Sonnetが標準テストに対してどのように実行されたかに飛び込み、Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced、ChatGptなどの他のAISとどのように積み重なっているかを見てみましょう。

1。WordPressプラグインを書きます

当初、Claude 3.5 Sonnetは多くの約束を示しました。生成されたユーザーインターフェイスは印象的で、私がテストしたAIの中で初めてデータフィールドを並べて配置するクリーンなレイアウトがありました。

クロード3.5ソネットによって作成されたWordPressプラグインインターフェイスのスクリーンショット David Gewirtz/Zdnetのスクリーンショット

私の注意を引いたのは、クロードがコード生成にどのようにアプローチしたかでした。 PHP、JavaScript、およびCSS用の通常の個別のファイルの代わりに、JavaScriptとCSSファイルをプラグインのディレクトリに自動生成した単一のPHPファイルを提供しました。これは革新的なアプローチでしたが、Pluginが独自のフォルダーに書き込むことができるOS設定に依存するため、リスクがあります。これは、生産環境での主要なセキュリティ欠陥です。

残念ながら、創造的なソリューションにもかかわらず、プラグインは機能しませんでした。 「ランダム化」ボタンは何もしませんでしたが、最初の約束を考えると残念でした。

以前のテストと比較した集計結果は次のとおりです。

  • Claude 3.5ソネット:インターフェイス:良好、機能:失敗
  • chatgpt gpt-4o:interface:good、functionality:good
  • Microsoft Copilot:Interface:適切、機能:失敗
  • メタAI:インターフェイス:適切な、機能:失敗
  • メタコードラマ:完全な障害
  • Google Gemini Advanced:Interface:Good、機能性:失敗
  • ChatGpt 4:インターフェイス:良い、機能:良い
  • ChatGpt 3.5:インターフェイス:良い、機能:良い

2。文字列関数の書き換え

このテストでは、AIがコードを書き換えて、この場合はドルとセントのコンバージョンについて特定のニーズを満たすことができるかを評価します。 Claude 3.5 Sonnetは、主要なゼロを削除し、整数とデシマを正しく処理し、負の値を防ぐために良い仕事をしました。また、予期しない入力のために「0」をスマートに返しました。これは、エラーを回避するのに役立ちます。

ただし、50セントの「.50」などのエントリを許可することができませんでした。これは要件でした。これは、改訂されたコードが実際のシナリオでは機能しないことを意味するため、失敗としてマークする必要があります。

これが集計結果です:

  • クロード3.5ソネット:失敗
  • chatgpt gpt-4o:成功しました
  • Microsoft Copilot:失敗
  • メタAI:失敗しました
  • メタコードラマ:成功しました
  • Google Gemini Advanced:失敗しました
  • ChatGpt 4:成功しました
  • ChatGpt 3.5:成功しました

3.迷惑なバグを見つける

このテストは、AIが特定のWordPressの知識を必要とする微妙なバグを見つける必要があるため、難しいです。それは私が自分自身を逃したバグであり、最初に解決するためにChatGptに頼らなければなりませんでした。

Claude 3.5ソネットは、バグを見つけて修正しただけでなく、公開プロセス中に導入されたエラーにも気付きました。これは、テストの完全なセットを公開して以来、私がテストしたAISの最初のものでした。

これが集計結果です:

  • クロード3.5ソネット:成功しました
  • chatgpt gpt-4o:成功しました
  • Microsoft Copilot:失敗。壮大に。熱心に。絵文字。
  • メタAI:成功しました
  • メタコードラマ:失敗しました
  • Google Gemini Advanced:失敗しました
  • ChatGpt 4:成功しました
  • ChatGpt 3.5:成功しました

これまでのところ、Claude 3.5 Sonnetは3つのテストのうち2つに失敗しました。最後のものでそれがどうなるか見てみましょう。

4。スクリプトを書く

このテストでは、ApplescriptやキーボードMaestroなどの専門的なプログラミングツールに関するAIの知識をチェックします。 ChatGptは両方で習熟度を示していましたが、Claude 3.5 Sonnetも同様ではありませんでした。 Chromeとの対話を試みたが、キーボードMaestroコンポーネントを完全に無視したApplescriptを書きました。

さらに、Applescriptには構文エラーが含まれていました。マッチをケースに無意識にしようとする際に、クロードはランタイムエラーを引き起こすラインを生成しました。

Thetabのタイトルが入力を無視している場合は、ケースを無視します

「contains」ステートメントはすでにケースに依存しないものであり、「無視するケース」フレーズは見当違いであり、その結果エラーが発生しました。

これが集計結果です:

  • クロード3.5ソネット:失敗
  • chatgpt gpt-4o:成功しましたが、予約があります
  • Microsoft Copilot:失敗
  • メタAI:失敗しました
  • メタコードラマ:失敗しました
  • Google Gemini Advanced:成功しました
  • ChatGpt 4:成功しました
  • ChatGpt 3.5:失敗しました

全体的な結果

Claude 3.5 Sonnetが他のAIと比較して全体でパフォーマンスを発揮する方法は次のとおりです。

  • Claude 3.5ソネット:4人中1人が成功しました
  • chatgpt gpt-4o:4つのうち4つが成功しましたが、1つの奇妙なデュアル選択回答で
  • Microsoft Copilot:4つのうち0が成功しました
  • メタAI:4人中1人が成功しました
  • メタコードラマ:4つのうち1つが成功しました
  • Google Gemini Advanced:4つのうち1つが成功しました
  • ChatGpt 4:4のうち4つが成功しました
  • ChatGpt 3.5:4のうち3つが成功しました

私はクロード3.5ソネットにかなり失望しました。人類は、プログラミングに適していると約束しましたが、それらの期待を満たしていませんでした。プログラムできないということではありません。正しくプログラムすることはできません。特にこれらのモデルがプログラミング環境に統合されるため、ChatGptを上回ることができるAIを見つけたいと考えています。しかし今のところ、私はプログラミングヘルプのためにChatGptに固執しています。同じことをすることをお勧めします。

プログラミングにAIを使用しましたか?どちら、そしてそれはどうでしたか?以下のコメントであなたの経験を共有してください。

ソーシャルメディアのプロジェクトの最新情報をフォローし、毎週のニュースレターを購読し、@davidgewirtzのTwitter/x、 facebook.com/davidgewirtzの@davidgewirtz、 instagram.com/davidgewirtzのInstagram、YouTubeのyoutubeでyoutubeの@davidgewirtzで接続します。

関連記事
DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI挑战Chatgpt并塑造了AI的未来 DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 AI烹饪视频很容易使用Leonardo AI和Chatgpt创建 用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI推出ChatGPT深度研究工具的轻量版 OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
コメント (5)
0/200
ScottMitchell
ScottMitchell 2025年5月5日 0:00:00 GMT

Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!

StevenNelson
StevenNelson 2025年5月5日 0:00:00 GMT

クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?

HaroldLopez
HaroldLopez 2025年5月5日 0:00:00 GMT

클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!

JamesMiller
JamesMiller 2025年5月5日 0:00:00 GMT

Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!

SebastianAnderson
SebastianAnderson 2025年5月5日 0:00:00 GMT

Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!

トップに戻ります
OR