Claude 3.5 Sonnetは、chatgptが支配するAIコーディングテストで創造的に苦労しています
Anthropicの新しいClaude 3.5ソネットの機能をテストします
先週、Claude 3.5 Sonnetのリリースを発表する人類からメールを受け取りました。彼らは、「幅広い評価でインテリジェンス、競合他社モデル、クロード3オプスを上回るための業界のバーを引き上げる」と自慢しました。彼らはまた、コード生成などの複雑なタスクに最適であると主張しました。当然、私はこれらの主張をテストに入れなければなりませんでした。
さまざまなAIで一連のコーディングテストを実行しましたが、あなたもできます。 AI Chatbotのコーディング機能のテスト方法に移動してください。すべての詳細を見つけることもできます。 Claude 3.5 Sonnetが標準テストに対してどのように実行されたかに飛び込み、Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced、ChatGptなどの他のAISとどのように積み重なっているかを見てみましょう。
1。WordPressプラグインを書きます
当初、Claude 3.5 Sonnetは多くの約束を示しました。生成されたユーザーインターフェイスは印象的で、私がテストしたAIの中で初めてデータフィールドを並べて配置するクリーンなレイアウトがありました。
David Gewirtz/Zdnetのスクリーンショット
私の注意を引いたのは、クロードがコード生成にどのようにアプローチしたかでした。 PHP、JavaScript、およびCSS用の通常の個別のファイルの代わりに、JavaScriptとCSSファイルをプラグインのディレクトリに自動生成した単一のPHPファイルを提供しました。これは革新的なアプローチでしたが、Pluginが独自のフォルダーに書き込むことができるOS設定に依存するため、リスクがあります。これは、生産環境での主要なセキュリティ欠陥です。
残念ながら、創造的なソリューションにもかかわらず、プラグインは機能しませんでした。 「ランダム化」ボタンは何もしませんでしたが、最初の約束を考えると残念でした。
以前のテストと比較した集計結果は次のとおりです。
- Claude 3.5ソネット:インターフェイス:良好、機能:失敗
- chatgpt gpt-4o:interface:good、functionality:good
- Microsoft Copilot:Interface:適切、機能:失敗
- メタAI:インターフェイス:適切な、機能:失敗
- メタコードラマ:完全な障害
- Google Gemini Advanced:Interface:Good、機能性:失敗
- ChatGpt 4:インターフェイス:良い、機能:良い
- ChatGpt 3.5:インターフェイス:良い、機能:良い
2。文字列関数の書き換え
このテストでは、AIがコードを書き換えて、この場合はドルとセントのコンバージョンについて特定のニーズを満たすことができるかを評価します。 Claude 3.5 Sonnetは、主要なゼロを削除し、整数とデシマを正しく処理し、負の値を防ぐために良い仕事をしました。また、予期しない入力のために「0」をスマートに返しました。これは、エラーを回避するのに役立ちます。
ただし、50セントの「.50」などのエントリを許可することができませんでした。これは要件でした。これは、改訂されたコードが実際のシナリオでは機能しないことを意味するため、失敗としてマークする必要があります。
これが集計結果です:
- クロード3.5ソネット:失敗
- chatgpt gpt-4o:成功しました
- Microsoft Copilot:失敗
- メタAI:失敗しました
- メタコードラマ:成功しました
- Google Gemini Advanced:失敗しました
- ChatGpt 4:成功しました
- ChatGpt 3.5:成功しました
3.迷惑なバグを見つける
このテストは、AIが特定のWordPressの知識を必要とする微妙なバグを見つける必要があるため、難しいです。それは私が自分自身を逃したバグであり、最初に解決するためにChatGptに頼らなければなりませんでした。
Claude 3.5ソネットは、バグを見つけて修正しただけでなく、公開プロセス中に導入されたエラーにも気付きました。これは、テストの完全なセットを公開して以来、私がテストしたAISの最初のものでした。
これが集計結果です:
- クロード3.5ソネット:成功しました
- chatgpt gpt-4o:成功しました
- Microsoft Copilot:失敗。壮大に。熱心に。絵文字。
- メタAI:成功しました
- メタコードラマ:失敗しました
- Google Gemini Advanced:失敗しました
- ChatGpt 4:成功しました
- ChatGpt 3.5:成功しました
これまでのところ、Claude 3.5 Sonnetは3つのテストのうち2つに失敗しました。最後のものでそれがどうなるか見てみましょう。
4。スクリプトを書く
このテストでは、ApplescriptやキーボードMaestroなどの専門的なプログラミングツールに関するAIの知識をチェックします。 ChatGptは両方で習熟度を示していましたが、Claude 3.5 Sonnetも同様ではありませんでした。 Chromeとの対話を試みたが、キーボードMaestroコンポーネントを完全に無視したApplescriptを書きました。
さらに、Applescriptには構文エラーが含まれていました。マッチをケースに無意識にしようとする際に、クロードはランタイムエラーを引き起こすラインを生成しました。
Thetabのタイトルが入力を無視している場合は、ケースを無視します
「contains」ステートメントはすでにケースに依存しないものであり、「無視するケース」フレーズは見当違いであり、その結果エラーが発生しました。
これが集計結果です:
- クロード3.5ソネット:失敗
- chatgpt gpt-4o:成功しましたが、予約があります
- Microsoft Copilot:失敗
- メタAI:失敗しました
- メタコードラマ:失敗しました
- Google Gemini Advanced:成功しました
- ChatGpt 4:成功しました
- ChatGpt 3.5:失敗しました
全体的な結果
Claude 3.5 Sonnetが他のAIと比較して全体でパフォーマンスを発揮する方法は次のとおりです。
- Claude 3.5ソネット:4人中1人が成功しました
- chatgpt gpt-4o:4つのうち4つが成功しましたが、1つの奇妙なデュアル選択回答で
- Microsoft Copilot:4つのうち0が成功しました
- メタAI:4人中1人が成功しました
- メタコードラマ:4つのうち1つが成功しました
- Google Gemini Advanced:4つのうち1つが成功しました
- ChatGpt 4:4のうち4つが成功しました
- ChatGpt 3.5:4のうち3つが成功しました
私はクロード3.5ソネットにかなり失望しました。人類は、プログラミングに適していると約束しましたが、それらの期待を満たしていませんでした。プログラムできないということではありません。正しくプログラムすることはできません。特にこれらのモデルがプログラミング環境に統合されるため、ChatGptを上回ることができるAIを見つけたいと考えています。しかし今のところ、私はプログラミングヘルプのためにChatGptに固執しています。同じことをすることをお勧めします。
プログラミングにAIを使用しましたか?どちら、そしてそれはどうでしたか?以下のコメントであなたの経験を共有してください。
ソーシャルメディアのプロジェクトの最新情報をフォローし、毎週のニュースレターを購読し、@davidgewirtzのTwitter/x、 facebook.com/davidgewirtzの@davidgewirtz、 instagram.com/davidgewirtzのInstagram、YouTubeのyoutubeでyoutubeの@davidgewirtzで接続します。
関連記事
DeepSeek AI挑战Chatgpt并塑造了AI的未来
DeepSeek AI的兴起:AI Landscapeart人工智能中的新篇章一直处于不断变化状态,新参与者每天都在挑战现状。其中,DeepSeek AI已成为著名的竞争者,尤其是在App Store下载中超过Chatgpt之后。这个mi
AI烹饪视频很容易使用Leonardo AI和Chatgpt创建
用YouTube和Tiktok等平台的配乐吸引人的烹饪内容来彻底改变烹饪视频,这并不一定像是一个永无止境的项目。得益于人工智能的进步,此过程变得更加容易。本指南将引导您浏览最简单的方法
OpenAI推出ChatGPT深度研究工具的轻量版
OpenAI正在推出其ChatGPT深度研究工具的一个“轻量级”版本,旨在浏览网络并编制各种主题的研究报告。这一令人兴奋的更新现已面向ChatGPT Plus、团队和专业用户开放,公司于周四宣布了这一消息。但不仅如此——从今天起,即使是免费的ChatGPT用户也可以参与进来!新的轻量级深度研究工具由OpenAI的o4-mini模型版本提供支持。虽然它可能不像
コメント (5)
0/200
ScottMitchell
2025年5月5日 0:00:00 GMT
Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!
0
StevenNelson
2025年5月5日 0:00:00 GMT
クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?
0
HaroldLopez
2025年5月5日 0:00:00 GMT
클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!
0
JamesMiller
2025年5月5日 0:00:00 GMT
Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!
0
SebastianAnderson
2025年5月5日 0:00:00 GMT
Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!
0
Anthropicの新しいClaude 3.5ソネットの機能をテストします
先週、Claude 3.5 Sonnetのリリースを発表する人類からメールを受け取りました。彼らは、「幅広い評価でインテリジェンス、競合他社モデル、クロード3オプスを上回るための業界のバーを引き上げる」と自慢しました。彼らはまた、コード生成などの複雑なタスクに最適であると主張しました。当然、私はこれらの主張をテストに入れなければなりませんでした。
さまざまなAIで一連のコーディングテストを実行しましたが、あなたもできます。 AI Chatbotのコーディング機能のテスト方法に移動してください。すべての詳細を見つけることもできます。 Claude 3.5 Sonnetが標準テストに対してどのように実行されたかに飛び込み、Microsoft Copilot、Meta AI、Meta Code Llama、Google Gemini Advanced、ChatGptなどの他のAISとどのように積み重なっているかを見てみましょう。
1。WordPressプラグインを書きます
当初、Claude 3.5 Sonnetは多くの約束を示しました。生成されたユーザーインターフェイスは印象的で、私がテストしたAIの中で初めてデータフィールドを並べて配置するクリーンなレイアウトがありました。
David Gewirtz/Zdnetのスクリーンショット
私の注意を引いたのは、クロードがコード生成にどのようにアプローチしたかでした。 PHP、JavaScript、およびCSS用の通常の個別のファイルの代わりに、JavaScriptとCSSファイルをプラグインのディレクトリに自動生成した単一のPHPファイルを提供しました。これは革新的なアプローチでしたが、Pluginが独自のフォルダーに書き込むことができるOS設定に依存するため、リスクがあります。これは、生産環境での主要なセキュリティ欠陥です。
残念ながら、創造的なソリューションにもかかわらず、プラグインは機能しませんでした。 「ランダム化」ボタンは何もしませんでしたが、最初の約束を考えると残念でした。
以前のテストと比較した集計結果は次のとおりです。
- Claude 3.5ソネット:インターフェイス:良好、機能:失敗
- chatgpt gpt-4o:interface:good、functionality:good
- Microsoft Copilot:Interface:適切、機能:失敗
- メタAI:インターフェイス:適切な、機能:失敗
- メタコードラマ:完全な障害
- Google Gemini Advanced:Interface:Good、機能性:失敗
- ChatGpt 4:インターフェイス:良い、機能:良い
- ChatGpt 3.5:インターフェイス:良い、機能:良い
2。文字列関数の書き換え
このテストでは、AIがコードを書き換えて、この場合はドルとセントのコンバージョンについて特定のニーズを満たすことができるかを評価します。 Claude 3.5 Sonnetは、主要なゼロを削除し、整数とデシマを正しく処理し、負の値を防ぐために良い仕事をしました。また、予期しない入力のために「0」をスマートに返しました。これは、エラーを回避するのに役立ちます。
ただし、50セントの「.50」などのエントリを許可することができませんでした。これは要件でした。これは、改訂されたコードが実際のシナリオでは機能しないことを意味するため、失敗としてマークする必要があります。
これが集計結果です:
- クロード3.5ソネット:失敗
- chatgpt gpt-4o:成功しました
- Microsoft Copilot:失敗
- メタAI:失敗しました
- メタコードラマ:成功しました
- Google Gemini Advanced:失敗しました
- ChatGpt 4:成功しました
- ChatGpt 3.5:成功しました
3.迷惑なバグを見つける
このテストは、AIが特定のWordPressの知識を必要とする微妙なバグを見つける必要があるため、難しいです。それは私が自分自身を逃したバグであり、最初に解決するためにChatGptに頼らなければなりませんでした。
Claude 3.5ソネットは、バグを見つけて修正しただけでなく、公開プロセス中に導入されたエラーにも気付きました。これは、テストの完全なセットを公開して以来、私がテストしたAISの最初のものでした。
これが集計結果です:
- クロード3.5ソネット:成功しました
- chatgpt gpt-4o:成功しました
- Microsoft Copilot:失敗。壮大に。熱心に。絵文字。
- メタAI:成功しました
- メタコードラマ:失敗しました
- Google Gemini Advanced:失敗しました
- ChatGpt 4:成功しました
- ChatGpt 3.5:成功しました
これまでのところ、Claude 3.5 Sonnetは3つのテストのうち2つに失敗しました。最後のものでそれがどうなるか見てみましょう。
4。スクリプトを書く
このテストでは、ApplescriptやキーボードMaestroなどの専門的なプログラミングツールに関するAIの知識をチェックします。 ChatGptは両方で習熟度を示していましたが、Claude 3.5 Sonnetも同様ではありませんでした。 Chromeとの対話を試みたが、キーボードMaestroコンポーネントを完全に無視したApplescriptを書きました。
さらに、Applescriptには構文エラーが含まれていました。マッチをケースに無意識にしようとする際に、クロードはランタイムエラーを引き起こすラインを生成しました。
Thetabのタイトルが入力を無視している場合は、ケースを無視します
「contains」ステートメントはすでにケースに依存しないものであり、「無視するケース」フレーズは見当違いであり、その結果エラーが発生しました。
これが集計結果です:
- クロード3.5ソネット:失敗
- chatgpt gpt-4o:成功しましたが、予約があります
- Microsoft Copilot:失敗
- メタAI:失敗しました
- メタコードラマ:失敗しました
- Google Gemini Advanced:成功しました
- ChatGpt 4:成功しました
- ChatGpt 3.5:失敗しました
全体的な結果
Claude 3.5 Sonnetが他のAIと比較して全体でパフォーマンスを発揮する方法は次のとおりです。
- Claude 3.5ソネット:4人中1人が成功しました
- chatgpt gpt-4o:4つのうち4つが成功しましたが、1つの奇妙なデュアル選択回答で
- Microsoft Copilot:4つのうち0が成功しました
- メタAI:4人中1人が成功しました
- メタコードラマ:4つのうち1つが成功しました
- Google Gemini Advanced:4つのうち1つが成功しました
- ChatGpt 4:4のうち4つが成功しました
- ChatGpt 3.5:4のうち3つが成功しました
私はクロード3.5ソネットにかなり失望しました。人類は、プログラミングに適していると約束しましたが、それらの期待を満たしていませんでした。プログラムできないということではありません。正しくプログラムすることはできません。特にこれらのモデルがプログラミング環境に統合されるため、ChatGptを上回ることができるAIを見つけたいと考えています。しかし今のところ、私はプログラミングヘルプのためにChatGptに固執しています。同じことをすることをお勧めします。
プログラミングにAIを使用しましたか?どちら、そしてそれはどうでしたか?以下のコメントであなたの経験を共有してください。
ソーシャルメディアのプロジェクトの最新情報をフォローし、毎週のニュースレターを購読し、@davidgewirtzのTwitter/x、 facebook.com/davidgewirtzの@davidgewirtz、 instagram.com/davidgewirtzのInstagram、YouTubeのyoutubeでyoutubeの@davidgewirtzで接続します。




Claude 3.5 Sonnet is pretty good, but it's no match for ChatGPT in coding tests. It's like bringing a knife to a gunfight! 😂 Still, it's an improvement over the last version, so kudos to Anthropic for trying to keep up. Maybe next time, they'll surprise us!




クロード3.5ソネットはコードテストではChatGPTにかなわないですね。まるでナイフを持って銃撃戦に挑むようなものです!😂 でも、前バージョンよりは改善されているので、アントロピックの努力には敬意を表します。次回は驚かせてくれるかも?




클로드 3.5 소넷은 코드 테스트에서 ChatGPT에 비해 많이 부족해요. 마치 칼을 들고 총격전에 나서는 느낌이죠! 😂 그래도 이전 버전보다는 나아졌으니, 앤트로픽의 노력에 박수를 보냅니다. 다음에는 놀라게 해줄지 모르겠네요!




Claude 3.5 Sonnet é bom, mas não chega aos pés do ChatGPT em testes de codificação. É como levar uma faca para uma batalha de armas! 😂 Ainda assim, é uma melhoria em relação à versão anterior, então parabéns à Anthropic por tentar acompanhar. Talvez da próxima vez eles nos surpreendam!




Claude 3.5 Sonnet está bien, pero no puede competir con ChatGPT en pruebas de codificación. ¡Es como llevar un cuchillo a un tiroteo! 😂 Sin embargo, es una mejora respecto a la versión anterior, así que felicidades a Anthropic por intentarlo. ¡Quizás la próxima vez nos sorprendan!












