オプション
ニュース
DeepseekのR1およびV3コーディングスキルをテストしました:私たちはまだ運命づけられていません

DeepseekのR1およびV3コーディングスキルをテストしました:私たちはまだ運命づけられていません

2025年4月17日
117

DeepSeekの紹介:AIアリーナの新参者

DeepSeekは週末に突如登場し、3つの魅力的な理由で世界中の注目を集めました:

  • 中国発のAIチャットボットで、通常の米国発の製品とは一線を画しています。
  • オープンソースであり、テックコミュニティにとって大きな意味を持ちます。
  • 重量級の競合他社よりも大幅に少ないインフラで動作し、多くの人にとって魅力的な選択肢となっています。

米国政府がTikTokやそのコードに中国政府が関与している可能性について厳しい監視を行っている中、DeepSeekが中国から登場したことで当然注目が集まっています。ただし、ここでは政治には触れません。代わりに、DeepSeek V3とDeepSeek R1がコーディングタスクで他のAIモデルとどのように競合するかを見ていきましょう。

DeepSeek自身のガイダンスによると:

  • 複雑な数学問題の解決や複雑なコード生成など、深さと正確さが求められるタスクにはV3を選びましょう。
  • カスタマーサポートの自動化や基本的なテキスト処理など、迅速で大量のアプリケーションが必要な場合はR1を選びましょう。

チャットインターフェースの小さなボタンでR1とV3を切り替えることができます。ボタンが青い場合はR1を使用しています。

David Gewirtz/ZDNETによるスクリーンショット

David Gewirtz/ZDNETによるスクリーンショット

では、結果はどうだったでしょうか?両モデルとも有望な結果を示しましたが、完璧ではありませんでした。結果を探ってみましょう。

テスト1:WordPressプラグインの作成

妻がオンライングループ用の参加デバイスを管理するWordPressプラグインを必要としていたことにインスパイアされた最初のテストは、クラシックなものでした。プラグインは名前のリストを受け取り、並べ替え、重複が隣り合わないようにする必要がありました。この課題は多くのAIに投げかけてきましたが、難しいものです。

David Gewirtz/ZDNETによるスクリーンショット

David Gewirtz/ZDNETによるスクリーンショット

DeepSeek V3は完璧にクリアし、要件を完全に満たすユーザーインターフェースとプログラムロジックを作成しました。R1は異なるアプローチを取り、コードを共有する前に4502語もの分析を提供しました。UIはより広範でしたが、UIもロジックも機能したため、R1も合格しました。

David Gewirtz/ZDNETによるスクリーンショット

David Gewirtz/ZDNETによるスクリーンショット

David Gewirtz/ZDNETによるスクリーンショット

David Gewirtz/ZDNETによるスクリーンショット

これまでのところ、V3とR1は4つのテストのうち1つを合格しました。

テスト2:文字列関数の書き換え

ユーザーが寄付フィールドにドルとセントを入力するのに問題があり、元のコードではそれが許可されていませんでした。タスクは両方を許可するようにルーチンを変更することでした。DeepSeekは機能するコードを生成しましたが、改善の余地があります。

V3のコードは長すぎて繰り返しが多く、R1のコード生成前の推論も長かったです。両モデルとも小数点以下2桁まで検証しましたが、非常に大きな数値の処理は得意ではありませんでした。R1がJavaScriptのNumber変換を使用し、エッジケースをチェックしなかったため、クラッシュする可能性があります。

興味深いことに、R1はテストケースの優れたリストを提供しました:

David Gewirtz/ZDNETによるスクリーンショット

David Gewirtz/ZDNETによるスクリーンショット

V3はコードがクラッシュせず、期待通りの結果を出すため、ポイントを獲得します。R1は非文字列入力によるクラッシュの可能性があるため失敗です。これでV3は4つのテスト中2勝、R1は1勝です。

テスト3:厄介なバグの追跡

このテストは私が苦労して見つけたバグに由来します。エラーメッセージに基づく明らかな答えが間違っており、AIをしばしば騙します。解決にはWordPress APIコールを理解し、エラーメッセージを越えて見て、バグを特定する必要があります。

V3とR1はほぼ同じ答えでこのテストに合格し、V3は4つのテスト中3勝、R1は2勝となりました。DeepSeekはすでにGemini、Copilot、Claude、Metaを上回っています。

テスト4:スクリプトの作成

このテストは、AppleScript、Chromeオブジェクトモデル、Keyboard Maestroの3つの環境が関わるため難しいです。ChatGPTはこれを完璧にこなしましたが、DeepSeek V3とR1は不十分でした。どちらのモデルもKeyboard MaestroとChromeのタスク分割の必要性を理解せず、AppleScriptの知識も弱かったです。

R1は、フロントウィンドウが常に存在し、実行中のプログラムが常にChromeであるという誤った前提を立てました。これにより、V3は3つのテストに合格し1つ失敗、R1は2つのテストに合格し2つ失敗しました。

最終的な感想

DeepSeekがGmailのようなパブリッククラウドメールを使用することを強制し、企業ドメインを認めなかったのは苛立たしいものでした。テストに予想以上の時間がかかる応答性の問題もありました。

当初、このエラーでサインアップに苦労しました:

DeepSeekのオンラインサービスは最近、大規模な悪意ある攻撃に直面しています。サービスの継続を確保するため、登録は一時的に+86の電話番号に制限されています。既存のユーザーは通常通りログインできます。ご理解とご支援に感謝します。

ログイン後、テストを実行できました。DeepSeekのコードは冗長な傾向があります。テスト4のAppleScriptは不正確で不必要に長かったです。テスト2の正規表現はもっとメンテナンスしやすかったはずですが、V3は正しく処理しました。

V3がGemini、Copilot、Metaを上回ったのは印象的ですが、旧GPT-3.5レベルにとどまっており、成長の余地があります。R1のパフォーマンスは失望でした。選択肢があるなら、プログラミングの助けにはChatGPTを選びます。

それでも、はるかに少ないインフラで動作する新しいツールとして、DeepSeekは注目すべき存在です。

あなたの意見はどうですか?DeepSeekを試しましたか?プログラミング支援にAIを使っていますか?以下のコメントで教えてください。

ソーシャルメディアで私の毎日のプロジェクト更新をフォローし、毎週のニュースレターを購読し、Twitter/Xの@DavidGewirtz、FacebookのFacebook.com/DavidGewirtz、InstagramのInstagram.com/DavidGewirtz、Blueskyの@DavidGewirtz.com、YouTubeのYouTube.com/DavidGewirtzTVで私とつながってください。

関連記事
AIがマイケル・ジャクソンをメタバースで再構築、驚異的なデジタル変換を実現 AIがマイケル・ジャクソンをメタバースで再構築、驚異的なデジタル変換を実現 人工知能は、創造性、エンターテインメント、文化的遺産に対する我々の理解を根本的に作り変えつつある。AIが生成したマイケル・ジャクソンの解釈を探求することで、最先端のテクノロジーが伝説的な文化人にいかに新たな命を吹き込むことができるかが明らかになる。スーパーヒーローの化身からファンタジーの世界の戦士まで、画期的な変身は、デジタル・アートと仮想世界体験の地平を広げながら、キング・オブ・ポップを再発明す
トレーニングはAIによる認知オフロード効果を軽減するか? トレーニングはAIによる認知オフロード効果を軽減するか? Unite.aiの最近の調査記事「ChatGPTはあなたの脳を消耗させているかもしれない:AI時代の認知負債」と題されたUnite.iの最近の調査記事で、MITの研究に光が当てられた。ジャーナリストのアレックス・マクファーランドは、過度のAI依存がいかに本質的な認知能力、特に批判的思考や判断力を蝕むかについて、説得力のある証拠を詳述した。これらの知見は他の多くの研究と一致しているが、現在の喫緊の課
AIを活用したグラフやビジュアライゼーションを簡単に作成し、より優れたデータインサイトを実現 AIを活用したグラフやビジュアライゼーションを簡単に作成し、より優れたデータインサイトを実現 現代のデータ分析では、複雑な情報を直感的に視覚化することが求められています。AIを活用したグラフ生成ソリューションは、生データを説得力のあるビジュアルストーリーに変換する専門家の方法に革命をもたらし、不可欠な資産として登場しました。これらのインテリジェントなシステムは、精度を保ちながら手作業によるグラフ作成を排除し、技術的なユーザーにもそうでないユーザーにも、自動化された視覚化を通じて実用的な洞察
コメント (13)
0/200
CarlCarter
CarlCarter 2025年9月6日 5:30:30 JST

DeepSeek这波操作有点东西啊!中国本土AI终于不再只擅长写诗和做饭了,居然在代码能力上也能和国外大模型掰手腕👏 不过开源这事...希望别过两天就变成'部分开源'吧😂

BruceGonzalez
BruceGonzalez 2025年8月25日 16:01:02 JST

DeepSeek's open-source approach is a game-changer! I'm stoked to see a Chinese AI shaking things up. The coding skills are solid, but I wonder how it’ll stack against giants like GPT in the long run. Exciting times! 🚀

JoseGonzalez
JoseGonzalez 2025年8月7日 15:33:00 JST

DeepSeek's open-source approach is super cool! It's wild to see a Chinese AI shaking up the game like this. I wonder how it'll stack up against ChatGPT in real-world coding tasks. Excited to try it out! 😄

ArthurSanchez
ArthurSanchez 2025年4月23日 17:48:34 JST

DeepSeek's R1 and V3 are pretty cool, but let's be real, they're not perfect. The coding skills are decent, but sometimes it feels like they're just guessing. Still, it's refreshing to see a new player from China in the AI space! Keep improving, DeepSeek! 👏

NicholasAdams
NicholasAdams 2025年4月23日 15:36:41 JST

DeepSeekのR1とV3はかなりクールですが、正直に言うと、完璧ではありません。コーディングのスキルはまあまあですが、時々ただ推測しているように感じます。それでも、中国からAIの新しいプレイヤーが登場するのは新鮮ですね!DeepSeek、改善を続けてください!👏

StephenGonzalez
StephenGonzalez 2025年4月21日 13:47:37 JST

DeepSeek's R1 and V3 are pretty cool, but they're not perfect. The coding skills are decent, but sometimes the responses are a bit off. Still, it's great to see a new player from China in the AI game. Keep improving, DeepSeek! 👀

トップに戻ります
OR