OpenAIのCodex、新たな自律型AIコーディング支援ツールの潮流に参入

OpenAIは先週金曜日に高度なコーディングシステム「Codex」を発表しました。これは自然言語による指示で複雑なプログラミングタスクを実行するもので、この革新によりOpenAIはソフトウェア開発を再構築する先駆的なエージェント型コーディングツールを提供する企業の仲間入りを果たしました。
GitHub Copilot、Cursor、Windsurfのような従来のAIコーディングアシスタントは、IDE内で高度なオートコンプリートとして機能しますが、これらの新興エージェント型ツールは、直接的なコード操作を排除します。現在の解決策は依然として自律的なタスク実行ではなく、開発者の監督を必要としています。
Devin、SWE-Agent、OpenHands、そしてOpenAI Codexによって開拓されたこの新世代は、背後で動作します。それらはエンジニアリングマネージャーのように機能します:AsanaやSlackなどのプラットフォームを通じてタスクを受け取り、生のコードを公開することなく完成したソリューションを届けるのです。
AI楽観主義者にとって、これはますます高度化するソフトウェアエンジニアリングのワークフローを自動化するという、必然的な進歩を意味します。
「プログラミングは、手動でのキーストロークからGitHub Copilotのインテリジェントなオートコンプリートへと進化しました」と、プリンストン大学およびSWE-AgentのKilian Lieretは指摘します。「私達は今、第3段階に入ろうとしています – コーディングエージェントが問題の記述を受け取った後、タスク全体を独立して処理する段階です」
エージェント型システムは、開発者環境を完全に迂回することを目指しています。「ワークフローを管理レベルに引き上げているのです」とLieretは説明します。「単にバグレポートを提出するだけで、自律エージェントが人間の介入なしに解決を試みます」
このビジョンにもかかわらず、実装上の課題は残されています。
TechCrunch Sessions: AIにご参加ください
OpenAI、Anthropic、Cohereの専門家が登場するプレミアAIカンファレンスへのパスを予約しましょう。限定オファー:基調講演、ワークショップ、ネットワーキングへの終日アクセスがたったの292ドルです。
TechCrunch Sessions: AIに出展しましょう
1,200人以上の業界リーダーが集まるTC Sessions: AIであなたのイノベーションを紹介しましょう。手頃な価格の展示スペースは、5月9日まで、または完売次第受付終了です。
Devinの2024年のローンチは、厳しいYouTubeでの批判とAnswer.AIからの慎重なフィードバックに直面し、一般的な懸念 – エラー率が自動化のメリットをしばしば帳消しにしてしまうこと – を echo しました。(ローンチの課題にもかかわらず、Cognition AIは40億ドルの評価額で4億ドルの資金調達に成功しました。)
業界の提唱者たちは人間による監督を重視し、コーディングエージェントを代替手段ではなく、監督下のワークフロー内の構成要素として位置付けています。
「現在のシステムには人間によるコードレビューが必要です」とAll Hands AIのRobert Brennanは述べています。「エージェントが生成したコードを盲目的に承認すると、技術的負債が急速に蓄積します」
幻覚(Hallucination)は依然として問題です。Brennanは、エージェントがその学習データを超えたAPI仕様をでっち上げた事例を引用しています。防止システムは開発中ですが、解決策は容易ではありません。
SWE-Benchリーダーボードは進捗を追跡し、実際のGitHubイシューに対してモデルを評価しています。OpenHandsが検証済み提出物で首位(65.8%解決)に立つ一方、OpenAIはCodexが72.1%を達成していると主張しています – 独立した検証は待たれます。
業界の懐疑論は、ベンチマークでのパフォーマンスが実用的な自律性に繋がるかどうかに集中しています。75%の成功率でも、特に多段階システムでは、相当量の人間の監督を依然として必要とします。
あらゆるAIツールと同様に、モデルの漸進的改善が、いつか信頼性の高いエージェント型システムをもたらすかもしれません。幻覚と信頼性のハードルを克服することが、採用には極めて重要です。
「我々は信頼の障壁に近づいています」とBrennanは観察します。「根本的な問いは、品質管理を維持しながら、どれだけのワークロードを安全に委任できるかということです」
関連記事
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
Googleが「Gemini Notebooks」を発表、NotebookLMとパーソナルナレッジベースを統合
Googleは先日、Gemini向けに「Notebooks」機能をリリースしました。これは、ユーザーがパーソナライズされたナレッジベースを作成することで、複雑なプロジェクトを管理しやすくすることを目的としています。このアップデートは、GeminiとAIリサーチアシスタント「NotebookLM」との間のデータギャップを埋めるものであり、Googleが閉ループAIワークフローの構築を目指す取り組みに
Luma AI、テキストとピクセルを同時に生成する自己回帰モデル「Uni-1」を発表
Luma Labsは3月23日、画像生成モデル「Uni-1」をリリースしました。これは、同社の「Unified Intelligence」アーキテクチャに基づいて構築された、初の一般公開モデルとなります。現在、公式サイトにて無料トライアルの提供が開始されており、APIの料金体系も発表されました。また、企業向けアクセスチャネルも順次展開される予定です。アーキテクチャの転換:拡散モデルから自己回帰モデ
関連特集おすすめ
コメント (0)
0/500

OpenAIは先週金曜日に高度なコーディングシステム「Codex」を発表しました。これは自然言語による指示で複雑なプログラミングタスクを実行するもので、この革新によりOpenAIはソフトウェア開発を再構築する先駆的なエージェント型コーディングツールを提供する企業の仲間入りを果たしました。
GitHub Copilot、Cursor、Windsurfのような従来のAIコーディングアシスタントは、IDE内で高度なオートコンプリートとして機能しますが、これらの新興エージェント型ツールは、直接的なコード操作を排除します。現在の解決策は依然として自律的なタスク実行ではなく、開発者の監督を必要としています。
Devin、SWE-Agent、OpenHands、そしてOpenAI Codexによって開拓されたこの新世代は、背後で動作します。それらはエンジニアリングマネージャーのように機能します:AsanaやSlackなどのプラットフォームを通じてタスクを受け取り、生のコードを公開することなく完成したソリューションを届けるのです。
AI楽観主義者にとって、これはますます高度化するソフトウェアエンジニアリングのワークフローを自動化するという、必然的な進歩を意味します。
「プログラミングは、手動でのキーストロークからGitHub Copilotのインテリジェントなオートコンプリートへと進化しました」と、プリンストン大学およびSWE-AgentのKilian Lieretは指摘します。「私達は今、第3段階に入ろうとしています – コーディングエージェントが問題の記述を受け取った後、タスク全体を独立して処理する段階です」
エージェント型システムは、開発者環境を完全に迂回することを目指しています。「ワークフローを管理レベルに引き上げているのです」とLieretは説明します。「単にバグレポートを提出するだけで、自律エージェントが人間の介入なしに解決を試みます」
このビジョンにもかかわらず、実装上の課題は残されています。
TechCrunch Sessions: AIにご参加ください
OpenAI、Anthropic、Cohereの専門家が登場するプレミアAIカンファレンスへのパスを予約しましょう。限定オファー:基調講演、ワークショップ、ネットワーキングへの終日アクセスがたったの292ドルです。
TechCrunch Sessions: AIに出展しましょう
1,200人以上の業界リーダーが集まるTC Sessions: AIであなたのイノベーションを紹介しましょう。手頃な価格の展示スペースは、5月9日まで、または完売次第受付終了です。
Devinの2024年のローンチは、厳しいYouTubeでの批判とAnswer.AIからの慎重なフィードバックに直面し、一般的な懸念 – エラー率が自動化のメリットをしばしば帳消しにしてしまうこと – を echo しました。(ローンチの課題にもかかわらず、Cognition AIは40億ドルの評価額で4億ドルの資金調達に成功しました。)
業界の提唱者たちは人間による監督を重視し、コーディングエージェントを代替手段ではなく、監督下のワークフロー内の構成要素として位置付けています。
「現在のシステムには人間によるコードレビューが必要です」とAll Hands AIのRobert Brennanは述べています。「エージェントが生成したコードを盲目的に承認すると、技術的負債が急速に蓄積します」
幻覚(Hallucination)は依然として問題です。Brennanは、エージェントがその学習データを超えたAPI仕様をでっち上げた事例を引用しています。防止システムは開発中ですが、解決策は容易ではありません。
SWE-Benchリーダーボードは進捗を追跡し、実際のGitHubイシューに対してモデルを評価しています。OpenHandsが検証済み提出物で首位(65.8%解決)に立つ一方、OpenAIはCodexが72.1%を達成していると主張しています – 独立した検証は待たれます。
業界の懐疑論は、ベンチマークでのパフォーマンスが実用的な自律性に繋がるかどうかに集中しています。75%の成功率でも、特に多段階システムでは、相当量の人間の監督を依然として必要とします。
あらゆるAIツールと同様に、モデルの漸進的改善が、いつか信頼性の高いエージェント型システムをもたらすかもしれません。幻覚と信頼性のハードルを克服することが、採用には極めて重要です。
「我々は信頼の障壁に近づいています」とBrennanは観察します。「根本的な問いは、品質管理を維持しながら、どれだけのワークロードを安全に委任できるかということです」
OpenAIは、公的基金、ロボット税、週4日勤務制を柱とするAI経済の構想を提示した
各国政府が超知能機械による経済的影響への対応に苦慮する中、OpenAIは「知能の時代」において富と労働がどのように再構築されるべきかを概説した一連の政策提言を発表した。その構想は、公的資産基金や社会安全網の拡充といった伝統的な左派的な仕組みと、根本的に資本主義的で市場主導型の経済枠組みとを融合させたものである。OpenAIの提案は本質的に「要望リスト」に相当し、人工知能が労働と経済を変革する中で、
Googleが「Gemini Notebooks」を発表、NotebookLMとパーソナルナレッジベースを統合
Googleは先日、Gemini向けに「Notebooks」機能をリリースしました。これは、ユーザーがパーソナライズされたナレッジベースを作成することで、複雑なプロジェクトを管理しやすくすることを目的としています。このアップデートは、GeminiとAIリサーチアシスタント「NotebookLM」との間のデータギャップを埋めるものであり、Googleが閉ループAIワークフローの構築を目指す取り組みに
Luma AI、テキストとピクセルを同時に生成する自己回帰モデル「Uni-1」を発表
Luma Labsは3月23日、画像生成モデル「Uni-1」をリリースしました。これは、同社の「Unified Intelligence」アーキテクチャに基づいて構築された、初の一般公開モデルとなります。現在、公式サイトにて無料トライアルの提供が開始されており、APIの料金体系も発表されました。また、企業向けアクセスチャネルも順次展開される予定です。アーキテクチャの転換:拡散モデルから自己回帰モデ





家






