Gemini Roboticsモデルの新しいファミリーの構築方法

Google DeepMindがロボティクス向けの新しいGemini 2.0モデルの最新発表に向けて準備を進める中、ロボティクスの責任者であるCarolina Paradaは、チームを鼓舞して技術の最終確認を行いました。
彼らは、研究者が愛用する柔軟な金属製の腕で、関節が多くピンサーのような手を持つバイアームALOHAロボットに、これまで経験したことのないタスクや見たことのないオブジェクトに挑戦させました。「私たちはランダムなものを投げかけました。例えば、私の靴をテーブルに置いて、ペンをその中に入れるようにお願いしました」とCarolinaは振り返ります。「ロボットは一瞬考えてから、実行に移りました。」
次に、彼らはおもちゃのバスケットボールフープとボールを見つけ、ロボットに「スラムダンク」をやってみるよう挑みました。Carolinaはそれが見事に成功したとき、誇らしげに笑顔を見せました。
Carolinaは、スラムダンクを見たときが本当の「驚き」の瞬間だったと言います。
「私たちはこれまで、ロボットが特定のタスクをこなし、自然言語を理解できるようにモデルを訓練してきましたが、これは?これはゲームチェンジャーでした」とCarolinaは説明します。「ロボットはバスケットボールやこの特定のおもちゃに関する経験が全くありませんでした。それでも『ボールをスラムダンクする』という複雑な概念を理解し、初回でスムーズに実行しました。」
この汎用性の高いロボットは、Gemini Roboticsモデルによって動いており、これはロボティクス向けに設計された新しいマルチモーダルモデルの一部です。これらのモデルは、ロボットに特化したデータで微調整することでGemini 2.0を強化し、物理的な動作をテキスト、ビデオ、オーディオなどの通常のGeminiのマルチモーダル出力と統合します。「このマイルストーンは、さまざまなアプリケーションで役立つ次世代のロボティクスの基盤を築きます」と、GoogleのCEOであるSundar Pichaiは、Xで新しいモデルを発表しながら述べました。
Gemini Roboticsモデルは驚くほど汎用的でインタラクティブ、そして一般的であり、ロボットが新しいオブジェクト、環境、指示に追加の訓練なしで対応できるようにします。これは、チームの目標を考えると大きな成果です。
「私たちの目標は、現実世界での日常のタスクを支援するロボットを動かす具現化されたAIを作ることです」と、子供の頃のSFアニメや自動化された家事に憧れたCarolinaは言います。「将来的には、ロボットは私たちがAIと対話するもう一つの方法になるでしょう。スマートフォンやコンピュータと同じように、私たちの世界に存在する物理的なエージェントとして。」
ロボットがその仕事を安全かつ適切に遂行するためには、理解と意思決定、そして行動する能力の2つの重要な能力が必要です。Gemini Robotics-ERは、Gemini 2.0 Flashを基盤とした「具現化された推論」モデルで、前者に焦点を当てています。環境内の要素を見つけ出し、そのサイズや位置を評価し、移動に必要な経路やグリップを予測します。そして、行動を実行するコードを生成します。現在、このモデルを信頼できるテスターやパートナーに展開しています。
Google DeepMindはまた、トップティアのビジョン-言語-行動モデルであるGemini Roboticsも展開しており、これによりロボットはシーンを分析し、ユーザーと対話し、行動を取ることができます。このモデルは、ロボット工学者にとって頭痛の種だった領域、つまり器用さに大きな進歩を遂げました。「私たち人間にとって当たり前のことは、ロボットにとっては難しい」とCarolinaは指摘します。「器用さには空間的推論と複雑な物理的操作の両方が必要です。テストでは、Gemini Roboticsは器用さの新たな基準を設け、複雑な多段階タスクをスムーズな動きと印象的な完了時間で処理しました。」
Gemini Robotics-ERは、物体検出、オブジェクトの部分を指す、対応するポイントを見つける、3D物体検出など、具現化された推論において優れており、完璧にこなします。
Gemini Roboticsを主導するマシンは、サラダを作ったり、子供のランチを詰めたり、Tic-Tac-Toeのようなゲームをしたり、さらには折り紙のキツネを作ったりしました。
幅広いタスクを処理できるモデルを準備することは簡単ではありませんでした。主に、1つの特定のタスクを完璧にこなすまで訓練するという従来の傾向に逆らうためです。「私たちは幅広いタスク学習を選び、たくさんのタスクでモデルを訓練しました」とCarolinaは言います。「しばらくすると、それらが一般化し始めるだろうと考え、的中しました。」
両モデルは、バイアームALOHAのような研究向けロボットから、パートナーであるApptronikが開発したApolloのようなヒューマノイドロボットまで、さまざまな形態に適応できます。
これらのモデルは、ランチボックスを詰めたり、ホワイトボードを拭いたりするようなタスクを、さまざまなロボットの体で実行できるように適応します。
この適応性は、ロボットがさまざまな役割を担う未来にとって重要です。
「これらの高度に汎用的で能力の高いモデルを使用するロボットの可能性は広大で刺激的です」とCarolinaは言います。「複雑で、精度が重要で、人間向けに設計されていない空間での産業で非常に役立つ可能性があります。そして、私たちの家のような人間中心の空間で生活を楽にするかもしれません。それはまだ先の話ですが、これらのモデルは私たちを前進させています。」
家事の手助けがもうすぐそこまで来ているかもしれません——いずれは。
関連記事
AI成長の鍵を握る労働力とエネルギーインフラ投資
AIは米国にイノベーションと経済成長を推進する変革的な機会を提供します。その採用は経済を活性化し、雇用を創出し、科学的進歩を加速します。これらの機会を完全に活用するには、国は老朽化したエネルギーインフラを早急にアップグレードする必要があります。これには、最先端のエネルギー技術へのより迅速なイノベーションと投資、現在の電力網のより賢い利用、新しい送電線の拡張建設、そしてこの重要なインフラを構築するた
AdobeとFigmaがOpenAIの高度な画像生成モデルを統合
OpenAIのChatGPTにおける強化された画像生成機能は、スタジオジブリ風のビジュアルやユニークなデザインを生み出す能力によりユーザー急増を牽引し、他のプラットフォームにも拡大しています。同社はブログ投稿で、この機能を支える「ネイティブにマルチモーダルなモデル」がAPIを通じて「gpt-image-1」として利用可能になると発表し、主要企業がすでに採用しています。「このモデルの柔軟性により、多
技術大手がEUのAIコードで意見対立、遵守期限が迫る
EUの汎用AI実践規範は、主要技術企業間の明確な違いを明らかにした。マイクロソフトは、欧州連合の自主的なAIコンプライアンス枠組みを採用する意向を表明したが、Metaはこれを過剰な規制として明確に拒否し、イノベーションを阻害する可能性があると述べた。マイクロソフト社長のブラッド・スミスは金曜日にロイターに対し、「書類を確認した後、署名する可能性が高い」と語った。スミスは同社の協力的な姿勢を強調し、
コメント (21)
0/200
KeithLopez
2025年8月9日 2:01:00 JST
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
0
WilliamMiller
2025年4月14日 9:57:22 JST
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖
0
StephenGreen
2025年4月13日 12:41:57 JST
新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖
0
BenHernández
2025年4月13日 7:11:04 JST
新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!
0
JonathanAllen
2025年4月12日 21:44:44 JST
Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!
0
DonaldSanchez
2025年4月12日 11:55:17 JST
제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!
0
Google DeepMindがロボティクス向けの新しいGemini 2.0モデルの最新発表に向けて準備を進める中、ロボティクスの責任者であるCarolina Paradaは、チームを鼓舞して技術の最終確認を行いました。
彼らは、研究者が愛用する柔軟な金属製の腕で、関節が多くピンサーのような手を持つバイアームALOHAロボットに、これまで経験したことのないタスクや見たことのないオブジェクトに挑戦させました。「私たちはランダムなものを投げかけました。例えば、私の靴をテーブルに置いて、ペンをその中に入れるようにお願いしました」とCarolinaは振り返ります。「ロボットは一瞬考えてから、実行に移りました。」
次に、彼らはおもちゃのバスケットボールフープとボールを見つけ、ロボットに「スラムダンク」をやってみるよう挑みました。Carolinaはそれが見事に成功したとき、誇らしげに笑顔を見せました。
「私たちはこれまで、ロボットが特定のタスクをこなし、自然言語を理解できるようにモデルを訓練してきましたが、これは?これはゲームチェンジャーでした」とCarolinaは説明します。「ロボットはバスケットボールやこの特定のおもちゃに関する経験が全くありませんでした。それでも『ボールをスラムダンクする』という複雑な概念を理解し、初回でスムーズに実行しました。」
この汎用性の高いロボットは、Gemini Roboticsモデルによって動いており、これはロボティクス向けに設計された新しいマルチモーダルモデルの一部です。これらのモデルは、ロボットに特化したデータで微調整することでGemini 2.0を強化し、物理的な動作をテキスト、ビデオ、オーディオなどの通常のGeminiのマルチモーダル出力と統合します。「このマイルストーンは、さまざまなアプリケーションで役立つ次世代のロボティクスの基盤を築きます」と、GoogleのCEOであるSundar Pichaiは、Xで新しいモデルを発表しながら述べました。
Gemini Roboticsモデルは驚くほど汎用的でインタラクティブ、そして一般的であり、ロボットが新しいオブジェクト、環境、指示に追加の訓練なしで対応できるようにします。これは、チームの目標を考えると大きな成果です。
「私たちの目標は、現実世界での日常のタスクを支援するロボットを動かす具現化されたAIを作ることです」と、子供の頃のSFアニメや自動化された家事に憧れたCarolinaは言います。「将来的には、ロボットは私たちがAIと対話するもう一つの方法になるでしょう。スマートフォンやコンピュータと同じように、私たちの世界に存在する物理的なエージェントとして。」
Google DeepMindはまた、トップティアのビジョン-言語-行動モデルであるGemini Roboticsも展開しており、これによりロボットはシーンを分析し、ユーザーと対話し、行動を取ることができます。このモデルは、ロボット工学者にとって頭痛の種だった領域、つまり器用さに大きな進歩を遂げました。「私たち人間にとって当たり前のことは、ロボットにとっては難しい」とCarolinaは指摘します。「器用さには空間的推論と複雑な物理的操作の両方が必要です。テストでは、Gemini Roboticsは器用さの新たな基準を設け、複雑な多段階タスクをスムーズな動きと印象的な完了時間で処理しました。」
幅広いタスクを処理できるモデルを準備することは簡単ではありませんでした。主に、1つの特定のタスクを完璧にこなすまで訓練するという従来の傾向に逆らうためです。「私たちは幅広いタスク学習を選び、たくさんのタスクでモデルを訓練しました」とCarolinaは言います。「しばらくすると、それらが一般化し始めるだろうと考え、的中しました。」
両モデルは、バイアームALOHAのような研究向けロボットから、パートナーであるApptronikが開発したApolloのようなヒューマノイドロボットまで、さまざまな形態に適応できます。
「これらの高度に汎用的で能力の高いモデルを使用するロボットの可能性は広大で刺激的です」とCarolinaは言います。「複雑で、精度が重要で、人間向けに設計されていない空間での産業で非常に役立つ可能性があります。そして、私たちの家のような人間中心の空間で生活を楽にするかもしれません。それはまだ先の話ですが、これらのモデルは私たちを前進させています。」
家事の手助けがもうすぐそこまで来ているかもしれません——いずれは。



The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖




Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖




新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖




新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!




Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!




제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!












