Gemini Roboticsモデルの新しいファミリーの構築方法

Google DeepMindがロボティクス向けの新しいGemini 2.0モデルの最新発表に向けて準備を進める中、ロボティクスの責任者であるCarolina Paradaは、チームを鼓舞して技術の最終確認を行いました。
彼らは、研究者が愛用する柔軟な金属製の腕で、関節が多くピンサーのような手を持つバイアームALOHAロボットに、これまで経験したことのないタスクや見たことのないオブジェクトに挑戦させました。「私たちはランダムなものを投げかけました。例えば、私の靴をテーブルに置いて、ペンをその中に入れるようにお願いしました」とCarolinaは振り返ります。「ロボットは一瞬考えてから、実行に移りました。」
次に、彼らはおもちゃのバスケットボールフープとボールを見つけ、ロボットに「スラムダンク」をやってみるよう挑みました。Carolinaはそれが見事に成功したとき、誇らしげに笑顔を見せました。
Carolinaは、スラムダンクを見たときが本当の「驚き」の瞬間だったと言います。
「私たちはこれまで、ロボットが特定のタスクをこなし、自然言語を理解できるようにモデルを訓練してきましたが、これは?これはゲームチェンジャーでした」とCarolinaは説明します。「ロボットはバスケットボールやこの特定のおもちゃに関する経験が全くありませんでした。それでも『ボールをスラムダンクする』という複雑な概念を理解し、初回でスムーズに実行しました。」
この汎用性の高いロボットは、Gemini Roboticsモデルによって動いており、これはロボティクス向けに設計された新しいマルチモーダルモデルの一部です。これらのモデルは、ロボットに特化したデータで微調整することでGemini 2.0を強化し、物理的な動作をテキスト、ビデオ、オーディオなどの通常のGeminiのマルチモーダル出力と統合します。「このマイルストーンは、さまざまなアプリケーションで役立つ次世代のロボティクスの基盤を築きます」と、GoogleのCEOであるSundar Pichaiは、Xで新しいモデルを発表しながら述べました。
Gemini Roboticsモデルは驚くほど汎用的でインタラクティブ、そして一般的であり、ロボットが新しいオブジェクト、環境、指示に追加の訓練なしで対応できるようにします。これは、チームの目標を考えると大きな成果です。
「私たちの目標は、現実世界での日常のタスクを支援するロボットを動かす具現化されたAIを作ることです」と、子供の頃のSFアニメや自動化された家事に憧れたCarolinaは言います。「将来的には、ロボットは私たちがAIと対話するもう一つの方法になるでしょう。スマートフォンやコンピュータと同じように、私たちの世界に存在する物理的なエージェントとして。」
ロボットがその仕事を安全かつ適切に遂行するためには、理解と意思決定、そして行動する能力の2つの重要な能力が必要です。Gemini Robotics-ERは、Gemini 2.0 Flashを基盤とした「具現化された推論」モデルで、前者に焦点を当てています。環境内の要素を見つけ出し、そのサイズや位置を評価し、移動に必要な経路やグリップを予測します。そして、行動を実行するコードを生成します。現在、このモデルを信頼できるテスターやパートナーに展開しています。
Google DeepMindはまた、トップティアのビジョン-言語-行動モデルであるGemini Roboticsも展開しており、これによりロボットはシーンを分析し、ユーザーと対話し、行動を取ることができます。このモデルは、ロボット工学者にとって頭痛の種だった領域、つまり器用さに大きな進歩を遂げました。「私たち人間にとって当たり前のことは、ロボットにとっては難しい」とCarolinaは指摘します。「器用さには空間的推論と複雑な物理的操作の両方が必要です。テストでは、Gemini Roboticsは器用さの新たな基準を設け、複雑な多段階タスクをスムーズな動きと印象的な完了時間で処理しました。」
Gemini Robotics-ERは、物体検出、オブジェクトの部分を指す、対応するポイントを見つける、3D物体検出など、具現化された推論において優れており、完璧にこなします。
Gemini Roboticsを主導するマシンは、サラダを作ったり、子供のランチを詰めたり、Tic-Tac-Toeのようなゲームをしたり、さらには折り紙のキツネを作ったりしました。
幅広いタスクを処理できるモデルを準備することは簡単ではありませんでした。主に、1つの特定のタスクを完璧にこなすまで訓練するという従来の傾向に逆らうためです。「私たちは幅広いタスク学習を選び、たくさんのタスクでモデルを訓練しました」とCarolinaは言います。「しばらくすると、それらが一般化し始めるだろうと考え、的中しました。」
両モデルは、バイアームALOHAのような研究向けロボットから、パートナーであるApptronikが開発したApolloのようなヒューマノイドロボットまで、さまざまな形態に適応できます。
これらのモデルは、ランチボックスを詰めたり、ホワイトボードを拭いたりするようなタスクを、さまざまなロボットの体で実行できるように適応します。
この適応性は、ロボットがさまざまな役割を担う未来にとって重要です。
「これらの高度に汎用的で能力の高いモデルを使用するロボットの可能性は広大で刺激的です」とCarolinaは言います。「複雑で、精度が重要で、人間向けに設計されていない空間での産業で非常に役立つ可能性があります。そして、私たちの家のような人間中心の空間で生活を楽にするかもしれません。それはまだ先の話ですが、これらのモデルは私たちを前進させています。」
家事の手助けがもうすぐそこまで来ているかもしれません——いずれは。
関連記事
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
カカオ・モビリティ、物理AIに向けたレベル4自動運転のロードマップを提示
カカオ・モビリティは、フィジカルAI戦略の一環として、レベル4の自動運転技術を自社開発する計画だ。ソウルCOEXで開催された「2026ワールドITショー」のカンファレンスにおいて、カカオモビリティのフィジカルAI部門長兼副社長であるキム・ジンギュ氏がロードマップを発表した。同氏の講演は、フィジカルAI時代におけるモビリティプラットフォームを軸とした自動運転サービスに焦点を当てたものだった。聯合
バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
関連特集おすすめ
コメント (24)
0/500
Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔
Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅
Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

Google DeepMindがロボティクス向けの新しいGemini 2.0モデルの最新発表に向けて準備を進める中、ロボティクスの責任者であるCarolina Paradaは、チームを鼓舞して技術の最終確認を行いました。
彼らは、研究者が愛用する柔軟な金属製の腕で、関節が多くピンサーのような手を持つバイアームALOHAロボットに、これまで経験したことのないタスクや見たことのないオブジェクトに挑戦させました。「私たちはランダムなものを投げかけました。例えば、私の靴をテーブルに置いて、ペンをその中に入れるようにお願いしました」とCarolinaは振り返ります。「ロボットは一瞬考えてから、実行に移りました。」
次に、彼らはおもちゃのバスケットボールフープとボールを見つけ、ロボットに「スラムダンク」をやってみるよう挑みました。Carolinaはそれが見事に成功したとき、誇らしげに笑顔を見せました。
「私たちはこれまで、ロボットが特定のタスクをこなし、自然言語を理解できるようにモデルを訓練してきましたが、これは?これはゲームチェンジャーでした」とCarolinaは説明します。「ロボットはバスケットボールやこの特定のおもちゃに関する経験が全くありませんでした。それでも『ボールをスラムダンクする』という複雑な概念を理解し、初回でスムーズに実行しました。」
この汎用性の高いロボットは、Gemini Roboticsモデルによって動いており、これはロボティクス向けに設計された新しいマルチモーダルモデルの一部です。これらのモデルは、ロボットに特化したデータで微調整することでGemini 2.0を強化し、物理的な動作をテキスト、ビデオ、オーディオなどの通常のGeminiのマルチモーダル出力と統合します。「このマイルストーンは、さまざまなアプリケーションで役立つ次世代のロボティクスの基盤を築きます」と、GoogleのCEOであるSundar Pichaiは、Xで新しいモデルを発表しながら述べました。
Gemini Roboticsモデルは驚くほど汎用的でインタラクティブ、そして一般的であり、ロボットが新しいオブジェクト、環境、指示に追加の訓練なしで対応できるようにします。これは、チームの目標を考えると大きな成果です。
「私たちの目標は、現実世界での日常のタスクを支援するロボットを動かす具現化されたAIを作ることです」と、子供の頃のSFアニメや自動化された家事に憧れたCarolinaは言います。「将来的には、ロボットは私たちがAIと対話するもう一つの方法になるでしょう。スマートフォンやコンピュータと同じように、私たちの世界に存在する物理的なエージェントとして。」
Google DeepMindはまた、トップティアのビジョン-言語-行動モデルであるGemini Roboticsも展開しており、これによりロボットはシーンを分析し、ユーザーと対話し、行動を取ることができます。このモデルは、ロボット工学者にとって頭痛の種だった領域、つまり器用さに大きな進歩を遂げました。「私たち人間にとって当たり前のことは、ロボットにとっては難しい」とCarolinaは指摘します。「器用さには空間的推論と複雑な物理的操作の両方が必要です。テストでは、Gemini Roboticsは器用さの新たな基準を設け、複雑な多段階タスクをスムーズな動きと印象的な完了時間で処理しました。」
幅広いタスクを処理できるモデルを準備することは簡単ではありませんでした。主に、1つの特定のタスクを完璧にこなすまで訓練するという従来の傾向に逆らうためです。「私たちは幅広いタスク学習を選び、たくさんのタスクでモデルを訓練しました」とCarolinaは言います。「しばらくすると、それらが一般化し始めるだろうと考え、的中しました。」
両モデルは、バイアームALOHAのような研究向けロボットから、パートナーであるApptronikが開発したApolloのようなヒューマノイドロボットまで、さまざまな形態に適応できます。
「これらの高度に汎用的で能力の高いモデルを使用するロボットの可能性は広大で刺激的です」とCarolinaは言います。「複雑で、精度が重要で、人間向けに設計されていない空間での産業で非常に役立つ可能性があります。そして、私たちの家のような人間中心の空間で生活を楽にするかもしれません。それはまだ先の話ですが、これらのモデルは私たちを前進させています。」
家事の手助けがもうすぐそこまで来ているかもしれません——いずれは。
WordPress.comでは、AIエージェントによる投稿の作成や公開が可能になりました。その他にもさまざまな機能が追加されています。
人気のウェブホスティング・パブリッシングプラットフォームであるWordPress.comが、AIエージェントの導入に乗り出した。この動きは、ウェブのあり方を一変させる可能性がある。同社は金曜日、AIエージェントが顧客のウェブサイト上でコンテンツの下書き作成、編集、公開を行うほか、コメントの管理、メタデータの更新・修正、タグやカテゴリを用いたコンテンツの整理も可能になると発表した。これらすべての操作
バリー・ディラー:AGIの実現が近づく中、サム・アルトマンへの信頼は重要ではない
億万長者のメディア界の巨頭であるバリー・ディラー氏は、最近の報道でそのように示唆されているにもかかわらず、OpenAIのCEOサム・アルトマン氏が信頼できない人物だとは考えていない。今週開催されたウォール・ストリート・ジャーナル紙主催の「Future of Everything」カンファレンスで講演したディラー氏は、一部の元同僚や取締役から、時折人を利用したり欺いたりする傾向があるとの非難を受けて
Ces bras robotiques ALOHA sont impressionnants, mais je me demande vraiment quel sera leur coût réel pour les petites entreprises. L'article montre bien la partie technique, mais dans le monde réel, l'accès financier compte tout autant. C'est un peu inquiétant pour la compétitivité à long terme. 🤔
Cet article sur les robots Gemini est fascinant ! 🤖 L'idée d'utiliser l'IA pour contrôler des bras robotisés comme l'ALOHA pourrait vraiment révolutionner l'automatisation industrielle. Mais ça me fait un peu peur aussi - est-ce qu'on va vers un monde où les humains seront remplacés par des machines trop intelligentes ? 😅
Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖





家






