새로운 Gemini Robotics 모델을 구축 한 방법

Google DeepMind가 로보틱스에 맞춘 새로운 Gemini 2.0 모델에 대한 최신 발표를 준비하면서, 로보틱스 책임자인 Carolina Parada는 팀을 모아 기술을 마지막으로 점검하도록 독려했습니다.
그들은 바이-암 ALOHA 로봇 — 연구자들이 좋아하는 유연한 금속 팔과 관절, 집게 같은 손을 가진 로봇 — 에게 이전에 해본 적 없는 작업과 처음 보는 물체를 다루도록 도전했습니다. Carolina는 "우리는 무작위로 물건을 던져줬어요. 예를 들어, 제 신발을 테이블 위에 놓고 펜을 그 안에 넣으라고 했죠."라고 회상했습니다. "로봇은 잠시 멈춰 상황을 파악한 뒤, 바로 실행에 옮겼습니다."
다음으로, 그들은 장난감 농구 골대와 공을 찾아 로봇에게 "슬램 덩크"를 시도하도록 했습니다. Carolina는 로봇이 이를 완벽히 해낸 모습을 보며 자부심을 감추지 못했습니다.
Carolina는 슬램 덩크를 보는 순간이 진정한 "와우" 순간이었다고 말했습니다.
"우리는 로봇이 특정 작업을 수행하고 자연어를 이해하도록 모델을 훈련시켜 왔지만, 이건 완전히 달랐어요." Carolina는 설명했습니다. "로봇은 농구나 이 특정 장난감에 대한 경험이 전혀 없었어요. 그런데도 '공을 슬램 덩크해'라는 복잡한 개념을 파악하고 첫 시도에 매끄럽게 해냈죠."
이 다재다능한 로봇은 로보틱스용으로 설계된 새로운 멀티모달 모델 군인 Gemini Robotics 모델로 구동되었습니다. 이 모델들은 로봇 특화 데이터를 통해 Gemini 2.0을 미세 조정하여, 텍스트, 비디오, 오디오와 같은 Gemini의 일반적인 멀티모달 출력과 물리적 동작을 통합했습니다. Google CEO Sundar Pichai는 X에서 새로운 모델을 공개하며 "이 이정표는 다양한 응용 분야에서 도움을 줄 차세대 로보틱스의 기반을 마련한다"고 말했습니다.
Gemini Robotics 모델은 놀라울 정도로 다재다능하고 상호작용적이며 일반적이어서, 로봇이 추가 훈련 없이 새로운 물체, 환경, 지시에 대응할 수 있습니다. 이는 팀의 목표를 고려할 때 큰 성과입니다.
Carolina는 어린 시절 SF 만화와 자동화된 집안일을 꿈꾸며 로보틱스에 대한 사랑을 키웠습니다. 그녀는 "우리의 목표는 실세계에서 일상적인 작업을 돕는 구현된 AI를 만드는 것"이라며, "앞으로 로봇은 우리 스마트폰이나 컴퓨터처럼 AI와 상호작용하는 또 다른 물리적 매개체가 될 것입니다."라고 말했습니다.
로봇이 제 역할을 안전하고 효과적으로 수행하려면 두 가지 핵심 능력이 필요합니다: 이해와 의사결정, 그리고 행동 능력. Gemini 2.0 Flash를 기반으로 한 "구현된 추론" 모델인 Gemini Robotics-ER은 전자에 초점을 맞춥니다. 이 모델은 환경 내 요소를 인식하고, 크기와 위치를 측정하며, 물체를 이동시키기 위해 필요한 경로와 그립을 예측합니다. 그리고 이를 실행하기 위한 코드를 생성합니다. 현재 이 모델은 신뢰할 수 있는 테스터와 파트너에게 배포되고 있습니다.
Google DeepMind는 또한 로봇이 장면을 분석하고 사용자와 상호작용하며 행동을 취할 수 있게 하는 최고급 비전-언어-행동 모델인 Gemini Robotics를 배포하고 있습니다. 이 모델은 로보틱스 전문가들에게 골칫거리였던 영역, 즉 손재주에서 큰 진전을 이뤘습니다. Carolina는 "인간에게는 당연한 것이 로봇에게는 어렵다"고 언급했습니다. "손재주는 공간 추론과 복잡한 물리적 조작을 모두 포함합니다. 테스트에서 Gemini Robotics는 복잡한 다단계 작업을 부드러운 움직임과 인상적인 완료 시간으로 처리하며 새로운 기준을 세웠습니다."
Gemini Robotics-ER은 구현된 추론에 탁월하여 물체 감지, 물체의 특정 부분 지시, 일치하는 점 찾기, 3D 물체 감지 같은 작업을 완벽히 수행합니다.
Gemini Robotics가 주도하는 기계들은 샐러드를 만들고, 아이들 도시락을 싸고, 틱택토 같은 게임을 하며, 심지어 종이접기로 여우를 만들어냈습니다.
모델이 다양한 작업을 처리할 수 있도록 준비시키는 것은 쉬운 일이 아니었습니다 — 주로 단일 작업을 완벽히 수행하도록 모델을 훈련시키는 전통을 깨는 일이었기 때문입니다. Carolina는 "우리는 광범위한 작업 학습을 선택해 수많은 작업으로 모델을 훈련시켰다"고 말했습니다. "시간이 지나면서 모델이 일반화되기 시작할 것이라 예상했고, 정확히 맞아떨어졌습니다."
두 모델은 연구 중심의 바이-암 ALOHA 로봇부터 파트너 Apptronik이 개발한 휴머노이드 로봇 Apollo까지 다양한 구현체에 적응할 수 있습니다.
이 모델들은 도시락을 싸거나 화이트보드를 닦는 등의 작업을 다양한 로봇 몸체에서 수행할 수 있도록 적응합니다.
이러한 적응성은 로봇이 다양한 역할을 맡을 미래에 매우 중요합니다.
Carolina는 "이 고도로 일반적이고 유능한 모델을 사용하는 로봇의 잠재력은 방대하고 흥미롭다"고 말했습니다. "이들은 복잡하고 정밀함이 중요한 산업이나 인간을 위해 설계되지 않은 공간에서 매우 유용할 수 있습니다. 또한 우리 집과 같은 인간 중심 공간에서 삶을 더 편리하게 만들 수 있습니다. 아직은 갈 길이 멀지만, 이 모델들은 우리를 앞으로 나아가게 합니다."
집안일을 돕는 로봇이 곧 현실이 될지도 모릅니다 — 언젠가는요.
관련 기사
AI 성장을 위한 노동력 및 에너지 인프라 투자 해제
AI는 미국에 혁신과 경제 성장을 촉진할 변혁적인 기회를 제공합니다. 이를 채택하면 경제가 활성화되고, 일자리가 창출되며, 과학적 진보가 가속화될 것입니다. 이러한 기회를 완전히 활용하기 위해, 미국은 노후된 에너지 인프라를 시급히 업그레이드해야 합니다. 이를 위해 최�-edge 에너지 기술에 대한 더 빠른 혁신과 투자, 현재 전력망의 더 스마트한 활용,
Adobe와 Figma가 OpenAI의 고급 이미지 생성 모델 통합
OpenAI의 ChatGPT에서 향상된 이미지 생성 기능은 스튜디오 지브리 스타일의 비주얼과 독특한 디자인을 생성하는 능력으로 사용자 급증을 이끌었으며, 이제 다른 플랫폼으로 확장되고 있습니다. 회사는 블로그 포스트에 따르면 이 기능을 지원하는 “네이티브 멀티모달 모델”이 API를 통해 “gpt-image-1”로 제공될 것이며, 주요 기업들이 이미 이를 채
기술 대기업들, EU AI 규범 준수 기한 임박으로 갈림길
EU의 AI 범용 규범 실천 강령은 주요 기술 기업들 간의 뚜렷한 차이를 드러냈다. 마이크로소프트는 유럽연합의 자발적 AI 준수 프레임워크를 채택할 의사를 밝혔으나, 메타는 이를 과도한 규제로 간주하며 혁신을 저해할 수 있다며 단호히 거부했다.마이크로소프트 사장 브래드 스미스는 금요일 Reuters에 “문서를 검토한 후 서명할 가능성이 높다”고 말했다. 스
의견 (21)
0/200
KeithLopez
2025년 8월 9일 오전 2시 1분 0초 GMT+09:00
The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖
0
WilliamMiller
2025년 4월 14일 오전 9시 57분 22초 GMT+09:00
Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖
0
StephenGreen
2025년 4월 13일 오후 12시 41분 57초 GMT+09:00
新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖
0
BenHernández
2025년 4월 13일 오전 7시 11분 4초 GMT+09:00
新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!
0
JonathanAllen
2025년 4월 12일 오후 9시 44분 44초 GMT+09:00
Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!
0
DonaldSanchez
2025년 4월 12일 오전 11시 55분 17초 GMT+09:00
제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!
0
Google DeepMind가 로보틱스에 맞춘 새로운 Gemini 2.0 모델에 대한 최신 발표를 준비하면서, 로보틱스 책임자인 Carolina Parada는 팀을 모아 기술을 마지막으로 점검하도록 독려했습니다.
그들은 바이-암 ALOHA 로봇 — 연구자들이 좋아하는 유연한 금속 팔과 관절, 집게 같은 손을 가진 로봇 — 에게 이전에 해본 적 없는 작업과 처음 보는 물체를 다루도록 도전했습니다. Carolina는 "우리는 무작위로 물건을 던져줬어요. 예를 들어, 제 신발을 테이블 위에 놓고 펜을 그 안에 넣으라고 했죠."라고 회상했습니다. "로봇은 잠시 멈춰 상황을 파악한 뒤, 바로 실행에 옮겼습니다."
다음으로, 그들은 장난감 농구 골대와 공을 찾아 로봇에게 "슬램 덩크"를 시도하도록 했습니다. Carolina는 로봇이 이를 완벽히 해낸 모습을 보며 자부심을 감추지 못했습니다.
"우리는 로봇이 특정 작업을 수행하고 자연어를 이해하도록 모델을 훈련시켜 왔지만, 이건 완전히 달랐어요." Carolina는 설명했습니다. "로봇은 농구나 이 특정 장난감에 대한 경험이 전혀 없었어요. 그런데도 '공을 슬램 덩크해'라는 복잡한 개념을 파악하고 첫 시도에 매끄럽게 해냈죠."
이 다재다능한 로봇은 로보틱스용으로 설계된 새로운 멀티모달 모델 군인 Gemini Robotics 모델로 구동되었습니다. 이 모델들은 로봇 특화 데이터를 통해 Gemini 2.0을 미세 조정하여, 텍스트, 비디오, 오디오와 같은 Gemini의 일반적인 멀티모달 출력과 물리적 동작을 통합했습니다. Google CEO Sundar Pichai는 X에서 새로운 모델을 공개하며 "이 이정표는 다양한 응용 분야에서 도움을 줄 차세대 로보틱스의 기반을 마련한다"고 말했습니다.
Gemini Robotics 모델은 놀라울 정도로 다재다능하고 상호작용적이며 일반적이어서, 로봇이 추가 훈련 없이 새로운 물체, 환경, 지시에 대응할 수 있습니다. 이는 팀의 목표를 고려할 때 큰 성과입니다.
Carolina는 어린 시절 SF 만화와 자동화된 집안일을 꿈꾸며 로보틱스에 대한 사랑을 키웠습니다. 그녀는 "우리의 목표는 실세계에서 일상적인 작업을 돕는 구현된 AI를 만드는 것"이라며, "앞으로 로봇은 우리 스마트폰이나 컴퓨터처럼 AI와 상호작용하는 또 다른 물리적 매개체가 될 것입니다."라고 말했습니다.
Google DeepMind는 또한 로봇이 장면을 분석하고 사용자와 상호작용하며 행동을 취할 수 있게 하는 최고급 비전-언어-행동 모델인 Gemini Robotics를 배포하고 있습니다. 이 모델은 로보틱스 전문가들에게 골칫거리였던 영역, 즉 손재주에서 큰 진전을 이뤘습니다. Carolina는 "인간에게는 당연한 것이 로봇에게는 어렵다"고 언급했습니다. "손재주는 공간 추론과 복잡한 물리적 조작을 모두 포함합니다. 테스트에서 Gemini Robotics는 복잡한 다단계 작업을 부드러운 움직임과 인상적인 완료 시간으로 처리하며 새로운 기준을 세웠습니다."
모델이 다양한 작업을 처리할 수 있도록 준비시키는 것은 쉬운 일이 아니었습니다 — 주로 단일 작업을 완벽히 수행하도록 모델을 훈련시키는 전통을 깨는 일이었기 때문입니다. Carolina는 "우리는 광범위한 작업 학습을 선택해 수많은 작업으로 모델을 훈련시켰다"고 말했습니다. "시간이 지나면서 모델이 일반화되기 시작할 것이라 예상했고, 정확히 맞아떨어졌습니다."
두 모델은 연구 중심의 바이-암 ALOHA 로봇부터 파트너 Apptronik이 개발한 휴머노이드 로봇 Apollo까지 다양한 구현체에 적응할 수 있습니다.
Carolina는 "이 고도로 일반적이고 유능한 모델을 사용하는 로봇의 잠재력은 방대하고 흥미롭다"고 말했습니다. "이들은 복잡하고 정밀함이 중요한 산업이나 인간을 위해 설계되지 않은 공간에서 매우 유용할 수 있습니다. 또한 우리 집과 같은 인간 중심 공간에서 삶을 더 편리하게 만들 수 있습니다. 아직은 갈 길이 멀지만, 이 모델들은 우리를 앞으로 나아가게 합니다."
집안일을 돕는 로봇이 곧 현실이 될지도 모릅니다 — 언젠가는요.



The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖




Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖




新しいジェミニロボティクスモデルは驚異的です!ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール!🤖




新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする!二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど!




Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!




제미니 2.0 로봇 모델 정말 놀랍네요! 이팔 로봇 ALOHA를 보고 SF 영화 같다고 생각했어요. 정밀도와 유연성이 대단해요. 단점은 제 차고에서의 DIY에는 조금 너무 고급이라는 점이에요! 😂 다음에 뭐가 나올지 기대돼요!












