새로운 Gemini Robotics 모델을 구축 한 방법

집

뉴스

2025년 4월 10일

JimmyKing

# ai # Gemini

새로운 Gemini Robotics 모델을 구축 한 방법

Google DeepMind가 로보틱스에 맞춘 새로운 Gemini 2.0 모델에 대한 최신 발표를 준비하면서, 로보틱스 책임자인 Carolina Parada는 팀을 모아 기술을 마지막으로 점검하도록 독려했습니다.

그들은 바이-암 ALOHA 로봇 — 연구자들이 좋아하는 유연한 금속 팔과 관절, 집게 같은 손을 가진 로봇 — 에게 이전에 해본 적 없는 작업과 처음 보는 물체를 다루도록 도전했습니다. Carolina는 "우리는 무작위로 물건을 던져줬어요. 예를 들어, 제 신발을 테이블 위에 놓고 펜을 그 안에 넣으라고 했죠."라고 회상했습니다. "로봇은 잠시 멈춰 상황을 파악한 뒤, 바로 실행에 옮겼습니다."

다음으로, 그들은 장난감 농구 골대와 공을 찾아 로봇에게 "슬램 덩크"를 시도하도록 했습니다. Carolina는 로봇이 이를 완벽히 해낸 모습을 보며 자부심을 감추지 못했습니다.

Carolina는 슬램 덩크를 보는 순간이 진정한 "와우" 순간이었다고 말했습니다.

"우리는 로봇이 특정 작업을 수행하고 자연어를 이해하도록 모델을 훈련시켜 왔지만, 이건 완전히 달랐어요." Carolina는 설명했습니다. "로봇은 농구나 이 특정 장난감에 대한 경험이 전혀 없었어요. 그런데도 '공을 슬램 덩크해'라는 복잡한 개념을 파악하고 첫 시도에 매끄럽게 해냈죠."

이 다재다능한 로봇은 로보틱스용으로 설계된 새로운 멀티모달 모델 군인 Gemini Robotics 모델로 구동되었습니다. 이 모델들은 로봇 특화 데이터를 통해 Gemini 2.0을 미세 조정하여, 텍스트, 비디오, 오디오와 같은 Gemini의 일반적인 멀티모달 출력과 물리적 동작을 통합했습니다. Google CEO Sundar Pichai는 X에서 새로운 모델을 공개하며 "이 이정표는 다양한 응용 분야에서 도움을 줄 차세대 로보틱스의 기반을 마련한다"고 말했습니다.

Gemini Robotics 모델은 놀라울 정도로 다재다능하고 상호작용적이며 일반적이어서, 로봇이 추가 훈련 없이 새로운 물체, 환경, 지시에 대응할 수 있습니다. 이는 팀의 목표를 고려할 때 큰 성과입니다.

Carolina는 어린 시절 SF 만화와 자동화된 집안일을 꿈꾸며 로보틱스에 대한 사랑을 키웠습니다. 그녀는 "우리의 목표는 실세계에서 일상적인 작업을 돕는 구현된 AI를 만드는 것"이라며, "앞으로 로봇은 우리 스마트폰이나 컴퓨터처럼 AI와 상호작용하는 또 다른 물리적 매개체가 될 것입니다."라고 말했습니다.

로봇이 제 역할을 안전하고 효과적으로 수행하려면 두 가지 핵심 능력이 필요합니다: 이해와 의사결정, 그리고 행동 능력. Gemini 2.0 Flash를 기반으로 한 "구현된 추론" 모델인 Gemini Robotics-ER은 전자에 초점을 맞춥니다. 이 모델은 환경 내 요소를 인식하고, 크기와 위치를 측정하며, 물체를 이동시키기 위해 필요한 경로와 그립을 예측합니다. 그리고 이를 실행하기 위한 코드를 생성합니다. 현재 이 모델은 신뢰할 수 있는 테스터와 파트너에게 배포되고 있습니다.

Google DeepMind는 또한 로봇이 장면을 분석하고 사용자와 상호작용하며 행동을 취할 수 있게 하는 최고급 비전-언어-행동 모델인 Gemini Robotics를 배포하고 있습니다. 이 모델은 로보틱스 전문가들에게 골칫거리였던 영역, 즉 손재주에서 큰 진전을 이뤘습니다. Carolina는 "인간에게는 당연한 것이 로봇에게는 어렵다"고 언급했습니다. "손재주는 공간 추론과 복잡한 물리적 조작을 모두 포함합니다. 테스트에서 Gemini Robotics는 복잡한 다단계 작업을 부드러운 움직임과 인상적인 완료 시간으로 처리하며 새로운 기준을 세웠습니다."

Gemini Robotics-ER은 구현된 추론에 탁월하여 물체 감지, 물체의 특정 부분 지시, 일치하는 점 찾기, 3D 물체 감지 같은 작업을 완벽히 수행합니다.

Gemini Robotics가 주도하는 기계들은 샐러드를 만들고, 아이들 도시락을 싸고, 틱택토 같은 게임을 하며, 심지어 종이접기로 여우를 만들어냈습니다.

모델이 다양한 작업을 처리할 수 있도록 준비시키는 것은 쉬운 일이 아니었습니다 — 주로 단일 작업을 완벽히 수행하도록 모델을 훈련시키는 전통을 깨는 일이었기 때문입니다. Carolina는 "우리는 광범위한 작업 학습을 선택해 수많은 작업으로 모델을 훈련시켰다"고 말했습니다. "시간이 지나면서 모델이 일반화되기 시작할 것이라 예상했고, 정확히 맞아떨어졌습니다."

두 모델은 연구 중심의 바이-암 ALOHA 로봇부터 파트너 Apptronik이 개발한 휴머노이드 로봇 Apollo까지 다양한 구현체에 적응할 수 있습니다.

이 모델들은 도시락을 싸거나 화이트보드를 닦는 등의 작업을 다양한 로봇 몸체에서 수행할 수 있도록 적응합니다.

이러한 적응성은 로봇이 다양한 역할을 맡을 미래에 매우 중요합니다.

Carolina는 "이 고도로 일반적이고 유능한 모델을 사용하는 로봇의 잠재력은 방대하고 흥미롭다"고 말했습니다. "이들은 복잡하고 정밀함이 중요한 산업이나 인간을 위해 설계되지 않은 공간에서 매우 유용할 수 있습니다. 또한 우리 집과 같은 인간 중심 공간에서 삶을 더 편리하게 만들 수 있습니다. 아직은 갈 길이 멀지만, 이 모델들은 우리를 앞으로 나아가게 합니다."

집안일을 돕는 로봇이 곧 현실이 될지도 모릅니다 — 언젠가는요.

관련 기사

구글, 향상된 속도 기능을 갖춘 AI 기반 '사진에 물어보세요' 재출시 Google은 테스트를 일시적으로 중단한 후 Google 포토의 AI 기반 '사진에 질문' 검색 기능을 대폭 개선하여 다시 출시합니다. Google의 Gemini AI 기술을 기반으로 하는 이 혁신적인 기능은 사용자가 자연어 쿼리를 통해 특정 이미지를 찾을 수 있도록 도와줍니다.사진에 질문의 주요 개선 사항Google은 최근 이 기능의 초기 단점, 특히 응

Microsoft, 새로운 AI 협업에서 xAI의 고급 Grok 3 모델 호스팅 이달 초, 저의 *노트패드* 탐사 저널리즘은 Microsoft가 Elon Musk의 Grok AI 모델을 통합하려는 계획을 폭로했는데, 이제 공식적으로 확인된 사실입니다. 오늘 Microsoft의 연례 빌드 개발자 컨퍼런스에서 회사 경영진은 Azure AI Foundry에 머스크의 xAI 스타트업인 Grok-3와 그 소형 형제인 Grok-3 미니를 모두 통

Apple, Anthropic과 협력하여 Xcode용 AI 코딩 도구 개발 Apple과 Anthropic, AI 기반 코딩 도우미 개발 협력블룸버그에 따르면 Apple은 자사의 대표 개발 환경인 Xcode에 직접 통합될 고급 AI 코딩 어시스턴트를 개발 중이라고 합니다. 개발자가 코드를 작성, 수정 및 테스트하는 데 도움을 주기 위해 클로드 소네트 모델을 통합할 예정입니다.이 새로운 도구는 현재 내부 테스트 중이며, App

의견 (22)

0/200

제출하다

CarlGarcia

2025년 9월 19일 오후 1시 30분 33초 GMT+09:00

Finalmente um modelo de robótica que parece promissor! 🤖 Mas confesso que fico pensando se esses braços robóticos vão substituir humanos em tarefas domésticas... Será que um dia vou ter um robô fazendo meu café da manhã? 😅

KeithLopez

2025년 8월 9일 오전 2시 1분 0초 GMT+09:00

The Gemini 2.0 robotics models sound like a game-changer! I’m curious how those bi-arm ALOHA robots handle real-world tasks—hope they don’t get too cocky with all that flexibility! 🤖

WilliamMiller

2025년 4월 14일 오전 9시 57분 22초 GMT+09:00

Os novos modelos de robótica Gemini são de tirar o fôlego! Ver o robô ALOHA em ação foi como ver ficção científica se tornar realidade. Mas, o jargão técnico foi um pouco acima da minha compreensão. Poderia usar uma explicação mais simples para nós, não técnicos. Ainda assim, super legal! 🤖

StephenGreen

2025년 4월 13일 오후 12시 41분 57초 GMT+09:00

新しいジェミニロボティクスモデルは驚異的です！ALOHAロボットの動きを見るのは、SFが現実になったようでした。でも、技術用語が少し難しかったです。非技術者向けに簡単な説明が欲しいです。それでも、すごくクール！🤖

BenHernández

2025년 4월 13일 오전 7시 11분 4초 GMT+09:00

新しいジェミニ2.0モデルがロボティクスに導入されるって聞いてワクワクする！二腕のALOHAロボットが複雑なタスクをこなすなんて本当に驚き。カロリーナ・パラダのチームは素晴らしい仕事をしたね。実世界でこれを見るのが楽しみ。でも、転ばないといいけど！

JonathanAllen

2025년 4월 12일 오후 9시 44분 44초 GMT+09:00

Mô hình Gemini 2.0 mới cho robot nghe thật tuyệt vời! Robot ALOHA hai cánh tay thực hiện các nhiệm vụ phức tạp thật sự làm choáng váng. Đội ngũ của Carolina Parada đã làm việc xuất sắc. Không thể chờ đợi để thấy chúng hoạt động trong thế giới thực. Hy vọng là chúng không vấp ngã đâu!

최고의 뉴스

Gemini 2.5 Pro는 이제 Claude보다 무제한과 저렴한 GPT-4O 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 AI 목소리: 현실적인 목소리 제작 궁극 가이드 Cambium의 AI는 폐기물을 목재로 변형시킵니다 OpenAi는 더 나은 채팅을 위해 AI 음성 어시스턴트를 향상시킵니다 AI 통합에 데이터가 신뢰할 수 있는지 확인하는 방법 Notebooklm은 전 세계적으로 확장하고 슬라이드와 향상된 사실 확인을 추가합니다 미국에 대한 조정은 76GW의 새로운 전력 용량을 잠금 해제 할 수 있습니다. AI Builder와 Power Automate가 문서 요약을 혁신하다 Google은 AI를 사용하여 사기의 의심에 대한 3,900 만 광고 계정을 중단합니다.

더