메타 페어, 인간과 유사한 AI를 발전시키는 5가지 혁신 기술 공개

집

뉴스

2025년 12월 28일

BillyAdams

130

# ai # agents # meta # robotics

메타의 기초 인공지능 연구(FAIR) 팀은 고급 기계 지능(AMI) 분야의 연구를 진전시키는 다섯 가지 신규 프로젝트를 공개했습니다.

이번 최신 발표는 언어 모델, 로봇 공학, 협업형 인공지능 에이전트 분야의 진전과 함께 AI 지각 능력(기계가 감각 입력을 처리하는 방식) 개선에 중점을 두고 있습니다.

메타는 목표가 "우리 세계의 감각 데이터를 획득, 처리, 해석할 수 있고, 그 정보를 활용해 인간과 유사한 지능과 속도로 의사결정을 내릴 수 있는" 기계를 구축하는 것이라고 설명했다.

이 야심찬 목표를 달성하기 위한 상호 연결된 다양한 노력을 대표하는 다섯 가지 새로운 계획은 다음과 같습니다.

퍼셉션 인코더: AI 시각 지능 강화

새로운 발표의 핵심은 다양한 이미지 및 비디오 작업에서 탁월한 성능을 발휘하도록 구축된 대규모 비전 인코더인 Perception Encoder입니다.

비전 인코더는 AI 시스템의 "눈" 역할을 하여 시각 정보를 이해할 수 있게 합니다.

메타는 고급 AI용 인코더 개발의 어려움이 커지고 있다고 지적합니다. 고급 AI용 인코더는 시각과 언어를 연결하고, 이미지와 동영상을 능숙하게 처리하며, 적대적 공격을 포함한 까다로운 조건에서도 안정성을 유지해야 합니다.

Meta에 따르면, 이상적인 인코더는 광범위한 개념을 인식하는 동시에 미세한 세부 사항도 포착해야 합니다. 예를 들어 "해저에 숨겨진 가오리를 발견하거나, 이미지 배경에 있는 작은 금화조(금색 참새)를 식별하거나, 야간 투시 야생 동물 카메라에 포착된 빠르게 움직이는 아구티를 감지하는 것"과 같은 세부 사항을 포착해야 합니다.

메타는 퍼셉션 인코더가 "제로샷 이미지 및 동영상 분류와 검색에서 탁월한 성능을 발휘하며, 해당 작업에 대한 모든 기존 오픈소스 및 독점 모델을 능가한다"고 밝혔습니다.

또한 이 인코더의 지각 능력은 언어 작업 성능을 향상시키는 것으로 보고됩니다.

이 인코더를 대규모 언어 모델(LLM)과 결합하면 시각적 질문 응답(VQA), 캡션 생성, 문서 이해, 그라운딩(텍스트를 이미지의 특정 부분과 연결)과 같은 영역에서 다른 비전 인코더들을 능가한다고 합니다. 또한 공간적 관계(예: "한 물체가 다른 물체 뒤에 있는 경우")나 물체에 대한 카메라 움직임과 같이 LLM이 일반적으로 어려움을 겪는 작업에서도 성능이 향상된다고 합니다.

메타는 "퍼셉션 인코더가 새로운 애플리케이션에 통합되기 시작함에 따라, 그 고급 시각 능력이 더욱 정교한 AI 시스템을 어떻게 구동할지 기대된다"고 논평했다.

인지 언어 모델(PLM): 오픈 비전-언어 연구의 진전

인코더와 함께 작동하는 것은 복잡한 시각 인식 작업을 위해 설계된 개방적이고 재현 가능한 비전-언어 모델인 지각 언어 모델(PLM)입니다.

PLM은 공개된 시각-언어 데이터셋과 함께 방대한 합성 데이터를 활용해 훈련되었으며, 외부 독점 모델에서 추출된 지식은 의도적으로 배제했습니다.

기존 비디오 이해 데이터의 한계를 인식한 FAIR 팀은 상세한 비디오 질문 응답 및 시공간 캡셔닝에 초점을 맞춘 250만 개의 새로운 인간 라벨링 샘플을 수집했습니다. 메타는 이것이 "현재까지 동종 최대 규모의 데이터셋"이라고 주장합니다.

PLM은 완전한 투명성이 요구되는 학술 연구의 요구를 충족시키기 위해 10억, 30억, 80억 매개변수 버전으로 제공됩니다.

모델과 함께 메타는 기존 벤치마크에서 종종 간과되는 능력, 즉 "세부적인 활동 이해와 시공간 기반 추론"을 테스트하기 위해 특별히 제작된 새로운 벤치마크인 PLM-VideoBench를 공개합니다.

Meta는 공개 모델, 대규모 데이터셋, 도전적인 벤치마크를 제공함으로써 오픈소스 커뮤니티를 강화할 수 있기를 희망합니다.

Meta Locate 3D: 로봇에 상황 인식을 제공하다

언어 명령과 물리적 행동을 연결하는 것이 바로 Meta Locate 3D입니다. 이 엔드투엔드 모델은 로봇이 개방형 자연어 질의를 기반으로 3D 공간에서 물체를 정확히 찾을 수 있도록 설계되었습니다.

Meta Locate 3D는 RGB-D 센서(일부 로봇이나 깊이 감지 카메라에 탑재된 센서)에서 직접 3D 포인트 클라우드를 처리합니다. "TV 콘솔 근처의 꽃병"과 같은 텍스트 프롬프트를 입력하면, 시스템은 공간적 관계와 맥락을 분석하여 올바른 객체 인스턴스를 식별합니다. 예를 들어 "테이블 위의 꽃병"과 같은 다른 객체와 구분합니다.

이 시스템은 세 가지 주요 구성 요소로 이루어집니다: 2D 특징을 3D 특징화된 포인트 클라우드로 변환하는 전처리 단계; 문맥화된 3D 세계 표현을 생성하는 사전 훈련 모델인 3D-JEPA 인코더; 그리고 3D 표현과 언어 질의를 활용해 지정된 물체의 바운딩 박스와 마스크를 생성하는 Locate 3D 디코더입니다.

모델과 함께 메타는 지시 표현 기반 객체 위치 파악을 위한 대규모 신규 데이터셋을 공개합니다. ARKitScenes, ScanNet, ScanNet++ 데이터셋의 1,346개 장면에 걸쳐 130,000개의 언어 주석을 포함하며, 해당 분야의 기존 주석 데이터 규모를 실질적으로 두 배로 확장합니다.

Meta는 이 기술을 자사의 PARTNR 로봇 프로젝트를 비롯한 보다 유능한 로봇 시스템 개발에 필수적이라고 보고 있으며, 이를 통해 보다 자연스러운 인간-로봇 상호작용과 팀워크를 촉진할 수 있을 것으로 기대하고 있습니다.

Dynamic Byte Latent Transformer: 효율적이고 강력한 언어 모델링

2024년 말에 발표된 연구에 이어, 메타는 이제 80억 매개변수를 가진 동적 바이트 잠재 변환기(Dynamic Byte Latent Transformer)의 모델 가중치를 공개하고 있습니다.

이 아키텍처는 기존의 토큰화 기반 언어 모델에서 벗어나 바이트 수준에서 직접 작동합니다. 메타는 이 방법이 대규모에서도 유사한 성능을 달성하면서 추론 효율성과 견고성에서 상당한 이점을 제공한다고 주장합니다.

기존 대규모 언어 모델(LLM)은 텍스트를 '토큰'으로 분할하는데, 이는 오타, 신조어 또는 적대적 입력에 취약할 수 있습니다. 바이트 수준 모델은 원시 바이트를 처리하여 잠재적으로 더 큰 복원력을 제공합니다.

메타는 다이내믹 바이트 잠재 변환기가 "다양한 작업에서 토큰화 기반 모델을 능가하며, 평균 +7점(변형된 HellaSwag 기준)의 견고성 우위를 보였고, CUTE 토큰 이해 벤치마크 작업에서는 최대 +55점에 달했다"고 보고했다.

메타는 이전에 공유한 코드베이스와 함께 가중치를 공개함으로써 연구 커뮤니티가 언어 모델링에 대한 이 대안적 접근법을 탐구하도록 장려합니다.

협업 추론기: 사회적 지능을 갖춘 AI 에이전트 발전

마지막으로 공개된 '협업 추론기(Collaborative Reasoner)'는 인간이나 다른 AI와 효과적으로 협력할 수 있는 AI 에이전트 개발이라는 복잡한 과제를 해결합니다.

Meta는 인간 간의 협력이 종종 더 나은 결과를 만들어낸다는 점을 지적하며, 숙제 지원이나 취업 면접 준비와 같은 작업에 AI가 유사한 능력을 갖출 수 있도록 하는 것을 목표로 합니다.

이러한 협업에는 문제 해결뿐만 아니라 의사소통, 공감, 피드백 제공, 타인의 관점 이해(마음 이론)와 같은 사회적 기술도 필요하며, 일반적으로 여러 차례의 대화 과정을 통해 전개됩니다.

현재의 대규모 언어 모델(LLM) 훈련 및 평가 방법은 이러한 사회적·협업적 차원을 종종 간과합니다. 게다가 관련 대화 데이터를 수집하는 것은 비용이 많이 들고 어렵습니다.

협업 추론기(Collaborative Reasoner)는 이러한 기술을 평가하고 개선하기 위한 프레임워크를 제공합니다. 여기에는 두 에이전트 간의 대화를 통해 달성되는 다단계 추론이 필요한 목표 지향적 작업이 포함됩니다. 이 프레임워크는 건설적인 의견 불일치, 설득, 상호 최적의 해결책 도출과 같은 능력을 테스트합니다.

Meta의 평가 결과, 기존 모델들은 결과를 개선하기 위해 협력을 일관되게 활용하지 못하는 경우가 많았습니다. 이를 해결하기 위해 그들은 LLM 에이전트가 스스로와 협력하는 합성 상호작용 데이터를 활용한 자기 개선 기법을 제안합니다.

이 데이터를 대규모로 생성하는 것은 Matrix라는 새로운 고성능 모델 서비스 엔진 덕분에 가능해졌습니다. 수학, 과학, 사회적 추론 작업에 이 방법을 적용했을 때, 단일 LLM의 표준 '사유 사슬(chain-of-thought)' 성능 대비 최대 29.4%의 개선 효과가 보고되었습니다.

데이터 생성 및 모델링 파이프라인을 오픈소스화함으로써 메타는 "인간 및 다른 에이전트와 협력할 수 있는 진정한 사회적 에이전트" 개발 연구를 가속화하고자 합니다.

이 다섯 가지 발표는 메타가 기초적인 AI 연구, 특히 인간과 유사한 방식으로 세상을 인지하고 이해하며 상호작용할 수 있는 기계의 기반 구성 요소 개발에 지속적으로 상당한 투자를 하고 있음을 보여줍니다.

관련 기사: 메타, EU 사용자 데이터로 AI 모델 훈련 예정

업계 리더들로부터 AI와 빅데이터에 대해 더 알아보고 싶으신가요? 암스테르담, 캘리포니아, 런던에서 열리는 AI & 빅데이터 엑스포를 확인해 보세요. 이 포괄적인 행사는 인텔리전트 오토메이션 컨퍼런스, 블록엑스, 디지털 트랜스포메이션 위크, 사이버 보안 & 클라우드 엑스포 등 다른 주요 행사와 동시 개최됩니다.

TechForge가 주최하는 다른 기업 기술 행사 및 웨비나를 여기에서 확인하세요.

관련 특별 주제 추천

글쓰기

라디오 및 팟캐스팅을 위한 최고의 AI 스크립팅 도구들: 매력적인 오디오 광고를 제작하기

XIX.AI에서 2026년 최고의 라디오 및 팟캐스팅용 AI 스크립팅 도구들을 발견해 보세요. 저희가 엄선하여 선정한 이 목록에는 매력적인 오디오 광고를 빠르게 제작할 수 있도록 해주는 강력하고 혁신적인 도구들이 포함되어 있습니다. 무료 옵션과 유료 옵션을 실제 사용 사례를 통해 비교해 보고, 매주 업데이트되는 순위를 확인해 보세요. 오늘 바로 여러분의 창의성을 발휘해 보세요!

10 도구

xix.ai

사업

최고의 AI 계약서 검토 소프트웨어: 법적 허점과 규정 준수 위험을 즉시 파악하세요

XIX.AI에서 2026년 최고의 AI 계약서 검토 소프트웨어를 만나보세요. 엄선된 최고 평점 목록에는 법적 허점과 규정 준수 위험을 즉시 파악하는 강력한 도구들이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 통해 무료 및 유료 옵션을 비교해 보세요. 안전하고 효율적인 계약서 분석을 위한 획기적인 솔루션을 찾아보세요. 지금 바로 이 결정적인 가이드를 확인해 보세요.

10 도구

xix.ai

애니메이션 제작

동화를 위한 AI 애니메이션 생성기: 웹 소설 캐릭터 및 코믹 아바타 제작하기

2026년 최고의 동화용 AI 애니메이션 제작 도구를 발견해 보세요. 저희가 엄선한 이 목록에는 멋진 웹소설 캐릭터와 코믹 아바타를 만들 수 있는 강력한 도구들이 포함되어 있습니다. 무료 옵션과 유료 옵션을 실제 사용 테스트를 통해 비교해 보세요. XIX.AI에서 여러분에게 가장 적합한 창작 도구를 찾아내고 오늘 바로 여러분의 이야기를 현실로 만들어 보세요.

10 도구

xix.ai

만화 창작

만화용 최고의 AI 자동 채색 도구: 일관성 오류 없이 플랫 컬러 적용하기

XIX.AI에서 2026년 최고의 만화 AI 자동 채색 도구를 만나보세요. 저희가 엄선한 이 목록에는 일관성 오류 없이 평면 색상을 적용하여 생산성을 높여주는, 최고 평점을 받은 혁신적인 솔루션들이 포함되어 있습니다. 무료 버전과 유료 버전의 비교 분석, 실제 테스트 결과, 매주 업데이트되는 순위 정보를 확인하여 여러분에게 딱 맞는 도구를 찾아보세요. 지금 바로 AI의 힘을 경험해 보세요.

10 도구

xix.ai

글쓰기

최고의 AI 소설 캐릭터 생성기: 일관된 캐릭터 동기와 치명적인 결점 생성

깊이 있는 캐릭터를 창조할 수 있는 2026년 최고의 AI 소설 프로필 생성 도구를 만나보세요. XIX.AI가 엄선한 이 목록에는 일관된 동기와 치명적인 결점을 생성해 주는, 최고 평점을 받은 혁신적인 도구들이 포함되어 있습니다. 실제 테스트를 통해 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 여러분의 스토리텔링 잠재력을 발휘해 보세요.

10 도구

xix.ai

사업

최고의 AI 가격 최적화 소프트웨어: 경쟁사 추적 및 스토어 가격 자동 조정

XIX.AI에서 2026년 최고의 AI 가격 최적화 소프트웨어를 만나보세요. 저희가 엄선한 이 목록에는 경쟁사를 추적하고 최대 수익을 위해 매장 가격을 자동으로 조정해 주는, 최고 평점을 받은 혁신적인 도구들이 포함되어 있습니다. 실제 테스트 결과를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 가격 경쟁력의 우위를 확보하세요.

10 도구

xix.ai

의견 (1)

0/500

먼저 로그인하십시오

StevenMartin

2026년 1월 1일 오후 9시 30분 56초 GMT+09:00

So these advancements focus on perception and reasoning, huh? As someone who deals with automation at work, I find the 'AMI' goal both exciting and a bit unsettling. It feels like we're closing the loop between what a machine 'sees' and what it 'understands', which could revolutionize everything from logistics to creative tools. But honestly, I hope the focus stays on augmenting human ability rather than just chasing benchmarks that sound cool in research papers. The ethics of human-like perception need to be front and center. 🧠

최고의 뉴스

AI Builder와 Power Automate가 문서 요약을 혁신하다 AI Notebooklm Podcast의 AI 호스트는 이제 인터뷰에 참여할 수 있습니다 중국, 국가 휴머노이드 로봇 및 구현 지능 표준 공개 기업 AI 도입 정체기, 램프 데이터에 따르면 Bing 이미지 크리에이터 튜토리얼: AI 아트 생성 가이드 당신의 목소리를 사용하여 AI 음악 만들기 배우기 : 단계별 Suno 튜토리얼 iMyFone MagicMic: 실시간 AI 음성 변환기 리뷰 및 튜토리얼 2025 최고 AI 비디오 생성기: Pika Labs 대 비교 딥시크 V4, 다중 모달 AI의 판도를 바꾸는 혁신으로 부상하다 엠보디드 인텔리전스, 무분별한 확장을 억제하기 위한 업계 최초의 표준을 발표하다

더