구글 딥마인드의 TIPSv2: 이미지를 단순히 훑어보는 것이 아니라 진정으로 이해하는 AI

집

뉴스

2026년 5월 31일

WillWalker

현재 AI 이미지 이해 기술에는 근본적인 한계가 있습니다.

"이 사진에 무엇이 있나요?"라고 물으면 상세한 답변을 제공할 수 있습니다. 하지만 "팬더의 왼쪽 뒷다리는 어디에 있나요?"라고 물으면 모호한 답변이 돌아옵니다. 이는 특정 모델의 결함이 아니라, 시각-언어 대형 모델 분야 전반에 걸쳐 지속되는 문제입니다. 즉, 전체적인 이해력은 뛰어나지만 세부적인 위치 파악 능력은 취약하다는 점입니다.

구글 딥마인드는 이 난제를 해결하기 위해 특별히 설계된 TIPSv2를 최신 논문에서 소개했습니다.

TIPSv2 방법 다이어그램

연구팀은 직관과 반대되는 발견을 했습니다. 세밀한 분할 작업에서 더 작은 학생 모델이 더 큰 교사 모델보다 성능이 뛰어난 경우가 빈번하다는 것입니다. 이는 증류(distillation) 과정이 마스킹 메커니즘을 제거함으로써 모델이 전체 이미지의 모든 세부 사항을 학습하도록 유도하여 일종의 "전체 영역 감독(full-area supervision)"을 생성하기 때문입니다. 이러한 통찰에 힘입어 TIPSv2는 세 가지 주요 개선 사항을 도입했습니다.

첫째, iBOT++입니다. 기존의 사전 훈련은 마스크 처리된 영역에 대해서만 손실(loss)을 계산하므로, 가시 영역은 소홀히 다루어져 국소적 의미론이 흐트러지는 결과를 초래합니다. iBOT++는 모델이 모든 가시 영역에 대해 정밀한 감독을 제공하도록 요구함으로써, 이 작업을 "퍼즐 게임"에서 "전체 텍스트를 꼼꼼히 읽는 것"으로 효과적으로 격상시킵니다. 이 단일 개선 사항만으로도 제로샷(zero-shot) 분할 성능이 14.1% 포인트 향상되었습니다.

둘째, 헤드 전용 EMA입니다. 기존의 자기 지도 학습은 메모리에 거의 동일한 두 개의 대형 모델을 유지해야 하므로 자원이 매우 많이 소모됩니다. TIPSv2는 이미지-텍스트 대조 손실만으로도 백본 네트워크를 안정화시키기에 충분하다는 사실을 발견했습니다. 따라서 EMA는 최종 투영 헤드에만 적용하면 되며, 백본을 중복할 필요가 없습니다. 이로 인해 훈련 매개변수 수가 약 42% 감소하여 성능 저하 없이 훈련 속도가 빨라졌습니다.

셋째, 다중 세분화 텍스트 페어링입니다. 훈련 과정에서 Gemini가 생성한 짧은 웹 설명, 중간 수준의 상세 설명, 긴 설명이 무작위로 혼합되어 모델에 입력되며, 쉬운 과제와 어려운 과제가 번갈아 가며 주어집니다. 이를 통해 모델이 단순한 과제에서 안주하는 것을 방지하는 동시에 세부 사항이 누락되지 않도록 보장합니다.

최종 결과는 매우 인상적입니다. TIPSv2는 9가지 과제와 20개의 권위 있는 데이터셋을 대상으로 동결 평가(frozen evaluation)를 거쳤습니다. 제로샷(zero-shot) 의미 분할은 새로운 업계 벤치마크를 달성했으며, 이미지-텍스트 검색 및 분류는 파라미터가 56% 더 많은 비교 모델들을 능가했습니다. 순수 시각 과제에서도 최상위 성적을 기록했습니다.

TIPSv2의 코드와 모델 가중치는 완전히 오픈소스로 공개되었습니다. 의료 영상, 자율 주행, 산업 검사 및 고정밀 이미지 이해가 요구되는 기타 분야에서 활동하는 팀이라면 이 솔루션을 면밀히 살펴볼 가치가 있습니다.

논문: https://www.alphaxiv.org/abs/2604.12012

관련 특별 주제 추천

사업

최고의 AI 계약서 검토 소프트웨어: 법적 허점과 규정 준수 위험을 즉시 파악하세요

XIX.AI에서 2026년 최고의 AI 계약서 검토 소프트웨어를 만나보세요. 엄선된 최고 평점 목록에는 법적 허점과 규정 준수 위험을 즉시 파악하는 강력한 도구들이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 통해 무료 및 유료 옵션을 비교해 보세요. 안전하고 효율적인 계약서 분석을 위한 획기적인 솔루션을 찾아보세요. 지금 바로 이 결정적인 가이드를 확인해 보세요.

10 도구

xix.ai

애니메이션 제작

동화를 위한 AI 애니메이션 생성기: 웹 소설 캐릭터 및 코믹 아바타 제작하기

2026년 최고의 동화용 AI 애니메이션 제작 도구를 발견해 보세요. 저희가 엄선한 이 목록에는 멋진 웹소설 캐릭터와 코믹 아바타를 만들 수 있는 강력한 도구들이 포함되어 있습니다. 무료 옵션과 유료 옵션을 실제 사용 테스트를 통해 비교해 보세요. XIX.AI에서 여러분에게 가장 적합한 창작 도구를 찾아내고 오늘 바로 여러분의 이야기를 현실로 만들어 보세요.

10 도구

xix.ai

만화 창작

만화용 최고의 AI 자동 채색 도구: 일관성 오류 없이 플랫 컬러 적용하기

XIX.AI에서 2026년 최고의 만화 AI 자동 채색 도구를 만나보세요. 저희가 엄선한 이 목록에는 일관성 오류 없이 평면 색상을 적용하여 생산성을 높여주는, 최고 평점을 받은 혁신적인 솔루션들이 포함되어 있습니다. 무료 버전과 유료 버전의 비교 분석, 실제 테스트 결과, 매주 업데이트되는 순위 정보를 확인하여 여러분에게 딱 맞는 도구를 찾아보세요. 지금 바로 AI의 힘을 경험해 보세요.

10 도구

xix.ai

글쓰기

최고의 AI 소설 캐릭터 생성기: 일관된 캐릭터 동기와 치명적인 결점 생성

깊이 있는 캐릭터를 창조할 수 있는 2026년 최고의 AI 소설 프로필 생성 도구를 만나보세요. XIX.AI가 엄선한 이 목록에는 일관된 동기와 치명적인 결점을 생성해 주는, 최고 평점을 받은 혁신적인 도구들이 포함되어 있습니다. 실제 테스트를 통해 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 여러분의 스토리텔링 잠재력을 발휘해 보세요.

10 도구

xix.ai

사업

최고의 AI 가격 최적화 소프트웨어: 경쟁사 추적 및 스토어 가격 자동 조정

XIX.AI에서 2026년 최고의 AI 가격 최적화 소프트웨어를 만나보세요. 저희가 엄선한 이 목록에는 경쟁사를 추적하고 최대 수익을 위해 매장 가격을 자동으로 조정해 주는, 최고 평점을 받은 혁신적인 도구들이 포함되어 있습니다. 실제 테스트 결과를 바탕으로 무료 버전과 유료 버전을 비교해 보세요. 지금 바로 가격 경쟁력의 우위를 확보하세요.

10 도구

xix.ai

암호

최고의 AI 코드 검토 도구: 깔끔한 코드 준수 자동화 및 레거시 리포지토리 파일 리팩토링

XIX.AI에서 2026년 최고의 AI 코드 검토 도구를 만나보세요. 엄선된 이 목록에는 깔끔한 코드 준수 여부를 자동으로 확인하고 레거시 리포지토리 파일을 리팩토링하는 데 있어 판도를 바꿀 만한 최고 등급의 도구들이 포함되어 있습니다. 실제 테스트 결과와 매주 업데이트되는 순위를 통해 무료 및 유료 옵션을 비교해 보세요. 지금 바로 AI의 경쟁력을 확보하세요.

10 도구

xix.ai