구글 딥마인드의 TIPSv2: 이미지를 단순히 훑어보는 것이 아니라 진정으로 이해하는 AI
현재 AI 이미지 이해 기술에는 근본적인 한계가 있습니다.
"이 사진에 무엇이 있나요?"라고 물으면 상세한 답변을 제공할 수 있습니다. 하지만 "팬더의 왼쪽 뒷다리는 어디에 있나요?"라고 물으면 모호한 답변이 돌아옵니다. 이는 특정 모델의 결함이 아니라, 시각-언어 대형 모델 분야 전반에 걸쳐 지속되는 문제입니다. 즉, 전체적인 이해력은 뛰어나지만 세부적인 위치 파악 능력은 취약하다는 점입니다.
구글 딥마인드는 이 난제를 해결하기 위해 특별히 설계된 TIPSv2를 최신 논문에서 소개했습니다.

연구팀은 직관과 반대되는 발견을 했습니다. 세밀한 분할 작업에서 더 작은 학생 모델이 더 큰 교사 모델보다 성능이 뛰어난 경우가 빈번하다는 것입니다. 이는 증류(distillation) 과정이 마스킹 메커니즘을 제거함으로써 모델이 전체 이미지의 모든 세부 사항을 학습하도록 유도하여 일종의 "전체 영역 감독(full-area supervision)"을 생성하기 때문입니다. 이러한 통찰에 힘입어 TIPSv2는 세 가지 주요 개선 사항을 도입했습니다.
첫째, iBOT++입니다. 기존의 사전 훈련은 마스크 처리된 영역에 대해서만 손실(loss)을 계산하므로, 가시 영역은 소홀히 다루어져 국소적 의미론이 흐트러지는 결과를 초래합니다. iBOT++는 모델이 모든 가시 영역에 대해 정밀한 감독을 제공하도록 요구함으로써, 이 작업을 "퍼즐 게임"에서 "전체 텍스트를 꼼꼼히 읽는 것"으로 효과적으로 격상시킵니다. 이 단일 개선 사항만으로도 제로샷(zero-shot) 분할 성능이 14.1% 포인트 향상되었습니다.
둘째, 헤드 전용 EMA입니다. 기존의 자기 지도 학습은 메모리에 거의 동일한 두 개의 대형 모델을 유지해야 하므로 자원이 매우 많이 소모됩니다. TIPSv2는 이미지-텍스트 대조 손실만으로도 백본 네트워크를 안정화시키기에 충분하다는 사실을 발견했습니다. 따라서 EMA는 최종 투영 헤드에만 적용하면 되며, 백본을 중복할 필요가 없습니다. 이로 인해 훈련 매개변수 수가 약 42% 감소하여 성능 저하 없이 훈련 속도가 빨라졌습니다.
셋째, 다중 세분화 텍스트 페어링입니다. 훈련 과정에서 Gemini가 생성한 짧은 웹 설명, 중간 수준의 상세 설명, 긴 설명이 무작위로 혼합되어 모델에 입력되며, 쉬운 과제와 어려운 과제가 번갈아 가며 주어집니다. 이를 통해 모델이 단순한 과제에서 안주하는 것을 방지하는 동시에 세부 사항이 누락되지 않도록 보장합니다.
최종 결과는 매우 인상적입니다. TIPSv2는 9가지 과제와 20개의 권위 있는 데이터셋을 대상으로 동결 평가(frozen evaluation)를 거쳤습니다. 제로샷(zero-shot) 의미 분할은 새로운 업계 벤치마크를 달성했으며, 이미지-텍스트 검색 및 분류는 파라미터가 56% 더 많은 비교 모델들을 능가했습니다. 순수 시각 과제에서도 최상위 성적을 기록했습니다.
TIPSv2의 코드와 모델 가중치는 완전히 오픈소스로 공개되었습니다. 의료 영상, 자율 주행, 산업 검사 및 고정밀 이미지 이해가 요구되는 기타 분야에서 활동하는 팀이라면 이 솔루션을 면밀히 살펴볼 가치가 있습니다.
논문: https://www.alphaxiv.org/abs/2604.12012
관련 기사
오픈AI CEO 알트먼, 앤트로픽의 ‘공황에 휩싸인’ 마케팅 전략을 맹비난
AI 업계의 선두주자인 오픈AI(OpenAI)와 앤트로픽(Anthropic) 간의 공개적 공방이 더욱 격화되고 있다. 오픈AI의 CEO인 샘 알트먼은 최근 한 팟캐스트에서 경쟁사의 최신 안전 모델에 의문을 제기했다.알트먼은 앤트로픽이 기술에 대한 대중의 두려움을 이용해 자사 제품의 실제 성능을 과대포장하고 있다고 주장한다. 그는 이러한 접근 방식을 진정한
커서 AI 코딩 스타트업, 스페이스X로부터 대규모 투자 유치 후 아시아태평양 지역에서 200명 채용 예정
AI 코딩 스타트업 커서(Cursor)가 향후 6개월 동안 아시아 태평양 지역 전역에서 200명의 직원을 채용할 계획이라고 밝히며 대규모 글로벌 확장 계획을 발표했다. 주요 채용 직종으로는 마케팅 엔지니어, 현장 엔지니어, AI 배포 엔지니어 등이 포함된다. 이번 조치는 샌프란시스코에 본사를 둔 이 유니콘 기업이 자사의 핵심 기술을 국제 시장에 진출시키려는
클로드(Claude)가 악성 npm 패키지 제작에 악용됨: 670개 이상의 패키지가 해킹당해 오픈소스 생태계에 위협
최근 발생한 사이버 보안 사고를 통해 대규모 언어 모델(LLM)이 악성 소프트웨어 개발에 악용되고 있는 실태가 드러났다. 보안 연구원 시비 무사(Sibi Moosa)는 ‘mousie-5212-super-formatter’라는 가명을 사용하는 공격자가 앤트로픽(Anthropic)의 클로드(Claude) AI를 활용해 유해한 코드를 생성하고 npm 패키지 생태
관련 특별 주제 추천
의견 (0)
0/500
현재 AI 이미지 이해 기술에는 근본적인 한계가 있습니다.
"이 사진에 무엇이 있나요?"라고 물으면 상세한 답변을 제공할 수 있습니다. 하지만 "팬더의 왼쪽 뒷다리는 어디에 있나요?"라고 물으면 모호한 답변이 돌아옵니다. 이는 특정 모델의 결함이 아니라, 시각-언어 대형 모델 분야 전반에 걸쳐 지속되는 문제입니다. 즉, 전체적인 이해력은 뛰어나지만 세부적인 위치 파악 능력은 취약하다는 점입니다.
구글 딥마인드는 이 난제를 해결하기 위해 특별히 설계된 TIPSv2를 최신 논문에서 소개했습니다.

연구팀은 직관과 반대되는 발견을 했습니다. 세밀한 분할 작업에서 더 작은 학생 모델이 더 큰 교사 모델보다 성능이 뛰어난 경우가 빈번하다는 것입니다. 이는 증류(distillation) 과정이 마스킹 메커니즘을 제거함으로써 모델이 전체 이미지의 모든 세부 사항을 학습하도록 유도하여 일종의 "전체 영역 감독(full-area supervision)"을 생성하기 때문입니다. 이러한 통찰에 힘입어 TIPSv2는 세 가지 주요 개선 사항을 도입했습니다.
첫째, iBOT++입니다. 기존의 사전 훈련은 마스크 처리된 영역에 대해서만 손실(loss)을 계산하므로, 가시 영역은 소홀히 다루어져 국소적 의미론이 흐트러지는 결과를 초래합니다. iBOT++는 모델이 모든 가시 영역에 대해 정밀한 감독을 제공하도록 요구함으로써, 이 작업을 "퍼즐 게임"에서 "전체 텍스트를 꼼꼼히 읽는 것"으로 효과적으로 격상시킵니다. 이 단일 개선 사항만으로도 제로샷(zero-shot) 분할 성능이 14.1% 포인트 향상되었습니다.
둘째, 헤드 전용 EMA입니다. 기존의 자기 지도 학습은 메모리에 거의 동일한 두 개의 대형 모델을 유지해야 하므로 자원이 매우 많이 소모됩니다. TIPSv2는 이미지-텍스트 대조 손실만으로도 백본 네트워크를 안정화시키기에 충분하다는 사실을 발견했습니다. 따라서 EMA는 최종 투영 헤드에만 적용하면 되며, 백본을 중복할 필요가 없습니다. 이로 인해 훈련 매개변수 수가 약 42% 감소하여 성능 저하 없이 훈련 속도가 빨라졌습니다.
셋째, 다중 세분화 텍스트 페어링입니다. 훈련 과정에서 Gemini가 생성한 짧은 웹 설명, 중간 수준의 상세 설명, 긴 설명이 무작위로 혼합되어 모델에 입력되며, 쉬운 과제와 어려운 과제가 번갈아 가며 주어집니다. 이를 통해 모델이 단순한 과제에서 안주하는 것을 방지하는 동시에 세부 사항이 누락되지 않도록 보장합니다.
최종 결과는 매우 인상적입니다. TIPSv2는 9가지 과제와 20개의 권위 있는 데이터셋을 대상으로 동결 평가(frozen evaluation)를 거쳤습니다. 제로샷(zero-shot) 의미 분할은 새로운 업계 벤치마크를 달성했으며, 이미지-텍스트 검색 및 분류는 파라미터가 56% 더 많은 비교 모델들을 능가했습니다. 순수 시각 과제에서도 최상위 성적을 기록했습니다.
TIPSv2의 코드와 모델 가중치는 완전히 오픈소스로 공개되었습니다. 의료 영상, 자율 주행, 산업 검사 및 고정밀 이미지 이해가 요구되는 기타 분야에서 활동하는 팀이라면 이 솔루션을 면밀히 살펴볼 가치가 있습니다.
논문: https://www.alphaxiv.org/abs/2604.12012
오픈AI CEO 알트먼, 앤트로픽의 ‘공황에 휩싸인’ 마케팅 전략을 맹비난
AI 업계의 선두주자인 오픈AI(OpenAI)와 앤트로픽(Anthropic) 간의 공개적 공방이 더욱 격화되고 있다. 오픈AI의 CEO인 샘 알트먼은 최근 한 팟캐스트에서 경쟁사의 최신 안전 모델에 의문을 제기했다.알트먼은 앤트로픽이 기술에 대한 대중의 두려움을 이용해 자사 제품의 실제 성능을 과대포장하고 있다고 주장한다. 그는 이러한 접근 방식을 진정한
커서 AI 코딩 스타트업, 스페이스X로부터 대규모 투자 유치 후 아시아태평양 지역에서 200명 채용 예정
AI 코딩 스타트업 커서(Cursor)가 향후 6개월 동안 아시아 태평양 지역 전역에서 200명의 직원을 채용할 계획이라고 밝히며 대규모 글로벌 확장 계획을 발표했다. 주요 채용 직종으로는 마케팅 엔지니어, 현장 엔지니어, AI 배포 엔지니어 등이 포함된다. 이번 조치는 샌프란시스코에 본사를 둔 이 유니콘 기업이 자사의 핵심 기술을 국제 시장에 진출시키려는
클로드(Claude)가 악성 npm 패키지 제작에 악용됨: 670개 이상의 패키지가 해킹당해 오픈소스 생태계에 위협
최근 발생한 사이버 보안 사고를 통해 대규모 언어 모델(LLM)이 악성 소프트웨어 개발에 악용되고 있는 실태가 드러났다. 보안 연구원 시비 무사(Sibi Moosa)는 ‘mousie-5212-super-formatter’라는 가명을 사용하는 공격자가 앤트로픽(Anthropic)의 클로드(Claude) AI를 활용해 유해한 코드를 생성하고 npm 패키지 생태





집






