옵션
뉴스
AI 주석 도전: 자동 라벨링의 신화

AI 주석 도전: 자동 라벨링의 신화

2025년 8월 21일
0

기계 학습 연구에서는 AI가 데이터셋 주석, 특히 시각-언어 모델(VLM)을 위한 이미지 캡션을 개선하여 비용을 절감하고 인간 감독 부담을 줄일 수 있다고 가정합니다.

이는 2000년대 초반 'RAM 더 다운로드' 밈을 떠올리게 하며, 소프트웨어가 하드웨어 한계를 해결할 수 있다는 아이디어를 비웃습니다.

그러나 주석 품질은 종종 간과되며, 새로운 AI 모델에 대한 소음에 묻혀 기계 학습 파이프라인에서 중요한 역할을 합니다.

AI가 패턴을 식별하고 복제하는 능력은 고품질의 일관된 인간 주석—사람들이 불완전한 환경에서 주관적인 판단으로 만든 라벨과 설명—에 달려 있습니다.

인간을 대체하고 정확한 라벨링을 확장하기 위해 주석자 행동을 모방하려는 시스템은 인간이 제공한 예시에 포함되지 않은 데이터에 직면하면 어려움을 겪습니다. 유사성은 동일성을 의미하지 않으며, 컴퓨터 비전에서 도메인 간 일관성은 여전히 어렵습니다.

궁극적으로 인간의 판단은 AI 시스템을 형성하는 데이터를 정의합니다.

RAG 솔루션

최근까지 데이터셋 주석의 오류는 생성 AI의 불완전하지만 시장성 있는 출력으로 인해 사소한 타협으로 용인되었습니다.

2025년 싱가포르 연구는 환각—AI가 잘못된 출력을 생성하는 것—이 이러한 시스템 설계에 내재되어 있음을 발견했습니다.

인터넷 검색을 통해 사실을 검증하는 RAG 기반 에이전트는 연구 및 상업 응용에서 주목받고 있지만, 자원 비용과 쿼리 지연을 증가시킵니다. 훈련된 모델에 적용된 새로운 정보는 네이티브 모델 연결의 깊이를 가지지 않습니다.

잘못된 주석은 모델 성능을 저해하며, 인간의 주관성으로 인해 불완전하지만 주석 품질을 개선하는 것이 중요합니다.

RePOPE 통찰

독일 연구는 오래된 데이터셋의 결함을 드러내며, MSCOCO와 같은 벤치마크에서 이미지 캡션 정확도에 초점을 맞췄습니다. 이는 라벨 오류가 시각-언어 모델의 환각 평가를 왜곡함을 보여줍니다.

새 논문에서, MSCOCO 데이터셋의 원래 캡션이 객체를 정확히 식별하지 못한 몇 가지 예시. 연구자들의 POPE 벤치마크 데이터셋 수동 수정은 주석 큐레이션 비용 절감의 단점을 보여줍니다. 출처: https://arxiv.org/pdf/2504.15707

최근 연구에서 MSCOCO 데이터셋 캡션의 잘못된 객체 식별을 보여주는 예시. POPE 벤치마크의 수동 수정은 주석 큐레이션 비용 절감의 함정을 강조합니다. 출처: https://arxiv.org/pdf/2504.15707

AI가 자전거가 있는 거리 장면 이미지를 평가한다고 가정해 봅시다. 모델이 라고 답했지만 데이터셋이 아니오라고 주장하면 잘못된 것으로 표시됩니다. 그러나 자전거가 명확히 존재하지만 주석에서 누락되었다면, 모델은 맞고 데이터셋은 잘못된 것입니다. 이러한 오류는 모델 정확도와 환각 메트릭을 왜곡합니다.

부정확하거나 모호한 주석은 정확한 모델을 오류가 있는 것처럼 보이게 하거나, 잘못된 모델을 신뢰할 수 있는 것처럼 보이게 하여 환각 진단과 모델 순위를 복잡하게 합니다.

이 연구는 MSCOCO 라벨을 사용하여 이미지에서 객체 식별 능력을 테스트하는 POPE(폴링 기반 객체 탐지 평가) 벤치마크를 재검토합니다.

POPE는 환각을 예/아니오 분류 작업으로 재구성하여, “이미지에 가 있나요?”와 같은 프롬프트를 사용해 모델이 이미지에서 특정 객체를 식별하는지 묻습니다.

시각-언어 모델에서 객체 환각의 예시. 굵은 라벨은 원래 주석에서 존재한다고 표시된 객체를 나타내고, 빨간 라벨은 모델이 환각한 객체를 보여줍니다. 왼쪽 예시는 전통적인 지시 기반 평가를 반영하며, 오른쪽 세 예시는 POPE 벤치마크의 다양한 변형에서 가져왔습니다. 출처: https://aclanthology.org/2023.emnlp-main.20.pdf

시각-언어 모델에서 객체 환각의 예시. 굵은 라벨은 원래 주석의 객체를 표시하고, 빨간 라벨은 모델이 환각한 객체를 강조합니다. 왼쪽 예시는 전통적인 평가를 사용하며, 오른쪽 세 예시는 POPE 변형에서 가져왔습니다. 출처: https://aclanthology.org/2023.emnlp-main.20.pdf

참인 객체(답변: )는 존재하지 않는 객체(답변: 아니오)와 쌍을 이루며, 무작위, 빈번, 또는 동시 발생을 기반으로 선택됩니다. 이를 통해 복잡한 캡션 분석 없이 안정적이고 프롬프트 독립적인 환각 평가가 가능합니다.

RePOPE: POPE 벤치마크에서 주석 오류의 영향 연구는 MSCOCO 라벨을 재검사하여 많은 오류와 모호성을 발견했습니다.

2014 MSCOCO 데이터셋의 예시. 출처: https://arxiv.org/pdf/1405.0312

2014 MSCOCO 데이터셋의 이미지. 출처: https://arxiv.org/pdf/1405.0312

이러한 오류는 모델 순위를 변경하며, 일부 상위 모델은 수정된 라벨로 평가 시 순위가 하락했습니다.

원래 POPE와 재라벨링된 RePOPE를 사용한 오픈 웨이트 시각-언어 모델 테스트는 특히 F1 점수에서 큰 순위 변화를 보여주며, 여러 모델의 성능이 하락했습니다.

이 연구는 주석 오류가 실제 모델 환각을 숨긴다고 주장하며, RePOPE를 더 정확한 평가 도구로 제시합니다.

새 논문의 또 다른 예시에서, 원래 POPE 캡션이 오른쪽 사진의 트램 객실 옆에 앉은 사람이나, 왼쪽에서 두 번째 사진의 테니스 선수에 가려진 의자와 같은 미묘한 객체를 식별하지 못한 것을 볼 수 있습니다.

연구에서 POPE 캡션이 트램 객실 근처의 사람이나 테니스 선수에 가려진 의자와 같은 미묘한 객체를 놓친 예시.

방법론 및 테스트

연구자들은 인스턴스당 두 명의 인간 검토자를 통해 MSCOCO 주석을 재라벨링했습니다. 아래와 같은 모호한 사례는 테스트에서 제외되었습니다.

POPE에서 라벨링 불일치가 불명확한 카테고리 경계를 반영하는 모호한 사례. 예를 들어, 테디베어가 곰으로, 오토바이가 자전거로, 공항 차량이 자동차로 라벨링되었습니다. 이러한 사례는 주관적인 분류와 MSCOCO의 원래 라벨 불일치로 인해 RePOPE에서 제외되었습니다.

POPE에서 불명확한 라벨로 인한 모호한 사례, 예를 들어 테디베어가 곰으로, 오토바이가 자전거로 라벨링된 경우는 MSCOCO의 불일치와 주관적 분류로 인해 RePOPE에서 제외되었습니다.

논문은 다음과 같이 언급합니다:

“원래 주석자는 배경이나 유리 뒤의 사람, 테니스 선수에 가려진 의자, 또는 양배추 샐러드의 희미한 당근을 간과했습니다.”

“테디베어를 곰으로, 오토바이를 자전거로 분류하는 등 MSCOCO의 일관되지 않은 라벨은 객체 정의의 다양성에서 비롯되며, 이러한 사례를 모호한 것으로 표시합니다.”

재주석 결과: 세 가지 POPE 변형에서 긍정 질문은 공유됩니다. POPE에서 ‘예’로 라벨링된 것 중 9.3%가 잘못되었고, 13.8%가 모호한 것으로 분류되었습니다. ‘아니오’ 질문에서는 1.7%가 잘못 라벨링되었고, 4.3%가 모호했습니다.

재주석 결과: POPE 변형에서 ‘예’ 라벨의 9.3%가 잘못, 13.8%가 모호; ‘아니오’ 라벨의 1.7%가 잘못, 4.3%가 모호.

팀은 InternVL2.5, LLaVA-NeXT, Vicuna, Mistral 7b, Llama, LLaVA-OneVision, Ovis2, PaliGemma-3B, PaliGemma2를 포함한 오픈 웨이트 모델을 POPE와 RePOPE에서 테스트했습니다.

초기 결과: 원래 긍정 라벨의 높은 오류율은 모든 모델에서 참 긍정의 급격한 하락으로 이어집니다. 거짓 긍정은 하위 집합에 따라 달라지며, 무작위 하위 집합에서는 거의 두 배가 되지만, 인기 하위 집합에서는 크게 변하지 않고, 적대적 하위 집합에서는 약간 감소합니다. 재라벨링은 F1 기반 순위에 큰 영향을 미칩니다. POPE의 인기 및 적대적 분할에서 좋은 성능을 보인 Ovis2-4B와 Ovis2-8B 모델은 RePOPE의 무작위 하위 집합에서도 상위로 올라갑니다. 더 나은 해상도를 위해 출처 PDF를 참조하세요.

결과는 원래 라벨 오류로 인해 참 긍정이 하락했음을 보여줍니다. 거짓 긍정은 무작위 하위 집합에서 두 배가 되었고, 인기 하위 집합에서는 안정적이며, 적대적 하위 집합에서는 약간 감소했습니다. 재라벨링은 F1 순위를 변화시켰으며, Ovis2-4B와 -8B가 상위로 올라갔습니다.

그래프는 참 긍정이 모델 전반에서 하락했으며, 올바른 답변이 종종 잘못된 라벨에 기반했음을 보여줍니다. 거짓 긍정은 다양했습니다.

POPE의 무작위 하위 집합에서 거짓 긍정은 거의 두 배가 되었으며, 원래 주석에서 누락된 객체가 존재함을 드러냅니다. 적대적 하위 집합에서는 거짓 긍정이 감소했으며, 부재한 객체가 종종 라벨링되지 않았지만 존재했습니다.

정밀도와 재현율이 영향을 받았지만, 모델 순위는 안정적이었습니다. POPE의 주요 메트릭인 F1 점수는 크게 변화했으며, InternVL2.5-8B와 같은 상위 모델이 하락하고 Ovis2-4B와 -8B가 상승했습니다.

정확도 점수는 수정된 데이터셋의 불균등한 긍정 및 부정 예시로 인해 덜 신뢰할 수 있었습니다.

연구는 고품질 주석의 필요성을 강조하며, 수정된 라벨을 GitHub에 공유합니다. RePOPE만으로는 벤치마크 포화 문제를 완전히 해결하지 못하며, 모델은 여전히 참 긍정과 부정에서 90% 이상을 기록합니다. DASH-B와 같은 추가 벤치마크가 권장됩니다.

결론

이 연구는 소규모 데이터셋으로 인해 가능했으며, 대표 데이터를 분리하기 어려운 초대규모 데이터셋으로 확장하는 데 어려움을 강조합니다.

가능하더라도 현재 방법은 더 나은, 더 광범위한 인간 주석의 필요성을 나타냅니다.

‘더 나은’과 ‘더 많은’은 별개의 도전을 제기합니다. Amazon Mechanical Turk와 같은 저비용 플랫폼은 품질 낮은 주석의 위험을 초래하며, 다른 지역으로 아웃소싱하면 모델의 의도된 사용 사례와 맞지 않을 수 있습니다.

이는 기계 학습 경제학의 핵심적이고 해결되지 않은 문제로 남아 있습니다.

 

2025년 4월 23일 수요일 처음 게시됨

관련 기사
AI로 구동되는 도구가 콘텐츠 크리에이터를 위한 음성 선명도를 향상시킴 AI로 구동되는 도구가 콘텐츠 크리에이터를 위한 음성 선명도를 향상시킴 디지털 시대에는 팟캐스트, 비디오, 전문 커뮤니케이션 등에서 매력적인 콘텐츠를 위해 깨끗한 오디오가 필수적입니다. 전통적인 방법은 종종 기대에 미치지 못하지만, 인공지능(AI)은 오디오 향상을 혁신하고 있습니다. 이 기사에서는 음성 선명도를 높이고, 배경 소음을 최소화하며, 오디오 품질을 향상시키는 최첨단 AI 도구를 소개하여 고가의 장비 없이도 전문가 수
기술 대기업들이 AI 교육 프로그램으로 교육자들을 강화하다 기술 대기업들이 AI 교육 프로그램으로 교육자들을 강화하다 기술은 교육을 혁신하고 있으며, 주요 기술 기업들이 교사들에게 필수적인 기술을 제공하고 있습니다. Microsoft, OpenAI, Anthropic과 같은 대기업들은 교사 연합과 협력하여 미국 내 수십만 명의 교육자들을 훈련시키는 대담한 계획인 National Academy for AI Instruction을 설립했습니다. 인공지능은 교실 혁신을 강화하고
Creative Fabrica가 AI 폰트 생성기를 공개하여 디자인 창의성을 높이다 Creative Fabrica가 AI 폰트 생성기를 공개하여 디자인 창의성을 높이다 안녕하세요, 디자인 애호가 여러분! Creative Fabrica의 획기적인 업데이트를 소개하며 여러분의 창의적 과정을 혁신할 준비가 되었습니다. 아티스트든 창의적 기업가든, 온라인에서 수익을 창출하려면 독특한 비주얼을 만드는 것이 중요합니다. 새로운 AI 폰트 생성기는 판매용 독특한 그래픽을 제작하거나 Creative Fabrica의 제품을 활용하여 디자
의견 (0)
0/200
위로 돌아갑니다
OR