애플, 성능 우려 속 이미지 설명을 위한 ‘루비캡(RubiCap)’ AI 공개
컴퓨터 비전 분야에서 AI가 인간과 같은 정밀도로 이미지의 모든 세부 사항을 관찰하고 묘사할 수 있도록 하는 것은 오랫동안 핵심 과제로 여겨져 왔습니다. 최근 애플은 위스콘신-매디슨 대학교와 협력하여 RubiCap 이라는 새로운 AI 훈련 프레임워크를 공식 출시했습니다.
이 프레임워크는 '고밀도 이미지 캡셔닝(dense image captioning)'을 위해 특별히 설계되었으며, AI가 단순히 일반적인 요약만 제공하는 것이 아니라 "나무 탁자 위의 빨간 사과"나 "멀리 있는 보행자"와 같은 세밀한 세부 사항을 정확하게 포착하고 표현할 수 있도록 하는 것을 목표로 합니다.

큰 파장을 일으킨 강화 학습: '심판' 역할을 하는 Qwen2.5
기존의 이미지 캡셔닝은 비용이 많이 드는 수동 라벨링이나 환각 현상에 취약한 대규모 모델에 의존하는 경우가 많아 데이터 품질이 일관되지 않은 문제가 있었습니다. 애플 연구팀은 혁신적인 강화 학습 접근법을 통해 이 문제를 해결했습니다. 이 시스템은 먼저 GPT-4와 Gemini 1.5 Pro를 사용하여 후보 설명을 생성합니다. 그런 다음 Gemini 1.5 Pro가 평가 기준을 정교화하는 동안, Qwen2.5 모델이 심판 역할을 수행하며 점수와 피드백을 제공합니다.
이러한 체계적이고 정밀한 피드백을 통해 훈련 모델은 오류를 명확히 식별하고 수정할 수 있어, 더 적은 매개변수 수로도 더 높은 설명 정확도를 달성합니다.
소형 모델의 장점: 1조 파라미터 모델을 능가하는 낮은 환각 발생률
이 프레임워크로 훈련된 RubiCap 시리즈 모델(20억~70억 파라미터)은 평가에서 탁월한 효율성을 보여주었습니다. 실험 데이터에 따르면, 70억 파라미터의 RubiCap 모델은 블라인드 테스트에서 최고 점수를 기록했으며, 환각 오류율은 선도적인 7,200억 파라미터 대형 모델보다 낮았습니다. 놀랍게도, 30억 파라미터의 미니 버전은 특정 지표에서 70억 파라미터 버전보다 더 뛰어난 성능을 보였습니다.
관련 기사
영국 정부 부처들, AI 데이터센터의 에너지 수요를 두고 대립
영국 정부는 청정 에너지를 확대하는 동시에 인공지능 분야의 글로벌 리더가 되겠다는 목표를 달성해야 하는 중대한 과제에 직면해 있다. 그러나 이러한 목표를 담당하는 부처들 사이에는 심각한 견해 차이가 드러나고 있다. 과학·혁신·기술부(DSIT)와 에너지 안보 및 탄소중립부(DESNZ)는 AI 데이터 센터의 미래 전력 수요에 대해 극명하게 대조되는 전망을 내놓
중국 사이버공간관리국은 AI가 생성한 영상과 허구적인 숏폼 영상에 태그를 달도록 의무화했다
중국 사이버공간관리국은 숏폼 동영상 콘텐츠 표기를 표준화하기 위한 포괄적인 계획을 발표했으며, 플랫폼들이 “AI 생성 콘텐츠”를 포함한 6가지 필수 태그를 제공하도록 의무화함으로써 숏폼 동영상 규제에 있어 투명성 확보가 필수적인 새로운 시대를 열었다.콘텐츠 출처가 불분명하거나 사실과 허구를 구분하기 어려운 문제 등을 해결하기 위해, 규제 당국은 도우인(Do
텍스트 번역으로 유명한 DeepL이 이제 음성 번역 시장에 진출한다
텍스트 기반 도구로 잘 알려진 번역 기업 DeepL이 오늘, 맞춤형 애플리케이션을 통해 현장 근무자들을 위한 회의, 모바일 및 웹 대화, 그룹 토론 등의 상황을 지원하는 음성-음성 번역 제품군을 출시했습니다. 또한 이 회사는 외부 개발자와 기업들이 콜센터와 같은 맞춤형 사용 사례를 위해 DeepL의 기술을 기반으로 서비스를 구축할 수 있도록 지원하는 API
관련 특별 주제 추천
의견 (0)
0/500
컴퓨터 비전 분야에서 AI가 인간과 같은 정밀도로 이미지의 모든 세부 사항을 관찰하고 묘사할 수 있도록 하는 것은 오랫동안 핵심 과제로 여겨져 왔습니다. 최근 애플은 위스콘신-매디슨 대학교와 협력하여
이 프레임워크는 '고밀도 이미지 캡셔닝(dense image captioning)'을 위해 특별히 설계되었으며, AI가 단순히 일반적인 요약만 제공하는 것이 아니라 "나무 탁자 위의 빨간 사과"나 "멀리 있는 보행자"와 같은 세밀한 세부 사항을 정확하게 포착하고 표현할 수 있도록 하는 것을 목표로 합니다.

큰 파장을 일으킨 강화 학습: '심판' 역할을 하는 Qwen2.5
기존의 이미지 캡셔닝은 비용이 많이 드는 수동 라벨링이나 환각 현상에 취약한 대규모 모델에 의존하는 경우가 많아 데이터 품질이 일관되지 않은 문제가 있었습니다. 애플 연구팀은 혁신적인 강화 학습 접근법을 통해 이 문제를 해결했습니다. 이 시스템은 먼저 GPT-4와 Gemini 1.5 Pro를 사용하여 후보 설명을 생성합니다. 그런 다음 Gemini 1.5 Pro가 평가 기준을 정교화하는 동안, Qwen2.5 모델이 심판 역할을 수행하며 점수와 피드백을 제공합니다.
이러한 체계적이고 정밀한 피드백을 통해 훈련 모델은 오류를 명확히 식별하고 수정할 수 있어, 더 적은 매개변수 수로도 더 높은 설명 정확도를 달성합니다.
소형 모델의 장점: 1조 파라미터 모델을 능가하는 낮은 환각 발생률
이 프레임워크로 훈련된 RubiCap 시리즈 모델(20억~70억 파라미터)은 평가에서 탁월한 효율성을 보여주었습니다. 실험 데이터에 따르면, 70억 파라미터의 RubiCap 모델은 블라인드 테스트에서 최고 점수를 기록했으며, 환각 오류율은 선도적인 7,200억 파라미터 대형 모델보다 낮았습니다. 놀랍게도, 30억 파라미터의 미니 버전은 특정 지표에서 70억 파라미터 버전보다 더 뛰어난 성능을 보였습니다.
영국 정부 부처들, AI 데이터센터의 에너지 수요를 두고 대립
영국 정부는 청정 에너지를 확대하는 동시에 인공지능 분야의 글로벌 리더가 되겠다는 목표를 달성해야 하는 중대한 과제에 직면해 있다. 그러나 이러한 목표를 담당하는 부처들 사이에는 심각한 견해 차이가 드러나고 있다. 과학·혁신·기술부(DSIT)와 에너지 안보 및 탄소중립부(DESNZ)는 AI 데이터 센터의 미래 전력 수요에 대해 극명하게 대조되는 전망을 내놓
중국 사이버공간관리국은 AI가 생성한 영상과 허구적인 숏폼 영상에 태그를 달도록 의무화했다
중국 사이버공간관리국은 숏폼 동영상 콘텐츠 표기를 표준화하기 위한 포괄적인 계획을 발표했으며, 플랫폼들이 “AI 생성 콘텐츠”를 포함한 6가지 필수 태그를 제공하도록 의무화함으로써 숏폼 동영상 규제에 있어 투명성 확보가 필수적인 새로운 시대를 열었다.콘텐츠 출처가 불분명하거나 사실과 허구를 구분하기 어려운 문제 등을 해결하기 위해, 규제 당국은 도우인(Do
텍스트 번역으로 유명한 DeepL이 이제 음성 번역 시장에 진출한다
텍스트 기반 도구로 잘 알려진 번역 기업 DeepL이 오늘, 맞춤형 애플리케이션을 통해 현장 근무자들을 위한 회의, 모바일 및 웹 대화, 그룹 토론 등의 상황을 지원하는 음성-음성 번역 제품군을 출시했습니다. 또한 이 회사는 외부 개발자와 기업들이 콜센터와 같은 맞춤형 사용 사례를 위해 DeepL의 기술을 기반으로 서비스를 구축할 수 있도록 지원하는 API





집






