Qwen 3.5-Omni, 215개의 SOTA 기록으로 신기록을 세우며 전 감각 AI 시대를 열다
통이 랩(Tongyi Lab)은 어제 밤 새로운 다중 모달 대형 모델인 Qwen3.5-Omni를 공식 출시했습니다. 이 모델은 이전 모델에 비해 이해력, 상호작용, 과제 수행 능력에서 획기적인 발전을 이루었으며, AI를 ‘화면 속 비서’에서 ‘실제 세상을 이해하는 지능형 에이전트’로 발전시켰습니다.
주요 발전 사항: 풀 모달리티 및 215개 SOTA 벤치마크
Qwen3.5-Omni는 텍스트, 이미지, 오디오, 비디오를 원활하게 처리할 수 있는 네이티브 '풀 모달리티(Full Modality)' 아키텍처를 특징으로 합니다. 오디오-비주얼 분석, 추론, 대화, 번역을 아우르는 평가에서 이 모델은 215개의 최첨단(SOTA) 성과를 달성했습니다. 특히, 전반적인 오디오 이해 및 인식 능력은 Gemini-3.1Pro와 같은 모델을 능가했으며, 시각 및 텍스트 성능 역시 동급 규모의 Qwen3.5 모델과 어깨를 나란히 하는 최상위 수준을 유지하고 있습니다.

기술 아키텍처: 하이브리드 어텐션 MoE
이 모델은 고전적인 Thinker-Talker 프레임워크를 기반으로 하며, 아키텍처의 근본적인 개편을 거쳤습니다:
Thinker (이해 센터): 하이브리드 어텐션 Mixture of Experts(MoE)로 업그레이드되어 256K 토큰의 초장문 맥락을 지원합니다. 이를 통해 최대 10시간의 오디오 또는 1시간의 비디오를 처리할 수 있으며, TMRoPE 기술을 활용해 긴 시퀀스 내의 세밀한 세부 사항을 정확하게 포착합니다.
토커(표현 센터): 새로운 ARIA 기술과 RVQ 코딩을 도입하여 계산 부담이 큰 DiT 프로세스를 대체했습니다. 이는 단어 생략이나 숫자 발음 오류와 같은 일반적인 오디오 생성 문제를 해결할 뿐만 아니라, 모델에 강력한 실시간 음성 제어 능력을 부여합니다.
실제 적용 사례: 분위기 코딩에서 음성 복제까지
Qwen3.5-Omni의 기능은 다음과 같은 혁신적인 응용 시나리오를 가능하게 합니다:
자연스러운 비브 코딩: 이 모델은 별도의 훈련 없이도 뛰어난 코드 이해 및 생성 능력을 보여주며, 비디오 로직에서 직접 Python 코드나 프론트엔드 프로토타입을 생성할 수 있습니다.
인간과 유사한 실시간 상호작용: 의미적 중단(semantic interruption)을 지원합니다. 기침과 같은 배경 소음과 의도적인 중단을 구분할 수 있으며, 사용자는 간단한 명령을 통해 어조(예: "행복한")와 음량을 조절할 수 있습니다.
세밀한 영상 분석: 구조화되고 타임스탬프가 포함된 자막을 생성할 수 있으며, 영상 내의 동작, 배경 음악 변화, 카메라 전환을 정확하게 식별합니다.
맞춤형 음성 복제: 사용자는 짧은 오디오 샘플을 업로드하여 매우 자연스러운 맞춤형 "디지털 음성"을 생성할 수 있으며, 113개 언어를 지원합니다.
Qwen3.5-Omni는 현재 알리바바 클라우드 바이리안(BaiLian) 플랫폼에서 Plus, Flash, Light 버전으로 제공됩니다. 또한 ModelScope 커뮤니티를 통해 실시간 대화(Realtime) API와 데모를 이용할 수 있습니다.
관련 기사
애플, 무단 인앱 구매 및 부당한 결제 방식으로 인해 Cal AI 앱을 삭제함
애플이 최근 MyFitnessPal 내에서 인기 있는 AI 기반 식단 추적 앱인 Cal AI를 삭제한 것은, 외부 결제 및 구독에 대한 앱 스토어 정책을 엄격히 집행하고 있음을 보여줍니다. 이 앱은 매년 5,000만 달러의 반복 수익을 창출하고 있었지만, 여러 개발자 가이드라인을 위반하여 일시적으로 삭제되었다가 문제를 해결한 후 다시 복원되었습니다.보도에 따르면, 에픽 게임스와 애플 간의 소송에서 미국 개발자들이 외부 결제 시스템을 연동할 수
Github Copilot의 토큰 기반 결제 방식이 개발자들의 분노를 불러일으키고 있습니다.
마이크로소프트의 GitHub Copilot의 황금기가 끝나고 있는 것으로 보입니다. 특히 개인 사용자들에게는 더욱 그렇습니다. 마이크로소프트는 고정된 구독료 모델에서 토큰 기반의 결제 모델로 전환하고 있으며, 이로 인해 비용이 상당히 증가할 수 있습니다. 대기업들은 아마도 이 변화를 감당할 수 있겠지만, 소규모 기업이나 프리랜서들에게는 새로운 요금 체계가 월간 예산에 큰 부담을 줄 수 있습니다.이러한 변화는 6월 1일부터 시행되며, 이제 사용
스페이스X의 IPO 신청 자료에서 드러난 위성 인터넷 및 AI 분야 확장에 대한 야망
SpaceX가 계획 중인 IPO에 앞서 제출한 S-1 등록 서류에서, 항공우주 통신 및 인공지능 분야에서의 강력한 입지를 보여주는 여러 인상적인 재무 지표를 공개했습니다:Starlink 가입자 수 1,000만 명 돌파: 2026년 1분기 기준으로 전 세계에서 유료로 Starlink 서비스를 이용하는 가입자 수는 1,030만 명에 달했으며, 이는 지난 1년 동안 두 배로 증가한 수치입니다. 이러한 성장은 전 세계에서 가장 큰 저지구궤도 위성군을
관련 특별 주제 추천
의견 (0)
0/500
통이 랩(Tongyi Lab)은 어제 밤 새로운 다중 모달 대형 모델인 Qwen3.5-Omni를 공식 출시했습니다. 이 모델은 이전 모델에 비해 이해력, 상호작용, 과제 수행 능력에서 획기적인 발전을 이루었으며, AI를 ‘화면 속 비서’에서 ‘실제 세상을 이해하는 지능형 에이전트’로 발전시켰습니다.
주요 발전 사항: 풀 모달리티 및 215개 SOTA 벤치마크
Qwen3.5-Omni는 텍스트, 이미지, 오디오, 비디오를 원활하게 처리할 수 있는 네이티브 '풀 모달리티(Full Modality)' 아키텍처를 특징으로 합니다. 오디오-비주얼 분석, 추론, 대화, 번역을 아우르는 평가에서 이 모델은 215개의 최첨단(SOTA) 성과를 달성했습니다. 특히, 전반적인 오디오 이해 및 인식 능력은 Gemini-3.1Pro와 같은 모델을 능가했으며, 시각 및 텍스트 성능 역시 동급 규모의 Qwen3.5 모델과 어깨를 나란히 하는 최상위 수준을 유지하고 있습니다.

기술 아키텍처: 하이브리드 어텐션 MoE
이 모델은 고전적인 Thinker-Talker 프레임워크를 기반으로 하며, 아키텍처의 근본적인 개편을 거쳤습니다:
Thinker (이해 센터): 하이브리드 어텐션 Mixture of Experts(MoE)로 업그레이드되어 256K 토큰의 초장문 맥락을 지원합니다. 이를 통해 최대 10시간의 오디오 또는 1시간의 비디오를 처리할 수 있으며, TMRoPE 기술을 활용해 긴 시퀀스 내의 세밀한 세부 사항을 정확하게 포착합니다.
토커(표현 센터): 새로운 ARIA 기술과 RVQ 코딩을 도입하여 계산 부담이 큰 DiT 프로세스를 대체했습니다. 이는 단어 생략이나 숫자 발음 오류와 같은 일반적인 오디오 생성 문제를 해결할 뿐만 아니라, 모델에 강력한 실시간 음성 제어 능력을 부여합니다.
실제 적용 사례: 분위기 코딩에서 음성 복제까지
Qwen3.5-Omni의 기능은 다음과 같은 혁신적인 응용 시나리오를 가능하게 합니다:
자연스러운 비브 코딩: 이 모델은 별도의 훈련 없이도 뛰어난 코드 이해 및 생성 능력을 보여주며, 비디오 로직에서 직접 Python 코드나 프론트엔드 프로토타입을 생성할 수 있습니다.
인간과 유사한 실시간 상호작용: 의미적 중단(semantic interruption)을 지원합니다. 기침과 같은 배경 소음과 의도적인 중단을 구분할 수 있으며, 사용자는 간단한 명령을 통해 어조(예: "행복한")와 음량을 조절할 수 있습니다.
세밀한 영상 분석: 구조화되고 타임스탬프가 포함된 자막을 생성할 수 있으며, 영상 내의 동작, 배경 음악 변화, 카메라 전환을 정확하게 식별합니다.
맞춤형 음성 복제: 사용자는 짧은 오디오 샘플을 업로드하여 매우 자연스러운 맞춤형 "디지털 음성"을 생성할 수 있으며, 113개 언어를 지원합니다.
Qwen3.5-Omni는 현재 알리바바 클라우드 바이리안(BaiLian) 플랫폼에서 Plus, Flash, Light 버전으로 제공됩니다. 또한 ModelScope 커뮤니티를 통해 실시간 대화(Realtime) API와 데모를 이용할 수 있습니다.
애플, 무단 인앱 구매 및 부당한 결제 방식으로 인해 Cal AI 앱을 삭제함
애플이 최근 MyFitnessPal 내에서 인기 있는 AI 기반 식단 추적 앱인 Cal AI를 삭제한 것은, 외부 결제 및 구독에 대한 앱 스토어 정책을 엄격히 집행하고 있음을 보여줍니다. 이 앱은 매년 5,000만 달러의 반복 수익을 창출하고 있었지만, 여러 개발자 가이드라인을 위반하여 일시적으로 삭제되었다가 문제를 해결한 후 다시 복원되었습니다.보도에 따르면, 에픽 게임스와 애플 간의 소송에서 미국 개발자들이 외부 결제 시스템을 연동할 수
Github Copilot의 토큰 기반 결제 방식이 개발자들의 분노를 불러일으키고 있습니다.
마이크로소프트의 GitHub Copilot의 황금기가 끝나고 있는 것으로 보입니다. 특히 개인 사용자들에게는 더욱 그렇습니다. 마이크로소프트는 고정된 구독료 모델에서 토큰 기반의 결제 모델로 전환하고 있으며, 이로 인해 비용이 상당히 증가할 수 있습니다. 대기업들은 아마도 이 변화를 감당할 수 있겠지만, 소규모 기업이나 프리랜서들에게는 새로운 요금 체계가 월간 예산에 큰 부담을 줄 수 있습니다.이러한 변화는 6월 1일부터 시행되며, 이제 사용
스페이스X의 IPO 신청 자료에서 드러난 위성 인터넷 및 AI 분야 확장에 대한 야망
SpaceX가 계획 중인 IPO에 앞서 제출한 S-1 등록 서류에서, 항공우주 통신 및 인공지능 분야에서의 강력한 입지를 보여주는 여러 인상적인 재무 지표를 공개했습니다:Starlink 가입자 수 1,000만 명 돌파: 2026년 1분기 기준으로 전 세계에서 유료로 Starlink 서비스를 이용하는 가입자 수는 1,030만 명에 달했으며, 이는 지난 1년 동안 두 배로 증가한 수치입니다. 이러한 성장은 전 세계에서 가장 큰 저지구궤도 위성군을





집






