통이 랩, ‘Fun-CosyVoice 3.5’ 및 ‘Fun-AudioGen-VD’ 음성 모델 출시
오늘, Tongyi Lab은 FreeStyle 기능을 탑재한 두 가지 음성 생성 모델인 Fun-CosyVoice3.5와 Fun-AudioGen-VD를 공식 출시했습니다. 이번 출시는 음성 합성 분야에서 사전 설정된 태그에 의존하던 방식에서 자연어 명령을 기반으로 한 새로운 프레임워크로 전환되는 패러다임의 변화를 의미합니다. 이를 통해 사용자는 “단 한 문장으로 자유롭게 음성을 생성”할 수 있는 심도 있는 상호작용 경험을 누릴 수 있게 되었습니다.


기술 아키텍처 및 기능 업그레이드와 관련하여, Fun-CosyVoice3.5는 다국어 음성 복제 및 미묘한 표현에 중점을 두었으며, 이제 태국어와 인도네시아어를 포함한 4개의 새로운 언어를 지원합니다. DiffRO 및 GRPO 강화 학습 기술을 통합함으로써, 이 모델은 억양 및 음질 유사성 측면에서 상당한 개선을 이루었습니다. 희귀 문자에 대한 오류율은 15.2%에서 5.3%로 감소했으며, 초기 패킷 지연 시간은 35% 단축되었습니다. 이를 보완하는 Fun-AudioGen-VD는 사운드 디자인과 시나리오 모델링에 중점을 둡니다. 성별, 감정, 공간 음향에 대한 정밀한 명령 기반 제어를 지원하여, "미친 악당"부터 "시끄러운 카페" 분위기까지 복잡하고 통합된 시나리오를 시뮬레이션할 수 있게 합니다.
업계 동향의 관점에서 볼 때, Tongyi Lab의 이 이니셔티브는 음성 생성을 단순한 변환 도구에서 본격적인 창작 도구로 격상시킵니다. 이러한 묘사적이고 프로그래밍 가능한 디지털 표현 능력은 영화, 게임, AI 아바타와 같은 분야에 직접적인 힘을 실어줍니다. 이는 콘텐츠 제작 비용을 절감하는 동시에 인간-컴퓨터 상호작용의 의미적 풍부함을 크게 확장합니다.
API: https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP
문서: https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2
관련 기사
트레이스, 기업용 AI 에이전트 도입의 장애물 극복을 위해 300만 달러 조달
비록 인공지능 에이전트들이 큰 잠재력을 가지고 있음에도 불구하고, 기업 환경에서 그들이 제대로 자리잡기는 어려웠습니다. 한 신생 스타트업은 이러한 문제의 핵심이 바로 ‘맥락의 부족’에 있다고 믿고 있습니다.2025년 여름 Y Combinator 프로그램의 일환으로 출시된 Trace는 이러한 격차를 메우기 위해 설계된 워크플로우 오케스트레이션 스타트업입니다. 이 회사는 복잡한 기업 환경과 프로세스를 분석하여, 인공지능 에이전트들이 빠르게 성장할
Google I/O 2026, Gmail 수신함과의 음성 상호작용 기능 공개
구글은 계속해서 AI를 사용자의 수신함에 통합하고 있습니다. 화요일 열린 IO 2026 개발자 컨퍼런스에서 구글은 대화형 AI를 통해 Gmail의 ‘AI 수신함’ 기능을 확장했으며, 이를 통해 사용자는 검색어에만 의존하지 않고 수신함의 내용에 대해 직접 질문할 수 있게 되었습니다.구글에 따르면, 'Gmail Live'라는 이름의 이 제미니(Gemini) A
아이플라이텍, 4,299위안에 GlassClaw 어시스턴트가 탑재된 AI 안경을 출시하다
AI 대형 모델들이 점점 더 엣지 사이드 하드웨어로 이동함에 따라, 스마트 웨어러블 시장에 새로운 플레이어가 등장했습니다. 5월 28일, iFLYTEK은 마카오에서 열린 BEYOND Expo 2026에서 “iFLYTEK AI Glasses”를 공식적으로 출시하며, 음성 및 다중 모드 AI 기능을 소비자용 기기에 더욱 깊이 통합하는 것을 선언했습니다. 가격은 4,299위안이며, 출시 당일에는 할인 혜택과 함께 예약 구매가 가능하고, 사전 판매는
관련 특별 주제 추천
의견 (0)
0/500
오늘,


기술 아키텍처 및 기능 업그레이드와 관련하여,
업계 동향의 관점에서 볼 때,
API: https://help.aliyun.com/zh/model-studio/text-to-speech?spm=a2c4g.11186623.help-menu-2400256.d_0_3_2_0.d5536a31V2tEJP
문서: https://help.aliyun.com/zh/model-studio/cosyvoice-clone-api?spm=a2c4g.11186623.help-menu-search-2400256.d_2
트레이스, 기업용 AI 에이전트 도입의 장애물 극복을 위해 300만 달러 조달
비록 인공지능 에이전트들이 큰 잠재력을 가지고 있음에도 불구하고, 기업 환경에서 그들이 제대로 자리잡기는 어려웠습니다. 한 신생 스타트업은 이러한 문제의 핵심이 바로 ‘맥락의 부족’에 있다고 믿고 있습니다.2025년 여름 Y Combinator 프로그램의 일환으로 출시된 Trace는 이러한 격차를 메우기 위해 설계된 워크플로우 오케스트레이션 스타트업입니다. 이 회사는 복잡한 기업 환경과 프로세스를 분석하여, 인공지능 에이전트들이 빠르게 성장할
Google I/O 2026, Gmail 수신함과의 음성 상호작용 기능 공개
구글은 계속해서 AI를 사용자의 수신함에 통합하고 있습니다. 화요일 열린 IO 2026 개발자 컨퍼런스에서 구글은 대화형 AI를 통해 Gmail의 ‘AI 수신함’ 기능을 확장했으며, 이를 통해 사용자는 검색어에만 의존하지 않고 수신함의 내용에 대해 직접 질문할 수 있게 되었습니다.구글에 따르면, 'Gmail Live'라는 이름의 이 제미니(Gemini) A
아이플라이텍, 4,299위안에 GlassClaw 어시스턴트가 탑재된 AI 안경을 출시하다
AI 대형 모델들이 점점 더 엣지 사이드 하드웨어로 이동함에 따라, 스마트 웨어러블 시장에 새로운 플레이어가 등장했습니다. 5월 28일, iFLYTEK은 마카오에서 열린 BEYOND Expo 2026에서 “iFLYTEK AI Glasses”를 공식적으로 출시하며, 음성 및 다중 모드 AI 기능을 소비자용 기기에 더욱 깊이 통합하는 것을 선언했습니다. 가격은 4,299위안이며, 출시 당일에는 할인 혜택과 함께 예약 구매가 가능하고, 사전 판매는





집






