Hume AI, TADA 출시: 속도는 5배 빠르고 오류 없는 오픈소스 모바일 TTS

Hume AI는 최신 음성 생성 모델인 TADA(Text-Acoustic Dual Alignment)를 오픈소스로 공개했습니다. 대규모 언어 모델(LLM)을 기반으로 구축된 이 텍스트-투-스피치(TTS) 시스템은 텍스트와 음향 데이터를 위한 혁신적인 이중 정렬 아키텍처를 활용합니다. 이러한 접근 방식은 생성 효율성과 신뢰성을 크게 향상시키고, 실제 적용 범위를 확장합니다.
공식 발표에 따르면, TADA는 텍스트 토큰과 음향 표현 간에 엄격한 1:1 동기화를 확립합니다. 이 아키텍처는 기존 LLM 기반 TTS 시스템에서 흔히 발생하는 토큰 수준의 콘텐츠 환각 문제를 완전히 해결합니다. 1,000개 이상의 테스트 샘플을 대상으로 한 평가에서, 이 모델은 단 한 건의 콘텐츠 환각 사례도 나타나지 않았습니다.
성능 측면에서 TADA는 동급 LLM TTS 시스템보다 5배 이상 빠르게 오디오를 생성합니다. 또한 오디오 1초당 2~3프레임의 계산 자원만 필요로 하는 뛰어난 자원 효율성을 자랑합니다. 반면 기존 솔루션은 일반적으로 12.5~75프레임이 필요합니다. 이러한 효율성 덕분에 이 모델은 스마트폰이나 엣지 디바이스와 같은 저전력 하드웨어에서 로컬 추론을 수행할 수 있어 클라우드 서버가 필요하지 않습니다.
TADA는 Llama3.23B 파라미터 규모를 기반으로 한 다국어 버전을 통해 중국어를 포함한 다국어 지원을 제공합니다. 이번 릴리스에는 1B(주로 영어용) 및 3B 다국어 사전 훈련 모델이 포함되어 있습니다. 2048 토큰의 컨텍스트 윈도우를 갖춘 이 모델은 단일 패스로 약 700초 분량의 연속 오디오를 생성할 수 있습니다. 이는 동일한 토큰 제약 조건 하에서 대개 약 70초로 제한되는 기존 솔루션들을 훨씬 능가하는 성능입니다.
핵심 혁신은 동기식 전사 기능입니다. 모델은 음성을 생성하는 동시에 해당 텍스트 전사본을 출력합니다. 이 과정을 통해 별도의 자동 음성 인식(ASR) 단계가 필요 없어져 텍스트 출력에 추가 지연 시간이 전혀 발생하지 않습니다. 이 기능은 실시간 자막 생성, 음성 상호작용 시스템 및 콘텐츠 제작 도구에서 특히 유용합니다.
인간 주관 평가에서 TADA는 자연스러움과 음성 유사성 부문 모두에서 2위를 차지했습니다. 더 많은 매개변수와 방대한 훈련 데이터를 보유한 여러 시스템을 능가하며, 매우 경쟁력 있는 오디오 품질을 입증했습니다.
링크: https://huggingface.co/collections/HumeAI/tada
관련 기사
중국 공과대학교(MIIT)가 AI 모델 컨텍스트 프로토콜을 포함한 121개 산업 표준에 대한 대중의 의견을 구하고 있습니다.
중국 산업정보기술부는 “인공지능 보안 거버넌스 모델 컨텍스트 프로토콜의 애플리케이션 보안 요구사항”을 포함한 121개 산업 표준화 프로젝트에 대한 대중의 의견을 구하는 공지를 공식적으로 발표했습니다. 이번 발표는 중국이 인공지능 분야에서 기초 표준과 안전 감독 체계를 수립하기 위한 노력에서 중요한 이정표입니다. 대중 의견 수렴 기간은 모델 컨텍스트 프로토콜의 애플리케이션 보안에 초점을 맞추고 있으며, 표준화된 기술 사양을 통해 다모달 상호작용,
오픈AI, 미국 국방부와 협력… 챗GPT 제거 건수 295% 급증
대중의 분노: OpenAI의 군사 협력이 ‘제거 열풍’을 불러일으키다최근, AI 선두주자인 OpenAI는 미국 국방부와의 긴밀한 협력을 발표하며 자사의 AI 모델을 최고 기밀 군사 네트워크에 통합했습니다. 이 소식은 미국 전역에서 사용자들의 거센 반발을 불러일으켰으며, ‘ChatGPT 보이콧’ 운동이 확산되기 시작했습니다.시장 분석 기관 Sensor Tower에 따르면, 2026년 2월 28일 OpenAI가 이 협력을 공식적으로 발표한 날,
오픈AI, ‘사이트’ 기능 출시… 텍스트 기반 웹사이트로 ‘노코드’ 시대의 종막을 알리다
OpenAI는 자사의 소프트웨어 엔지니어링용 AI인 Codex를 위한 새로운 기능인 ‘Sites’를 선보였습니다. 현재 프리뷰 단계에 있는 이 기능은 유료 Business 및 Enterprise 구독자만 이용할 수 있으며, 웹 및 애플리케이션 개발의 기존 장벽을 없애는 것을 목표로 합니다.본질적으로 'Sites'는 추상적인 아이디어를 실제 작동하는 도구로
관련 특별 주제 추천
의견 (1)
0/500

Hume AI는 최신 음성 생성 모델인 TADA(Text-Acoustic Dual Alignment)를 오픈소스로 공개했습니다. 대규모 언어 모델(LLM)을 기반으로 구축된 이 텍스트-투-스피치(TTS) 시스템은 텍스트와 음향 데이터를 위한 혁신적인 이중 정렬 아키텍처를 활용합니다. 이러한 접근 방식은 생성 효율성과 신뢰성을 크게 향상시키고, 실제 적용 범위를 확장합니다.
공식 발표에 따르면, TADA는 텍스트 토큰과 음향 표현 간에 엄격한 1:1 동기화를 확립합니다. 이 아키텍처는 기존 LLM 기반 TTS 시스템에서 흔히 발생하는 토큰 수준의 콘텐츠 환각 문제를 완전히 해결합니다. 1,000개 이상의 테스트 샘플을 대상으로 한 평가에서, 이 모델은 단 한 건의 콘텐츠 환각 사례도 나타나지 않았습니다.
성능 측면에서 TADA는 동급 LLM TTS 시스템보다 5배 이상 빠르게 오디오를 생성합니다. 또한 오디오 1초당 2~3프레임의 계산 자원만 필요로 하는 뛰어난 자원 효율성을 자랑합니다. 반면 기존 솔루션은 일반적으로 12.5~75프레임이 필요합니다. 이러한 효율성 덕분에 이 모델은 스마트폰이나 엣지 디바이스와 같은 저전력 하드웨어에서 로컬 추론을 수행할 수 있어 클라우드 서버가 필요하지 않습니다.
TADA는 Llama3.23B 파라미터 규모를 기반으로 한 다국어 버전을 통해 중국어를 포함한 다국어 지원을 제공합니다. 이번 릴리스에는 1B(주로 영어용) 및 3B 다국어 사전 훈련 모델이 포함되어 있습니다. 2048 토큰의 컨텍스트 윈도우를 갖춘 이 모델은 단일 패스로 약 700초 분량의 연속 오디오를 생성할 수 있습니다. 이는 동일한 토큰 제약 조건 하에서 대개 약 70초로 제한되는 기존 솔루션들을 훨씬 능가하는 성능입니다.
핵심 혁신은 동기식 전사 기능입니다. 모델은 음성을 생성하는 동시에 해당 텍스트 전사본을 출력합니다. 이 과정을 통해 별도의 자동 음성 인식(ASR) 단계가 필요 없어져 텍스트 출력에 추가 지연 시간이 전혀 발생하지 않습니다. 이 기능은 실시간 자막 생성, 음성 상호작용 시스템 및 콘텐츠 제작 도구에서 특히 유용합니다.
인간 주관 평가에서 TADA는 자연스러움과 음성 유사성 부문 모두에서 2위를 차지했습니다. 더 많은 매개변수와 방대한 훈련 데이터를 보유한 여러 시스템을 능가하며, 매우 경쟁력 있는 오디오 품질을 입증했습니다.
링크: https://huggingface.co/collections/HumeAI/tada
중국 공과대학교(MIIT)가 AI 모델 컨텍스트 프로토콜을 포함한 121개 산업 표준에 대한 대중의 의견을 구하고 있습니다.
중국 산업정보기술부는 “인공지능 보안 거버넌스 모델 컨텍스트 프로토콜의 애플리케이션 보안 요구사항”을 포함한 121개 산업 표준화 프로젝트에 대한 대중의 의견을 구하는 공지를 공식적으로 발표했습니다. 이번 발표는 중국이 인공지능 분야에서 기초 표준과 안전 감독 체계를 수립하기 위한 노력에서 중요한 이정표입니다. 대중 의견 수렴 기간은 모델 컨텍스트 프로토콜의 애플리케이션 보안에 초점을 맞추고 있으며, 표준화된 기술 사양을 통해 다모달 상호작용,
오픈AI, 미국 국방부와 협력… 챗GPT 제거 건수 295% 급증
대중의 분노: OpenAI의 군사 협력이 ‘제거 열풍’을 불러일으키다최근, AI 선두주자인 OpenAI는 미국 국방부와의 긴밀한 협력을 발표하며 자사의 AI 모델을 최고 기밀 군사 네트워크에 통합했습니다. 이 소식은 미국 전역에서 사용자들의 거센 반발을 불러일으켰으며, ‘ChatGPT 보이콧’ 운동이 확산되기 시작했습니다.시장 분석 기관 Sensor Tower에 따르면, 2026년 2월 28일 OpenAI가 이 협력을 공식적으로 발표한 날,
오픈AI, ‘사이트’ 기능 출시… 텍스트 기반 웹사이트로 ‘노코드’ 시대의 종막을 알리다
OpenAI는 자사의 소프트웨어 엔지니어링용 AI인 Codex를 위한 새로운 기능인 ‘Sites’를 선보였습니다. 현재 프리뷰 단계에 있는 이 기능은 유료 Business 및 Enterprise 구독자만 이용할 수 있으며, 웹 및 애플리케이션 개발의 기존 장벽을 없애는 것을 목표로 합니다.본질적으로 'Sites'는 추상적인 아이디어를 실제 작동하는 도구로





집






