텍스트 번역으로 유명한 DeepL이 이제 음성 번역 시장에 진출한다

텍스트 기반 도구로 잘 알려진 번역 기업 DeepL이 오늘, 맞춤형 애플리케이션을 통해 현장 근무자들을 위한 회의, 모바일 및 웹 대화, 그룹 토론 등의 상황을 지원하는 음성-음성 번역 제품군을 출시했습니다. 또한 이 회사는 외부 개발자와 기업들이 콜센터와 같은 맞춤형 사용 사례를 위해 DeepL의 기술을 기반으로 서비스를 구축할 수 있도록 지원하는 API도 선보였습니다.
DeepL의 자렉 쿠틸로프스키(Jarek Kutylowski) CEO는 테크크런치(TechCrunch)와의 인터뷰에서 "수년간 텍스트 번역에 집중해 온 우리에게 음성 번역은 자연스러운 다음 단계였습니다"라고 말했습니다. "우리는 텍스트 및 문서 번역 분야에서 상당한 진전을 이루었습니다. 하지만 실시간 음성 번역을 위한 훌륭한 제품이 시장에 없다고 느꼈습니다."
쿠틸로프스키는 실시간 번역 제품 개발의 주요 과제는 지연 시간(누군가 말을 한 시점과 번역된 음성이 들리는 시점 사이의 간격)을 줄이는 것과 높은 정확도를 유지하는 것 사이의 적절한 균형을 찾는 것이라고 설명했다.
DeepL은 Zoom 및 Microsoft Teams와 같은 플랫폼을 위한 애드온을 출시하고 있으며, 이를 통해 사용자는 상대방이 모국어로 말하는 동안 실시간 번역을 듣거나 화면에서 실시간 번역된 텍스트를 확인할 수 있습니다. 이 프로그램은 현재 얼리 액세스(Early Access)를 통해 이용 가능하며, 회사는 기관들을 대상으로 대기자 명단 등록을 받고 있습니다. DeepL은 또한 대면 또는 원격으로 진행되는 모바일 및 웹 기반 대화를 위한 제품도 제공합니다.
DeepL은 또한 사용자가 교육 세션이나 워크숍과 같은 환경에서 그룹 대화에 참여할 수 있도록 지원하며, 참석자들은 QR 코드를 통해 참여할 수 있습니다.
DeepL은 자사의 음성-음성 번역 기술이 업계별 전문 용어는 물론 회사명 및 개인 이름 등 맞춤형 어휘를 학습하고 적응할 수 있다고 밝혔습니다.
쿠틸로프스키는 향후 몇 년간 AI가 고객 서비스의 모습을 바꿔놓을 것이라고 언급했습니다. 그는 번역 레이어가 자격을 갖춘 인력이 부족하거나 채용 비용이 높은 언어 영역에서 기업이 지원을 제공할 수 있도록 돕는다고 지적했습니다.
이 회사는 음성-음성 스택 전체를 자체적으로 관리한다고 밝혔습니다. 그러나 현재 시스템은 음성을 텍스트로 변환한 후 번역을 적용하고, 다시 텍스트를 음성으로 변환하는 방식을 따릅니다. DeepL은 수년간의 텍스트 번역 경험을 바탕으로 번역 품질 면에서 우위를 점하고 있다고 믿습니다. 앞으로 이 회사는 텍스트 단계를 완전히 생략하는 엔드투엔드 음성 번역 모델을 개발하는 것을 목표로 하고 있다.
DeepL은 관련 분야에서 활동하는 자금력이 풍부한 여러 스타트업들과 경쟁하고 있습니다. 지난해 쿼드릴 캐피털(Quadrille Capital)과 텔레퍼포먼스(Teleperformance)로부터 6,500만 달러를 유치한 사나스(Sanas)는 AI를 활용해 화자의 억양을 실시간으로 수정하는 기술을 사용하며, 이 도구는 주로 콜센터 상담원을 대상으로 합니다.
두바이에 본사를 둔 캠브.AI(Camb.AI)는 아마존 웹 서비스(AWS)를 포함한 미디어 및 엔터테인먼트 기업을 대상으로 음성 합성 및 번역에 주력하며, 이들이 대규모로 동영상 콘텐츠를 더빙하고 현지화할 수 있도록 돕고 있습니다.
레딧(Reddit) 공동 창업자 알렉시스 오하니안(Alexis Ohanian)의 투자사 세븐 세븐 식스(Seven Seven Six)의 지원을 받는 팔라브라(Palabra)는 의미와 화자의 원래 목소리를 모두 보존하도록 설계된 실시간 음성 번역 엔진을 구축 중이며, 이는 현재 DeepL이 개발 중인 기술과 더욱 직접적인 경쟁 관계에 놓이게 됩니다.
관련 기사
ElevenLabs, 블랙록·제이미 폭스·에바 롱고리아를 신규 투자자로 선정
음성 AI 기업 일레븐랩스(ElevenLabs)는 지난 2월에 처음 발표했던 5억 달러 규모의 시리즈 D 투자 라운드에 참여한 추가 투자자들을 공개했다. 이번 투자자 명단에는 블랙록(BlackRock), 웰링턴(Wellington), D.E. 쇼(D.E. Shaw), 슈로더(Schroders)와 같은 기관 투자자들과 엔비디아(NVIDIA), 세일즈포스(Sa
미스트랄, 오픈소스 음성 생성 모델 공개
프랑스의 AI 기업 미스트랄(Mistral)은 목요일, 음성 AI 비서 및 고객 지원과 같은 기업용 애플리케이션을 위해 설계된 새로운 오픈소스 텍스트-투-스피치(TTS) 모델을 공개했다. 이 모델을 통해 기업들은 영업 및 고객 소통을 위한 음성 에이전트를 구축할 수 있게 되었으며, 미스트랄은 이를 통해 일레븐랩스(ElevenLabs), 딥그램(Deepgra
최고의 AI 음성 입력 앱: 전문가 리뷰 및 순위
AI 음성 인식 앱은 비교적 짧은 기간 동안 놀라운 발전을 이루었습니다. 오랫동안 이 앱들은 반응이 느리고 오류가 잦아, 사용자가 특정한 억양으로 매우 명확하게 말해야만 했습니다.하지만 대규모 언어 모델(LLM)과 음성 인식 기술의 발전으로 상황이 바뀌었으며, 이제는 음성을 더 정확하게 이해할 뿐만 아니라 문맥을 활용해 텍스트를 적절하게 서식화할 수 있는
관련 특별 주제 추천
의견 (0)
0/500

텍스트 기반 도구로 잘 알려진 번역 기업 DeepL이 오늘, 맞춤형 애플리케이션을 통해 현장 근무자들을 위한 회의, 모바일 및 웹 대화, 그룹 토론 등의 상황을 지원하는 음성-음성 번역 제품군을 출시했습니다. 또한 이 회사는 외부 개발자와 기업들이 콜센터와 같은 맞춤형 사용 사례를 위해 DeepL의 기술을 기반으로 서비스를 구축할 수 있도록 지원하는 API도 선보였습니다.
DeepL의 자렉 쿠틸로프스키(Jarek Kutylowski) CEO는 테크크런치(TechCrunch)와의 인터뷰에서 "수년간 텍스트 번역에 집중해 온 우리에게 음성 번역은 자연스러운 다음 단계였습니다"라고 말했습니다. "우리는 텍스트 및 문서 번역 분야에서 상당한 진전을 이루었습니다. 하지만 실시간 음성 번역을 위한 훌륭한 제품이 시장에 없다고 느꼈습니다."
쿠틸로프스키는 실시간 번역 제품 개발의 주요 과제는 지연 시간(누군가 말을 한 시점과 번역된 음성이 들리는 시점 사이의 간격)을 줄이는 것과 높은 정확도를 유지하는 것 사이의 적절한 균형을 찾는 것이라고 설명했다.
DeepL은 Zoom 및 Microsoft Teams와 같은 플랫폼을 위한 애드온을 출시하고 있으며, 이를 통해 사용자는 상대방이 모국어로 말하는 동안 실시간 번역을 듣거나 화면에서 실시간 번역된 텍스트를 확인할 수 있습니다. 이 프로그램은 현재 얼리 액세스(Early Access)를 통해 이용 가능하며, 회사는 기관들을 대상으로 대기자 명단 등록을 받고 있습니다. DeepL은 또한 대면 또는 원격으로 진행되는 모바일 및 웹 기반 대화를 위한 제품도 제공합니다.
DeepL은 또한 사용자가 교육 세션이나 워크숍과 같은 환경에서 그룹 대화에 참여할 수 있도록 지원하며, 참석자들은 QR 코드를 통해 참여할 수 있습니다.
DeepL은 자사의 음성-음성 번역 기술이 업계별 전문 용어는 물론 회사명 및 개인 이름 등 맞춤형 어휘를 학습하고 적응할 수 있다고 밝혔습니다.
쿠틸로프스키는 향후 몇 년간 AI가 고객 서비스의 모습을 바꿔놓을 것이라고 언급했습니다. 그는 번역 레이어가 자격을 갖춘 인력이 부족하거나 채용 비용이 높은 언어 영역에서 기업이 지원을 제공할 수 있도록 돕는다고 지적했습니다.
이 회사는 음성-음성 스택 전체를 자체적으로 관리한다고 밝혔습니다. 그러나 현재 시스템은 음성을 텍스트로 변환한 후 번역을 적용하고, 다시 텍스트를 음성으로 변환하는 방식을 따릅니다. DeepL은 수년간의 텍스트 번역 경험을 바탕으로 번역 품질 면에서 우위를 점하고 있다고 믿습니다. 앞으로 이 회사는 텍스트 단계를 완전히 생략하는 엔드투엔드 음성 번역 모델을 개발하는 것을 목표로 하고 있다.
DeepL은 관련 분야에서 활동하는 자금력이 풍부한 여러 스타트업들과 경쟁하고 있습니다. 지난해 쿼드릴 캐피털(Quadrille Capital)과 텔레퍼포먼스(Teleperformance)로부터 6,500만 달러를 유치한 사나스(Sanas)는 AI를 활용해 화자의 억양을 실시간으로 수정하는 기술을 사용하며, 이 도구는 주로 콜센터 상담원을 대상으로 합니다.
두바이에 본사를 둔 캠브.AI(Camb.AI)는 아마존 웹 서비스(AWS)를 포함한 미디어 및 엔터테인먼트 기업을 대상으로 음성 합성 및 번역에 주력하며, 이들이 대규모로 동영상 콘텐츠를 더빙하고 현지화할 수 있도록 돕고 있습니다.
레딧(Reddit) 공동 창업자 알렉시스 오하니안(Alexis Ohanian)의 투자사 세븐 세븐 식스(Seven Seven Six)의 지원을 받는 팔라브라(Palabra)는 의미와 화자의 원래 목소리를 모두 보존하도록 설계된 실시간 음성 번역 엔진을 구축 중이며, 이는 현재 DeepL이 개발 중인 기술과 더욱 직접적인 경쟁 관계에 놓이게 됩니다.
ElevenLabs, 블랙록·제이미 폭스·에바 롱고리아를 신규 투자자로 선정
음성 AI 기업 일레븐랩스(ElevenLabs)는 지난 2월에 처음 발표했던 5억 달러 규모의 시리즈 D 투자 라운드에 참여한 추가 투자자들을 공개했다. 이번 투자자 명단에는 블랙록(BlackRock), 웰링턴(Wellington), D.E. 쇼(D.E. Shaw), 슈로더(Schroders)와 같은 기관 투자자들과 엔비디아(NVIDIA), 세일즈포스(Sa
미스트랄, 오픈소스 음성 생성 모델 공개
프랑스의 AI 기업 미스트랄(Mistral)은 목요일, 음성 AI 비서 및 고객 지원과 같은 기업용 애플리케이션을 위해 설계된 새로운 오픈소스 텍스트-투-스피치(TTS) 모델을 공개했다. 이 모델을 통해 기업들은 영업 및 고객 소통을 위한 음성 에이전트를 구축할 수 있게 되었으며, 미스트랄은 이를 통해 일레븐랩스(ElevenLabs), 딥그램(Deepgra
최고의 AI 음성 입력 앱: 전문가 리뷰 및 순위
AI 음성 인식 앱은 비교적 짧은 기간 동안 놀라운 발전을 이루었습니다. 오랫동안 이 앱들은 반응이 느리고 오류가 잦아, 사용자가 특정한 억양으로 매우 명확하게 말해야만 했습니다.하지만 대규모 언어 모델(LLM)과 음성 인식 기술의 발전으로 상황이 바뀌었으며, 이제는 음성을 더 정확하게 이해할 뿐만 아니라 문맥을 활용해 텍스트를 적절하게 서식화할 수 있는





집






