오픈AI의 오디오 분야 야망, 실리콘밸리의 스크린 독점에 도전장을 내밀다

오픈AI는 오디오 AI 분야에 본격적으로 진출하고 있으며, 이는 단순히 ChatGPT의 음성을 개선하는 것을 훨씬 뛰어넘는 작업입니다. 최근 ‘더 인포메이션(The Information)’의 보도에 따르면, 지난 두 달 동안 이 회사는 오디오 모델을 전면 개편하기 위해 여러 엔지니어링, 제품 및 연구 팀을 통합했습니다. 이러한 노력은 약 1년 후 출시될 것으로 예상되는 ‘오디오 우선’ 개인용 기기를 위한 준비 과정입니다.
이러한 전략적 전환은 화면이 배경으로 물러나고 오디오가 주된 인터페이스가 되는 미래로 향하는 기술 산업의 광범위한 흐름을 반영합니다. 스마트 스피커는 이미 미국 가구의 3분의 1 이상에 음성 비서를 보급했습니다. 메타는 최근 레이밴(Ray-Ban) 스마트 안경에 5개의 마이크 어레이를 활용해 시끄러운 환경에서도 대화가 잘 들리도록 돕는 기능을 도입했는데, 이는 착용자의 얼굴을 방향성 청취 장치로 효과적으로 전환하는 것이다. 한편, 구글은 지난 6월부터 검색 결과를 음성 요약으로 변환하는 '오디오 개요(Audio Overviews)' 기능을 테스트하기 시작했으며, 테슬라는 xAI의 그록(Grok) 챗봇을 차량에 통합해 내비게이션부터 실내 온도 조절까지 모든 것을 자연어 음성으로 관리하는 대화형 어시스턴트를 만들고 있다.
이러한 도박에 뛰어든 것은 업계 거대 기업들만이 아니다. 다양한 스타트업들이 동일한 핵심 신념을 바탕으로 등장했으나, 성과는 엇갈렸다. 휴메인 AI 핀(Humane AI Pin)의 개발자들은 화면이 없는 웨어러블 기기가 널리 인용되는 경고 사례가 되기 전까지 수억 달러를 쏟아부었다. 사용자의 삶을 기록하고 동반자가 되어주겠다고 약속하는 목걸이형 '프렌드 AI(Friend AI)' 펜던트는 심각한 개인정보 보호 문제와 존재적 불안을 야기했습니다. 현재 샌드바(Sandbar)와 페블(Pebble) 창업자 에릭 미기코프스키(Eric Migicovsky)가 이끄는 기업을 포함한 최소 두 곳이 2026년 출시를 목표로 AI 반지를 개발 중이며, 이를 통해 사용자는 말 그대로 자신의 손과 대화할 수 있게 될 것입니다.
디자인은 다양하지만, 그 기본 원리는 변함없습니다. 바로 오디오가 미래의 인터페이스라는 점입니다. 집, 자동차, 심지어 우리 몸까지 모든 환경이 제어 인터페이스로 변모하고 있습니다.
2026년 초 출시가 예상되는 오픈AI(OpenAI)의 새로운 오디오 모델은 더 자연스러운 음성을 구현하고, 실제 대화 상대처럼 대화 도중 끼어드는 상황을 처리하며, 심지어 사용자가 말하는 도중에도 말을 할 수 있는 기능을 갖출 것으로 전해진다. 이는 현재 모델들이 갖추지 못한 능력이다. 또한 이 회사는 단순한 도구가 아닌 동반자처럼 기능하도록 설계된 안경이나 화면 없는 스피커 등을 포함한 일련의 기기 라인업을 계획 중인 것으로 알려졌다.
이러한 발전은 전적으로 예상 밖의 일은 아닙니다. The Information이 지적했듯이, 지난 5월 OpenAI가 자신의 회사 io를 65억 달러에 인수한 후 OpenAI의 하드웨어 사업에 합류한 전 애플 디자인 총괄 조니 아이브는 기기 의존도를 낮추는 것을 최우선 과제로 삼아왔습니다. 그는 오디오 우선 설계를 기존 가전제품의 단점을 보완할 기회로 보고 있습니다.
관련 기사
영국 정부 부처들, AI 데이터센터의 에너지 수요를 두고 대립
영국 정부는 청정 에너지를 확대하는 동시에 인공지능 분야의 글로벌 리더가 되겠다는 목표를 달성해야 하는 중대한 과제에 직면해 있다. 그러나 이러한 목표를 담당하는 부처들 사이에는 심각한 견해 차이가 드러나고 있다. 과학·혁신·기술부(DSIT)와 에너지 안보 및 탄소중립부(DESNZ)는 AI 데이터 센터의 미래 전력 수요에 대해 극명하게 대조되는 전망을 내놓
중국 사이버공간관리국은 AI가 생성한 영상과 허구적인 숏폼 영상에 태그를 달도록 의무화했다
중국 사이버공간관리국은 숏폼 동영상 콘텐츠 표기를 표준화하기 위한 포괄적인 계획을 발표했으며, 플랫폼들이 “AI 생성 콘텐츠”를 포함한 6가지 필수 태그를 제공하도록 의무화함으로써 숏폼 동영상 규제에 있어 투명성 확보가 필수적인 새로운 시대를 열었다.콘텐츠 출처가 불분명하거나 사실과 허구를 구분하기 어려운 문제 등을 해결하기 위해, 규제 당국은 도우인(Do
텍스트 번역으로 유명한 DeepL이 이제 음성 번역 시장에 진출한다
텍스트 기반 도구로 잘 알려진 번역 기업 DeepL이 오늘, 맞춤형 애플리케이션을 통해 현장 근무자들을 위한 회의, 모바일 및 웹 대화, 그룹 토론 등의 상황을 지원하는 음성-음성 번역 제품군을 출시했습니다. 또한 이 회사는 외부 개발자와 기업들이 콜센터와 같은 맞춤형 사용 사례를 위해 DeepL의 기술을 기반으로 서비스를 구축할 수 있도록 지원하는 API
관련 특별 주제 추천
의견 (0)
0/500

오픈AI는 오디오 AI 분야에 본격적으로 진출하고 있으며, 이는 단순히 ChatGPT의 음성을 개선하는 것을 훨씬 뛰어넘는 작업입니다. 최근 ‘더 인포메이션(The Information)’의 보도에 따르면, 지난 두 달 동안 이 회사는 오디오 모델을 전면 개편하기 위해 여러 엔지니어링, 제품 및 연구 팀을 통합했습니다. 이러한 노력은 약 1년 후 출시될 것으로 예상되는 ‘오디오 우선’ 개인용 기기를 위한 준비 과정입니다.
이러한 전략적 전환은 화면이 배경으로 물러나고 오디오가 주된 인터페이스가 되는 미래로 향하는 기술 산업의 광범위한 흐름을 반영합니다. 스마트 스피커는 이미 미국 가구의 3분의 1 이상에 음성 비서를 보급했습니다. 메타는 최근 레이밴(Ray-Ban) 스마트 안경에 5개의 마이크 어레이를 활용해 시끄러운 환경에서도 대화가 잘 들리도록 돕는 기능을 도입했는데, 이는 착용자의 얼굴을 방향성 청취 장치로 효과적으로 전환하는 것이다. 한편, 구글은 지난 6월부터 검색 결과를 음성 요약으로 변환하는 '오디오 개요(Audio Overviews)' 기능을 테스트하기 시작했으며, 테슬라는 xAI의 그록(Grok) 챗봇을 차량에 통합해 내비게이션부터 실내 온도 조절까지 모든 것을 자연어 음성으로 관리하는 대화형 어시스턴트를 만들고 있다.
이러한 도박에 뛰어든 것은 업계 거대 기업들만이 아니다. 다양한 스타트업들이 동일한 핵심 신념을 바탕으로 등장했으나, 성과는 엇갈렸다. 휴메인 AI 핀(Humane AI Pin)의 개발자들은 화면이 없는 웨어러블 기기가 널리 인용되는 경고 사례가 되기 전까지 수억 달러를 쏟아부었다. 사용자의 삶을 기록하고 동반자가 되어주겠다고 약속하는 목걸이형 '프렌드 AI(Friend AI)' 펜던트는 심각한 개인정보 보호 문제와 존재적 불안을 야기했습니다. 현재 샌드바(Sandbar)와 페블(Pebble) 창업자 에릭 미기코프스키(Eric Migicovsky)가 이끄는 기업을 포함한 최소 두 곳이 2026년 출시를 목표로 AI 반지를 개발 중이며, 이를 통해 사용자는 말 그대로 자신의 손과 대화할 수 있게 될 것입니다.
디자인은 다양하지만, 그 기본 원리는 변함없습니다. 바로 오디오가 미래의 인터페이스라는 점입니다. 집, 자동차, 심지어 우리 몸까지 모든 환경이 제어 인터페이스로 변모하고 있습니다.
2026년 초 출시가 예상되는 오픈AI(OpenAI)의 새로운 오디오 모델은 더 자연스러운 음성을 구현하고, 실제 대화 상대처럼 대화 도중 끼어드는 상황을 처리하며, 심지어 사용자가 말하는 도중에도 말을 할 수 있는 기능을 갖출 것으로 전해진다. 이는 현재 모델들이 갖추지 못한 능력이다. 또한 이 회사는 단순한 도구가 아닌 동반자처럼 기능하도록 설계된 안경이나 화면 없는 스피커 등을 포함한 일련의 기기 라인업을 계획 중인 것으로 알려졌다.
이러한 발전은 전적으로 예상 밖의 일은 아닙니다. The Information이 지적했듯이, 지난 5월 OpenAI가 자신의 회사 io를 65억 달러에 인수한 후 OpenAI의 하드웨어 사업에 합류한 전 애플 디자인 총괄 조니 아이브는 기기 의존도를 낮추는 것을 최우선 과제로 삼아왔습니다. 그는 오디오 우선 설계를 기존 가전제품의 단점을 보완할 기회로 보고 있습니다.
영국 정부 부처들, AI 데이터센터의 에너지 수요를 두고 대립
영국 정부는 청정 에너지를 확대하는 동시에 인공지능 분야의 글로벌 리더가 되겠다는 목표를 달성해야 하는 중대한 과제에 직면해 있다. 그러나 이러한 목표를 담당하는 부처들 사이에는 심각한 견해 차이가 드러나고 있다. 과학·혁신·기술부(DSIT)와 에너지 안보 및 탄소중립부(DESNZ)는 AI 데이터 센터의 미래 전력 수요에 대해 극명하게 대조되는 전망을 내놓
중국 사이버공간관리국은 AI가 생성한 영상과 허구적인 숏폼 영상에 태그를 달도록 의무화했다
중국 사이버공간관리국은 숏폼 동영상 콘텐츠 표기를 표준화하기 위한 포괄적인 계획을 발표했으며, 플랫폼들이 “AI 생성 콘텐츠”를 포함한 6가지 필수 태그를 제공하도록 의무화함으로써 숏폼 동영상 규제에 있어 투명성 확보가 필수적인 새로운 시대를 열었다.콘텐츠 출처가 불분명하거나 사실과 허구를 구분하기 어려운 문제 등을 해결하기 위해, 규제 당국은 도우인(Do
텍스트 번역으로 유명한 DeepL이 이제 음성 번역 시장에 진출한다
텍스트 기반 도구로 잘 알려진 번역 기업 DeepL이 오늘, 맞춤형 애플리케이션을 통해 현장 근무자들을 위한 회의, 모바일 및 웹 대화, 그룹 토론 등의 상황을 지원하는 음성-음성 번역 제품군을 출시했습니다. 또한 이 회사는 외부 개발자와 기업들이 콜센터와 같은 맞춤형 사용 사례를 위해 DeepL의 기술을 기반으로 서비스를 구축할 수 있도록 지원하는 API





집






