OpenAI의 AI 전사 도구에 대한 우수한 대안 : 환각이 적고 정확도

htmlOpenAI의 Whisper, 2022년에 출시된 AI 기반 음성 인식 및 전사 도구는 환각 현상을 자주 생성하거나 정보를 날조하는 것으로 밝혀져, 중요한 환경에서 해를 끼칠 가능성에 대한 우려를 불러일으키고 있습니다.
미시간 대학교의 연구자는 그가 검토한 공개 회의의 오디오 전사본에서 80%가 환각 현상을 발견했습니다. 마찬가지로, 100시간 분량의 Whisper 전사본을 분석한 엔지니어는 약 절반에서 환각 현상을 보고했으며, 또 다른 개발자는 그가 만든 거의 모든 전사본에서, 총 26,000건의 사례를 발견했습니다.
전사에서 사소한 오류는 흔하지만, 전문가들은 Whisper의 환각 수준이 AI 전사 도구 중에서 전례가 없다고 지적했습니다. OpenAI는 오픈소스 신경망인 Whisper가 영어 음성 인식에서 인간에 가까운 정확도를 달성했다고 주장합니다. 이 도구는 인터뷰 전사, 콘텐츠 번역, 비디오 자막 생성과 같은 작업을 위해 다양한 산업에서 널리 사용됩니다.
Whisper의 광범위한 사용은 다양한 플랫폼에서 날조된 텍스트, 잘못 귀속된 인용, 기타 오정보의 확산으로 이어질 수 있으며, 이는 원본 콘텐츠의 성격에 따라 영향이 달라집니다. Whisper는 ChatGPT의 일부 버전에 통합되어 있으며, 콜센터, 음성 비서, Oracle 및 Microsoft의 클라우드 플랫폼에서 사용되며, 지난 달 HuggingFace에서 420만 번 이상 다운로드되었습니다.
특히 우려되는 점은 의료 전문가들이 환자 상담을 전사하기 위해 Whisper 기반 도구를 점점 더 많이 사용하고 있다는 것입니다. AP는 12명 이상의 엔지니어, 연구자, 개발자와 대화했으며, 그들은 Whisper가 종종 문구와 전체 문장을 날조하며, 때로는 인종적 논평, 폭력적 수사, 심지어 상상된 의료 치료를 포함한다고 확인했습니다.
“아무도 오진을 원하지 않습니다,”라고 고등연구소의 교수인 Alondra Nelson은 강조했습니다.
OpenAI는 Whisper를 정확도 결함이 심각한 문제를 초래할 수 있는 의사결정 상황과 같은 고위험 영역에서 사용하지 말라고 권고하지만, 이 도구의 마케팅된 정확도는 운영을 간소화하려는 다양한 산업에 매력적으로 다가가며, 잠재적 위험을 간과하는 경우가 많습니다.
이 문제는 길거나 품질이 낮은 오디오에 국한되지 않습니다. 연구자들은 짧고 명확한 오디오 샘플에서도 환각 현상을 발견했습니다. 그들은 수백만 개의 녹음에서 수만 개의 잘못된 전사가 발생할 수 있다고 추정합니다. Gallaudet 대학교의 기술 접근 프로그램 책임자이자 청각 장애인인 Christian Vogler는 청각 장애인이나 난청이 있는 사람들이 “이 모든 텍스트 속에 숨겨진” 환각 현상을 놓칠 수 있다고 지적했습니다.
이러한 발견은 AI 산업의 더 큰 문제를 강조합니다: 미국에 포괄적인 AI 규제가 없는 상황에서 수익을 위해 제품을 서둘러 시장에 출시하는 것입니다. 이는 특히 OpenAI의 영리 vs 비영리 상태에 대한 논쟁과 AI 위험을 경시하는 최근 리더십 발언 속에서 더욱 두드러집니다.
OpenAI 대변인은 AP에 회사가 환각 현상을 줄이기 위해 지속적으로 노력하고 있으며, 연구자들의 발견을 소중히 여겨 모델 업데이트에 피드백을 반영한다고 말했습니다.
그동안 저희는 기자들이 신뢰하는 신뢰할 수 있는 AI 전사 도구인 Otter.ai를 고려할 것을 제안합니다. 이 도구는 최근 6개 신규 언어를 지원하기 시작했습니다. 오랜 사용자는 새로운 AI 요약 기능에서 환각 통계를 보고했지만, 오류는 전사 자체에는 나타나지 않았습니다. Otter.ai는 특히 중요한 작업에서 정확도를 위해 전사를 검토하고 편집할 것을 권고하며, 배경 소음, 억양, 대화의 복잡성과 같은 요인으로 인해 정확도가 달라질 수 있다고 언급했습니다.
iPhone 사용자의 경우, iOS 18.1에 Apple Intelligence가 포함된 AI 기반 통화 녹음 및 전사 기능이 제공되지만, ZDNET의 편집장 Jason Hiner는 이를 “아직 진행 중인 작업”이라고 설명했습니다.
OpenAI는 최근 2억 5천만 명의 ChatGPT Plus 사용자에게 더 많은 도구를 제공할 계획을 발표했습니다.
관련 기사
Gmail, 맞춤형 AI 수신함, 검색 내 AI 개요 기능 등 출시
구글은 사용자의 할 일 목록을 맞춤형으로 한눈에 보여주고 주요 업데이트를 놓치지 않도록 도와주는 새로운 AI 기반 Gmail 수신함을 선보였습니다. 이와 함께 Gmail은 검색 기능에 ‘AI 개요’를 도입하고, Grammarly와 유사한 교정 도구를 출시하고 있습니다. 이전에는 유료 구독자만 이용할 수 있었던 여러 AI 기능이 이제 모든 사용자에게 제공됩니
산둥성 최초의 바이두 AI 만화 드라마 제작 기지가 지보에서 문을 열었다
4월 27일, 산둥성은 지보사범대학에 첫 번째 ‘바이두 AI 만화 드라마 창작 기지’를 공식 출범시키며 디지털 문화 창작 분야에서 중요한 이정표를 세웠다. 이 기지는 산학 협력의 새로운 장을 열었으며, AI 기술과 문화 창작 교육의 심도 있는 융합을 통해 디지털 문화 창작 인재를 양성하기 위한 혁신적인 모델을 모색하는 것을 목표로 한다.개소식에서 학교 측은
'스타게이트 노르웨이'로 불리는 스타트업의 기업 가치가 146억 달러를 기록하며 샌드버그와 클레그가 Nscale 이사회에 합류했다
대규모 AI 연산 처리가 가능한 데이터센터에 대한 수요가 급증함에 따라, 엔비디아(Nvidia)의 지원을 받는 영국의 AI 인프라 기업 엔스케일(Nscale)의 기업 가치가 146억 달러에 달했다. 이로써 엔스케일은 헬싱(Helsing) 및 미스트랄 AI(Mistral AI)와 함께 유럽의 최신 ‘데카콘’ 기업 중 하나로 자리매김했다.Nscale은 에너지,
관련 특별 주제 추천
의견 (18)
0/500
This transcription tool sounds like a game-changer! If it really cuts down on AI hallucinations, it could be a big win for accuracy in sensitive fields like medicine or law. Excited to see how it stacks up against Whisper! 😄
This transcription tool sounds promising! Less hallucination is a big win for accuracy. Excited to see how it stacks up in real-world use. 😊
This new AI transcription tool sounds like a game-changer! Whisper’s hallucinations were such a mess for serious work, so I’m hyped to see something more accurate. Can it handle noisy audio though? 🤔
이 도구는 정말 구세주예요! AI가 내 녹취록에 허구를 만들어내는 걱정은 이제 안 해요. 정말 정확하고, 짜증나는 환각도 줄어들었어요. 조금만 더 빨라지면 좋겠지만, 정확성이 더 중요하죠! 😊

OpenAI의 Whisper, 2022년에 출시된 AI 기반 음성 인식 및 전사 도구는 환각 현상을 자주 생성하거나 정보를 날조하는 것으로 밝혀져, 중요한 환경에서 해를 끼칠 가능성에 대한 우려를 불러일으키고 있습니다.
미시간 대학교의 연구자는 그가 검토한 공개 회의의 오디오 전사본에서 80%가 환각 현상을 발견했습니다. 마찬가지로, 100시간 분량의 Whisper 전사본을 분석한 엔지니어는 약 절반에서 환각 현상을 보고했으며, 또 다른 개발자는 그가 만든 거의 모든 전사본에서, 총 26,000건의 사례를 발견했습니다.
전사에서 사소한 오류는 흔하지만, 전문가들은 Whisper의 환각 수준이 AI 전사 도구 중에서 전례가 없다고 지적했습니다. OpenAI는 오픈소스 신경망인 Whisper가 영어 음성 인식에서 인간에 가까운 정확도를 달성했다고 주장합니다. 이 도구는 인터뷰 전사, 콘텐츠 번역, 비디오 자막 생성과 같은 작업을 위해 다양한 산업에서 널리 사용됩니다.
Whisper의 광범위한 사용은 다양한 플랫폼에서 날조된 텍스트, 잘못 귀속된 인용, 기타 오정보의 확산으로 이어질 수 있으며, 이는 원본 콘텐츠의 성격에 따라 영향이 달라집니다. Whisper는 ChatGPT의 일부 버전에 통합되어 있으며, 콜센터, 음성 비서, Oracle 및 Microsoft의 클라우드 플랫폼에서 사용되며, 지난 달 HuggingFace에서 420만 번 이상 다운로드되었습니다.
특히 우려되는 점은 의료 전문가들이 환자 상담을 전사하기 위해 Whisper 기반 도구를 점점 더 많이 사용하고 있다는 것입니다. AP는 12명 이상의 엔지니어, 연구자, 개발자와 대화했으며, 그들은 Whisper가 종종 문구와 전체 문장을 날조하며, 때로는 인종적 논평, 폭력적 수사, 심지어 상상된 의료 치료를 포함한다고 확인했습니다.
“아무도 오진을 원하지 않습니다,”라고 고등연구소의 교수인 Alondra Nelson은 강조했습니다.
OpenAI는 Whisper를 정확도 결함이 심각한 문제를 초래할 수 있는 의사결정 상황과 같은 고위험 영역에서 사용하지 말라고 권고하지만, 이 도구의 마케팅된 정확도는 운영을 간소화하려는 다양한 산업에 매력적으로 다가가며, 잠재적 위험을 간과하는 경우가 많습니다.
이 문제는 길거나 품질이 낮은 오디오에 국한되지 않습니다. 연구자들은 짧고 명확한 오디오 샘플에서도 환각 현상을 발견했습니다. 그들은 수백만 개의 녹음에서 수만 개의 잘못된 전사가 발생할 수 있다고 추정합니다. Gallaudet 대학교의 기술 접근 프로그램 책임자이자 청각 장애인인 Christian Vogler는 청각 장애인이나 난청이 있는 사람들이 “이 모든 텍스트 속에 숨겨진” 환각 현상을 놓칠 수 있다고 지적했습니다.
이러한 발견은 AI 산업의 더 큰 문제를 강조합니다: 미국에 포괄적인 AI 규제가 없는 상황에서 수익을 위해 제품을 서둘러 시장에 출시하는 것입니다. 이는 특히 OpenAI의 영리 vs 비영리 상태에 대한 논쟁과 AI 위험을 경시하는 최근 리더십 발언 속에서 더욱 두드러집니다.
OpenAI 대변인은 AP에 회사가 환각 현상을 줄이기 위해 지속적으로 노력하고 있으며, 연구자들의 발견을 소중히 여겨 모델 업데이트에 피드백을 반영한다고 말했습니다.
그동안 저희는 기자들이 신뢰하는 신뢰할 수 있는 AI 전사 도구인 Otter.ai를 고려할 것을 제안합니다. 이 도구는 최근 6개 신규 언어를 지원하기 시작했습니다. 오랜 사용자는 새로운 AI 요약 기능에서 환각 통계를 보고했지만, 오류는 전사 자체에는 나타나지 않았습니다. Otter.ai는 특히 중요한 작업에서 정확도를 위해 전사를 검토하고 편집할 것을 권고하며, 배경 소음, 억양, 대화의 복잡성과 같은 요인으로 인해 정확도가 달라질 수 있다고 언급했습니다.
iPhone 사용자의 경우, iOS 18.1에 Apple Intelligence가 포함된 AI 기반 통화 녹음 및 전사 기능이 제공되지만, ZDNET의 편집장 Jason Hiner는 이를 “아직 진행 중인 작업”이라고 설명했습니다.
OpenAI는 최근 2억 5천만 명의 ChatGPT Plus 사용자에게 더 많은 도구를 제공할 계획을 발표했습니다.
Gmail, 맞춤형 AI 수신함, 검색 내 AI 개요 기능 등 출시
구글은 사용자의 할 일 목록을 맞춤형으로 한눈에 보여주고 주요 업데이트를 놓치지 않도록 도와주는 새로운 AI 기반 Gmail 수신함을 선보였습니다. 이와 함께 Gmail은 검색 기능에 ‘AI 개요’를 도입하고, Grammarly와 유사한 교정 도구를 출시하고 있습니다. 이전에는 유료 구독자만 이용할 수 있었던 여러 AI 기능이 이제 모든 사용자에게 제공됩니
산둥성 최초의 바이두 AI 만화 드라마 제작 기지가 지보에서 문을 열었다
4월 27일, 산둥성은 지보사범대학에 첫 번째 ‘바이두 AI 만화 드라마 창작 기지’를 공식 출범시키며 디지털 문화 창작 분야에서 중요한 이정표를 세웠다. 이 기지는 산학 협력의 새로운 장을 열었으며, AI 기술과 문화 창작 교육의 심도 있는 융합을 통해 디지털 문화 창작 인재를 양성하기 위한 혁신적인 모델을 모색하는 것을 목표로 한다.개소식에서 학교 측은
'스타게이트 노르웨이'로 불리는 스타트업의 기업 가치가 146억 달러를 기록하며 샌드버그와 클레그가 Nscale 이사회에 합류했다
대규모 AI 연산 처리가 가능한 데이터센터에 대한 수요가 급증함에 따라, 엔비디아(Nvidia)의 지원을 받는 영국의 AI 인프라 기업 엔스케일(Nscale)의 기업 가치가 146억 달러에 달했다. 이로써 엔스케일은 헬싱(Helsing) 및 미스트랄 AI(Mistral AI)와 함께 유럽의 최신 ‘데카콘’ 기업 중 하나로 자리매김했다.Nscale은 에너지,
This transcription tool sounds like a game-changer! If it really cuts down on AI hallucinations, it could be a big win for accuracy in sensitive fields like medicine or law. Excited to see how it stacks up against Whisper! 😄
This transcription tool sounds promising! Less hallucination is a big win for accuracy. Excited to see how it stacks up in real-world use. 😊
This new AI transcription tool sounds like a game-changer! Whisper’s hallucinations were such a mess for serious work, so I’m hyped to see something more accurate. Can it handle noisy audio though? 🤔
이 도구는 정말 구세주예요! AI가 내 녹취록에 허구를 만들어내는 걱정은 이제 안 해요. 정말 정확하고, 짜증나는 환각도 줄어들었어요. 조금만 더 빨라지면 좋겠지만, 정확성이 더 중요하죠! 😊





집






