Превосходная альтернатива инструменту транскрипции AI Openai: меньше галлюцинации, более точности

Было обнаружено, что Whisper's Openai, инструмент распознавания речи и транскрипции, выпущенный в 2022 году, часто генерирует галлюцинации или изготовление информации, что выражает обеспокоенность по поводу его потенциала причинения вреда в критических условиях. Исследователь из Университета Мичигана обнаружил галлюцинации в 80% аудиопроводков на общественных собраниях, которые он рассмотрел. Аналогичным образом, инженер, который проанализировал 100 часов транскрипций шепота, сообщил о галлюцинациях примерно в половине из них, и другой разработчик нашел их почти во всех созданных транскрипте, на общей сложности 26 000 экземпляров. Хотя незначительные ошибки в транскрипции являются обычными, эксперты отметили, что уровень галлюцинации Whisper является беспрецедентным среди инструментов транскрипции искусственного интеллекта. Openai утверждает, что шепотом, нейронная сеть с открытым исходным кодом, достигает почти человеческой точности в распознавании английской речи. Он широко используется в разных отраслях для таких задач, как транскрибирование интервью, перевод контента и создание видео -субтитров. Широко распространенное использование шепота может привести к распространению изготовленного текста, ошибочных цитат и другой дезинформации на различных платформах, с влиянием, варьирующимся на основе характера исходного контента. Whisper интегрируется в некоторые версии CHATGPT, используется в центрах вызовов, голосовых помощников и облачных платформ от Oracle и Microsoft, и в прошлом месяце загружался более 4,2 миллиона раз после HuggingFace. Особую озабоченность вызывает все большее использование инструментов, основанных на шепоте, медицинскими работниками для транскрибирования консультаций с пациентами. AP поговорил с более чем дюжиной инженеров, исследователей и разработчиков, которые подтверждали, что шепотом часто изготавливает фразы и целые предложения, иногда включая расовые комментарии, насильственную риторику и даже воображаемое медицинское лечение. «Никто не хочет ошибочного диагноза», - подчеркнула Алондра Нельсон, профессор Института передового исследования. Хотя OpenAI консультируется против использования Whisper в доменах высокого риска, таких как контексты принятия решений, где недостатки точности могут привести к значительным проблемам, маркетируемая точность инструмента делает его привлекательным для различных отраслей, стремящихся оптимизировать операции, часто упуская из виду потенциальные риски. Проблема не ограничивается длинным или плохо записанным звуком; Исследователи обнаружили галлюцинации даже в коротких, четких образцах аудио. Они оценивают, что это может привести к десяткам тысяч неверных транскрипций в миллионах записей. Кристиан Фоглер, директор программы технологического доступа в Университете Галлодет и сам глухой, отметил, что люди, которые являются глухими или тяжелыми слушанием, могут пропустить эти галлюцинации, «скрытые среди всего этого другого текста». Эти выводы подчеркивают более широкую проблему в отрасли ИИ: спешка к продаже продуктов для получения прибыли, особенно в отсутствие комплексных правил ИИ в США. Это особенно актуально на фоне дебатов о коммерческом и некоммерческом статусе Openai и недавних заявлениях о лидерстве, которые преуменьшают риски ИИ. Представитель OpenAI заявил AP, что компания постоянно работает над уменьшением галлюцинаций и ценит выводы исследователей, включает обратную связь в обновления модели. Тем временем мы предлагаем рассмотреть вопрос о том, что журналисты, недавно добавив поддержку для шести новых языков. В то время как давний пользователь сообщил о галлюцинированной статистике в новой сводной функции ИИ, ошибка не появилась в самой транскрипции. Otter.ai советует пользователям просмотреть и редактировать транскрипции на точность, особенно для критических задач, отмечая, что точность может варьироваться в зависимости от факторов, таких как фоновый шум, акценты и сложность разговора. Для пользователей iPhone iOS 18.1 с Apple Intelligence теперь предлагает запись и транскрипцию вызовов с AI, хотя главный редактор ZDNet Джейсон Хайнер описывает ее как «все еще работа в процессе». Openai недавно объявила о планах предоставить больше инструментов для своих 250 миллионов пользователей CHATGPT Plus.
Связанная статья
AI Comics: Исследование передовых технологий создания
Индустрия комиксов переживает кардинальные изменения благодаря внедрению искусственного интеллекта. Времена, когда ИИ был лишь далекой мечтой, прошли; теперь это практичный инструмент, который создате
Viggle AI: Революция в видеоэффектах с помощью AI-смешивания движений
Революция в видеоэффектах с Viggle AIViggle AI преобразует мир видеоэффектов, делая передовые визуальные создания более доступными, чем когда-либо. Прошли те дни, когда требовались сложные настройки и
Печать по запросу с использованием ИИ-искусства: Пошаговое руководство для Etsy
Рассматриваете возможность заняться электронной коммерцией, но боитесь управлять запасами или создавать продукты самостоятельно? Печать по запросу (POD) в сочетании с генерацией ИИ-искусства может ста
Комментарии (15)
RonaldLee
15 апреля 2025 г., 0:00:00 GMT
This tool is a lifesaver for anyone tired of Whisper's hallucinations! It's way more accurate and reliable. I used it for a critical meeting transcription and it nailed every detail. Only wish it was a bit faster, but accuracy over speed any day!
0
StevenNelson
15 апреля 2025 г., 0:00:00 GMT
このツールはWhisperの幻覚に悩まされている人には救世主です!精度が高く信頼性もあります。重要な会議の文字起こしに使ってみましたが、細部まで完璧でした。もう少し速ければ最高なのに、と思いますが、精度が最優先ですね!
0
StevenGonzalez
15 апреля 2025 г., 0:00:00 GMT
위스퍼의 환각에 지친 사람들에게 이 도구는 구세주입니다! 훨씬 정확하고 신뢰할 수 있어요. 중요한 회의 녹취에 사용해봤는데, 모든 세부 사항을 완벽하게 잡아냈어요. 조금 더 빨랐으면 좋겠지만, 정확성이 우선이죠!
0
AlbertThomas
15 апреля 2025 г., 0:00:00 GMT
Esta ferramenta é uma salvação para quem está cansado das alucinações do Whisper! É muito mais precisa e confiável. Usei para transcrever uma reunião importante e pegou todos os detalhes. Só queria que fosse um pouco mais rápida, mas precisão acima de tudo!
0
CharlesJohnson
15 апреля 2025 г., 0:00:00 GMT
Esta herramienta es un salvavidas para quienes están hartos de las alucinaciones de Whisper. Es mucho más precisa y confiable. La usé para transcribir una reunión importante y capturó todos los detalles. Ojalá fuera un poco más rápida, pero la precisión es lo primero.
0
JuanCarter
14 апреля 2025 г., 0:00:00 GMT
This alternative to OpenAI's Whisper is a lifesaver! Less hallucinations and more accuracy? Sign me up! It's perfect for my work, but the interface could use a bit of a facelift. 😅
0




This tool is a lifesaver for anyone tired of Whisper's hallucinations! It's way more accurate and reliable. I used it for a critical meeting transcription and it nailed every detail. Only wish it was a bit faster, but accuracy over speed any day!




このツールはWhisperの幻覚に悩まされている人には救世主です!精度が高く信頼性もあります。重要な会議の文字起こしに使ってみましたが、細部まで完璧でした。もう少し速ければ最高なのに、と思いますが、精度が最優先ですね!




위스퍼의 환각에 지친 사람들에게 이 도구는 구세주입니다! 훨씬 정확하고 신뢰할 수 있어요. 중요한 회의 녹취에 사용해봤는데, 모든 세부 사항을 완벽하게 잡아냈어요. 조금 더 빨랐으면 좋겠지만, 정확성이 우선이죠!




Esta ferramenta é uma salvação para quem está cansado das alucinações do Whisper! É muito mais precisa e confiável. Usei para transcrever uma reunião importante e pegou todos os detalhes. Só queria que fosse um pouco mais rápida, mas precisão acima de tudo!




Esta herramienta es un salvavidas para quienes están hartos de las alucinaciones de Whisper. Es mucho más precisa y confiable. La usé para transcribir una reunión importante y capturó todos los detalles. Ojalá fuera un poco más rápida, pero la precisión es lo primero.




This alternative to OpenAI's Whisper is a lifesaver! Less hallucinations and more accuracy? Sign me up! It's perfect for my work, but the interface could use a bit of a facelift. 😅












