Thay thế vượt trội cho công cụ phiên âm AI của Openai: ít ảo giác hơn, độ chính xác hơn

Openai's Whisper, một công cụ phiên âm và nhận dạng giọng nói do AI phát hành vào năm 2022, đã được tìm thấy thường xuyên tạo ra ảo giác hoặc chế tạo thông tin, làm tăng mối lo ngại về tiềm năng của nó gây hại trong các môi trường quan trọng. Một nhà nghiên cứu tại Đại học Michigan đã phát hiện ra ảo giác trong 80% phiên âm âm thanh từ các cuộc họp công cộng mà ông đã xem xét. Tương tự, một kỹ sư đã phân tích 100 giờ phiên âm thì thầm đã báo cáo ảo giác trong khoảng một nửa trong số họ, và một nhà phát triển khác đã tìm thấy chúng trong gần như mọi bảng điểm mà anh ta tạo ra, tổng cộng 26.000 trường hợp. Trong khi các lỗi nhỏ trong phiên âm là phổ biến, các chuyên gia lưu ý rằng mức độ ảo giác của Whisper là chưa từng có trong số các công cụ phiên mã AI. Openai tuyên bố rằng Whisper, một mạng lưới thần kinh nguồn mở, đạt được độ chính xác gần như con người trong nhận dạng giọng nói tiếng Anh. Nó được sử dụng rộng rãi giữa các ngành công nghiệp cho các nhiệm vụ như phiên âm các cuộc phỏng vấn, dịch nội dung và tạo phụ đề video. Việc sử dụng rộng rãi thì thầm có thể dẫn đến sự lan truyền của văn bản bịa đặt, trích dẫn sai và thông tin sai lệch khác trên các nền tảng khác nhau, với tác động khác nhau dựa trên bản chất của nội dung ban đầu. Whisper được tích hợp vào một số phiên bản của TATGPT, được sử dụng trong các trung tâm cuộc gọi, trợ lý giọng nói và nền tảng đám mây từ Oracle và Microsoft, và đã được tải xuống hơn 4.2 triệu lần vào tháng trước từ HuggingFace. Mối quan tâm đặc biệt là việc sử dụng ngày càng tăng các công cụ dựa trên thì thầm của các chuyên gia y tế để phiên âm các tư vấn bệnh nhân. AP đã nói chuyện với hơn một chục kỹ sư, nhà nghiên cứu và nhà phát triển, những người đã xác nhận rằng thì thầm thường bịa đặt các cụm từ và toàn bộ câu, đôi khi bao gồm bình luận chủng tộc, hùng biện bạo lực và thậm chí là các phương pháp điều trị y tế tưởng tượng. "Không ai muốn chẩn đoán sai", Alondra Nelson, giáo sư tại Viện nghiên cứu nâng cao nhấn mạnh. Mặc dù Openai khuyên không nên sử dụng thì thầm trong các lĩnh vực có nguy cơ cao như bối cảnh ra quyết định trong đó các lỗ hổng chính xác có thể dẫn đến các vấn đề quan trọng, độ chính xác được bán trên thị trường khiến nó hấp dẫn đối với các ngành công nghiệp khác nhau tìm cách hợp lý hóa các hoạt động, thường nhìn ra rủi ro tiềm ẩn. Vấn đề không giới hạn ở âm thanh dài hoặc được ghi kém; Các nhà nghiên cứu đã tìm thấy ảo giác ngay cả trong các mẫu âm thanh rõ ràng, rõ ràng. Họ ước tính rằng điều này có thể dẫn đến hàng chục ngàn bản phiên âm không chính xác trên hàng triệu bản ghi âm. Christian Vogler, giám đốc chương trình truy cập công nghệ của Đại học Gallaudet và chính người điếc, chỉ ra rằng những người bị điếc hoặc khó nghe có thể bỏ lỡ những ảo giác này "ẩn giấu trong tất cả các văn bản khác này." Những phát hiện này nêu bật một vấn đề rộng lớn hơn trong ngành công nghiệp AI: Rush to Market Sản phẩm vì lợi nhuận, đặc biệt là trong trường hợp không có các quy định AI toàn diện ở Mỹ. Điều này đặc biệt có liên quan giữa các cuộc tranh luận về tình trạng vì lợi nhuận so với tổ chức phi lợi nhuận của Openai và các tuyên bố lãnh đạo gần đây làm giảm rủi ro AI. Một phát ngôn viên của Openai nói với AP rằng công ty đang liên tục làm việc để giảm ảo giác và đánh giá các kết quả của các nhà nghiên cứu, kết hợp phản hồi vào các bản cập nhật mô hình. Trong khi đó, chúng tôi đề nghị xem xét Otter.ai, một công cụ phiên âm AI đáng tin cậy được các nhà báo tin tưởng, gần đây đã thêm hỗ trợ cho sáu ngôn ngữ mới. Mặc dù người dùng lâu năm đã báo cáo một thống kê ảo giác trong tính năng tóm tắt AI mới, lỗi không xuất hiện trong bản phiên âm. Otter.ai khuyên người dùng xem xét và chỉnh sửa phiên âm cho độ chính xác, đặc biệt là đối với các nhiệm vụ quan trọng, lưu ý rằng độ chính xác có thể thay đổi do các yếu tố như tiếng ồn nền, điểm nhấn và độ phức tạp của cuộc trò chuyện. Đối với người dùng iPhone, iOS 18.1 với Apple Intelligence hiện cung cấp bản ghi và phiên âm cuộc gọi do AI cung cấp, mặc dù Jason Hiner, tổng biên tập của ZDNet mô tả nó là "vẫn là một công việc đang tiến triển". Openai gần đây đã công bố kế hoạch cung cấp nhiều công cụ hơn cho người dùng 250 triệu chatgpt cộng với.
Bài viết liên quan
AI Comics: Khám phá Tiền tuyến của Sáng tạo
Ngành công nghiệp truyện tranh đang trải qua một sự thay đổi lớn, nhờ vào sự tích hợp của trí tuệ nhân tạo. Thời kỳ AI chỉ là giấc mơ xa vời đã qua; giờ đây nó là một công cụ thực tiễn mà các nhà sáng
Viggle AI: Cách mạng hóa VFX video với AI Motion Mixing
Cách mạng hóa Hiệu ứng Video với Viggle AIViggle AI đang định hình lại thế giới hiệu ứng video, giúp việc tạo ra các tác phẩm hình ảnh tiên tiến trở nên dễ tiếp cận hơn bao giờ hết. Thời kỳ của các th
In ấn theo yêu cầu với Nghệ thuật AI: Hướng dẫn từng bước cho Etsy
Bạn muốn bắt đầu kinh doanh thương mại điện tử nhưng ngại quản lý hàng tồn kho hoặc tự tạo sản phẩm? In ấn theo yêu cầu (POD) kết hợp với tạo nghệ thuật AI có thể là giải pháp cho một doanh nghiệp trự
Nhận xét (15)
0/200
RonaldLee
00:00:00 GMT Ngày 15 tháng 4 năm 2025
This tool is a lifesaver for anyone tired of Whisper's hallucinations! It's way more accurate and reliable. I used it for a critical meeting transcription and it nailed every detail. Only wish it was a bit faster, but accuracy over speed any day!
0
StevenNelson
00:00:00 GMT Ngày 15 tháng 4 năm 2025
このツールはWhisperの幻覚に悩まされている人には救世主です!精度が高く信頼性もあります。重要な会議の文字起こしに使ってみましたが、細部まで完璧でした。もう少し速ければ最高なのに、と思いますが、精度が最優先ですね!
0
StevenGonzalez
00:00:00 GMT Ngày 15 tháng 4 năm 2025
위스퍼의 환각에 지친 사람들에게 이 도구는 구세주입니다! 훨씬 정확하고 신뢰할 수 있어요. 중요한 회의 녹취에 사용해봤는데, 모든 세부 사항을 완벽하게 잡아냈어요. 조금 더 빨랐으면 좋겠지만, 정확성이 우선이죠!
0
AlbertThomas
00:00:00 GMT Ngày 15 tháng 4 năm 2025
Esta ferramenta é uma salvação para quem está cansado das alucinações do Whisper! É muito mais precisa e confiável. Usei para transcrever uma reunião importante e pegou todos os detalhes. Só queria que fosse um pouco mais rápida, mas precisão acima de tudo!
0
CharlesJohnson
00:00:00 GMT Ngày 15 tháng 4 năm 2025
Esta herramienta es un salvavidas para quienes están hartos de las alucinaciones de Whisper. Es mucho más precisa y confiable. La usé para transcribir una reunión importante y capturó todos los detalles. Ojalá fuera un poco más rápida, pero la precisión es lo primero.
0
JuanCarter
00:00:00 GMT Ngày 14 tháng 4 năm 2025
This alternative to OpenAI's Whisper is a lifesaver! Less hallucinations and more accuracy? Sign me up! It's perfect for my work, but the interface could use a bit of a facelift. 😅
0




This tool is a lifesaver for anyone tired of Whisper's hallucinations! It's way more accurate and reliable. I used it for a critical meeting transcription and it nailed every detail. Only wish it was a bit faster, but accuracy over speed any day!




このツールはWhisperの幻覚に悩まされている人には救世主です!精度が高く信頼性もあります。重要な会議の文字起こしに使ってみましたが、細部まで完璧でした。もう少し速ければ最高なのに、と思いますが、精度が最優先ですね!




위스퍼의 환각에 지친 사람들에게 이 도구는 구세주입니다! 훨씬 정확하고 신뢰할 수 있어요. 중요한 회의 녹취에 사용해봤는데, 모든 세부 사항을 완벽하게 잡아냈어요. 조금 더 빨랐으면 좋겠지만, 정확성이 우선이죠!




Esta ferramenta é uma salvação para quem está cansado das alucinações do Whisper! É muito mais precisa e confiável. Usei para transcrever uma reunião importante e pegou todos os detalhes. Só queria que fosse um pouco mais rápida, mas precisão acima de tudo!




Esta herramienta es un salvavidas para quienes están hartos de las alucinaciones de Whisper. Es mucho más precisa y confiable. La usé para transcribir una reunión importante y capturó todos los detalles. Ojalá fuera un poco más rápida, pero la precisión es lo primero.




This alternative to OpenAI's Whisper is a lifesaver! Less hallucinations and more accuracy? Sign me up! It's perfect for my work, but the interface could use a bit of a facelift. 😅












