Thay thế vượt trội cho công cụ phiên âm AI của Openai: ít ảo giác hơn, độ chính xác hơn

Whisper của OpenAI, một công cụ nhận diện và phiên âm giọng nói được hỗ trợ bởi AI, ra mắt vào năm 2022, đã bị phát hiện thường xuyên tạo ra ảo giác hoặc bịa đặt thông tin, làm dấy lên lo ngại về khả năng gây hại trong các tình huống quan trọng.
Một nhà nghiên cứu tại Đại học Michigan phát hiện ra ảo giác trong 80% các bản phiên âm âm thanh từ các cuộc họp công khai mà anh ta đã xem xét. Tương tự, một kỹ sư phân tích 100 giờ phiên âm của Whisper báo cáo có ảo giác trong khoảng một nửa số đó, và một nhà phát triển khác tìm thấy ảo giác trong gần như mọi bản phiên âm mà anh ta tạo ra, tổng cộng 26.000 trường hợp.
Mặc dù các lỗi nhỏ trong phiên âm là phổ biến, các chuyên gia lưu ý rằng mức độ ảo giác của Whisper là chưa từng có trong số các công cụ phiên âm AI. OpenAI tuyên bố rằng Whisper, một mạng nơ-ron mã nguồn mở, đạt được độ chính xác gần như con người trong nhận diện giọng nói tiếng Anh. Nó được sử dụng rộng rãi trong các ngành công nghiệp cho các nhiệm vụ như phiên âm phỏng vấn, dịch nội dung và tạo phụ đề video.
Việc sử dụng rộng rãi Whisper có thể dẫn đến sự lan truyền của văn bản bịa đặt, trích dẫn sai lệch và các thông tin sai lệch khác trên nhiều nền tảng, với tác động khác nhau tùy thuộc vào bản chất của nội dung gốc. Whisper được tích hợp vào một số phiên bản của ChatGPT, được sử dụng trong các trung tâm cuộc gọi, trợ lý giọng nói và các nền tảng đám mây từ Oracle và Microsoft, và đã được tải xuống hơn 4,2 triệu lần trong tháng trước từ HuggingFace.
Đặc biệt đáng lo ngại là việc sử dụng ngày càng tăng các công cụ dựa trên Whisper bởi các chuyên gia y tế để phiên âm các cuộc tư vấn bệnh nhân. AP đã trao đổi với hơn một chục kỹ sư, nhà nghiên cứu và nhà phát triển, những người xác nhận rằng Whisper thường bịa đặt các cụm từ và toàn bộ câu, đôi khi bao gồm bình luận phân biệt chủng tộc, ngôn từ bạo lực và thậm chí cả các phương pháp điều trị y tế tưởng tượng.
"Không ai muốn bị chẩn đoán sai," Alondra Nelson, một giáo sư tại Viện Nghiên cứu Cao cấp, nhấn mạnh.
Mặc dù OpenAI khuyên không nên sử dụng Whisper trong các lĩnh vực rủi ro cao như các bối cảnh ra quyết định nơi lỗi chính xác có thể dẫn đến các vấn đề nghiêm trọng, độ chính xác được quảng bá của công cụ khiến nó hấp dẫn đối với các ngành công nghiệp muốn đơn giản hóa hoạt động, thường bỏ qua các r rủi ro tiềm ẩn.
Vấn đề không chỉ giới hạn ở các âm thanh dài hoặc được ghi âm kém; các nhà nghiên cứu phát hiện ra ảo giác ngay cả trong các mẫu âm thanh ngắn, rõ ràng. Họ ước tính rằng điều này có thể dẫn đến hàng chục nghìn bản phiên âm không chính xác trong số hàng triệu bản ghi âm. Christian Vogler, giám đốc Chương trình Ti匆, Access Technology của Đại học Gallaudet và là người khiếm thính, chỉ ra rằng những người khiếm thính hoặc khó nghe có thể bỏ sót những ảo giác này "ẩn trong số tất cả các văn bản khác."
Những phát hiện này làm nổi bật một vấn đề rộng lớn hơn trong ngành AI: cuộc đua đưa sản phẩm ra thị trường vì lợi nhuận, đặc biệt trong bối cảnh thiếu các quy định toàn diện về AI ở Mỹ. Điều này đặc biệt liên quan trong bối cảnh tranh luận về trạng trạng phi lợi nhuận so với lợi nhuận của OpenAI và các tuyên bố gần đây của lãnh đạo nhằm giảm nhẹ rủi ro AI.
Một phát ngôn viên của OpenAI nói với AP rằng công ty đang liên tục nỗ lực giảm ảo giác và đánh giá cao những phát hiện của các nhà nghiên cứu, tích hợp phản hồi vào các cập nhật mô hình.
Trong thời gian này, chúng tôi đề nghị xem xét Otter.ai, một công cụ phiên âm AI đáng tin cậy được các nhà báo tin dùng, gần đây đã bổ sung hỗ trợ cho sáu ngôn ngữ mới. Mặc dù một người dùng lâu năm báo cáo một số liệu ảo trong tính năng tóm tắt AI mới, lỗi này không xuất hiện trong chính bản phiên âm. Otter.ai khuyên người dùng nên xem xét và chỉnh sửa các bản phiên âm để đảm bảo tính chính xác, đặc biệt đối với các nhiệm vụ quan trọng, lưu ý rằng độ chính xác có thể thay đổi do các yếu tố như tiếng ồn nền, giọng nói và độ phức tạp của cuộc trò chuyện.
Đối với người dùng iPhone, iOS 18.1 với Apple Intelligence hiện cung cấp tính năng ghi âm và phiên âm cuộc gọi được hỗ trợ bởi AI, mặc dù tổng biên tập của ZDNET, Jason Hiner, mô tả nó là "vẫn đang trong quá trình hoàn thiện."
OpenAI gần đây đã công bố kế hoạch cung cấp thêm nhiều công cụ cho 250 triệu người dùng ChatGPT Plus của mình.
Bài viết liên quan
Quản lý SQL được hỗ trợ bởi AI: Tối ưu hóa cơ sở dữ liệu vào năm 2025
Trí tuệ nhân tạo đang thay đổi cách quản lý cơ sở dữ liệu với SQL, giới thiệu các công cụ sáng tạo giúp tăng cường tự động hóa và hiệu quả. Bằng cách hiểu ngữ cảnh dữ liệu, cung cấp đề xuất thông minh
Từ Dot-Com đến AI: Bài học để tránh những sai lầm công nghệ trong quá khứ
Trong thời kỳ bùng nổ dot-com, việc thêm “.com” vào tên công ty có thể khiến giá cổ phiếu tăng vọt, ngay cả khi không có khách hàng, doanh thu hay mô hình kinh doanh khả thi. Ngày nay, cơn sốt tương t
Công cụ hình ảnh AI gây hỗn loạn trong Discord Attack on Titan
Thế giới sáng tạo nội dung bằng AI đầy thú vị nhưng khó lường. Điều gì xảy ra khi một nhóm người hâm mộ anime tiếp cận công cụ chuyển văn bản thành hình ảnh tiên tiến? Hỗn loạn tuyệt đối! Khám phá kết
Nhận xét (17)
0/200
PaulLewis
00:01:00 GMT+07:00 Ngày 06 tháng 8 năm 2025
This transcription tool sounds promising! Less hallucination is a big win for accuracy. Excited to see how it stacks up in real-world use. 😊
0
FrankSanchez
13:48:52 GMT+07:00 Ngày 04 tháng 8 năm 2025
This new AI transcription tool sounds like a game-changer! Whisper’s hallucinations were such a mess for serious work, so I’m hyped to see something more accurate. Can it handle noisy audio though? 🤔
0
WalterWhite
10:50:21 GMT+07:00 Ngày 16 tháng 4 năm 2025
このツールは本当に助かる!AIが勝手に作り出す幻覚がなく、非常に正確です。もう少し早く動いてくれると嬉しいけど、正確さが最優先だからね!😊
0
HaroldLopez
01:21:19 GMT+07:00 Ngày 16 tháng 4 năm 2025
이 도구는 정말 구세주예요! AI가 내 녹취록에 허구를 만들어내는 걱정은 이제 안 해요. 정말 정확하고, 짜증나는 환각도 줄어들었어요. 조금만 더 빨라지면 좋겠지만, 정확성이 더 중요하죠! 😊
0
JimmyGarcia
01:19:21 GMT+07:00 Ngày 16 tháng 4 năm 2025
Essa ferramenta é um salva-vidas! Não preciso mais me preocupar com a IA inventando coisas nas minhas transcrições. É super precisa e realmente reduz aquelas alucinações irritantes. Só gostaria que fosse um pouco mais rápida, mas, né, precisão acima de velocidade qualquer dia! 😊
0
RogerJackson
21:28:05 GMT+07:00 Ngày 15 tháng 4 năm 2025
OpenAI의 Whisper 대체 도구는 정말 구세주네요! 환각이 적고 정확도가 높다니, 가입해야죠! 일에는 완벽하지만 인터페이스가 좀 더 세련되면 좋겠어요. 😅
0
Whisper của OpenAI, một công cụ nhận diện và phiên âm giọng nói được hỗ trợ bởi AI, ra mắt vào năm 2022, đã bị phát hiện thường xuyên tạo ra ảo giác hoặc bịa đặt thông tin, làm dấy lên lo ngại về khả năng gây hại trong các tình huống quan trọng.
Một nhà nghiên cứu tại Đại học Michigan phát hiện ra ảo giác trong 80% các bản phiên âm âm thanh từ các cuộc họp công khai mà anh ta đã xem xét. Tương tự, một kỹ sư phân tích 100 giờ phiên âm của Whisper báo cáo có ảo giác trong khoảng một nửa số đó, và một nhà phát triển khác tìm thấy ảo giác trong gần như mọi bản phiên âm mà anh ta tạo ra, tổng cộng 26.000 trường hợp.
Mặc dù các lỗi nhỏ trong phiên âm là phổ biến, các chuyên gia lưu ý rằng mức độ ảo giác của Whisper là chưa từng có trong số các công cụ phiên âm AI. OpenAI tuyên bố rằng Whisper, một mạng nơ-ron mã nguồn mở, đạt được độ chính xác gần như con người trong nhận diện giọng nói tiếng Anh. Nó được sử dụng rộng rãi trong các ngành công nghiệp cho các nhiệm vụ như phiên âm phỏng vấn, dịch nội dung và tạo phụ đề video.
Việc sử dụng rộng rãi Whisper có thể dẫn đến sự lan truyền của văn bản bịa đặt, trích dẫn sai lệch và các thông tin sai lệch khác trên nhiều nền tảng, với tác động khác nhau tùy thuộc vào bản chất của nội dung gốc. Whisper được tích hợp vào một số phiên bản của ChatGPT, được sử dụng trong các trung tâm cuộc gọi, trợ lý giọng nói và các nền tảng đám mây từ Oracle và Microsoft, và đã được tải xuống hơn 4,2 triệu lần trong tháng trước từ HuggingFace.
Đặc biệt đáng lo ngại là việc sử dụng ngày càng tăng các công cụ dựa trên Whisper bởi các chuyên gia y tế để phiên âm các cuộc tư vấn bệnh nhân. AP đã trao đổi với hơn một chục kỹ sư, nhà nghiên cứu và nhà phát triển, những người xác nhận rằng Whisper thường bịa đặt các cụm từ và toàn bộ câu, đôi khi bao gồm bình luận phân biệt chủng tộc, ngôn từ bạo lực và thậm chí cả các phương pháp điều trị y tế tưởng tượng.
"Không ai muốn bị chẩn đoán sai," Alondra Nelson, một giáo sư tại Viện Nghiên cứu Cao cấp, nhấn mạnh.
Mặc dù OpenAI khuyên không nên sử dụng Whisper trong các lĩnh vực rủi ro cao như các bối cảnh ra quyết định nơi lỗi chính xác có thể dẫn đến các vấn đề nghiêm trọng, độ chính xác được quảng bá của công cụ khiến nó hấp dẫn đối với các ngành công nghiệp muốn đơn giản hóa hoạt động, thường bỏ qua các r rủi ro tiềm ẩn.
Vấn đề không chỉ giới hạn ở các âm thanh dài hoặc được ghi âm kém; các nhà nghiên cứu phát hiện ra ảo giác ngay cả trong các mẫu âm thanh ngắn, rõ ràng. Họ ước tính rằng điều này có thể dẫn đến hàng chục nghìn bản phiên âm không chính xác trong số hàng triệu bản ghi âm. Christian Vogler, giám đốc Chương trình Ti匆, Access Technology của Đại học Gallaudet và là người khiếm thính, chỉ ra rằng những người khiếm thính hoặc khó nghe có thể bỏ sót những ảo giác này "ẩn trong số tất cả các văn bản khác."
Những phát hiện này làm nổi bật một vấn đề rộng lớn hơn trong ngành AI: cuộc đua đưa sản phẩm ra thị trường vì lợi nhuận, đặc biệt trong bối cảnh thiếu các quy định toàn diện về AI ở Mỹ. Điều này đặc biệt liên quan trong bối cảnh tranh luận về trạng trạng phi lợi nhuận so với lợi nhuận của OpenAI và các tuyên bố gần đây của lãnh đạo nhằm giảm nhẹ rủi ro AI.
Một phát ngôn viên của OpenAI nói với AP rằng công ty đang liên tục nỗ lực giảm ảo giác và đánh giá cao những phát hiện của các nhà nghiên cứu, tích hợp phản hồi vào các cập nhật mô hình.
Trong thời gian này, chúng tôi đề nghị xem xét Otter.ai, một công cụ phiên âm AI đáng tin cậy được các nhà báo tin dùng, gần đây đã bổ sung hỗ trợ cho sáu ngôn ngữ mới. Mặc dù một người dùng lâu năm báo cáo một số liệu ảo trong tính năng tóm tắt AI mới, lỗi này không xuất hiện trong chính bản phiên âm. Otter.ai khuyên người dùng nên xem xét và chỉnh sửa các bản phiên âm để đảm bảo tính chính xác, đặc biệt đối với các nhiệm vụ quan trọng, lưu ý rằng độ chính xác có thể thay đổi do các yếu tố như tiếng ồn nền, giọng nói và độ phức tạp của cuộc trò chuyện.
Đối với người dùng iPhone, iOS 18.1 với Apple Intelligence hiện cung cấp tính năng ghi âm và phiên âm cuộc gọi được hỗ trợ bởi AI, mặc dù tổng biên tập của ZDNET, Jason Hiner, mô tả nó là "vẫn đang trong quá trình hoàn thiện."
OpenAI gần đây đã công bố kế hoạch cung cấp thêm nhiều công cụ cho 250 triệu người dùng ChatGPT Plus của mình.




This transcription tool sounds promising! Less hallucination is a big win for accuracy. Excited to see how it stacks up in real-world use. 😊




This new AI transcription tool sounds like a game-changer! Whisper’s hallucinations were such a mess for serious work, so I’m hyped to see something more accurate. Can it handle noisy audio though? 🤔




このツールは本当に助かる!AIが勝手に作り出す幻覚がなく、非常に正確です。もう少し早く動いてくれると嬉しいけど、正確さが最優先だからね!😊




이 도구는 정말 구세주예요! AI가 내 녹취록에 허구를 만들어내는 걱정은 이제 안 해요. 정말 정확하고, 짜증나는 환각도 줄어들었어요. 조금만 더 빨라지면 좋겠지만, 정확성이 더 중요하죠! 😊




Essa ferramenta é um salva-vidas! Não preciso mais me preocupar com a IA inventando coisas nas minhas transcrições. É super precisa e realmente reduz aquelas alucinações irritantes. Só gostaria que fosse um pouco mais rápida, mas, né, precisão acima de velocidade qualquer dia! 😊




OpenAI의 Whisper 대체 도구는 정말 구세주네요! 환각이 적고 정확도가 높다니, 가입해야죠! 일에는 완벽하지만 인터페이스가 좀 더 세련되면 좋겠어요. 😅












