Trang chủ Tin tức Openai nâng cấp các mô hình AI phiên mã và tạo giọng nói của nó

Openai nâng cấp các mô hình AI phiên mã và tạo giọng nói của nó

Ngày 10 tháng 4 năm 2025
CharlesWhite
6

Openai đang triển khai các mô hình AI mới để phiên âm và tạo giọng nói thông qua API của nó, hứa hẹn những cải tiến đáng kể so với các phiên bản trước đó của họ. Những bản cập nhật này là một phần của tầm nhìn "tác nhân" lớn hơn của Openai, tập trung vào việc tạo ra các hệ thống tự trị có khả năng thực hiện các tác vụ một cách độc lập cho người dùng. Mặc dù thuật ngữ "đại lý" có thể được tranh luận, người đứng đầu sản phẩm của Openai, Olivier Godement, coi đó là một chatbot có thể tương tác với khách hàng của doanh nghiệp.

"Chúng ta sẽ thấy ngày càng nhiều đại lý xuất hiện trong những tháng tới", Godement chia sẻ với TechCrunch trong một cuộc họp ngắn. "Mục tiêu bao quát là hỗ trợ khách hàng và nhà phát triển sử dụng các tác nhân hữu ích, dễ tiếp cận và chính xác."

Mô hình văn bản thành giọng nói mới nhất của Openai, được đặt tên là "GPT-4O-MINI-TTS", không chỉ nhằm mục đích tạo ra lời nói giống như thật và nhiều sắc thái hơn mà còn dễ thích nghi hơn so với những người tiền nhiệm. Các nhà phát triển giờ đây có thể hướng dẫn mô hình bằng cách sử dụng các lệnh ngôn ngữ tự nhiên, chẳng hạn như "Nói như một nhà khoa học điên" hoặc "sử dụng giọng nói thanh thản, giống như một giáo viên chánh niệm". Mức độ kiểm soát này cho phép trải nghiệm giọng nói cá nhân hơn.

Đây là một mẫu của một "phong cách tội phạm thực sự", giọng nói phong hóa:

Và đây là một ví dụ về giọng nói "chuyên nghiệp" của phụ nữ:

Jeff Harris, một thành viên của nhóm sản phẩm của Openai, nhấn mạnh với TechCrunch rằng mục tiêu là cho phép các nhà phát triển tùy chỉnh cả "trải nghiệm" và "bối cảnh". "Trong nhiều tình huống khác nhau, bạn không muốn một giọng nói đơn điệu", Harris giải thích. "Ví dụ, trong một thiết lập hỗ trợ khách hàng trong đó giọng nói cần phải xin lỗi vì một sai lầm, bạn có thể truyền cảm xúc đó vào giọng nói. Chúng tôi tin tưởng mạnh mẽ rằng các nhà phát triển và người dùng muốn kiểm soát không chỉ nội dung, mà là cách nói."

Chuyển sang các dịch vụ bài phát biểu mới của Openai, "GPT-4O-transcribe" và "GPT-4O-MINI-Transcribe", các mô hình này được thiết lập để thay thế mô hình phiên mã Whisper lỗi thời. Được đào tạo trên một loạt các dữ liệu âm thanh chất lượng cao, họ tuyên bố sẽ xử lý tốt hơn lời nói có dấu và đa dạng, ngay cả trong các cài đặt ồn ào. Ngoài ra, các mô hình này ít dễ bị "ảo giác", một vấn đề trong đó thì thầm đôi khi sẽ phát minh ra các từ hoặc toàn bộ đoạn văn, thêm sự không chính xác như bình luận chủng tộc hoặc điều trị y tế giả tưởng vào bảng điểm.

"Những mô hình này cho thấy sự cải thiện đáng kể so với thì thầm về vấn đề này", Harris lưu ý. "Đảm bảo độ chính xác của mô hình là rất quan trọng đối với trải nghiệm giọng nói đáng tin cậy và theo độ chính xác, chúng tôi có nghĩa là các mô hình nắm bắt chính xác các từ được nói mà không cần thêm nội dung chưa được kiểm tra."

Tuy nhiên, hiệu suất có thể khác nhau trên các ngôn ngữ. Các điểm chuẩn nội bộ của Openai chỉ ra rằng GPT-4O Transcribe, càng chính xác hơn trong hai, có "tỷ lệ lỗi từ" gần 30% đối với các ngôn ngữ của chỉ định và Dravidian như tiếng Tamil, tiếng Telugu, Malayalam và Kannada. Điều này cho thấy rằng khoảng ba trong số mười từ có thể khác với phiên âm của con người trong các ngôn ngữ này.

Kết quả phiên âm Openai

Các kết quả từ điểm chuẩn phiên mã Openai. Tín dụng hình ảnh: Openai

Trong một sự khởi đầu từ thực tiễn thông thường của họ, Openai sẽ không có sẵn các mô hình phiên âm mới này. Trong lịch sử, họ đã phát hành các phiên bản Whisper mới theo giấy phép MIT cho sử dụng thương mại. Harris chỉ ra rằng GPT-4O Transcribe và GPT-4O-MINI-TRANSCRIPE lớn hơn đáng kể so với thì thầm, khiến chúng không phù hợp để phát hành mở.

"Những mô hình này quá lớn để chạy trên một chiếc máy tính xách tay điển hình như Whisper có thể", Harris nói thêm. "Khi chúng tôi phát hành các mô hình một cách công khai, chúng tôi muốn làm điều đó một cách chu đáo, đảm bảo chúng được điều chỉnh cho các nhu cầu cụ thể. Chúng tôi thấy các thiết bị người dùng cuối là khu vực chính cho các mô hình nguồn mở."

Cập nhật ngày 20 tháng 3 năm 2025, 11:54 AM PT để làm rõ ngôn ngữ xung quanh tỷ lệ lỗi từ và cập nhật biểu đồ kết quả điểm chuẩn với phiên bản gần đây hơn.

Bài viết liên quan
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them. Opinions on
OpenAI Enhances ChatGPT to Recall Previous Conversations OpenAI Enhances ChatGPT to Recall Previous Conversations OpenAI made a big announcement on Thursday about rolling out a fresh feature in ChatGPT called "memory." This nifty tool is designed to make your chats with the AI more personalized by remembering what you've talked about before. Imagine not having to repeat yourself every time you start a new conve
Nhận xét (20)
0/200
ThomasBaker
ThomasBaker 18:32:00 GMT Ngày 11 tháng 4 năm 2025

OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀

EmmaTurner
EmmaTurner 21:05:15 GMT Ngày 11 tháng 4 năm 2025

OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀

DanielThomas
DanielThomas 19:20:36 GMT Ngày 10 tháng 4 năm 2025

OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀

JasonMartin
JasonMartin 21:30:18 GMT Ngày 14 tháng 4 năm 2025

Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀

RobertLewis
RobertLewis 15:34:07 GMT Ngày 10 tháng 4 năm 2025

OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀

OliverPhillips
OliverPhillips 17:06:16 GMT Ngày 11 tháng 4 năm 2025

OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖

Back to Top
OR