Openai nâng cấp các mô hình AI phiên mã và tạo giọng nói của nó

Trang chủ

Tin tức

Ngày 10 tháng 4 năm 2025

CharlesWhite

115

# openai # api

OpenAI đang triển khai các mô hình AI mới cho việc chuyển giọng nói thành văn bản và tạo giọng nói thông qua API của mình, hứa hẹn mang lại những cải tiến đáng kể so với các phiên bản trước đó. Những cập nhật này là một phần trong tầm nhìn "agentic" lớn hơn của OpenAI, tập trung vào việc tạo ra các hệ thống tự động có khả năng thực hiện các nhiệm vụ độc lập cho người dùng. Mặc dù thuật ngữ "agent" có thể gây tranh cãi, Olivier Godement, Trưởng bộ phận Sản phẩm của OpenAI, xem nó như một chatbot có thể tương tác với khách hàng của một doanh nghiệp.

"Chúng ta sẽ thấy ngày càng nhiều agent xuất hiện trong vài tháng tới," Godement chia sẻ với TechCrunch trong một buổi họp báo. "Mục tiêu bao quát là hỗ trợ khách hàng và nhà phát triển sử dụng các agent hữu ích, dễ tiếp cận và chính xác."

Mô hình chuyển văn bản thành giọng nói mới nhất của OpenAI, được gọi là "gpt-4o-mini-tts," không chỉ hướng đến việc tạo ra giọng nói chân thực và sắc thái hơn mà còn linh hoạt hơn so với các phiên bản trước. Các nhà phát triển giờ đây có thể hướng dẫn mô hình bằng các lệnh ngôn ngữ tự nhiên, chẳng hạn như "nói như một nhà khoa học điên" hoặc "sử dụng giọng nói bình yên, như một giáo viên thiền." Mức độ kiểm soát này cho phép tạo ra trải nghiệm giọng nói cá nhân hóa hơn.

Dưới đây là một mẫu giọng nói phong cách "true crime," mệt mỏi:

Và đây là một ví dụ về giọng nữ "chuyên nghiệp":

Jeff Harris, thành viên của đội ngũ sản phẩm OpenAI, nhấn mạnh với TechCrunch rằng mục tiêu là cho phép các nhà phát triển tùy chỉnh cả "trải nghiệm" giọng nói lẫn "bối cảnh." "Trong nhiều tình huống, bạn không muốn một giọng nói đơn điệu," Harris giải thích. "Ví dụ, trong môi trường hỗ trợ khách hàng nơi giọng nói cần thể hiện sự xin lỗi vì một sai lầm, bạn có thể truyền cảm xúc đó vào giọng nói. Chúng tôi tin rằng các nhà phát triển và người dùng muốn kiểm soát không chỉ nội dung mà còn cách thức nói."

Chuyển sang các sản phẩm chuyển giọng nói thành văn bản mới của OpenAI, "gpt-4o-transcribe" và "gpt-4o-mini-transcribe," các mô hình này được thiết kế để thay thế mô hình chuyển giọng Whisper đã lỗi thời. Được huấn luyện trên một loạt dữ liệu âm thanh chất lượng cao đa dạng, chúng được cho là xử lý tốt hơn giọng nói có ngữ điệu và đa dạng, ngay cả trong môi trường ồn ào. Ngoài ra, các mô hình này ít gặp vấn đề "ảo giác," một vấn đề mà Whisper đôi khi tự tạo ra từ ngữ hoặc toàn bộ đoạn văn, gây ra các sai lệch như bình luận phân biệt chủng tộc hoặc các phương pháp điều trị y tế giả tưởng trong bản ghi.

"Các mô hình này cho thấy sự cải thiện đáng kể so với Whisper về mặt này," Harris lưu ý. "Đảm bảo độ chính xác của mô hình là rất quan trọng cho một trải nghiệm giọng nói đáng tin cậy, và khi nói về độ chính xác, chúng tôi muốn nói rằng các mô hình ghi lại chính xác các từ được nói mà không thêm nội dung không được phát âm."

Tuy nhiên, hiệu suất có thể khác nhau giữa các ngôn ngữ. Các tiêu chuẩn nội bộ của OpenAI cho thấy gpt-4o-transcribe, mô hình chính xác hơn trong hai mô hình, có "tỷ lệ lỗi từ" gần 30% đối với các ngôn ngữ Indic và Dravidian như Tamil, Telugu, Malayalam và Kannada. Điều này cho thấy rằng khoảng ba trong số mười từ có thể khác so với bản ghi của con người trong các ngôn ngữ này.

Kết quả chuyển giọng của OpenAI

Kết quả từ việc đánh giá hiệu suất chuyển giọng của OpenAI. Nguồn ảnh: OpenAI

Khác với thông lệ thường thấy, OpenAI sẽ không cung cấp miễn phí các mô hình chuyển giọng mới này. Trong lịch sử, họ đã phát hành các phiên bản Whisper mới dưới giấy phép MIT cho mục đích thương mại. Harris chỉ ra rằng gpt-4o-transcribe và gpt-4o-mini-transcribe lớn hơn đáng kể so với Whisper, khiến chúng không phù hợp để phát hành công khai.

"Các mô hình này quá lớn để chạy trên một laptop thông thường như Whisper," Harris nói thêm. "Khi chúng tôi phát hành các mô hình một cách công khai, chúng tôi muốn làm điều đó một cách chu đáo, đảm bảo chúng được tối ưu hóa cho các nhu cầu cụ thể. Chúng tôi xem các thiết bị của người dùng cuối là một lĩnh vực chính cho các mô hình mã nguồn mở."

Cập nhật ngày 20 tháng 3 năm 2025, 11:54 sáng PT để làm rõ ngôn ngữ xung quanh tỷ lệ lỗi từ và cập nhật biểu đồ kết quả đánh giá với phiên bản mới hơn.

Bài viết liên quan

Cựu Kỹ sư OpenAI Chia sẻ Thông tin về Văn hóa Công ty và Tăng trưởng Nhanh chóng Ba tuần trước, Calvin French-Owen, một kỹ sư đã đóng góp vào một sản phẩm chủ chốt của OpenAI, đã rời công ty.Gần đây, anh ấy đã chia sẻ một bài đăng blog hấp dẫn, mô tả chi tiết một năm làm việc tại

Google Ra Mắt Các Mô Hình AI Gemini 2.5 Sẵn Sàng Sản Xuất để Cạnh Tranh với OpenAI trên Thị Trường Doanh Nghiệp Google tăng cường chiến lược AI vào thứ Hai, ra mắt các mô hình Gemini 2.5 tiên tiến cho doanh nghiệp và giới thiệu biến thể tiết kiệm chi phí để cạnh tranh về giá và hiệu suất.Công ty thuộc sở hữu củ

Meta cung cấp lương cao cho nhân tài AI, phủ nhận tiền thưởng ký hợp đồng 100 triệu USD Meta đang thu hút các nhà nghiên cứu AI đến phòng thí nghiệm siêu trí tuệ mới của mình với các gói lương thưởng trị giá hàng triệu USD. Tuy nhiên, các tuyên bố về tiền thưởng ký hợp đồng 100 triệu USD

Nhận xét (31)

0/200

Nộp

BenHernández

15:50:48 GMT+07:00 Ngày 23 tháng 7 năm 2025

Wow, OpenAI's new transcription and voice models sound like a game-changer! I'm curious how these 'agentic' systems will stack up against real-world tasks. Could they finally nail natural-sounding convos? 🤔

GeorgeTaylor

02:57:07 GMT+07:00 Ngày 21 tháng 4 năm 2025

Os novos modelos de transcrição e geração de voz da OpenAI são um divisor de águas! Estou usando no meu podcast e as melhorias são impressionantes. O único ponto negativo? São um pouco caros, mas se você puder pagar, vale cada centavo! 🎙️💸

GregoryAllen

11:50:37 GMT+07:00 Ngày 17 tháng 4 năm 2025

OpenAI's new transcription and voice models are a game changer! I've been using them for my podcast and the improvements are night and day. The only downside? They're a bit pricey, but if you can swing it, they're worth every penny! 🎙️💸

StevenAllen

11:38:26 GMT+07:00 Ngày 17 tháng 4 năm 2025

OpenAI의 새로운 음성 인식 및 음성 생성 모델은 정말 혁신적이에요! 제 팟캐스트에서 사용 중인데, 개선이 눈에 띄어요. 단점은 조금 비싸다는 건데, 감당할 수 있다면 그만한 가치가 있어요! 🎙️💸

NicholasClark

12:54:41 GMT+07:00 Ngày 16 tháng 4 năm 2025

OpenAIの新しい音声認識と音声生成モデルは革命的です！ポッドキャストで使っていますが、改善が劇的です。唯一の欠点は少し高価なことですが、払えるならその価値は十分にあります！🎙️💸

SamuelRoberts

04:24:36 GMT+07:00 Ngày 16 tháng 4 năm 2025

Os novos modelos de transcrição e geração de voz da OpenAI são incríveis! A qualidade melhorou muito em comparação com as versões anteriores. Só queria que fossem um pouco mais rápidos, mas no geral, estou muito satisfeito! 😊

Tin tức hàng đầu

Gemini 2.5 Pro hiện không giới hạn và rẻ hơn Claude, GPT-4O Máy phát video AI hàng đầu vào năm 2025: Pika Labs so với các lựa chọn thay thế Lồng tiếng AI: Hướng dẫn Tối ưu để Tạo Giọng Nói Thực tế Openai tăng cường trợ lý giọng nói AI để trò chuyện tốt hơn Notebooklm mở rộng toàn cầu, thêm các slide và kiểm tra thực tế nâng cao Các trung tâm dữ liệu của Hoa Kỳ có thể mở khóa 76 GW công suất năng lượng mới Người sáng lập AI để tiêu thụ sức mạnh của nhiều NYC vào năm 2026, người sáng lập Sao chép giọng nói AI: Hướng dẫn tối thượng để làm chủ chuyển đổi giọng nói Trải nghiệm ô chữ I/O do AI hỗ trợ Giám đốc điều hành NVIDIA làm rõ những quan niệm sai lầm về tác động thị trường của Deepseek

Hơn

Đặc trưng