Openai chưa phát hành công cụ nhân bản giọng nói một năm sau
Ngày 21 tháng 4 năm 2025
AnthonyHernández
25
Openai's Voice Engine: Một bản phát hành được chờ đợi từ lâu?
Cuối tháng 3 năm ngoái, Openai đã giới thiệu một "bản xem trước quy mô nhỏ" về dịch vụ AI của mình, động cơ thoại, hứa hẹn sẽ nhân bản giọng nói của một người chỉ bằng 15 giây lời nói. Chuyển tiếp nhanh một năm và công cụ vẫn ở chế độ xem trước, không có dòng thời gian rõ ràng cho việc khởi chạy đầy đủ hoặc thậm chí xác nhận rằng nó sẽ thấy ánh sáng ban ngày.
Sự do dự để tung ra động cơ giọng nói rộng rãi có thể xuất phát từ những lo ngại về việc lạm dụng, hoặc có lẽ là một nỗ lực để vượt qua sự giám sát của quy định. Openai đã phải đối mặt với những lời chỉ trích trong quá khứ vì ưu tiên các sản phẩm hào nhoáng hơn về an toàn và vội vã tiếp thị trước các đối thủ cạnh tranh.
Một phát ngôn viên của Openai nói với TechCrunch rằng công ty vẫn đang thử nghiệm động cơ thoại với một nhóm "đối tác đáng tin cậy". "Chúng tôi đang học hỏi cách các đối tác của chúng tôi đang sử dụng công nghệ để tăng cường tiện ích và an toàn của mô hình", người phát ngôn giải thích. "Thật thú vị khi thấy các ứng dụng của nó, từ trị liệu ngôn ngữ và học ngôn ngữ đến hỗ trợ khách hàng, nhân vật trò chơi video và AI Avatars."
Động cơ giọng nói: Cuộc hành trình cho đến nay
Động cơ giọng nói, điều khiển các giọng nói trong API văn bản-xuống của Openai và Chế độ giọng nói của TATGPT, tạo ra bài phát biểu nghe có vẻ tự nhiên đáng chú ý, bắt chước gần gũi với người nói gốc. Nó chuyển đổi văn bản thành lời nói, chỉ bị hạn chế bởi các hướng dẫn nội dung nhất định. Tuy nhiên, việc triển khai đã bị ảnh hưởng bởi sự chậm trễ và ngày phát hành thay đổi từ đầu.
Trong một bài đăng trên blog tháng 6 năm 2024, Openai đã trình bày chi tiết về cách mô hình động cơ thoại học cách dự đoán âm thanh mà một người nói có thể sẽ tạo ra một văn bản nhất định, xem xét các giọng nói, điểm nhấn và phong cách nói khác nhau. Điều này cho phép mô hình không chỉ tạo ra lời nói từ văn bản mà còn tạo ra "cách nói được nói" phản ánh cách các loa khác nhau sẽ nói lên văn bản.
Ban đầu, Voice Engine, sau đó được gọi là Custom Voices, đã được thiết lập để tham gia API của Openai vào ngày 7 tháng 3 năm 2024, theo một bài đăng trên blog dự thảo được xem bởi TechCrunch. Kế hoạch ban đầu là cung cấp quyền truy cập vào tối đa 100 "nhà phát triển đáng tin cậy", ưu tiên những ứng dụng đang phát triển với lợi ích xã hội hoặc thể hiện việc sử dụng công nghệ sáng tạo và có trách nhiệm. Openai đã đăng ký nhãn hiệu dịch vụ và đặt giá ở mức 15 triệu đô la cho giọng nói "tiêu chuẩn" và 30 đô la một triệu ký tự cho giọng nói "chất lượng HD".
Nhưng vào giây phút cuối cùng, thông báo đã bị trì hoãn. Vài tuần sau, Openai đã tiết lộ động cơ thoại mà không có tùy chọn đăng ký, hạn chế quyền truy cập vào một nhóm nhỏ các nhà phát triển mà họ đã làm việc từ cuối năm 2023.
"Chúng tôi hy vọng sẽ bắt đầu một cuộc đối thoại về việc triển khai có trách nhiệm của các giọng nói tổng hợp và cách xã hội có thể thích nghi với các khả năng mới này", Openai tuyên bố trong bài đăng trên blog thông báo vào cuối tháng 3 năm 2024. "Dựa trên các cuộc trò chuyện này và kết quả của các bài kiểm tra quy mô nhỏ này, chúng tôi sẽ đưa ra quyết định sáng suốt hơn về việc liệu và làm thế nào để triển khai công nghệ này ở quy mô."
Một con đường phát triển dài
Động cơ giọng nói đã được phát triển từ năm 2022, với việc Openai thể hiện tiềm năng của mình và các rủi ro của các nhà hoạch định chính sách toàn cầu vào mùa hè năm 2023. Hôm nay, một số đối tác có quyền truy cập vào động cơ thoại, bao gồm cả Startup Livox, nhằm mục đích giúp người khuyết tật giao tiếp tự nhiên hơn. Tuy nhiên, Giám đốc điều hành Livox Carlos Pereira lưu ý rằng họ không thể tích hợp động cơ thoại vào sản phẩm của họ vì nó đòi hỏi một kết nối internet, mà nhiều khách hàng của họ thiếu. "Chất lượng của giọng nói và khả năng nói tiếng nói bằng các ngôn ngữ khác nhau là duy nhất, đặc biệt là dành cho khách hàng khuyết tật của chúng tôi", Pereira nói với TechCrunch qua email. "Đây thực sự là công cụ ấn tượng và dễ sử dụng nhất để tạo ra tiếng nói mà tôi đã thấy ... chúng tôi hy vọng rằng Openai sẽ sớm phát triển phiên bản ngoại tuyến."
Pereira đã không nhận được bất kỳ dấu hiệu nào từ OpenAI về ngày ra mắt tiềm năng hoặc kế hoạch tính phí cho dịch vụ, và cho đến nay, Livox vẫn chưa phải trả tiền cho việc sử dụng.
Trong một bài đăng tháng 6 năm 2024, Openai cho rằng một lý do để trì hoãn động cơ giọng nói là khả năng lạm dụng trong chu kỳ bầu cử của Hoa Kỳ. Công ty đã thực hiện các biện pháp an toàn, bao gồm cả hình mờ để theo dõi nguồn gốc của âm thanh được tạo. Các nhà phát triển phải có được "sự đồng ý rõ ràng" từ loa gốc và đưa ra "tiết lộ rõ ràng" với khán giả của họ rằng tiếng nói được tạo ra AI. Tuy nhiên, Openai không nêu chi tiết về cách các chính sách này sẽ được thực thi ở quy mô, đây có thể là một thách thức đáng kể.
Openai cũng gợi ý về việc xây dựng "trải nghiệm xác thực giọng nói" để xác minh người nói và danh sách "không đi" để ngăn chặn việc tạo ra tiếng nói giống như các nhân vật nổi bật. Đây là những dự án đầy tham vọng, và bất kỳ sai lầm nào cũng có thể gây tổn hại thêm cho danh tiếng của Openai liên quan đến các sáng kiến an toàn.
Lọc hiệu quả và xác minh ID đang trở nên cần thiết để phát hành có trách nhiệm công nghệ nhân bản giọng nói. Nhân bản AI Voice là vụ lừa đảo phát triển nhanh thứ ba năm 2024, dẫn đến gian lận và bỏ qua kiểm tra an ninh ngân hàng như luật riêng tư và bản quyền đấu tranh để theo kịp tốc độ. Các diễn viên độc hại đã sử dụng nhân bản bằng giọng nói để tạo ra sự sâu sắc của những người nổi tiếng và chính trị gia, đã lan truyền nhanh chóng trên phương tiện truyền thông xã hội.
Openai có thể phát hành động cơ thoại vào tuần tới, hoặc nó có thể không bao giờ xảy ra. Công ty đã đề cập đến việc xem xét việc giữ dịch vụ nhỏ trong phạm vi. Nhưng có một điều chắc chắn: cho dù quang học, an toàn hay cả hai, bản xem trước giới hạn của Voice Engine đã trở thành một trong những thời gian dài nhất trong lịch sử của Openai.
Bài viết liên quan
Google検索では、複雑なマルチパートクエリ用に「AIモード」が導入されています
Googleは「AIモード」を検索して、Prplexity AIとChatGptgoogleに対抗し、AIアリーナでゲームを強化し、検索エンジンで実験的な「AIモード」機能を開始します。 Perplexity AIやOpenaiのChatGPT検索などを引き受けることを目的としたこの新しいモードは、水で発表されました
chatgptのユーザー名の未承諾の使用は、一部の人の間で「不気味な」懸念を引き起こします
ChatGPTの一部のユーザーは最近、奇妙な新機能に遭遇しました。チャットボットは、問題を乗り越えながら名前を使用することがあります。これは以前の通常の動作の一部ではなく、多くのユーザーがChatGptが何を呼ぶかを言わずに自分の名前に言及すると報告しています。意見
OpenaiはChatGptを強化して、以前の会話を思い出します
Openaiは木曜日に、「Memory」と呼ばれるChatGptの新鮮な機能を展開することについて大きな発表を行いました。この気の利いたツールは、以前に話したことを思い出すことにより、AIとのチャットをよりパーソナライズするように設計されています。あなたが新しい詐欺を始めるたびに自分自身を繰り返す必要がないと想像してください
Nhận xét (5)
0/200
StephenScott
23:54:47 GMT Ngày 21 tháng 4 năm 2025
It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞
0
WillieHernández
23:54:47 GMT Ngày 21 tháng 4 năm 2025
オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞
0
BillyWilson
23:54:47 GMT Ngày 21 tháng 4 năm 2025
오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞
0
KennethKing
23:54:47 GMT Ngày 21 tháng 4 năm 2025
Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞
0
JeffreyThomas
23:54:47 GMT Ngày 21 tháng 4 năm 2025
¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞
0






Openai's Voice Engine: Một bản phát hành được chờ đợi từ lâu?
Cuối tháng 3 năm ngoái, Openai đã giới thiệu một "bản xem trước quy mô nhỏ" về dịch vụ AI của mình, động cơ thoại, hứa hẹn sẽ nhân bản giọng nói của một người chỉ bằng 15 giây lời nói. Chuyển tiếp nhanh một năm và công cụ vẫn ở chế độ xem trước, không có dòng thời gian rõ ràng cho việc khởi chạy đầy đủ hoặc thậm chí xác nhận rằng nó sẽ thấy ánh sáng ban ngày.
Sự do dự để tung ra động cơ giọng nói rộng rãi có thể xuất phát từ những lo ngại về việc lạm dụng, hoặc có lẽ là một nỗ lực để vượt qua sự giám sát của quy định. Openai đã phải đối mặt với những lời chỉ trích trong quá khứ vì ưu tiên các sản phẩm hào nhoáng hơn về an toàn và vội vã tiếp thị trước các đối thủ cạnh tranh.
Một phát ngôn viên của Openai nói với TechCrunch rằng công ty vẫn đang thử nghiệm động cơ thoại với một nhóm "đối tác đáng tin cậy". "Chúng tôi đang học hỏi cách các đối tác của chúng tôi đang sử dụng công nghệ để tăng cường tiện ích và an toàn của mô hình", người phát ngôn giải thích. "Thật thú vị khi thấy các ứng dụng của nó, từ trị liệu ngôn ngữ và học ngôn ngữ đến hỗ trợ khách hàng, nhân vật trò chơi video và AI Avatars."
Động cơ giọng nói: Cuộc hành trình cho đến nay
Động cơ giọng nói, điều khiển các giọng nói trong API văn bản-xuống của Openai và Chế độ giọng nói của TATGPT, tạo ra bài phát biểu nghe có vẻ tự nhiên đáng chú ý, bắt chước gần gũi với người nói gốc. Nó chuyển đổi văn bản thành lời nói, chỉ bị hạn chế bởi các hướng dẫn nội dung nhất định. Tuy nhiên, việc triển khai đã bị ảnh hưởng bởi sự chậm trễ và ngày phát hành thay đổi từ đầu.
Trong một bài đăng trên blog tháng 6 năm 2024, Openai đã trình bày chi tiết về cách mô hình động cơ thoại học cách dự đoán âm thanh mà một người nói có thể sẽ tạo ra một văn bản nhất định, xem xét các giọng nói, điểm nhấn và phong cách nói khác nhau. Điều này cho phép mô hình không chỉ tạo ra lời nói từ văn bản mà còn tạo ra "cách nói được nói" phản ánh cách các loa khác nhau sẽ nói lên văn bản.
Ban đầu, Voice Engine, sau đó được gọi là Custom Voices, đã được thiết lập để tham gia API của Openai vào ngày 7 tháng 3 năm 2024, theo một bài đăng trên blog dự thảo được xem bởi TechCrunch. Kế hoạch ban đầu là cung cấp quyền truy cập vào tối đa 100 "nhà phát triển đáng tin cậy", ưu tiên những ứng dụng đang phát triển với lợi ích xã hội hoặc thể hiện việc sử dụng công nghệ sáng tạo và có trách nhiệm. Openai đã đăng ký nhãn hiệu dịch vụ và đặt giá ở mức 15 triệu đô la cho giọng nói "tiêu chuẩn" và 30 đô la một triệu ký tự cho giọng nói "chất lượng HD".
Nhưng vào giây phút cuối cùng, thông báo đã bị trì hoãn. Vài tuần sau, Openai đã tiết lộ động cơ thoại mà không có tùy chọn đăng ký, hạn chế quyền truy cập vào một nhóm nhỏ các nhà phát triển mà họ đã làm việc từ cuối năm 2023.
"Chúng tôi hy vọng sẽ bắt đầu một cuộc đối thoại về việc triển khai có trách nhiệm của các giọng nói tổng hợp và cách xã hội có thể thích nghi với các khả năng mới này", Openai tuyên bố trong bài đăng trên blog thông báo vào cuối tháng 3 năm 2024. "Dựa trên các cuộc trò chuyện này và kết quả của các bài kiểm tra quy mô nhỏ này, chúng tôi sẽ đưa ra quyết định sáng suốt hơn về việc liệu và làm thế nào để triển khai công nghệ này ở quy mô."
Một con đường phát triển dài
Động cơ giọng nói đã được phát triển từ năm 2022, với việc Openai thể hiện tiềm năng của mình và các rủi ro của các nhà hoạch định chính sách toàn cầu vào mùa hè năm 2023. Hôm nay, một số đối tác có quyền truy cập vào động cơ thoại, bao gồm cả Startup Livox, nhằm mục đích giúp người khuyết tật giao tiếp tự nhiên hơn. Tuy nhiên, Giám đốc điều hành Livox Carlos Pereira lưu ý rằng họ không thể tích hợp động cơ thoại vào sản phẩm của họ vì nó đòi hỏi một kết nối internet, mà nhiều khách hàng của họ thiếu. "Chất lượng của giọng nói và khả năng nói tiếng nói bằng các ngôn ngữ khác nhau là duy nhất, đặc biệt là dành cho khách hàng khuyết tật của chúng tôi", Pereira nói với TechCrunch qua email. "Đây thực sự là công cụ ấn tượng và dễ sử dụng nhất để tạo ra tiếng nói mà tôi đã thấy ... chúng tôi hy vọng rằng Openai sẽ sớm phát triển phiên bản ngoại tuyến."
Pereira đã không nhận được bất kỳ dấu hiệu nào từ OpenAI về ngày ra mắt tiềm năng hoặc kế hoạch tính phí cho dịch vụ, và cho đến nay, Livox vẫn chưa phải trả tiền cho việc sử dụng.
Trong một bài đăng tháng 6 năm 2024, Openai cho rằng một lý do để trì hoãn động cơ giọng nói là khả năng lạm dụng trong chu kỳ bầu cử của Hoa Kỳ. Công ty đã thực hiện các biện pháp an toàn, bao gồm cả hình mờ để theo dõi nguồn gốc của âm thanh được tạo. Các nhà phát triển phải có được "sự đồng ý rõ ràng" từ loa gốc và đưa ra "tiết lộ rõ ràng" với khán giả của họ rằng tiếng nói được tạo ra AI. Tuy nhiên, Openai không nêu chi tiết về cách các chính sách này sẽ được thực thi ở quy mô, đây có thể là một thách thức đáng kể.
Openai cũng gợi ý về việc xây dựng "trải nghiệm xác thực giọng nói" để xác minh người nói và danh sách "không đi" để ngăn chặn việc tạo ra tiếng nói giống như các nhân vật nổi bật. Đây là những dự án đầy tham vọng, và bất kỳ sai lầm nào cũng có thể gây tổn hại thêm cho danh tiếng của Openai liên quan đến các sáng kiến an toàn.
Lọc hiệu quả và xác minh ID đang trở nên cần thiết để phát hành có trách nhiệm công nghệ nhân bản giọng nói. Nhân bản AI Voice là vụ lừa đảo phát triển nhanh thứ ba năm 2024, dẫn đến gian lận và bỏ qua kiểm tra an ninh ngân hàng như luật riêng tư và bản quyền đấu tranh để theo kịp tốc độ. Các diễn viên độc hại đã sử dụng nhân bản bằng giọng nói để tạo ra sự sâu sắc của những người nổi tiếng và chính trị gia, đã lan truyền nhanh chóng trên phương tiện truyền thông xã hội.
Openai có thể phát hành động cơ thoại vào tuần tới, hoặc nó có thể không bao giờ xảy ra. Công ty đã đề cập đến việc xem xét việc giữ dịch vụ nhỏ trong phạm vi. Nhưng có một điều chắc chắn: cho dù quang học, an toàn hay cả hai, bản xem trước giới hạn của Voice Engine đã trở thành một trong những thời gian dài nhất trong lịch sử của Openai.




It's been a year and OpenAI's Voice Engine is still in preview mode? Come on, I was so excited about cloning voices with just 15 seconds of speech! The wait is killing me, but I guess good things take time. Hopefully, it'll be worth it when it finally drops! 🤞




オープンAIのVoice Engine、まだプレビュー版のままなんて信じられない!15秒の音声で声をクローンできるって聞いてすごく期待してたのに。待つのはつらいけど、良いものは時間がかかるってことかな。リリースが楽しみだよ!🤞




오픈AI의 Voice Engine이 아직도 프리뷰 상태라니 믿기지 않아! 15초의 음성으로 목소리를 복제할 수 있다니 기대가 컸는데. 기다리는 게 힘들지만 좋은 건 시간이 걸리는 법이죠. 출시가 기대돼요! 🤞




Já faz um ano e o Voice Engine da OpenAI ainda está em modo de pré-visualização? Sério? Estava tão animado para clonar vozes com apenas 15 segundos de fala! A espera está me matando, mas suponho que coisas boas levam tempo. Espero que valha a pena quando finalmente for lançado! 🤞




¿Ha pasado un año y el Voice Engine de OpenAI sigue en modo de vista previa? ¡Vamos, estaba tan emocionado de clonar voces con solo 15 segundos de habla! La espera me está matando, pero supongo que las cosas buenas toman tiempo. Espero que valga la pena cuando finalmente se lance! 🤞












