Sesame tiết lộ cơ sở mô hình AI phía sau Trợ lý ảo Viral Maya

Sesame, công ty AI sáng tạo đằng sau Trợ lý giọng nói giống như thật tuyệt vời Maya, vừa tạo ra sóng bằng cách phát hành mô hình cơ sở thúc đẩy khả năng của cô. Được đặt tên là CSM-1B, mô hình này tự hào có kích thước 1 tỷ tham số, một thuật ngữ đề cập đến các thành phần riêng lẻ tạo thành mô hình. Được phát hành theo giấy phép Apache 2.0, nó mở cửa cho sử dụng thương mại với các hạn chế tối thiểu, như được công bố trên nền tảng phát triển AI Face.
Các chức năng CSM-1B bằng cách chuyển đổi đầu vào văn bản và âm thanh thành "Mã âm thanh RVQ". RVQ là viết tắt của "lượng tử hóa vectơ còn lại", một phương pháp biến âm thanh thành mã thông báo riêng biệt hoặc mã. Kỹ thuật này cũng được sử dụng trong các công nghệ âm thanh AI tiên tiến khác, chẳng hạn như Soundstream và Meta's Encodec. Về cốt lõi, CSM-1B tận dụng một mô hình từ gia đình Llama của Meta, kết hợp với thành phần "bộ giải mã" âm thanh. Một phiên bản chuyên dụng của CSM-1B, sau khi tinh chỉnh, cung cấp năng lượng cho giọng nói của Maya, theo Sesame.
Mô tả mô hình này là một "mô hình tạo cơ sở" trên các kho lưu trữ khuôn mặt và github của nó, Sesame lưu ý rằng nó được thiết kế để tạo ra nhiều giọng nói nhưng chưa được tinh chỉnh cho bất kỳ giọng nói cụ thể nào. Mặc dù nó có một số khả năng để xử lý các ngôn ngữ không phải tiếng Anh nhờ "ô nhiễm dữ liệu" trong bộ đào tạo của mình, nhưng hiệu suất của nó trong lĩnh vực này có thể là phụ. Thật thú vị, Sesame đã giữ các chi tiết về dữ liệu đào tạo dưới sự kết thúc của chúng tôi, khiến chúng tôi tò mò về những gì đã xây dựng mô hình này.
Một khía cạnh làm tăng lông mày là thiếu các biện pháp bảo vệ mạnh mẽ. Sesame hoạt động trên một hệ thống danh dự, chỉ cần khuyến khích người dùng và nhà phát triển tránh sử dụng mô hình để tái tạo giọng nói của ai đó mà không được phép, tạo ra nội dung sai lệch như tin tức giả mạo hoặc tham gia vào bất kỳ hoạt động "có hại" hoặc "độc hại" nào. Cá nhân tôi đã kiểm tra bản demo trên khuôn mặt ôm, và trong vòng một phút, tôi đã nhân bản giọng nói của mình. Đó là một làn gió để tạo ra lời nói về bất kỳ chủ đề nào, thậm chí là những người nhạy cảm như cuộc bầu cử và tuyên truyền của Nga.
Các báo cáo của người tiêu dùng gần đây đã nhấn mạnh sự thiếu bảo vệ "có ý nghĩa" trong nhiều công cụ nhân bản bằng giọng nói do AI cung cấp, có thể dẫn đến gian lận hoặc lạm dụng tiềm năng. Sesame, được đồng sáng lập bởi đồng sáng lập Oculus Brendan Iribe, đã lọt vào mắt công chúng vào cuối tháng 2 với trợ lý công nghệ gần như thoát khỏi Thung lũng kỳ lạ. Cả hai trợ lý khác của Maya và Sesame, Miles, thể hiện những đặc điểm giống như con người thực tế như hít thở, nói với sự không hài lòng và bị gián đoạn giữa bài phát biểu, tương tự như chế độ giọng nói của Openai.
Về mặt tài chính, Sesame đã bảo đảm tài trợ không được tiết lộ từ các đối thủ nặng ký như Andreessen Horowitz, Spark Capital và Matrix Partners. Ngoài các trợ lý giọng nói, công ty còn mạo hiểm vào các mẫu kính AI dành cho trang phục cả ngày, được trang bị các mô hình tùy chỉnh của họ. Động thái này cho thấy tham vọng của Sesame nhằm đẩy ranh giới của công nghệ AI xa hơn vào cuộc sống hàng ngày của chúng ta.
Bài viết liên quan
Alibaba Công Bố Wan2.1-VACE: Giải Pháp Video AI Mã Nguồn Mở
Alibaba đã giới thiệu Wan2.1-VACE, một mô hình AI mã nguồn mở được thiết kế để thay đổi quy trình tạo và chỉnh sửa video.VACE là thành phần cốt lõi của gia đình mô hình video AI Wan2.1 của Alibaba, vớ
IBM Power11 Tăng Cường AI Doanh Nghiệp với Hiệu Suất Không Gián Đoạn
Máy chủ doanh nghiệp Power11 của IBM giải quyết một vấn đề cốt lõi trong điện toán doanh nghiệp: triển khai khối lượng công việc AI trong khi duy trì độ tin cậy mạnh mẽ cần thiết cho các ứng dụng quan
Thí nghiệm Bán lẻ do AI điều khiển thất bại thảm hại tại Anthropic
Hãy tưởng tượng giao một cửa hàng nhỏ cho trí tuệ nhân tạo, giao phó mọi thứ từ định giá đến tương tác với khách hàng. Điều gì có thể sai sót?Một nghiên cứu gần đây của Anthropic, công bố vào thứ Sáu,
Nhận xét (7)
0/200
AnthonyMartinez
08:41:20 GMT+07:00 Ngày 31 tháng 7 năm 2025
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
0
RoySmith
08:18:39 GMT+07:00 Ngày 28 tháng 7 năm 2025
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
0
EricPerez
05:42:49 GMT+07:00 Ngày 25 tháng 4 năm 2025
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
0
GeorgeMiller
20:04:42 GMT+07:00 Ngày 24 tháng 4 năm 2025
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
0
JonathanMiller
19:11:38 GMT+07:00 Ngày 24 tháng 4 năm 2025
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯
0
TimothyMitchell
14:25:54 GMT+07:00 Ngày 24 tháng 4 năm 2025
SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯
0
Sesame, công ty AI sáng tạo đằng sau Trợ lý giọng nói giống như thật tuyệt vời Maya, vừa tạo ra sóng bằng cách phát hành mô hình cơ sở thúc đẩy khả năng của cô. Được đặt tên là CSM-1B, mô hình này tự hào có kích thước 1 tỷ tham số, một thuật ngữ đề cập đến các thành phần riêng lẻ tạo thành mô hình. Được phát hành theo giấy phép Apache 2.0, nó mở cửa cho sử dụng thương mại với các hạn chế tối thiểu, như được công bố trên nền tảng phát triển AI Face.
Các chức năng CSM-1B bằng cách chuyển đổi đầu vào văn bản và âm thanh thành "Mã âm thanh RVQ". RVQ là viết tắt của "lượng tử hóa vectơ còn lại", một phương pháp biến âm thanh thành mã thông báo riêng biệt hoặc mã. Kỹ thuật này cũng được sử dụng trong các công nghệ âm thanh AI tiên tiến khác, chẳng hạn như Soundstream và Meta's Encodec. Về cốt lõi, CSM-1B tận dụng một mô hình từ gia đình Llama của Meta, kết hợp với thành phần "bộ giải mã" âm thanh. Một phiên bản chuyên dụng của CSM-1B, sau khi tinh chỉnh, cung cấp năng lượng cho giọng nói của Maya, theo Sesame.
Mô tả mô hình này là một "mô hình tạo cơ sở" trên các kho lưu trữ khuôn mặt và github của nó, Sesame lưu ý rằng nó được thiết kế để tạo ra nhiều giọng nói nhưng chưa được tinh chỉnh cho bất kỳ giọng nói cụ thể nào. Mặc dù nó có một số khả năng để xử lý các ngôn ngữ không phải tiếng Anh nhờ "ô nhiễm dữ liệu" trong bộ đào tạo của mình, nhưng hiệu suất của nó trong lĩnh vực này có thể là phụ. Thật thú vị, Sesame đã giữ các chi tiết về dữ liệu đào tạo dưới sự kết thúc của chúng tôi, khiến chúng tôi tò mò về những gì đã xây dựng mô hình này.
Một khía cạnh làm tăng lông mày là thiếu các biện pháp bảo vệ mạnh mẽ. Sesame hoạt động trên một hệ thống danh dự, chỉ cần khuyến khích người dùng và nhà phát triển tránh sử dụng mô hình để tái tạo giọng nói của ai đó mà không được phép, tạo ra nội dung sai lệch như tin tức giả mạo hoặc tham gia vào bất kỳ hoạt động "có hại" hoặc "độc hại" nào. Cá nhân tôi đã kiểm tra bản demo trên khuôn mặt ôm, và trong vòng một phút, tôi đã nhân bản giọng nói của mình. Đó là một làn gió để tạo ra lời nói về bất kỳ chủ đề nào, thậm chí là những người nhạy cảm như cuộc bầu cử và tuyên truyền của Nga.
Các báo cáo của người tiêu dùng gần đây đã nhấn mạnh sự thiếu bảo vệ "có ý nghĩa" trong nhiều công cụ nhân bản bằng giọng nói do AI cung cấp, có thể dẫn đến gian lận hoặc lạm dụng tiềm năng. Sesame, được đồng sáng lập bởi đồng sáng lập Oculus Brendan Iribe, đã lọt vào mắt công chúng vào cuối tháng 2 với trợ lý công nghệ gần như thoát khỏi Thung lũng kỳ lạ. Cả hai trợ lý khác của Maya và Sesame, Miles, thể hiện những đặc điểm giống như con người thực tế như hít thở, nói với sự không hài lòng và bị gián đoạn giữa bài phát biểu, tương tự như chế độ giọng nói của Openai.
Về mặt tài chính, Sesame đã bảo đảm tài trợ không được tiết lộ từ các đối thủ nặng ký như Andreessen Horowitz, Spark Capital và Matrix Partners. Ngoài các trợ lý giọng nói, công ty còn mạo hiểm vào các mẫu kính AI dành cho trang phục cả ngày, được trang bị các mô hình tùy chỉnh của họ. Động thái này cho thấy tham vọng của Sesame nhằm đẩy ranh giới của công nghệ AI xa hơn vào cuộc sống hàng ngày của chúng ta.




Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎




Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀




Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯




¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯




Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯




SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯












