참깨는 바이러스 성 가상 어시스턴트 Maya의 기본 AI 모델을 공개합니다.

놀랍도록 생생한 음성 어시스턴트 Maya의 혁신적인 AI 회사 인 Sesame은 자신의 기능을 이끄는 기본 모델을 풀어 파도를 만들었습니다. CSM-1B라고 불리는이 모델은 10 억 개의 매개 변수의 크기를 자랑하며,이 용어는 모델을 구성하는 개별 구성 요소를 나타냅니다. APACHE 2.0 라이센스에 따라 출시 된이 제품은 AI 개발 플랫폼 포옹 페이스에서 발표 된 바와 같이 최소한의 제한으로 상업적으로 사용할 수 있습니다.
CSM-1B는 텍스트 및 오디오 입력을 "RVQ 오디오 코드"로 변환하여 기능합니다. RVQ는 오디오를 개별 토큰 또는 코드로 변환하는 방법 인 "잔류 벡터 양자화"를 나타냅니다. 이 기술은 Google의 Soundstream 및 Meta의 Encodec과 같은 다른 최첨단 AI 오디오 기술에도 사용됩니다. CSM-1B는 핵심적으로 오디오 "디코더"구성 요소와 결합 된 Meta의 LLAMA 패밀리의 모델을 활용합니다. 세서미에 따르면 미세 조정 후 CSM-1B의 특수 버전은 마야의 목소리를냅니다.
포옹 페이스와 Github 저장소에서 모델을 "기본 세대 모델"으로 묘사 한 Sesame은 다양한 목소리를 생성하도록 설계되었지만 특정 음성에 대해서는 개선되지 않았다고 지적합니다. 교육 세트의 "데이터 오염"덕분에 영어가 아닌 언어를 처리 할 수있는 능력이 있지만이 영역의 성능은 하위가 될 수 있습니다. 흥미롭게도 Sesame은 교육 데이터의 세부 사항을 랩 아래로 유지 하여이 모델을 구축하는 데 어떤 일이 있었는지 궁금합니다.
눈썹을 높이는 한 가지 측면은 강력한 보호 수단이 부족하다는 것입니다. Sesame은 명예 시스템에서 운영되며, 단순히 사용자와 개발자가 모델을 사용하여 허가없이 누군가의 목소리를 복제하거나 가짜 뉴스와 같은 오해의 소지가있는 콘텐츠를 생성하거나 "유해한"또는 "악의적 인"활동에 참여하도록 권장합니다. 나는 개인적으로 포옹 얼굴에 대한 데모를 테스트했으며 1 분 안에 목소리를 복제했습니다. 선거 및 러시아 선전과 같은 민감한 주제에 대해 연설을하는 것은 바람이 불렀습니다.
Consumer Reports는 최근 많은 AI 기반 음성 복제 도구에서 "의미있는"보호 조치가 부족하여 잠재적 사기 나 남용으로 이어질 수 있음을 강조했습니다. Oculus의 공동 창작자 인 Brendan Iribe가 공동 설립 한 참깨는 2 월 말에 Uncanny Valley를 거의 벗어난 보조 기술로 대중의 시선을 사로 잡았습니다. Maya와 Sesame의 다른 조수인 Miles는 숨을 쉬고, 불만과 대화하고, Openai의 음성 모드와 유사하게 방해받을 수있는 중간 음성성과 같은 현실적인 인간과 같은 특성을 나타냅니다.
재정적으로 Sesame은 Andreessen Horowitz, Spark Capital 및 Matrix Partners와 같은 헤비급 자금으로부터 공개되지 않은 자금을 확보했습니다. 음성 보조원을 넘어서, 회사는 또한 사용자 정의 모델이 장착 된 하루 종일 착용을위한 AI 안경 프로토 타이핑 AI 안경을 사용하고 있습니다. 이 움직임은 AI 기술의 경계를 우리의 일상 생활로 더 밀기위한 세서미의 야망을 보여줍니다.
관련 기사
Alibaba, Wan2.1-VACE 공개: 오픈소스 AI 비디오 솔루션
Alibaba가 Wan2.1-VACE를 공개, 비디오 제작 및 편집 프로세스를 혁신할 오픈소스 AI 모델.VACE는 Alibaba의 Wan2.1 비디오 AI 모델 패밀리의 핵심 구성 요소로, 회사는 이를 업계 최초의 다양한 비디오 생성 및 편집 작업을 위한 포괄적 솔루션을 제공하는 오픈소스 모델이라고 주장.Alibaba가 비디오 제작 프로세스를 간소화하고
IBM Power11, 기업 AI를 위한 지속적인 성능 향상
IBM의 Power11 기업용 서버는 기업 컴퓨팅의 핵심 문제인 AI 워크로드를 배포하면서도 중요한 애플리케이션에 필요한 강력한 안정성을 유지하는 것을 해결합니다. 2025년 7월 8일에 출시된 Power11은 전문 AI 하드웨어와 전통적인 서버의 단편화된 혼합에서 벗어나 통합 솔루션에 초점을 맞춘 IBM의 방향성을 강조합니다.핵심 혁신 공개Power11
AI로 구동되는 소매 실험, Anthropic에서 극적으로 실패
작은 가게를 인공지능에게 맡겨 가격 책정부터 고객 상호작용까지 모든 것을 위임한다고 상상해보세요. 무엇이 잘못될 수 있을까요?최근 Anthropic의 연구, 금요일에 발표된 바에 따르면, 그 대답은 거의 모든 것이었습니다. 그들의 AI 어시스턴트 Claude는 샌프란시스코 사무실에서 한 달간 작은 가게를 운영하며, 실무 경험이 전혀 없는 사람이 쓴 비즈니스
의견 (7)
0/200
AnthonyMartinez
2025년 7월 31일 오전 10시 41분 20초 GMT+09:00
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
0
RoySmith
2025년 7월 28일 오전 10시 18분 39초 GMT+09:00
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
0
EricPerez
2025년 4월 25일 오전 7시 42분 49초 GMT+09:00
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
0
GeorgeMiller
2025년 4월 24일 오후 10시 4분 42초 GMT+09:00
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
0
JonathanMiller
2025년 4월 24일 오후 9시 11분 38초 GMT+09:00
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯
0
TimothyMitchell
2025년 4월 24일 오후 4시 25분 54초 GMT+09:00
SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯
0
놀랍도록 생생한 음성 어시스턴트 Maya의 혁신적인 AI 회사 인 Sesame은 자신의 기능을 이끄는 기본 모델을 풀어 파도를 만들었습니다. CSM-1B라고 불리는이 모델은 10 억 개의 매개 변수의 크기를 자랑하며,이 용어는 모델을 구성하는 개별 구성 요소를 나타냅니다. APACHE 2.0 라이센스에 따라 출시 된이 제품은 AI 개발 플랫폼 포옹 페이스에서 발표 된 바와 같이 최소한의 제한으로 상업적으로 사용할 수 있습니다.
CSM-1B는 텍스트 및 오디오 입력을 "RVQ 오디오 코드"로 변환하여 기능합니다. RVQ는 오디오를 개별 토큰 또는 코드로 변환하는 방법 인 "잔류 벡터 양자화"를 나타냅니다. 이 기술은 Google의 Soundstream 및 Meta의 Encodec과 같은 다른 최첨단 AI 오디오 기술에도 사용됩니다. CSM-1B는 핵심적으로 오디오 "디코더"구성 요소와 결합 된 Meta의 LLAMA 패밀리의 모델을 활용합니다. 세서미에 따르면 미세 조정 후 CSM-1B의 특수 버전은 마야의 목소리를냅니다.
포옹 페이스와 Github 저장소에서 모델을 "기본 세대 모델"으로 묘사 한 Sesame은 다양한 목소리를 생성하도록 설계되었지만 특정 음성에 대해서는 개선되지 않았다고 지적합니다. 교육 세트의 "데이터 오염"덕분에 영어가 아닌 언어를 처리 할 수있는 능력이 있지만이 영역의 성능은 하위가 될 수 있습니다. 흥미롭게도 Sesame은 교육 데이터의 세부 사항을 랩 아래로 유지 하여이 모델을 구축하는 데 어떤 일이 있었는지 궁금합니다.
눈썹을 높이는 한 가지 측면은 강력한 보호 수단이 부족하다는 것입니다. Sesame은 명예 시스템에서 운영되며, 단순히 사용자와 개발자가 모델을 사용하여 허가없이 누군가의 목소리를 복제하거나 가짜 뉴스와 같은 오해의 소지가있는 콘텐츠를 생성하거나 "유해한"또는 "악의적 인"활동에 참여하도록 권장합니다. 나는 개인적으로 포옹 얼굴에 대한 데모를 테스트했으며 1 분 안에 목소리를 복제했습니다. 선거 및 러시아 선전과 같은 민감한 주제에 대해 연설을하는 것은 바람이 불렀습니다.
Consumer Reports는 최근 많은 AI 기반 음성 복제 도구에서 "의미있는"보호 조치가 부족하여 잠재적 사기 나 남용으로 이어질 수 있음을 강조했습니다. Oculus의 공동 창작자 인 Brendan Iribe가 공동 설립 한 참깨는 2 월 말에 Uncanny Valley를 거의 벗어난 보조 기술로 대중의 시선을 사로 잡았습니다. Maya와 Sesame의 다른 조수인 Miles는 숨을 쉬고, 불만과 대화하고, Openai의 음성 모드와 유사하게 방해받을 수있는 중간 음성성과 같은 현실적인 인간과 같은 특성을 나타냅니다.
재정적으로 Sesame은 Andreessen Horowitz, Spark Capital 및 Matrix Partners와 같은 헤비급 자금으로부터 공개되지 않은 자금을 확보했습니다. 음성 보조원을 넘어서, 회사는 또한 사용자 정의 모델이 장착 된 하루 종일 착용을위한 AI 안경 프로토 타이핑 AI 안경을 사용하고 있습니다. 이 움직임은 AI 기술의 경계를 우리의 일상 생활로 더 밀기위한 세서미의 야망을 보여줍니다.




Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎




Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀




Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯




¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯




Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯




SesameのMayaの基礎AIモデルは驚異的!10億のパラメータ?それは狂ってる!Mayaの声は本当にリアルで、まるで本物の人と話しているみたい。ただ、時々彼女がちょっとおしゃべりすぎてうざい時がある。それでも、素晴らしい技術だよ!🤯












