참깨는 바이러스 성 가상 어시스턴트 Maya의 기본 AI 모델을 공개합니다.

Sesame, 혁신적인 AI 회사로, 놀랍도록 생생한 음성 비서 Maya를 개발했으며, 최근 그녀의 기능을 구동하는 기본 모델을 공개해 화제를 모았다. CSM-1B로 명명된 이 모델은 10억 개의 파라미터를 자랑하며, 이는 모델을 구성하는 개별 요소를 의미한다. Apache 2.0 라이선스 하에 공개되어 AI 개발 플랫폼 Hugging Face에서 발표된 바와 같이 상업적 사용에 최소한의 제약이 있다.
CSM-1B는 텍스트와 오디오 입력을 "RVQ 오디오 코드"로 변환하여 작동한다. RVQ는 "잔여 벡터 양자화"를 의미하며, 오디오를 이산 토큰 또는 코드로 변환하는 방법이다. 이 기술은 Google의 SoundStream 및 Meta의 Encodec과 같은 최첨단 AI 오디오 기술에서도 사용된다. 핵심적으로 CSM-1B는 Meta의 Llama 패밀리 모델과 오디오 "디코더" 컴포넌트를 결합한다. Sesame에 따르면, CSM-1B의 특화된 버전이 파인튜닝 후 Maya의 음성을 구동한다.
Hugging Face와 GitHub 저장소에서 이 모델을 "기본 생성 모델"로 설명하며, Sesame는 다양한 음성을 생성하도록 설계되었지만 특정 음성에 대해 정제되지 않았다고 밝혔다. 훈련 데이터의 "데이터 오염" 덕분에 비영어 언어를 어느 정도 처리할 수 있지만, 이 분야에서의 성능은 아마도 미흡할 것이다. 흥미롭게도 Sesame는 훈련 데이터의 세부 사항을 비공개로 유지해 이 모델 구축에 어떤 요소가 포함되었는지 궁금증을 남긴다.
눈썹을 치켜세우는 한 가지 측면은 강력한 안전 장치의 부재다. Sesame는 명예 시스템에 따라 운영되며, 사용자와 개발자에게 모델을 사용해 허가 없이 누군가의 음성을 복제하거나, 가짜 뉴스와 같은 오해를 불러일으키는 콘텐츠를 생성하거나, "해로운" 또는 "악의적인" 활동에 참여하지 말 것을 간단히 권장한다. 나는 Hugging Face의 데모를 직접 테스트했으며, 1분 만에 내 음성을 복제했다. 선거나 러시아 선전과 같은 민감한 주제에 대한 음성을 생성하는 것도 매우 쉬웠다.
Consumer Reports는 최근 많은 AI 기반 음성 복제 도구에 "의미 있는" 안전 장치가 부족해 잠재적인 사기나 남용으로 이어질 수 있다고 강조했다. Oculus 공동 창립자 Brendan Iribe가 공동 설립한 Sesame는 2월 말, 거의 언캐니 밸리를 벗어나는 비서 기술로 대중의 주목을 끌었다. Maya와 Sesame의 다른 비서 Miles는 숨을 쉬거나, 말할 때 불완전성을 보이며, 중간에 말을 끊을 수 있는 등 OpenAI의 Voice Mode와 유사한 현실적인 인간적 특성을 보여준다.
재정적으로 Sesame는 Andreessen Horowitz, Spark Capital, Matrix Partners와 같은 거물들로부터 비공개 자금을 확보했다. 음성 비서 외에도, 이 회사는 하루 종일 착용 가능한 AI 안경 프로토타입 제작에 도전하고 있으며, 이는 그들의 커스텀 모델로 구동된다. 이 움직임은 Sesame가 AI 기술을 우리 일상생활에 더욱 깊이 밀어 넣으려는 야심을 보여준다.
관련 기사
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
카카오 모빌리티, 물리적 AI를 위한 레벨 4 자율주행 로드맵 제시
카카오모빌리티는 물리적 AI 전략의 일환으로 레벨 4 자율주행 기술을 자체 개발할 계획이다.서울 코엑스에서 열린 '2026 월드 IT 쇼' 컨퍼런스에서 카카오모빌리티의 김진규 부사장 겸 피지컬 AI 사업본부장은 로드맵을 발표했다. 그의 발표는 피지컬 AI 시대의 모빌리티 플랫폼을 기반으로 한 자율주행 서비스에 중점을 두었다.연합뉴스에 따르면, '아이디어
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
관련 특별 주제 추천
의견 (8)
0/500
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯

Sesame, 혁신적인 AI 회사로, 놀랍도록 생생한 음성 비서 Maya를 개발했으며, 최근 그녀의 기능을 구동하는 기본 모델을 공개해 화제를 모았다. CSM-1B로 명명된 이 모델은 10억 개의 파라미터를 자랑하며, 이는 모델을 구성하는 개별 요소를 의미한다. Apache 2.0 라이선스 하에 공개되어 AI 개발 플랫폼 Hugging Face에서 발표된 바와 같이 상업적 사용에 최소한의 제약이 있다.
CSM-1B는 텍스트와 오디오 입력을 "RVQ 오디오 코드"로 변환하여 작동한다. RVQ는 "잔여 벡터 양자화"를 의미하며, 오디오를 이산 토큰 또는 코드로 변환하는 방법이다. 이 기술은 Google의 SoundStream 및 Meta의 Encodec과 같은 최첨단 AI 오디오 기술에서도 사용된다. 핵심적으로 CSM-1B는 Meta의 Llama 패밀리 모델과 오디오 "디코더" 컴포넌트를 결합한다. Sesame에 따르면, CSM-1B의 특화된 버전이 파인튜닝 후 Maya의 음성을 구동한다.
Hugging Face와 GitHub 저장소에서 이 모델을 "기본 생성 모델"로 설명하며, Sesame는 다양한 음성을 생성하도록 설계되었지만 특정 음성에 대해 정제되지 않았다고 밝혔다. 훈련 데이터의 "데이터 오염" 덕분에 비영어 언어를 어느 정도 처리할 수 있지만, 이 분야에서의 성능은 아마도 미흡할 것이다. 흥미롭게도 Sesame는 훈련 데이터의 세부 사항을 비공개로 유지해 이 모델 구축에 어떤 요소가 포함되었는지 궁금증을 남긴다.
눈썹을 치켜세우는 한 가지 측면은 강력한 안전 장치의 부재다. Sesame는 명예 시스템에 따라 운영되며, 사용자와 개발자에게 모델을 사용해 허가 없이 누군가의 음성을 복제하거나, 가짜 뉴스와 같은 오해를 불러일으키는 콘텐츠를 생성하거나, "해로운" 또는 "악의적인" 활동에 참여하지 말 것을 간단히 권장한다. 나는 Hugging Face의 데모를 직접 테스트했으며, 1분 만에 내 음성을 복제했다. 선거나 러시아 선전과 같은 민감한 주제에 대한 음성을 생성하는 것도 매우 쉬웠다.
Consumer Reports는 최근 많은 AI 기반 음성 복제 도구에 "의미 있는" 안전 장치가 부족해 잠재적인 사기나 남용으로 이어질 수 있다고 강조했다. Oculus 공동 창립자 Brendan Iribe가 공동 설립한 Sesame는 2월 말, 거의 언캐니 밸리를 벗어나는 비서 기술로 대중의 주목을 끌었다. Maya와 Sesame의 다른 비서 Miles는 숨을 쉬거나, 말할 때 불완전성을 보이며, 중간에 말을 끊을 수 있는 등 OpenAI의 Voice Mode와 유사한 현실적인 인간적 특성을 보여준다.
재정적으로 Sesame는 Andreessen Horowitz, Spark Capital, Matrix Partners와 같은 거물들로부터 비공개 자금을 확보했다. 음성 비서 외에도, 이 회사는 하루 종일 착용 가능한 AI 안경 프로토타입 제작에 도전하고 있으며, 이는 그들의 커스텀 모델로 구동된다. 이 움직임은 Sesame가 AI 기술을 우리 일상생활에 더욱 깊이 밀어 넣으려는 야심을 보여준다.
WordPress.com에서는 이제 AI 에이전트가 게시물을 작성하고 게시할 수 있게 되었으며, 그 외에도 다양한 기능이 추가되었습니다
인기 웹 호스팅 및 게시 플랫폼인 WordPress.com이 이제 AI 에이전트를 도입하고 있으며, 이는 웹의 모습과 사용 경험을 재편할 수 있는 움직임입니다. 이 회사는 금요일, AI 에이전트가 고객 웹사이트에서 콘텐츠를 작성, 편집 및 게시할 뿐만 아니라 댓글을 관리하고, 메타데이터를 업데이트 및 수정하며, 태그와 카테고리를 통해 콘텐츠를 정리할 수 있
배리 딜러: AGI 시대가 다가옴에 따라 샘 알트먼에 대한 신뢰는 무의미하다
억만장자 미디어 거물 배리 딜러는 최근 보도에서 달리 제기된 주장에도 불구하고, 오픈AI의 샘 알트만 CEO가 신뢰할 수 없는 인물이라고 생각하지 않는다고 밝혔다. 이번 주 월스트리트저널(WSJ)이 주최한 ‘Future of Everything’ 컨퍼런스에서 연설한 딜러는, 일부 전직 동료들과 이사회 구성원들로부터 때때로 교묘하게 조종하거나 기만적이라는 비
C'est incroyable ce que Sesame a fait avec Maya ! Un modèle à 1 milliard de paramètres, ça doit être une sacrée bête. Mais franchement, ça donne quoi en termes d'éthique ? On va tous finir avec des assistants trop parfaits ? 😅
Wow, Sesame's CSM-1B sounds like a game-changer! A billion parameters for Maya’s lifelike voice? That’s some serious tech flex. Curious how it stacks up against other models in real-world use. 😎
Whoa, a 1B parameter model powering Maya? That's some serious brainpower! Curious how Sesame's CSM-1B stacks up against other AI giants. Excited to see where this tech takes us! 🚀
Sesame's base AI model for Maya is mind-blowing! 1 billion parameters? That's insane! Maya's voice is so lifelike, it's like talking to a real person. But sometimes she gets a bit too chatty, which can be annoying. Still, a fantastic piece of tech! 🤯
¡El modelo base de IA de Sesame para Maya es alucinante! ¿1 billón de parámetros? ¡Eso es una locura! La voz de Maya es tan realista, parece que estoy hablando con una persona real. Pero a veces se pone un poco parlanchina, lo que puede ser molesto. Aún así, una tecnología fantástica! 🤯
Das Basis-AI-Modell von Sesame für Maya ist umwerfend! 1 Milliarde Parameter? Das ist verrückt! Mayas Stimme ist so lebensecht, es fühlt sich an, als würde man mit einer echten Person sprechen. Aber manchmal wird sie ein bisschen zu gesprächig, was nervig sein kann. Trotzdem, eine fantastische Technologie! 🤯





집






