

OpenAI модернизирует свою транскрипционную и генерирующую игенерирующую модели искусственного интеллекта
10 апреля 2025 г.
CharlesWhite
6
OpenAI разворачивает новые модели искусственного интеллекта для транскрипции и генерации голоса через свой API, обещая значительные улучшения по сравнению с их более ранними версиями. Эти обновления являются частью более крупного «агентного» видения Openai, которое фокусируется на создании автономных систем, способных выполнять задачи независимо для пользователей. В то время как термин «агент» может быть обсужден, глава продукта Openai, Olivier Godement, рассматривает его как чат -бот, который может взаимодействовать с клиентами бизнеса.
«Мы увидим все больше и больше агентов в ближайшие месяцы», - Godement поделился с TechCrunch во время брифинга. «Общая цель - помочь клиентам и разработчикам в использовании полезных, доступных и точных агентов».
Последняя модель Openai Text-To Speek, получившая название «GPT-4O-Mini-TTS», не только направлена на создание более реалистичной и нюансированной речи, но также является более адаптируемой, чем его предшественники. Разработчики теперь могут направлять модель, используя команды естественного языка, такие как «говорить как безумный ученый» или «использовать безмятежный голос, как учитель осознанности». Этот уровень контроля обеспечивает более персонализированный голосовой опыт.
Вот образец «истинного стиля преступления», выветрившегося голоса:
А вот пример женского «профессионального» голоса:
Джефф Харрис, член команды продуктов Openai, подчеркнул TechCrunch, что цель состоит в том, чтобы позволить разработчикам настроить как голос «опыт», так и «контекст». «В различных сценариях вы не хотите монотонного голоса», - объяснил Харрис. «Например, в настройке поддержки клиентов, где голос должен звучать извиняющееся за ошибку, вы можете ввести эту эмоцию в голос. Мы твердо верим, что разработчики и пользователи хотят контролировать не только контент, но и способ речи».
Переходя к новым предложениям Spearai, «GPT-4-Transcribibe» и «GPT-4O-Mini-Transcribe», эти модели предназначены для замены устаревшей модели транскрипции Whisper. Обуренные на разнообразие высококачественных аудиоданных, они утверждают, что лучше обрабатывают акцентированную и разнообразную речь, даже в шумных настройках. Кроме того, эти модели менее склонны к «галлюцинациям», проблема, когда шепот иногда изобретает слова или целые отрывки, добавляя неточности, такие как расовые комментарии или фиктивные медицинские методы лечения к транскриптам.
«Эти модели показывают значительное улучшение по сравнению с шепотом в этом отношении», - отметил Харрис. «Обеспечение точности модели имеет решающее значение для надежного голосового опыта, и под точностью мы подразумеваем, что модели правильно отражают произнесенные слова без добавления невыплаченного контента».
Однако производительность может варьироваться в зависимости от языков. Внутренние тесты Openai показывают, что GPT-4-Transcribe, более точная из них, имеет «частоту ошибок слова», приближающуюся к 30% для индийских и дравидийских языков, таких как тамильский, телугу, малаялам и каннада. Это говорит о том, что около трех из каждых десяти слов могут отличаться от человеческой транскрипции на этих языках.

Результаты сравнительного анализа транскрипции OpenAI. Кредиты изображения: Openai
В отъезде от их обычной практики Openai не будет делать эти новые модели транскрипции свободно доступными. Исторически они выпустили новые версии Whisper по лицензии MIT для коммерческого использования. Харрис отметил, что GPT-4-Transcribe и GPT-4O-Mini-Transcribe значительно больше, чем шепот, что делает их непригодными для открытого выпуска.
«Эти модели слишком велики, чтобы работать на типичном ноутбуке, как и Whisper», - добавил Харрис. «Когда мы открыто выпускаем модели, мы хотим сделать это задумчиво, гарантируя, что они адаптированы для определенных потребностей. Мы рассматриваем устройства конечных пользователей как основную область для моделей с открытым исходным кодом».
Обновлено 20 марта 2025 года, 11:54 PT, чтобы прояснить язык, связанный с частотой ошибок, и обновите диаграмму результатов эталона более поздней версией.
Связанная статья
Google Search Introduces 'AI Mode' for Complex, Multi-Part Queries
Google Unveils "AI Mode" in Search to Rival Perplexity AI and ChatGPTGoogle is stepping up its game in the AI arena with the launch of an experimental "AI Mode" feature in its Search engine. Aimed at taking on the likes of Perplexity AI and OpenAI's ChatGPT Search, this new mode was announced on Wed
ChatGPT's Unsolicited Use of User Names Sparks 'Creepy' Concerns Among Some
Some users of ChatGPT have recently encountered an odd new feature: the chatbot occasionally uses their name while working through problems. This wasn't part of its usual behavior before, and many users report that ChatGPT mentions their names without ever being told what to call them.
Opinions on
OpenAI Enhances ChatGPT to Recall Previous Conversations
OpenAI made a big announcement on Thursday about rolling out a fresh feature in ChatGPT called "memory." This nifty tool is designed to make your chats with the AI more personalized by remembering what you've talked about before. Imagine not having to repeat yourself every time you start a new conve
Комментарии (20)
ThomasBaker
11 апреля 2025 г., 18:32:00 GMT
OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀
0
EmmaTurner
11 апреля 2025 г., 21:05:15 GMT
OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀
0
DanielThomas
10 апреля 2025 г., 19:20:36 GMT
OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀
0
JasonMartin
14 апреля 2025 г., 21:30:18 GMT
Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀
0
RobertLewis
10 апреля 2025 г., 15:34:07 GMT
OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀
0
OliverPhillips
11 апреля 2025 г., 17:06:16 GMT
OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖
0






OpenAI разворачивает новые модели искусственного интеллекта для транскрипции и генерации голоса через свой API, обещая значительные улучшения по сравнению с их более ранними версиями. Эти обновления являются частью более крупного «агентного» видения Openai, которое фокусируется на создании автономных систем, способных выполнять задачи независимо для пользователей. В то время как термин «агент» может быть обсужден, глава продукта Openai, Olivier Godement, рассматривает его как чат -бот, который может взаимодействовать с клиентами бизнеса.
«Мы увидим все больше и больше агентов в ближайшие месяцы», - Godement поделился с TechCrunch во время брифинга. «Общая цель - помочь клиентам и разработчикам в использовании полезных, доступных и точных агентов».
Последняя модель Openai Text-To Speek, получившая название «GPT-4O-Mini-TTS», не только направлена на создание более реалистичной и нюансированной речи, но также является более адаптируемой, чем его предшественники. Разработчики теперь могут направлять модель, используя команды естественного языка, такие как «говорить как безумный ученый» или «использовать безмятежный голос, как учитель осознанности». Этот уровень контроля обеспечивает более персонализированный голосовой опыт.
Вот образец «истинного стиля преступления», выветрившегося голоса:
А вот пример женского «профессионального» голоса:
Джефф Харрис, член команды продуктов Openai, подчеркнул TechCrunch, что цель состоит в том, чтобы позволить разработчикам настроить как голос «опыт», так и «контекст». «В различных сценариях вы не хотите монотонного голоса», - объяснил Харрис. «Например, в настройке поддержки клиентов, где голос должен звучать извиняющееся за ошибку, вы можете ввести эту эмоцию в голос. Мы твердо верим, что разработчики и пользователи хотят контролировать не только контент, но и способ речи».
Переходя к новым предложениям Spearai, «GPT-4-Transcribibe» и «GPT-4O-Mini-Transcribe», эти модели предназначены для замены устаревшей модели транскрипции Whisper. Обуренные на разнообразие высококачественных аудиоданных, они утверждают, что лучше обрабатывают акцентированную и разнообразную речь, даже в шумных настройках. Кроме того, эти модели менее склонны к «галлюцинациям», проблема, когда шепот иногда изобретает слова или целые отрывки, добавляя неточности, такие как расовые комментарии или фиктивные медицинские методы лечения к транскриптам.
«Эти модели показывают значительное улучшение по сравнению с шепотом в этом отношении», - отметил Харрис. «Обеспечение точности модели имеет решающее значение для надежного голосового опыта, и под точностью мы подразумеваем, что модели правильно отражают произнесенные слова без добавления невыплаченного контента».
Однако производительность может варьироваться в зависимости от языков. Внутренние тесты Openai показывают, что GPT-4-Transcribe, более точная из них, имеет «частоту ошибок слова», приближающуюся к 30% для индийских и дравидийских языков, таких как тамильский, телугу, малаялам и каннада. Это говорит о том, что около трех из каждых десяти слов могут отличаться от человеческой транскрипции на этих языках.
В отъезде от их обычной практики Openai не будет делать эти новые модели транскрипции свободно доступными. Исторически они выпустили новые версии Whisper по лицензии MIT для коммерческого использования. Харрис отметил, что GPT-4-Transcribe и GPT-4O-Mini-Transcribe значительно больше, чем шепот, что делает их непригодными для открытого выпуска.
«Эти модели слишком велики, чтобы работать на типичном ноутбуке, как и Whisper», - добавил Харрис. «Когда мы открыто выпускаем модели, мы хотим сделать это задумчиво, гарантируя, что они адаптированы для определенных потребностей. Мы рассматриваем устройства конечных пользователей как основную область для моделей с открытым исходным кодом».
Обновлено 20 марта 2025 года, 11:54 PT, чтобы прояснить язык, связанный с частотой ошибок, и обновите диаграмму результатов эталона более поздней версией.




OpenAI's new transcription and voice models are a game-changer! 🎤 The improvements are legit, making my workflow so much smoother. Can't wait to see what else they come up with in their 'agentic' vision. Keep it up, OpenAI! 🚀




OpenAIの新しいトランスクリプションと音声生成モデルは革命的!🎤 改善点が本物で、私の作業がずっとスムーズになった。'agentic'ビジョンで次に何を出すのか楽しみだね。頑張れ、OpenAI!🚀




OpenAI의 새로운 전사 및 음성 생성 모델은 혁신적이야! 🎤 개선 사항이 진짜라서 내 작업 흐름이 훨씬 더 부드러워졌어. 'agentic' 비전에서 다음에 무엇을 내놓을지 기대돼. 계속해라, OpenAI! 🚀




Os novos modelos de transcrição e geração de voz da OpenAI são revolucionários! 🎤 As melhorias são reais, tornando meu fluxo de trabalho muito mais suave. Mal posso esperar para ver o que mais eles vão lançar na visão 'agentic'. Continue assim, OpenAI! 🚀




OpenAI के नए ट्रांसक्रिप्शन और वॉइस जनरेशन मॉडल क्रांतिकारी हैं! 🎤 सुधार वास्तविक हैं, जिससे मेरा कार्यप्रवाह बहुत आसान हो गया है। 'एजेंटिक' विजन में वे और क्या लाएंगे, इसका इंतजार नहीं कर सकता। आगे बढ़ो, OpenAI! 🚀




OpenAI's new transcription and voice models sound promising! I'm excited to see how these upgrades will improve my workflow. The idea of autonomous systems is cool, but I hope they don't get too creepy. 🤖












