openai улучшает искусственный интеллект для точного распознавания и генерации голоса
Компания OpenAI анонсировала обновление двух своих ведущих моделей — Whisper, отвечающей за транскрипцию, и Voice Engine, обеспечивающей синтез голоса. Улучшенные версии демонстрируют еще более высокую точность распознавания речи и более естественное воспроизведение голосов, приближая искусственный интеллект к уровню живого общения. сообщает TechCrunch.
Эти усовершенствования делают голосовые технологии более доступными и точными, что существенно усиливает возможности автоматической транскрипции, голосовых помощников и систем озвучивания видео или аудиокниг.
Whisper теперь работает быстрее и эффективнее, гораздо лучше распознает сложные акценты, справляется с фоновым шумом и даже поврежденными аудиозаписями. Это расширяет его применение для создания качественных транскрипций интервью, конференций и других разговорных форматов.
Также усовершенствована модель Voice Engine — теперь она точнее воспроизводит человеческий голос на основе короткого образца. Это открывает новые перспективы использования в голосовых ассистентах, озвучивании текстов и создании персонализированного голосового контента.
Напомним, что 19 марта компания OpenAI представила новую версию искусственного интеллекта — o1-pro, которая должна обеспечивать постоянно лучшие ответы, однако станет самой дорогой моделью компании. Модель o1-pro в API является усовершенствованной версией o1 и использует больше вычислительных мощностей для более глубокой обработки запросов и решения самых сложных задач.
Стоимость использования o1-pro составляет $150 за 1 миллион токенов на ввод и $600 за выходные токены. Это вдвое дороже ввода GPT-4.5 и в 10 раз дороже по сравнению со стандартной версией o1.




