OpenAI покращує ШІ для точного розпізнавання та генерації голосу
Компанія OpenAI анонсувала оновлення двох своїх провідних моделей — Whisper, яка відповідає за транскрипцію, та Voice Engine, що забезпечує синтез голосу. Покращені версії демонструють ще вищу точність розпізнавання мовлення та більш природне відтворення голосів, наближаючи штучний інтелект до рівня живого спілкування, повідомляє TechCrunch.
Ці вдосконалення роблять голосові технології доступнішими й точнішими, що суттєво посилює можливості автоматичної транскрипції, голосових помічників і систем озвучування відео чи аудіокниг.
Whisper тепер працює швидше та ефективніше, значно краще розпізнає складні акценти, справляється з фоновим шумом і навіть пошкодженими аудіозаписами. Це розширює її застосування для створення якісних транскрипцій інтерв’ю, конференцій та інших розмовних форматів.
Також удосконалено модель Voice Engine — тепер вона ще точніше відтворює людський голос на основі короткого зразка. Це відкриває нові перспективи для використання в голосових асистентах, озвучуванні текстів та створенні персоналізованого голосового контенту.
Нагадаємо, що 19 березня компанія OpenAI представила нову версію штучного інтелекту — o1-pro, яка має забезпечувати «постійно кращі відповіді», проте стане найдорожчою моделлю компанії. Модель o1-pro в API є вдосконаленою версією o1 і використовує більше обчислювальних потужностей для глибшої обробки запитів і розв’язання найскладніших завдань.
Вартість використання o1-pro складає $150 за 1 мільйон токенів на введення та $600 за вихідні токени. Це вдвічі дорожче за введення у GPT-4.5 і в 10 разів дорожче порівняно зі стандартною версією o1.




