Новости Железо и технологии OpenAI представила новую голосовую модель для создания ассистентов

OpenAI представила новую голосовую модель для создания ассистентов

29 августа 2025, 17:53

Компания OpenAI объявила о запуске своего сервиса Realtime API, на основе gpt-realtime, которая предназначена для создания более умных и отзывчивых голосовых помощников. Главное отличие новой технологии — сквозная обработка аудио. В отличие от традиционных систем, которые сначала переводят речь в текст, затем анализируют его и только потом генерируют ответ, gpt-realtime работает напрямую со звуком. Такой подход значительно сокращает задержку в диалоге и позволяет точнее передавать интонации, эмоции и мелкие нюансы живой речи.

Новая модель демонстрирует улучшенные способности к пониманию контекста и выполнению сложных инструкций. Ассистент на её основе может без ошибок диктовать номера, дословно зачитывать юридические оговорки и плавно переключаться между языками в рамках одного предложения. Также ИИ научился распознавать невербальные сигналы, такие как смех или паузы, и соответствующим образом менять тон разговора.

Также голосовая модель умеет работать с изображениями, пользователи могут отправлять скриншоты или фотографии, а ассистент способен их анализировать и комментировать, более того модель поддерживает SIP-телефонию, что открывает путь для интеграции голосовых агентов в корпоративные АТС и обычную телефонную связь.

Доступ к Realtime API и модели gpt-realtime открыт для всех разработчиков, однако в общий доступ и интеграции в ChatGPT в ближайшее время не будет. Технология прямого преобразования «речь-в-речь» устраняет ключевые недостатки современных голосовых помощников — медленную реакцию и роботизированную речь, а это в свою очередь приближает нас к эре, где общение с искусственным интеллектом по телефону или в приложениях будет неотличимо от разговора с живым человеком.

В начале августа выход пятой версии чат-бота ChatGPT, был встречен пользователями неоднозначно. Жалобы пользователей заставили компанию оперативно вносить коррективы в работу сервиса и даже открыть доступ к предыдущей модели. Также на днях китайский стартап DeepSeek представил обновлённую модель DeepSeek-V3.1, которая, по заявлениям разработчиков, работает в 2,5 раза быстрее предыдущей версии, поддерживает 128 тысяч токенов контекста и при этом остаётся полностью бесплатной.

На фоне технических проблем GPT-5 и успехов конкурентов OpenAI, вероятно, сосредоточится на доработке своей флагманской модели и дальнейшем развитии экосистемы, чтобы вернуть доверие пользователей и укрепить позиции на рынке.

😂 Когда решил пропустить кат-сцену в игре...

Новости Железо и технологии OpenAI нейросети

Об авторе

Arkadiy Andrienko

Автор статей и новостей

Как технический журналист VGTimes, я с одинаковым удовольствием обсуждаю новейшие графические процессоры и углубляюсь в тонкости классических RPG. Начиная с 2018 года пишу об играх и оборудовании, мой опыт работы в области звукорежиссуры позволил мне хорошо разбираться в нюансах аудиотехнологий, и я всегда нахожусь в поиске чего-то нового в области игрового оборудования. Когда я не пишу о технологиях, то, скорее всего, я исследую постапокалиптические пустоши в Fallout, управляю колонией в RimWorld или командую армиями в Hearts of Iron IV. Для меня игры — это больше, чем просто хобби — это страсть, которая подпитывает мой творческий потенциал и поддерживает связь с постоянно развивающимся миром технологий.

...Развернуть

Комментарии0