OpenAI представила новую голосовую модель для создания ассистентов

OpenAI представила новую голосовую модель для создания ассистентов

DoubleA

Компания OpenAI объявила о запуске своего сервиса Realtime API, на основе gpt-realtime, которая предназначена для создания более умных и отзывчивых голосовых помощников. Главное отличие новой технологии — сквозная обработка аудио. В отличие от традиционных систем, которые сначала переводят речь в текст, затем анализируют его и только потом генерируют ответ, gpt-realtime работает напрямую со звуком. Такой подход значительно сокращает задержку в диалоге и позволяет точнее передавать интонации, эмоции и мелкие нюансы живой речи.

Новая модель демонстрирует улучшенные способности к пониманию контекста и выполнению сложных инструкций. Ассистент на её основе может без ошибок диктовать номера, дословно зачитывать юридические оговорки и плавно переключаться между языками в рамках одного предложения. Также ИИ научился распознавать невербальные сигналы, такие как смех или паузы, и соответствующим образом менять тон разговора.

Также голосовая модель умеет работать с изображениями, пользователи могут отправлять скриншоты или фотографии, а ассистент способен их анализировать и комментировать, более того модель поддерживает SIP-телефонию, что открывает путь для интеграции голосовых агентов в корпоративные АТС и обычную телефонную связь.

Доступ к Realtime API и модели gpt-realtime открыт для всех разработчиков, однако в общий доступ и интеграции в ChatGPT в ближайшее время не будет. Технология прямого преобразования «речь-в-речь» устраняет ключевые недостатки современных голосовых помощников — медленную реакцию и роботизированную речь, а это в свою очередь приближает нас к эре, где общение с искусственным интеллектом по телефону или в приложениях будет неотличимо от разговора с живым человеком.

В начале августа выход пятой версии чат-бота ChatGPT, был встречен пользователями неоднозначно. Жалобы пользователей заставили компанию оперативно вносить коррективы в работу сервиса и даже открыть доступ к предыдущей модели. Также на днях китайский стартап DeepSeek представил обновлённую модель DeepSeek-V3.1, которая, по заявлениям разработчиков, работает в 2,5 раза быстрее предыдущей версии, поддерживает 128 тысяч токенов контекста и при этом остаётся полностью бесплатной.

На фоне технических проблем GPT-5 и успехов конкурентов OpenAI, вероятно, сосредоточится на доработке своей флагманской модели и дальнейшем развитии экосистемы, чтобы вернуть доверие пользователей и укрепить позиции на рынке.

👀 Открытый мир в LEGO Batman: Legacy of the Dark Knight будет больше, чем в Arkham Knight
    +3
    Комментарии0