
OpenAI представила новую голосовую модель для создания ассистентов
Компания OpenAI объявила о запуске своего сервиса Realtime API, на основе gpt-realtime, которая предназначена для создания более умных и отзывчивых голосовых помощников. Главное отличие новой технологии — сквозная обработка аудио. В отличие от традиционных систем, которые сначала переводят речь в текст, затем анализируют его и только потом генерируют ответ, gpt-realtime работает напрямую со звуком. Такой подход значительно сокращает задержку в диалоге и позволяет точнее передавать интонации, эмоции и мелкие нюансы живой речи.
Новая модель демонстрирует улучшенные способности к пониманию контекста и выполнению сложных инструкций. Ассистент на её основе может без ошибок диктовать номера, дословно зачитывать юридические оговорки и плавно переключаться между языками в рамках одного предложения. Также ИИ научился распознавать невербальные сигналы, такие как смех или паузы, и соответствующим образом менять тон разговора.
Также голосовая модель умеет работать с изображениями, пользователи могут отправлять скриншоты или фотографии, а ассистент способен их анализировать и комментировать, более того модель поддерживает SIP-телефонию, что открывает путь для интеграции голосовых агентов в корпоративные АТС и обычную телефонную связь.
Доступ к Realtime API и модели gpt-realtime открыт для всех разработчиков, однако в общий доступ и интеграции в ChatGPT в ближайшее время не будет. Технология прямого преобразования «речь-в-речь» устраняет ключевые недостатки современных голосовых помощников — медленную реакцию и роботизированную речь, а это в свою очередь приближает нас к эре, где общение с искусственным интеллектом по телефону или в приложениях будет неотличимо от разговора с живым человеком.
В начале августа выход пятой версии чат-бота ChatGPT, был встречен пользователями неоднозначно. Жалобы пользователей заставили компанию оперативно вносить коррективы в работу сервиса и даже открыть доступ к предыдущей модели. Также на днях китайский стартап DeepSeek представил обновлённую модель DeepSeek-V3.1, которая, по заявлениям разработчиков, работает в 2,5 раза быстрее предыдущей версии, поддерживает 128 тысяч токенов контекста и при этом остаётся полностью бесплатной.
На фоне технических проблем GPT-5 и успехов конкурентов OpenAI, вероятно, сосредоточится на доработке своей флагманской модели и дальнейшем развитии экосистемы, чтобы вернуть доверие пользователей и укрепить позиции на рынке.
-
ИИ Альтмана (OpenAI) обыграл Grok Маска в шахматном финале на Kaggle со счетом 4:0
-
ИИ от OpenAI вошёл в топ-6 сильнейших программистов мира на IOI 2025
-
OpenAI согласилась вернуть GPT-4o после провального запуска GPT-5 и выпустила первый патч
-
OpenAI выпустила GPT-5 для всех: программирование «из коробки» и меньше ошибок
-
OpenAI усиливает приватность ChatGPT: шифрование чатов в разработке