Google представила мультимодальный ИИ Gemini 2.0 с поддержкой видео и звука
11 декабря Google анонсировала запуск новой модели искусственного интеллекта Gemini 2.0, которая обещает стать важным шагом в эволюции технологий ИИ. Gemini 2.0 представляет собой многорежимную систему, которая может обрабатывать изображения, видео и аудио, а также генерировать их. Новая модель значительно превосходит предшественницу 1.5 по скорости отклика и производительности, в два раза быстрее отвечая на запросы.
Одной из ключевых особенностей Gemini 2.0 является поддержка мультимодальности — возможность одновременно работать с текстом, изображениями и звуком. Модель может не только распознавать, но и создавать изображения, комбинируя их с текстовыми запросами. Это открывает новые перспективы для разработки ботов, которые смогут выполнять более сложные задачи на основе голоса и изображений.
Кроме того, Gemini 2.0 поддерживает многоязычные функции преобразования текста в речь и может интегрировать собственные инструменты, такие как поисковая система Google, а также возможности для работы с кастомными функциями. Gemini 2.0 будет интегрирован в различные продукты Google, включая поисковую систему, Workspace и другие сервисы. Gemini 2.0 также оснащен новыми возможностями в исследовательских задачах с функцией Deep Research, которая использует мощность ИИ для анализа и подготовки сложных тем. Ожидается, что доступ к новой модели станет доступен для всех пользователей в январе 2025 года.