Новая модель DeepSeek V3-0324 бросает вызов GPT-4o и Claude-3.5

Компания DeepSeek AI представила масштабное обновление своей флагманской модели — DeepSeek V3-0324. Модель, доступная на GitHub и Hugging Face, не только догоняет, но и превосходит по ряду параметров закрытые аналоги вроде GPT-4o и Claude-3.5-Sonnet.
В основе обновления — усовершенствованная архитектура Mixture-of-Experts (MoE), где 671 млрд параметров динамически активируются порциями по 37 млрд на токен. Технология Multi-head Latent Attention сокращает потребление памяти на 60%, а Multi-Token Prediction ускоряет генерацию текста в 1.8 раза. Модель «прокачали» на датасете, включающем математические задачи, код на 15 языках и научные работы. Обучение длилось 2.788 млн GPU-часов на кластерах H800, что эквивалентно 318 годам непрерывной работы одного ускорителя. Результат: 89.3% точности в решении школьных математических задач (GSM8K) и 65.2% успеха в генерации кода (HumanEval) — на 10-15% выше предыдущих open-source решений.
Обновление принесло неожиданные улучшения:
- Генерация фронтенд-кода теперь создает визуально привлекательные интерфейсы;
- Качество текстов сравнялось с человеческим уровнем в длинных эссе;
- Точность вызова функций (function calling) достигла 92%, устраняя главную боль предыдущих версий.
Хотя официальное описание апдейта пока не опубликовано, но его вес составляет 700 ГБ. Модель доступна через API с уникальной системой «температурной калибровки»: стандартный параметр 1.0 автоматически преобразуется в оптимальные 0.3. Для локального запуска разработчики предлагают модифицированные шаблоны промптов с поддержкой поиска в сети и анализа файлов — функция, ранее доступная только в премиальных коммерческих решениях.
Эксперты прогнозируют, что DeepSeek V3-0324 может перевернуть рынок ИИ-ассистентов для программирования и анализа данных. При этом её открытость под MIT-лицензией открывает путь для кастомизации — от автоматизации бизнес-процессов до создания узкоспециализированных научных ассистентов.
-
Китайский ИИ DeepSeek попал под подозрением Microsoft и OpenAI из-за возможного обучения на ChatGPT
-
Безопасность данных: проблема китайского стартапа DeepSeek
-
Глава NVIDIA впервые высказался о китайской нейросети DeepSeek
-
Мышь, которая говорит: Cherry представила первую в мире ИИ-мышь с DeepSeek
-
DeepSeek обошла ChatGPT и «Шедеврум» по популярности в России