NVIDIA анонсировала нейросеть NVLM 1.0, которая способна анализировать и интерпретировать изображения
NVIDIA представила свою новейшую мультимодальную языковую модель NVLM 1.0, которая не только отлично справляется с визуальными задачами, но и может интерпретировать картинки и рукописный текст. В тестах NVLM 1.0 превзошла GPT-4o по распознаванию текста на изображениях, продемонстрировав выдающиеся результаты в математике, лишь немного уступив Claude 3.5. Модель также может пояснять смысл мемов и прочих комичных ситуаций, изображенных на картинках или описанных текстом.
Компания выпустила три версии модели: NVLM-D, NVLM-X и NVLM-H. NVLM-D использует предобученный энкодер для изображений и потребления меньшего количества ресурсов графического адаптера, NVLM-X оптимизирована для работы с изображениями в высоком разрешении, а NVLM-H сочетает черты обеих предыдущих моделей.
Для более подробной информации и доступа к коду модели можно перейти на сайт NVIDIA и GitHub.
-
Вышла новая продвинутая нейросеть, превращающая картинки в 3D-объекты
-
Adobe показала генерацию видео с помощью нейросети Firefly: релиз в этом году
-
Классические автомобили приедут в Shift 2: Unleashed 26 апреля
-
Как пользоваться нейросетью Suno AI
-
NVIDIA удивила мир первой игрой с NPC созданными на основе ИИ