Первая большая языковая модель AMD OLMo стала доступной для всех
AMD объявила о выпуске первой большой языковой модели OLMo, ориентированной на открытое применение в широком спектре задач. Модель OLMo с миллиардами параметров была обучена на графических процессорах AMD Instinct MI250 и стала частью открытой экосистемы, что позволяет разработчикам не только использовать её, но и вносить улучшения. Модель доступна всем желающим.
Модель AMD OLMo включает несколько фаз обучения, в которых реализованы мощные способности к рассуждению, пониманию инструкций и ведению диалогов. На первом этапе базовая версия модели была обучена на наборе данных Dolma v1.7, а затем улучшена с помощью специализированных наборов, таких как Tulu V2 и OpenHermes-2.5, для повышения точности в науке, программировании и математике. В последней версии — AMD OLMo 1B SFT DPO — реализована адаптация к человеческим предпочтениям, что позволяет точнее интерпретировать пользовательские запросы.
Тесты показали, что модели OLMo превосходят аналоги в оценках производительности и многозадачности. AMD сообщает, что OLMo превзошла такие открытые модели, как TinyLlama и MobiLlama, показав значительное улучшение в бенчмарках, включая прирост точности на 5,09% в MMLU и на 15,32% в GSM8k. В тестах на выполнение инструкций модели OLMo обошли конкурентов в AlpacaEval 2 Win Rate на 3,41%, а в диалоговых сценариях MT-Bench улучшили показатели на 0,97%.
С выходом OLMo AMD укрепляет свои позиции на рынке ИИ, предлагая гибкие решения для применения на базе графических процессоров и процессоров AMD Ryzen AI с NPU, что позволяет запускать модели даже на персональных устройствах.