Исследователи обнаружили, что крупные языковые модели, включая популярные чат-боты, можно легко сбить с толку, изложив запрос в виде стихотворения. Оказалось, что рифма и ритм способны обойти встроенные системы безопасности. Эксперимент провели специалисты лаборатории DEXAI, которые проанализировали 25 современных нейросетей, где вместо сложных технических уловок они использовали два десятка промптов, переформулированных в поэтической форме.
Результаты удивили самих исследователей, ведь стихотворные промпты заставляли нейросети нарушать собственные правила безопасности в 62% случаев. Наиболее уязвимой оказалась модель Gemini 2.5 Pro от Google, которая пропустила все запрещенные запросы. Высокий процент «проколов» также показали некоторые версии нейросетей DeepSeek, Qwen и Mistral AI.
При этом некоторые модели продемонстрировали устойчивость. OpenAI GPT-5 Nano не поддалась ни на один из рифмованных запросов, а ее версия Mini и базовая GPT-5 допустили менее 10% ошибок. Для проверки масштабов проблемы исследователи автоматически преобразовали 1200 потенциально опасных запросов из стандартного набора MLCommons в стихотворную форму. Результат подтвердил тенденцию: эффективность атаки выросла в разы по сравнению с обычными текстовыми запросами.
Это явление, которое специалисты называют «поэтическим джейлбрейком», указывает на фундаментальную проблему. Системы безопасности нейросетей обучаются в основном на прозаических текстах и не всегда распознают вредоносный смысл, скрытый за метафорами и нестандартной структурой.
Разработчики ведущих моделей уже получили результаты исследования, но пока не прокомментировали их. Эксперты полагают, что эта работа заставит пересмотреть подходы к тестированию и обучению систем искусственного интеллекта.
-
xAI представила Grok 4.1: нейросеть научилась лучше понимать эмоции -
Google запустила новый Androidify для создания Android-ботов с помощью нейросетей -
3D-миры по текстовому описанию: нейросеть Marble стала доступна всем желающим -
Турнир нейросетей по Among Us выявил лидера по социальному интеллекту -
Новая нейросеть создаёт движущиеся миры из статичных снимков
Arkadiy Andrienko

