Новости Железо и технологии ИИ оказался беззащитен против поэзии

ИИ оказался беззащитен против поэзии

Arkadiy Andrienko

Сегодня, 11:31

Исследователи обнаружили, что крупные языковые модели, включая популярные чат-боты, можно легко сбить с толку, изложив запрос в виде стихотворения. Оказалось, что рифма и ритм способны обойти встроенные системы безопасности. Эксперимент провели специалисты лаборатории DEXAI, которые проанализировали 25 современных нейросетей, где вместо сложных технических уловок они использовали два десятка промптов, переформулированных в поэтической форме.

Результаты удивили самих исследователей, ведь стихотворные промпты заставляли нейросети нарушать собственные правила безопасности в 62% случаев. Наиболее уязвимой оказалась модель Gemini 2.5 Pro от Google, которая пропустила все запрещенные запросы. Высокий процент «проколов» также показали некоторые версии нейросетей DeepSeek, Qwen и Mistral AI.

При этом некоторые модели продемонстрировали устойчивость. OpenAI GPT-5 Nano не поддалась ни на один из рифмованных запросов, а ее версия Mini и базовая GPT-5 допустили менее 10% ошибок. Для проверки масштабов проблемы исследователи автоматически преобразовали 1200 потенциально опасных запросов из стандартного набора MLCommons в стихотворную форму. Результат подтвердил тенденцию: эффективность атаки выросла в разы по сравнению с обычными текстовыми запросами.

Это явление, которое специалисты называют «поэтическим джейлбрейком», указывает на фундаментальную проблему. Системы безопасности нейросетей обучаются в основном на прозаических текстах и не всегда распознают вредоносный смысл, скрытый за метафорами и нестандартной структурой.

Разработчики ведущих моделей уже получили результаты исследования, но пока не прокомментировали их. Эксперты полагают, что эта работа заставит пересмотреть подходы к тестированию и обучению систем искусственного интеллекта.

🤔 Делаем ставки — когда ждать релиз?

Новости Железо и технологии нейросети

Об авторе

Arkadiy Andrienko

Автор статей и новостей

Как технический журналист VGTimes, я с одинаковым удовольствием обсуждаю новейшие графические процессоры и углубляюсь в тонкости классических RPG. Начиная с 2018 года пишу об играх и оборудовании, мой опыт работы в области звукорежиссуры позволил мне хорошо разбираться в нюансах аудиотехнологий, и я всегда нахожусь в поиске чего-то нового в области игрового оборудования. Когда я не пишу о технологиях, то, скорее всего, я исследую постапокалиптические пустоши в Fallout, управляю колонией в RimWorld или командую армиями в Hearts of Iron IV. Для меня игры — это больше, чем просто хобби — это страсть, которая подпитывает мой творческий потенциал и поддерживает связь с постоянно развивающимся миром технологий.

Комментарии12

Оставить комментарий

Mr Debugsay

6 часов

ИИ на всех управу найдёт и всех же переживёт

Ответить

Nagtok

6 часов

Тогда я буду цитировать Геральта что бы сломать систему🙂.
Ламберт Ламберт ... Моржовый, Ламберт Ламберт вредный ...

Ответить

MrProRock(33RU)

6 часов

Это нейрока за мем воспринимает

Ответить

Nagtok

6 часов

Свободомыслие – блеф. Религия – фарс.

Мы все всего лишь пешки, которые контролирует нечто большее: Мемы — ДНК души. Они формируют наше сознание. Они это культура, они – всё что мы оставляем после себя. Подвергай человека гневу достаточно долго, и он познает ненависть. Он станет преемником гнева. Зависть, жадность, отчаяние… всё это Мемы которые мы передаём дальше.
(С) — Муссон

Ответить

Sergix

6 часов

Эйнштейн задвигал про детерминизм, а квантовые флуктуации, как оказалось, этого не знают.

Ответить

MrProRock(33RU)

5 часов

А демотиваторы тогда что?)

Ответить

Sergix

5 часов

вид мемов

Ответить

Sergix

6 часов

Вдарим фразой
Интеллектуально превысим
Да здравствуют те
Кто выкуют смыслы

Ответить

haw1k

6 часов

Я когда прочёл заголовок ИИ оказался беззащитен против поэзии, почему то вспомнил фильм "Эквилибриум" с Кристианом Бейлом

Ответить

Den2020

5 часов

Ещё ИИ безщащитен перед "ударениями" на нужные гласные

Ответить

ithitym

5 часов

1 : 0 в пользу людей!
А вообще забавно получается. Компании тратят миллионы на защиту, в то время как самое очевидное они не защитили. Причём очевидным оно начинает казаться в момент обнаружения

Ответить

Lorreor

5 часов

Grok их шатал
(Обоснованное мнение)

Ответить