Анализ кодогенерирующих нейросетей выявил неожиданную проблему: модели массово «выдумывают» несуществующие программные компоненты, открывая лазейки для кибератак. Исследователи из Техасского университета в Сан-Антонио проверили 576 тыс. фрагментов кода, созданных 16 популярными ИИ-моделями, включая GPT-4 и Claude. В 19,7% случаев алгоритмы ссылались на фиктивные библиотеки — всего 440 тыс. ошибочных зависимостей.
Злоумышленники могут зарегистрировать пакеты с именами, которые ИИ часто генерирует по ошибке, и наполнить их вредоносным кодом. Когда разработчики установят такие компоненты, не проверив их подлинность, вредоносная программа активируется. В эксперименте тестовые пакеты с вымышленными названиями скачали десятки тысяч раз.
Детали исследования:
Техника Dependency Confusion позволяет подменить легальный пакет вредоносным, используя совпадение имени. Например, злоумышленник публикует в репозитории пакет с трояном. Если ИИ порекомендует его вместо официального, разработчик, не проверив источник, установит опасный код.
Прогноз Microsoft, что к 2030 году 95% кода будет генерироваться ИИ, делает эти рекомендации особенно актуальными. Пока нейросети не научились отличать вымысел от реальности, ответственность за безопасность остаётся за людьми.
Зато нейронка кодит быстрее людей, это да.