
Нейросети в кодинге всё ещё зелёные новички не способные решать даже десятую часть поставленных задач
Недавние испытания в рамках конкурса K Prize выявили существенные ограничения современных нейросетей в программировании. Суть соревнования заключается в оценке способности ИИ решать реальные задачи разработки ПО.
В соревновании участвовали только открытые модели искусственного интеллекта с самостоятельным хостингом, которым предстояло решать актуальные задачи с GitHub без предварительной подготовки. Результаты оказались крайне низкими: ни одна из систем не преодолела порог в 10% успешно решённых задач. При этом лучшим результатом стало решение 7,5 (9 из 120) заданий человеком-участником. Для сравнения, на других тестах (например, SWE-Bench) некоторые ИИ-модели показывали значительно более высокие результаты — до 75% на простых задачах и около 34% на сложных.
Таким образом результаты K Prize показали, что даже самые продвинутые модели ИИ справляются лишь с малым количеством всех задач. Хотя нейросети успешно выполняют шаблонные задачи, они сталкиваются со сложностью в интерпретацией технических заданий и отсутствие человеческого уровня творческого мышления.

При написании кода ИИ часто создаёт технически корректные, но неэффективные решения, не соответствующие промышленным стандартам. В работах регулярно встречаются логические ошибки, очевидные для опытного программиста.
Несмотря на текущие ограничения, технологии развиваются. Разработчики совершенствуют алгоритмы машинного обучения и механизмы взаимодействия ИИ с инструментами программирования. Однако пока искусственный интеллект остаётся вспомогательным инструментом, и говорить о замене человека в разработке ПО ещё очень рано.