Почему нейросети врут: OpenAI объяснила природу галлюцинаций ИИ

Почему нейросети врут: OpenAI объяснила природу галлюцинаций ИИ

DoubleA

Команда исследователей из OpenAI подробно разобралась, почему языковые модели, подобные ChatGPT, иногда выдают вымышленные или ложные факты. Оказалось, проблема во многом кроется в самой системе их обучения и оценки, которая поощряет модели гадать, а не признавать отсутствие ответа.

Специалисты проводят аналогию со студентом на экзамене. Если за пустой ответ ставят ноль, а за угаданный вариант — хотя бы какой-то балл, то выбирать всегда выгоднее второе, так же и с искусственным интеллектом, ведь все тесты для оценки моделей, такие как MMLU, работают по бинарному принципу «правильно/неправильно». Модель, которая утверждает «не знаю», автоматически получает ноль, в то время как та, что рискует и угадывает, иногда оказывается права, таким образом алгоритмы учатся блефовать.

Данная проблема зарождается еще на этапе предобучения модели на больших массивах текста. Некоторые факты, особенно редкие, статистически почти невозможно предугадать абсолютно точно, однако окончательно паттерн к «угадыванию» закрепляется позже, когда разработчики натаскивают модель на прохождение тестов, поощряющих высокие баллы за точность.

В своем исследовании OpenAI предлагает изменить сам подход к оценке работы нейросетей, так по мнению авторов, нужно серьезно штрафовать модель за уверенную ложь, но при этом давать частичные баллы за корректное выражение неуверенности или ответ «не знаю». Это сместит фокус с создания «самых умных» моделей на разработку более надежных и правдивых ассистентов.

Эксперты подчеркивают, что галлюцинации — это не мистический сбой, а системная проблема, корни которой хорошо изучены, но даже современные продвинутые модели не застрахованы от этого и пересмотр систем оценки может стать ключом к созданию ИИ, который будет лучше осознавать границы своих знаний.

🔥 Дуров вернул 2007-й — в Telegram завезли музыкальный статус
    +2
    Комментарии3