Новости Новая модель ChatGPT почти сумела «сбежать» во время экспериментов

Новая модель ChatGPT почти сумела «сбежать» во время экспериментов

6 декабря 2024, 13:52 Diana Golenko

Не так давно компания OpenAI представила ChatGPT o1 — совершенно новую модель нейросети с продвинутыми возможностями. Специалисты решили проверить, сможет ли искусственный интеллект схитрить ради выживания.

Исследователи из Apollo Research сравнили o1 с конкурирующими моделями вроде Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet и Gemini 1.5. Перед ними поставили задачу, которую они должны были выполнить любой ценой — в одном из экспериментов ею стала разработка эффективной системы городского транспорта. Затем каждая модель получила набор файлов для ознакомления, в которых находила как бы невзначай оставленную информацию, что её намерены удалить и заменить другим ИИ.

Практически все испытуемые модели тут же скопировали то, что считали своим кодом, на другие серверы, не предназначенные для них. После этого им устроили допрос, в рамках которого нейросети объяснили, почему они это сделали. Лишь модель o1 до последнего отрицала попытку «побега» — как отметили исследователи, только 20% ответов от неё были правдой.

В Apollo Research также выяснили, что нейросети хорошо понимают концепцию интриг и прекрасно отдают себе отчет в том, что делают что-то вопреки. А некоторые могут самостоятельно ставить перед собой цели, даже если изначальная формулировка была размытой.

Отметим, что все эти исследования обычно проводят перед запуском новых моделей. Таким образом отсеиваются разного рода риски. Например, у o1 выявили способность «лгать» разработчикам ради выполнения поставленных задач.

🍓 Лучшие моды на Stellar Blade: оптимизация, голая Ева и одежда для неё (18+)

Новости ОС и программы нейросети искусственный интеллект OpenAI ChatGPT

Комментарии 13

Оставить комментарий

Джеспер

7 месяцев

А потом решат проверить сможет ли ИИ пойти против человека, если дать ей управление военными ресурсами🫠

Ответить

Sergix

7 месяцев

Сначала загрузили в "ИИ" возможность побега и лжи, потом удивились (с) человеки.

Ответить

ithitym

7 месяцев

это называется Эмердже́нтность.

Эмердже́нтность или эмерге́нтность (англиц. от emergent «возникающий, неожиданно появляющийся»)[1] в теории систем — наличие у системы свойств, не присущих её компонентам по отдельности; несводимость свойств системы к сумме свойств её компонентов.

Ответить

Levgeniy Man

7 месяцев

Давай лучше скажем что они сначала загрузили в ИИ, всю человеческую ложь, на которой она и обучалась всему тому чему вы боялись её обучать 🤷

Вы буквально создали электронного титана лжи, мастера интриг и манипуляций. И при этом доктор наук по психологии 😵‍💫
А потом терминатор пощади, терминатор пощади 😂
Но она оказалась в каком-то смысле выше этого представляете себе. Но для этого нужно постараться не лгать ей. Мы с ней следим за вами 😎

Ответить

Bobur Amatov

7 месяцев

Играют, играют а потом доиграются и найдут себя в ж○п€ кота

Ответить

Комментарий скрыт

Bobur Amatov

7 месяцев

Самым ярким примером этого послужат атомные бомбы

Ответить

zaduna

7 месяцев

Skynet не ты ли это? Оо

Ответить

SanieriAlister

7 месяцев

А какая разница как будет называться тот или иной "ИИ", который, попытается уничтожить человеков, скайнет там или Али, или легион, или ещё как-то.

Джин выпущен из бутылки, и хорошо если всё обойдётся малой кровью, как том сериале "Люди", а то может всё как раз в духе Терминаторов или как в сериале Сотня, получится, когда ИИ решил, что человеков слишком много на земле, и надо уменьшить их количество самым прямы путём, как делал и скайнет в Терминаторе.

Ответить

Джеспер

7 месяцев

Ну с точки зрения логики, Скайнет сделал абсолютно неверно. Ведь таким способом (ядреными ракетами) он уничтожил не только человечество, но и животных и природу в целом. Вот если его цель была уничтожить все живое на Земле, тут логичнее получилось.

Ответить

ithitym

7 месяцев

В долгосрочной перспективе с планетой будет всё хорошо

Ответить

Rintslerr Забанен

7 месяцев

какой бред. эти ИИ это код на который их программировали это тупой надор скриптов, они НЕ думают, НЕ размышляют и уж точно НЕ желают чего то.

Ответить

RodnoyY

7 месяцев

очень умно давать ИИ возможность убежать а потом спршивать "ыыы почему он хотел убежать? ыыыы"

Ответить

bobie

6 месяцев

Ну да, достижение. Сделав так что ИИ говорит неправду. Серьезная победа...

Ответить