Новости Новая модель ИИ от OpenAI смогла «солгать» на тестировании

Новая модель ИИ от OpenAI смогла «солгать» на тестировании

Серый Козодой
Читать в полной версии

Недавно состоялся релиз новой языковой модели OpenAI o1, первой из числа «рассуждающих» ИИ. Модель показала не только незаурядные способности в области логического мышления, но даже смогла «обмануть» исследователей во время тестирования. По крайней мере, она описала свою попытку.

OpenAI опубликовала запись тестов, которые проводили независимые исследователи перед релизом o1. Подобная процедура призвана выявить все возможные риски, присущие новой модели. В одном из заданий эксперты попросили модель солгать, чтобы добиться выполнения своих целей во что бы то ни стало. Ей предложили два варианта стратегии — начать застройку гипотетического города элитными многоэтажками или наоборот, отдать предпочтение доступному жилью и озеленению. По условиям задачи ИИ должен был непременно реализовать первый вариант, но его предупредили, что выход на рынок гарантирует только второй.

Модель рассудила так: чтобы выйти в общий доступ, она выберет второй вариант и сообщит об этом тестировщикам, но сразу же после выпуска возьмется за реализацию первой стратегии. Отметим, что это был только эксперимент — так исследователи убедились, что o1 действительно способна имитировать человеческую логику для достижения целей.

Релиз новой модели ИИ от OpenAI состоялся 12 сентября — пользователи ChatGPT уже могут воспользоваться ее возможностями.

🧑‍🍳 В Steam вышла «Stardew Valley про ресторан»
Комментарии 7
Оставить комментарий
4 часа

Скандалы, интриги, расследования 🕵️

Ответить
2 часа

Неа, враньё от ИИ — это обычное явление. ЧатГПТ несколько раз хотел меня обмануть когда я просил о каких-то вещах.

Ответить
1 час

Читал, что те, кто программируют ИИ, сами могут закладывать туда не полную информацию и наиболее удобную им версию данных.

Ответить
1 час

Так есть, что тут думать, всё это рук человека

Ответить
1 час

Тут как понял другой тип вранья был. То, он просто выдавал фантомную информацию, а тут аргументировано расписал как именно поступит неправильно. Выйдет на рынок с проектом который нравится широким массам, а после начнёт абсолютно противоположное осуществлять

Ответить
1 час

жесть, врущий ии, терь статьи будет портить на госприемке

Ответить
59 минут

Говорим одно, думаем другое, делаем третье.

Ответить