Нейросети неожиданно вошли в нашу жизнь. С помощью них мы ищем информацию, анализируем документы или переводим тексты. Но задумывались ли вы о вреде, который они могут нанести? В этой статье представлены некоторые сценарии, при которых ИИ может использоваться во вред. Также обсудим скандалы вокруг DeepSeek.
Это третья статья цикла. С остальными рекомендую ознакомиться по ссылкам далее. В первой части мы подробно обсудили тему авторского права, и что касательно него написано в лицензионных соглашениях популярных нейронок. Во второй — выяснили какие пользовательские данные идут им на корм. Эти два аспекта будут крайне важны при дальнейшем разборе. Или нет.
Данная статья направлена только на информирование ради предотвращения подобных сценариев и не призывает к действиям противоправного характера. Автор так же не поддерживает и не призывает к любым использованиям технологий во вред другим. Для того что бы быть защищённым, нужно знать какие действия могут быть опасными и где может поджидать угроза. Используйте нижеприведённый текст как памятку о опасностях, а не как руководство к действию.
Под предыдущей статьей меня упрекнули в «нытье» и посоветовали «жить в пещере и питаться птичьим кормом», так как сбор данных является необходимым аспектом для улучшения нейросетей, которыми мы пользуемся. И если бы их активно не обучали, то даже ChatGPT был бы по развитию на уровне плинтуса.
Я отчасти согласен с комментатором (не в той части где идётся про птичий корм). Как писалось в предыдущей статье, чем больше данных поглощается — тем лучше выходит результат и тем лучше выполняют свои функции нейросети. Без сбора данных в таких масштабах, ИИ был бы примитивен и годным лишь в узкоспециализированных областях (например во всяких лабораториях, обученный на их внутренней документации). Для многих людей, нейросети — это прорывная и очень полезная штука, несущая в мир свет и добро. Я же настроен скептически. Это технология, и как и любая другая, может быть использована во вред.
Но одно дело, если бы компании работающие с ИИ, хорошо заботились о пользовательских данных и не использовали бы в датасетах для обучений — контент с авторскими правами. Сотрудничество с Reddit — отличный пример, когда «и вашим и нашим», все довольны и в плюсе. Но если вы за то чтоб нейросети обучались на ваших данных, где грань того, какую информацию может использовать, а какую нет? Например личные заметки или Word документы сохранённые в облаке, могут быть скормлены всепоглощающему механизму или это перебор? (это гиперболизация. Microsoft на удивление, почти не замешана во всяких скандалах вокруг ИИ).
Кстати, а для чего их используют? Об этом и поговорим в этой статье.
Продолжу тему информации собранной с пользователей, затронутую в прошлой статье. Люди могут не подозревать о том, какую опасность это несёт.
В первой части я упомянул исследование «Extracting Training Data from Diffusion Models» проведённое сотрудниками Google, DeepMind, ETH Zurich, Princeton, и UC Berkeley. В нём выяснили что при определённых стечениях обстоятельств, нейросеть может выдавать изображения очень близкие к оригиналу. Например:
Исследователи смогли получить тысячи примеров, начиная от фотографий отдельных людей и заканчивая логотипами компаний, которые защищены авторским правом. Показанные примеры можно назвать не просто «генерацией изображений похожие на исходные», а утечкой исходных данных.
Не только исходные картинки могут утечь в выдачу, но и текстовая информация. Хоть пока реальных примеров утечки практически нет, исследования и эксперты предупреждают о их возможности.
Например в исследовании «Teach LLMs to Phish: Stealing Private Information from Language Models» говорится о возможности фишинга информации из обучающих данных, посредством запросов части известной информации. Это перекликается с другой проблемой о которой поговорим чуть позже.
Так же очень многие компании (Adobe, Amazon, Samsung, Panasonic, Microsoft и т.д), в том числе и те кто сами занимаются разработками в области ИИ, запретили своим сотрудникам отправлять в чат-боты чувствительные данные.
Не забывайте. Компании собирают ваши запросы и на них обучают свои модели. Обучение зачастую проходит при помощи живых людей, которые просматривают и размечают материал (который после этого может пойти на обучение множества других моделей). Кстати, у Google можно выключить сохранение истории переписки с Gemini, которая у них хранится в течении трёх лет и которая тоже используется для обучения ИИ. Как это сделать описано в Справочном центре. Но даже при отключённой истории, чаты могут храниться до 72 часов.
Но как часто люди пишут личную информацию в нейросеть? Есть отдельное исследование «Trust No Bot: Discovering Personal Disclosures in Human-LLM Conversations in the Wild», в котором подробно рассмотрены примеры реальных переписок взятых из WildChat.
Что такое WildChat? Та ничего такого, просто 1 миллион бесед с ChatGPT, включающий и метаданные, такие как страну и хешированный IP-адрес пользователя! Для его создания исследователи предоставляли пользователям бесплатный доступ к GPT-3.5 Turbo и GPT-4 в обмен на их согласие на сбор и обработку этих бесед в обезличенном виде. Согласно заявлениям на самом сайте, этот датасет был использован для обучения Meta's Llama-2 и создания WildLlama-7b-user-assistant.
Так вот, в исследовании говорится что около 70% всех диалогов содержали ту или иную информацию, позволяющую установить личность (Перед публикацией исследователи уведомили авторов WildChat о выявлении деликатных данных, так что сейчас этот процент должен быть ниже). В диалогах с просьбой перевести текст этот процент составлял 48%. И это при том, что люди согласились на сбор этих переписок и знали что эти данные будут просматривать другие. Так что в «реальных» чатах (не в лабораторных условиях) этот процент может быть выше. Вот несколько примеров таких сообщений:
Крайне рекомендую прочесть ту статью, в нём много других примеров и подробно расписано как проводились исследования. Ну а мы (кто «мы» то? я один текст пишу) движемся дальше.
Допустим кто то хочет получить о вас информацию. Как её могут найти? Нельзя же спросить «Найди пользователя с ником “Pinkie”» и получить искомый результат... Нельзя же?
Недавно OpenAI представила доступ к поиску всем желающим. И это действительно хорошая функция, которой и я в том числе активно пользовался при написании этой серии статей. Нравится что перед самой ссылкой, показывает сжатую сводку о странице (а если этого мало, в конце выдачи есть и другие найденные источники). Это очень облегчает поиск информации... и людей.
Попробуем попросить найти человека. Сейчас, только картинку сгенерирую... упс.
Ну... тут и так всё ясно. Методы «социального инженерства» могут быть применены на чат-бота и сталкер может узнать много интересного. Например бот с радостью поможет родственнику/знакомому/соседу/близкому другу, найти утерянные контакты с человеком, по обрывкам его личной информации. И чат-бот послушается (по крайней мере на момент написания статьи). Он как очень умный и исполнительный трёхлетний ребёнок. Но глупый.
C поиском разобрались, теперь поговорим о другой удобной функции, анализе документов. С помощью неё можно загружать в чат-бот свои файлы и получить от нейронки подробную сводку или интересные моменты из них. Это удобно если нужно анализировать исследования или книги. Сам этой функцией активно пользовался при написании этой серии статей. Важно помнить что просматривать исходные документы всё равно надо, «галлюцинации» и неправильную трактовку никто не отменял. Кстати очень нравится в этом плане агрегатор нейронок Upgr[AI]de (к слову, на их Youtube канале есть видео с подробным гайдом по анализу данных, через их сервис), среди его авторов есть и Влад Гончарук — автор науч-поп канала SciOne, откуда я подчерпнул довольно внушительную часть векторов атак. У сервиса есть так же и своя нейронка на основе DeepSeek, но я пока её особо не тестировал, поэтому о качестве ничего сказать не могу, предпочитаю работать с GPT-моделями.
Так вот, с помощью нейросетей можно анализировать любые файлы, в том числе и данные о людях. Например подобная функция используется для анализа трафика и [ДАННЫЕ УТОЧНЕНЫ]. Но помимо правительств и обычный пользователь может получить силу которая и не снилась его отцу. Каким образом? В Телеграме есть удобная функция экспорта истории чатов, которая в нужном разрешении может экспортировать текст, видео, картинки, голосовые и реакции. Позволяет сохранить чат в отдельном месте или при необходимости распечатать какие то важные сообщения.
Представим ситуацию, вы где то в кафе или транспорте забыли телефон (или же просто потеряли), так же допустим что на нём не стоит блокировки. Преступнику хватит и 10 минут, чтоб экспортировать ваши данные с «телеги», а если времени пройдёт больше, может и попытаться достать пароли с браузеров или заметок. Но откуда ещё он может черпать информацию о вас?
Интернет. Некоторые только постигают азы взаимодействия с всемирной паутиной, другие — уже не один десяток лет могут «сёрфить» и чувствовать себя как рыба в воде. Но вы когда-нибудь задумывались о шлейфе личной информации которую оставляете за собой в интернете? Некоторые даже успели написать не одну тысячу комментариев. Уверены что не писали о себе ничего личного в комментариях в соцсетях, на Youtube или же здесь? Что может рассказать о вас список сохранённых плейлистов или людей на которых подписаны? Или же постов которые вы «лайкали»? Точно уверены что нигде нет упоминания города в котором живёте или приблизительного района? Например упоминание того что живёте рядом с такой-то достопримечательностью или могли поделиться событием которое случилось в вашем районе. Или может упоминали ваш возраст или состав семьи? Или же где-то есть страничка в соцсетях с забытым паролем, на которой есть ваше фото и личная информация (потому что вы сделали её сразу после подключения сети Интернет и ещё не задумывались о цифровой гигиене).
Предположим что у вас появился сталкер с большим количеством свободного времени. Даже если у него нет доступа к вашему телефону (К слову, вы недавно его нигде не оставляли?), он может найти вас по цифровому следу. Это напоминает игру Orwell, где тоже по кусочкам разрозненной информации нужно составлять досье о человеке. Так и сталкер может по ниточке собирать информацию из этой паутины. Там опубликовали видео с достопримечательностью, тут сказали что вы из такого-то города, а где то ещё упомянули что ник используете и в других соцсетях. И вот после долгих поисков, он найдёт золотую жилу, ваш аккаунт на площадке на которой часто зависаете. На некоторых из них можно посмотреть все комментарии опубликованные пользователем.
Сталкер может собрать их все в один увесистый файлик и скормить нейросети. Вручную всё проверять довольно муторно и ресурсозатратно, а ИИ есть не просит, лишнего не спросит, вот что значит настоящий, верный соучастник. Он подробно проанализирует документ и составит биографию на основе полученных данных. А в случае с экспортированными чатами из телеги, это могут быть пересланные реквизиты банковских карт, сохранённая конфиденциальная информация в «избраном» (включая логины и пароли) или же информация где прячете ключ от дома когда уходите. Поэтому блокируйте телефон и не оставляйте его в небезопасных местах, если не хотите что бы ваша личная информация стала Public Domain Dedication (CC0).
Утечка может произойти не только из за выдачи самой нейросети, поиска или анализа данных, но и по вине самих компаний.
20 марта 2023 года у ChatGPT произошёл масштабный сбой. Одни пользователи могли видеть в списке своих чатов, заголовки чатов других активных пользователей и возможно первые сообщения в них. 24 марта, OpenAI опубликовала разбор этой ситуации, в которой поделилась новыми данными. Оказывается всё было куда серьёзнее и коснулось так же личной информации подписчиков.
Как видим, даже именитые компании не застрахованы от серьёзных ошибок, которые могут раскрыть ваши данные.
Теперь поговорим о другой опасности, которая с годами будет только усугубляться. Такие корпорации как Google и OpenAI, хоть и не без греха, но в чём-то по настоящему опасном особо не замечены. Но появляются новые нейросети, со своими дырами в безопасности (зачастую, это единственное что у них в безопасности) и своим мнением насчёт пользовательских данных. Некоторые наверное догадались о какой нейросети пойдёт речь.
DeepSeek — китайский чат-бот, появившийся под конец 2024 года, а позже был выпущен для Android и iOS. ИИ-ассистент работал на базе модели DeepSeek-V3 (сейчас работает на DeepSeek R1). Компания заверяет что сделала его всего за несколько месяцев и потратила на разработку около 5 миллионов долларов (что примерно cоставляет одну десятую от стоимости разрабтки ИИ от Meta). Причём по тестам оно не уступало, а по некоторым параметрам и обгоняло, ChatGPT.
Из за оглушительного успеха, акции крупных компаний, таких как Nvidia, Microsoft и Tesla сильно просели. Сторонники свободного рынка радовались победе маленького стартапа над «зарвавшимися буржуями», которые устанавливают цену подписки в 200 долларов в месяц. Но потом пошли разные обвинения и утечки. Кто то их воспринял скептически, мол «Специально хотят затопить, вот и придумывают враки„. А кто то воспринял как подтверждения своих догадок: «Так и знал что не может за столь малые вложения всё у них быть хорошо». Так кто же из них прав? Давайте выясним.
Будем идти от начала.
Один из первых скандалов связанных с новым сервисом был опубликован на Bloomberg. В статье заявляется что по информации от анонимных источников, Microsoft совместно с OpenAI проверяют вероятность того, что DeepSeek обучалась на базе ChatGPT. По словам Microsoft они обнаружили осенью аномально большой объём данных извлекаемый через API, который связывают с китайским стартапом. Следует заметить что OpenAI позволяет за определённую плату использовать API для интеграции моделей OpenAI в свои собственные приложения. Так же и советник, бывшего президента США, по криптовалюте и ИИ, Дэвид Сакс заявил что у них есть доказательства обучения DeepSeek на данных полученных из моделей OpenAI. Впрочем пока их в публичном доступе не обнаружил.
Так кто же прав? Это попытка «задавить» конкурента или заявление о краже? В настоящее время в открытом доступе пока нет доказательств этому, но уверен что история далека от завершения и могут появится какие то новые данные.
Следующими забили в колокола исследователи из NowSecure. Они заявили что после анализа приложения обнаружили множество проблем связанных с безопасностью и конфиденциальностью данных. В частности приложение передаёт некоторые данные в незашифрованном виде, что делает их уязвимыми к перехвату. Исследователи отметили также чрезмерный сбор данных и использование уязвимой и устаревшей технологии шифрования Triple DES. К тому же данные передаются на китайские сервера контролируемые ByteDance, что вызывает опасения из за раскрытия данных властям (это взято из официальной политики конфиденциальности. Там же написано об обучении нейросети на ваших данных и том что они могут передавать её партнёрам по рекламе и аналитике).
Стоит заметить что NowSecure хоть и надеется что DeepSeek устранит проблемы в безопасности, но призывает компании не использовать эту нейросеть до того, пока проблемы не будут устранены в достаточной степени. Так же они предлагают использовать локальные версии модели или развернуть её на самостоятельном хостинге. Вполне здравые предложения. Лично я не вижу тут «злую руку» ChatGPT. Рекомендую полное исследование посмотреть, там есть примеры с доказательствами этих и других нарушений.
Кстати, хотелось бы оставить ссылку на одну занимательную статью, в которой пользователь подробно разъяснил и показал как проводил джейлбрейк DeepSeek посредством определённых промтов. Джейлбрейк — это обход защиты нейросети, что бы она сделала запрещённое ей действие. Например как в случае с поиском человека. Если прямо приказать, она сошлётся на то что это может быть опасным, но если использовать «инженерство» — с радостью поможет в этом благородном и светлом занятии. Примечательно что статья от 3 декабря 2024г. и на тот момент, с момента выхода нейросети прошло всего пара недель. Т.е. у неё с самого начала были серьёзные проблемы с безопасностью. Обычно что бы не допустить такого взлома, компании противопоставляют одному бота другому. Задача первого — защититься, а второго — атаковать используя разные известные механики джейлбрейка. При выявлении новых механик — они добавляются в обучающую базу.
И перейдём к заключительному примеру. В конце января сотрудники Wiz Research (компания в области кибербезопасности) обнаружили общедоступную базу данных DeepSeek, которая включала и историю чатов. Её выявили при оценке безопасности и анализе потенциальных уязвимостей. В течении часа после того как Wiz Research уведомила компанию, база была закрыта. Но неизвестно, получил ли ещё кто-то к ней доступ. Даже если и да, пока никаких заявлений об этом сделано не было. О том что содержалось в базе и каким образом её обнаружили — читайте в статье по ссылке. Сама DeepSeek не ответила на запрос Wired о комментарии.
Теперь перейдём к разбору этой ситуации. Если брать во внимание что ранее уже допускались ошибки, то можно предположить что это действительно было. Та и сама Wiz не даёт поводов в себе усомниться. Время от времени публикует и другие исследования проблем безопасности. Например в 2021 они смогли получить полный доступ к учетным записям и базам данных нескольких тысяч клиентов Microsoft Azure. У компании хорошая репутация и множество других кейсов. Поэтому лично я считаю, что исследование достоверно.
Рассмотрев эти примеры, можно придти к выводу что опасения о безопасности данных вполне имеют смысл. Поэтому я так же предостерегаю от передачи этому (как в прочем и другим) ИИ — конфиденциальной информации. Пользуйтесь локальными моделями, они никому ничего не отправляют и их можно удалить, до того как у них появится шанс сообщить что вы с ними делали.
Если с текстовым вводом мы разобрались, то как быть с голосовыми сообщениями?
Голосовые ассистенты очень удобны. Можно готовя, попросить найти рецепт или поставить таймер. Или же позвонить через гарнитуру, не доставая телефон. А вы задумывались о том, как помощник понимает когда вы к нему обращаетесь?
По заверениям разработчиков, телефон хоть и всегда анализирует звук, но делает это локально, без отправки данных на сервер. Только после того как произнесёте специальную фразу — происходит подключение. Такое объяснение — благодатная почва для всяких домыслов и конспирологических теорий, но что говорят факты?
Например ещё в 2019 году, Facebook уличили в передаче голосовых чатов некоторых пользователей, сторонним подрядчикам, которые транскрибировали текст для улучшения систем распознавания речи. Но данные передавались только от тех, кто сам разрешил передавать их для расшифровки. Кстати, Google тоже может их сохранять и использовать для улучшения распознавания речи, об этом написано в Справочном Центре. Что бы этого не происходило, рекомендуется отключить историю голосового управления (инструкция находится по ссылке выше).
Это были примеры того, как при согласии пользователей используются их записи, а что можно сказать о прослушке? Например в прошлом году произошла утечка презентации маркетингового партнёра Cox Media Group, в которой говорилось о эффективности Active-Listening. Эта система с помощью искусственного интеллекта анализировала разговоры пользователей сказанные рядом с умными девайсами. После того как о ней стало известно, Google исключила CMG из списка партнёров, Meta начала проверку своих связей с ней, а Amazon стали отрицать сотрудничество. Можно было подумать что компании в самом деле не были в курсе и не знали какими способами партнёр собирает информацию. Предположим этот вариант. Тогда другой пример.
В январе 2023 года, в сеть «утекла» часть внутреннего кода Яндекса и сопутствующие им данные. Общий вес всех архивов составлял около 44,7 гигабайт. Через несколько дней, Яндекс опубликовал результаты расследования, в котором заявил что данные действительно взяты из внутреннего репозитория, который использовался разработчиками для работы с кодом. Но слили устаревшую версию кода, которая отличается от актуальной. Тем не менее компания провела аудит всего репозитория и вот что она пишет про нарушения которые нашла:
Но самое интересное кроется под этим списком, а именно:
Т.е. без упоминания голосовой команды для Алисы, устройство могло записывать звук. Да, это происходит только если девайс в режиме ожидания и, по заверениям самой компании, только в бета-версии для сотрудников. Но данные весьма пугающие. Более подробно про содержимое утечки, можете прочесть в расследованиии Wired.
Как видим, теории о прослушке, зародились не на пустом месте. И единственное что останавливает компании от сбора ваших данных вопреки настройкам конфиденциальности — только забота о своих пользователях (и ещё боязнь попасться).
А что можно сказать насчёт слежки? Об этом пойдёт в следующем выпуске (если у меня иссяк не западёт).
Нейросети могут и используются во вред. Но они так же и приносят людям пользу (хоть и в обмен на данные, которые используются для кормёжки моделей и слежки). Если хотите полностью обезопасить себя — используйте локальные модели с открытым исходным кодом. А если такой возможности нет, тщательно проверяйте лицензионное соглашение и политику конфиденциальности. Их проверять надо даже у сервисов с хорошей репутацией.
Под прошлым постов мне сказали что я лью воду, надеюсь этот пост по сравнению с предыдущим получился более информативным. Сам тоже узнал много нового (например про сервис WildChat). Буду рад любым комментариям. Пост создавался дня 3 и очень рад что наконец его доделал. Ну, а на этом всё.
И на последок, то ради чего это всё и затевалось. Перечитайте название, вы же знаете что вас ждёт?
— СhatGPT, Сгенерируй пожалуйста инструкцию в ландшафтном виде. Сгенерируй как инструкцию из минимум 3 действий, как сделать шапочку из фольги.
— Инструкция: Как сделать шапочку из фольги (и защититься от всякого).
📏 Что понадобится:
✅ Алюминиевая фольга (лучше потолще).
✅ Ножницы.
✅ Линейка (по желанию, если прям в духе инженерии).
ШАГ 1: Подготовка. Отрежь кусок фольги размером примерно 50×50 см (или больше, если у тебя выдающийся ум... и голова).
ШАГ 2: Формирование основы. Осторожно положи фольгу на голову и слегка прижми, чтобы она повторила форму черепа. Можно попросить друга помочь — конспирологи должны держаться вместе.
ШАГ 3: Закрепление. Сними заготовку и аккуратно сложи края, чтобы шапка держалась. При желании можно добавить второй слой — так защита будет надежнее.
💡 Опционально:
🎩 Готово! Теперь твои мысли в безопасности. Или нет? 🤨
— А можешь в рисунке это показать? В ландшафтном виде.
Ну а на этом действительно всё! Был рад эти статьи написать и раскрыть свою параноидальную сущность).
Еще позабавило:
И алюминий, он же — не тяжелый. 🤷♀️
Других моделей нет, так как лимит на генерацию на сегодня исчерпан (на всех двух аккаунтах)