Статьи Ужасы нейронных сетей. Часть 2: На каких ваших данных обучаются нейросети

Ужасы нейронных сетей. Часть 2: На каких ваших данных обучаются нейросети

ithitym

8 февраля 2025, 23:22

ИИ прочно вошёл в нашу жизнь. С помощью него мы ищем информацию, пытаемся вспомнить забытое произведение, генерируем картинки или просто общаемся. А вы задумывались, как он стал таким умным? В этой статье рассмотрим, откуда они берут данные и какие последствия они за это несут.

Как следует из названия, это вторая часть. Если ещё не видели первую, рекомендую с ней ознакомиться. Напомню, что в ней мы поговорили о типах лицензии, откуда берутся данные для обучения ИИ, кому принадлежит право на сгенерированный контент и о любопытном случае с бесправной обезьяной. Теперь же рассмотрим, какие ваши данные собирают такие гиганты, как Google и OpenAI, для обучения нейросетей и чем это может грозить.

Предисловие

Промт был «Суд между художниками и нейросетями». Примечательно, что художник всего один, а нейросетей уйма

Наткнулся на интересное судебное разбирательство, известное как «Andersen v. Stability AI», в котором художники (включая и Сару Андерсен) подали иск против Stability AI, Midjourney и DeviantArt (по ходу дела какие-то нейронки убирались, какие-то добавлялись). Так как тяжбы ещё продолжаются, не видел смысла сильно на этом акцентировать внимание. Но если интересно, то со всеми юридическими документами и кратким описанием всех важных поворотов в этом деле можете ознакомиться тут.

Изображение, которое было сгенерировано Stability AI в конце 2022 года. Он не идеален, но общий стиль с комиксами Сары, прослеживается

И ещё одно небольшое (действительно небольшое) отступление.

Некоторые могут сказать: «Пиратство было всегда! Раньше тоже копировали стиль авторов и продавали втридорога», на что отвечаю. Да, всегда были люди, которые копировали стиль другого автора, но они тоже были авторами. Когда копирует другой человек, он всё равно привносит крупицы своей сущности, будь то длина волос, причёска или ширина линий (как в случае с карикатурами на основе работ Сары Андерсен). Порой, даже написав идеальные подделки, он может запомниться в истории. Как например Ван Мегерен.

Но ИИ не может сознательно создать что-то. Это просто алгоритм. Запертый робот в китайской комнате. Он не знает ни одного языка, кроме математического. Получает в окошке запрос и отправляет на выход результат вычислений, который получился в следствии запутанных инструкций. Всё. Он не может по-настоящему думать, не может чувствовать. Не может свои ощущения передать в тексте или на холсте. Это инструмент, но никак не творец (для более детального разбора процесса обучения ИИ очень советую ролик Шарифова на эту тему).

Теперь когда с этим разобрались, можем наконец начать статью.

Большое Число следит за тобой

Поговорим о том, как компании используют наши данные для обучения своих моделей. Начнём, пожалуй, с Google.

По состоянию на 2024 год около 70% людей, владеющих смартфонами, предпочитают Android-девайсы. Мы сохраняем пароли в аккаунте Гугл, проставляем маршруты на Гугл Картах, смотрим и комментируем видео на Ютубе. Даже для обозначения поиска через интернет придумали новый термин — «гуглить». Настолько его сервисы «въелись» в нашу жизнь. Google имеет одну из наиболее обширных баз данных о нас. Кстати, можно запросить экспорт своих данных, чтоб узнать, сколько терабайтов информации о вас накопилось у техно-гиганта.

Но как компания ими распоряжается? Об этом можно прочесть в Лицензионном соглашении и Политике конфиденциальности — куче текста, с которой все соглашаются, не читая. Даже факт использования сервисов «Гугл» означает согласие с написанным в этом документе.

Вот что написано в Политике конфиденциальности (смог найти нужные пункты, только запросив PDF-версию файла).

Мы можем собирать информацию, находящуюся в публичном доступе, чтобы
применять ее при обучении моделей искусственного интеллекта от Google и
развивать такие сервисы и функции, как Google Переводчик, приложения Gemini и
возможности Google Cloud, связанные с использованием AI. Если информация о
компании отображается на сайте, мы можем индексировать ее и показывать в
сервисах Google.

— Политика конфиденциальности

Какая именно информация находится в публичном доступе? Например, видео и комментарии на «Ютубе» (которые имеют открытый доступ), отзывы на «Гугл Картах» и «Плей Маркете», записи в блоге и т. д. Иными словами, всё, что не приколочено гвоздями приватности. Посмотреть, какие сервисы Google вы использовали и в каком объёме, можно тут. По ссылке можно найти список всех когда-либо установленных приложений, отзывы и сохранённые места на Картах, письма на почте, фото, задачи, данные на «Гугл Диске» и прочее. Я, например, с удивлением узнал, что более 6 лет назад делал пару записей в Blogger (даже успел забыть, что этот сервис существует).

ИИ наглядно показывает как данные преображаются в мозг нейросети. Ну или в дерево

Если вы посмотрели и ужаснулись, настоятельно рекомендую потратить 10 минут для изменения настроек конфиденциальности, чтоб утекающий водопад ваших данных превратился в небольшой ручеёк. Полностью перекрыть «кран» можно, только если не пользоваться ничем, где есть хоть строчка кода, принадлежащая Google. А в идеале — пересесть на луковицу (кто понял, тот понял).

Не пойман — не вор

Теперь перейдём к OpenAI. В последнее время многие начали использовать продукты этой компании для своих целей. Одни воспринимают её как удобную замену Гуглу, другим нравится с ней беседовать, а третьим — создавать картинки, подобные этой.

Да, использовал картинку из предыдущего поста. И что вы мне сделаете? Я в другом городе живу

И не мудрено, что она получила такую популярность. Ведь выдача ChatGPT, по личному мнению, в разы лучше, чем у Copilot. Но как она этого добилась, ведь должны же были исчерпаться свободные клочки информации, разбросанные по интернету. А они и исчерпались. По крайней мере, авторитетные и англоязычные. Потому что, несмотря на неисчислимое количество пользовательского контента на Reddit или X, компании скованы всякими законами и прочими бумажками. Благодаря этому сдерживающему фактору, они не могут внаглую забрать ваш арт для обучения нейросети (за исключением тех случаев, когда могут). Поэтому они идут на разные ухищрения и ищут лазейки в законах.

Об этом заявило издание The New York Times в своём расследовании.

В нём также говорится, что одна из крупных компаний совещалась о сборе работ, защищённых авторским правом. Они рассматривали возможность использования данных со всего интернета, даже если это может повлечь судебные иски. Так как, по их словам, переговоры о лицензиях с издателями, художниками, музыкантами и новостными изданиями займут слишком много времени.

Но вот что много времени не заняло, так это партнёрство OpenAI и Google с Reddit. Ресурс предоставляет контент посредством своего API, а те в свою очередь привносят ИИ-фишки на площадку. Одной из них является Reddit Answers: чат-бот, призванный облегчить поиск информации на платформе.

В статье The New York Times также рассказывается, как OpenAI при помощи созданного инструмента распознавания речи транскрибировала аудио из более чем миллиона часов видео с «Ютуба» (это подтвердили разные источники внутри компании). Расшифрованный текст она «скормила» GPT-4. К слову, после этого Гугл изменил условия, и теперь можно самим давать согласие на обучение сторонних нейросетей посредством ваших видео. По умолчанию всё запрещено, но если хотите разрешить, то следуйте этой официальной инструкции.

По некоторым сведениям, Гугл не остановила OpenAI, так как сама использовала расшифровки видео для обучения своей модели.

Само издание тоже пострадало от действий нейросети. Так, 27 декабря 2023 года The New York Times подала жалобу против Microsoft и OpenAI, утверждая, что миллионы авторских прав были прямо или косвенно нарушены из-за включения их статей в базы данных, на которых были обучены ChatGPT и Microsoft Copilot. Позже дело объединили с исками от других медиа, включая Center for Investigative Reporting. Прения до сих пор идут, так что пока рано делать выводы. Ознакомиться со всеми этапами разбирательств и документацией можно по ссылке.

Пострадали не только контентмейкеры, но и сами пользователи сервисов OpenAI. Так, в прошлом году компания была оштрафована на 15 000 000 евро за использование персональных данных пользователей для обучения ChatGPT без уведомления и разрешения самих пользователей, сообщает издание Reuters.

Горшочек, не ешь!

Вы могли спросить: «А разве не многовато ли данных они поглощают? Когда они наконец „наедятся» информацией и перестанут её поглощать?». Ответ: никогда. По крайней мере, сами компании не намерены сбавлять обороты.

В 2020 году Джаред Каплан, физик-теоретик из Университета Джона Хопкинса, опубликовал новаторскую статью «Scaling Laws for Neural Language Models», которая вызвала большой интерес. В ней он подробно исследовал, как от размера модели и вычислительных мощностей зависит конечный результат. Если вкратце: чем больше — тем лучше. Чем больше информации впитывают модели — тем лучше у них вывод.

Именно с 2020 года и начался бум нейросетей (в расследовании NYTimes, приведённом выше, есть инфографика, рекомендую ознакомиться). Поэтому после исчерпания проверенных и достоверных источников все принялись хвататься за любые данные, произведённые людьми.

Выводы

Нейросети обучаются на ваших видео, комментариях, постах и даже фото, если владелец площадки, где всё это размещено, не против сотрудничества с ними. Если не хотите, чтобы ваши данные были скормлены ИИ, — читайте лицензионное соглашение в сервисах, в которых публикуете контент (но и это не всегда спасает).

В следующей статье разберём, почему опасно делиться с чат-ботом конфиденциальной информацией и какую угрозу это несёт.

Послесловие

Надеюсь, что в следующей серии уже доберусь до самого интересного. А то приступаю за написание и нахожу много материала по теме, от чего вступительный подзаголовок разрастается в полноценный пост. Попытался более кратко обо всём рассказать, но не уверен, получилось ли интересно. Если дочитали до этого момента, поделитесь мнением о статье. О чём бы вы хотели, чтоб рассказал, или где я чего недоглядел. Любая информация извне будет важна. Ну а на этом я с вами прощаюсь. До следующей статьи!

Пост создан пользователем

Каждый может создавать посты на VGTimes, это очень просто - попробуйте!

Статьи нейросети пользовательский контент

Комментарии17

Оставить комментарий

ithitym

7 месяцев

Эта часть меньше предыдущей, но тоже интересна. Постарался больше юмора добавить, вроде получилось неплохо

Ответить

Комментарий скрыт

ithitym

7 месяцев

Спасибо. Хоть эта часть и слабее первой, следующие обещают быть в разы интереснее, потому что приближаюсь к тому, ради чего всё и затевалось

Ответить

д.Руфус

7 месяцев

статья напомнила одного мандарина
..точно не с помошью ии писана?

Ответить

ithitym

7 месяцев

Точно. ИИ использовал лишь чтоб найти интересные источники и уже по ним смотрел. А, ну и для нейромазни тоже. Может проблема в том, что англоязычные источники читал через встроенный переводчик в Эдже, поэтому пару фраз которые вставил из переведённого текста (всё остальное пропущено через внутричерепную нейросеть), могут выглядеть синтетически. Например один из немногих оборотов речи которые с англоязычных статей позаимствованы, это "миллионы авторских прав были прямо или косвенно нарушены из-за включения"

Ответить

д.Руфус

7 месяцев

поэтому "словцы" нейронки и не проваривают, по ним легче отличить люд
но скоро весна и обострения станут чаще, такие расширенные статьи опасны

Ответить

Father

7 месяцев

Спрос рождает предложение, вы сами вокруг себя создаёте информационный шум. Или процитирую " Вы рабы своих вещей "

Ответить

Ada_

7 месяцев

Уже вторая статья серии, и ни в одной ни одного ужаса))))))

Только кликбейтные заголовки))))

Ответить

ithitym

7 месяцев

Хех, почему же? Как раз наоборот
Я и начал с лайтовых, чтоб медленно погрузить читателя в тему. А то если с порога начну показывать сложные графики и про шифрования вещать — читатель может не разобраться и просто закрыть статью.
И в этих двух частях есть ужасы
Первая посвящена авторским правам (а это для авторов, тот ещё ужас), а вторая — данным пользователей которые тоже скармливается прожорливому механизму

Ответить

Ada_

7 месяцев

Если в заголовке указаны "ужасы нейросетей", то открывая статью, читатель должен именнно их и видеть)))))

А не какую-то седьмую воду на киселе и оправдание мол "в третьей части ужасы точно будут"))))))

Представьте что в ремейке второго Resident Evil вы бы три-пять учились управлять персонажем и пользоваться инвертарём, а только потом встретили бы первого зомби)))))

А вам бы в это время рассказывали, как главгероиня обучалась в колледже, и как Амбрелла к успеху шла, производя шампуни и прочее)))))))

Или если бы в первом мёртвом космосе мы часа три-пять в начале игры проводили бы на мирно работающей Ишимуре до инцидента, добывая руду, обучаясь пользоваться компасом и резаком)))))

И только после этого бы в первый раз видели ксеноморфа))))))))

Ответить

ithitym

7 месяцев

Название части вполне соответствует содержимому. Не все люди знают как они устроены и на каких данных обучаются. В первой части больше времени уделил авторскому праву, прошёлся по лицензионным соглашениям (потому что считаю эти документы довольно важными) и упомянул возможность воссоздать данные которые были использованы при обучении.

В этой статье больше уделил внимание тому, какие данные пользователей и контент-мейкеров используется для обучения (как и написано в заголовке). Плюс привёл ссылку на одно исследование и рассказал о быстром росте ИИ начиная с 2020 года

Но спасибо за аргументированную критику. Учту её при написании следующего поста

Ответить

Алисия Степс

7 месяцев

Нытье одно. Без сбора данных не было бы и этих "нейросетей", не было бы приложений. Без сбора большого количества данных невозможно создавать новое. Вой на вое, прекращайте, идите жить в пещеру и питайтесь птичьим кормом.

p.s Поражает еще ваш заголовок — "УЖАСЫ", боже кошмар то какой! Откуда же он стал "умным" ? А как без вашего ужасающего сбора данных создать что-то умное? Ну давайте вернемся к чатгпт 1.0 (имею ввиду версию конца 2022 года, когда еще взлета не было — удалось застать время) где он отвечает настолько примитивно, что тут даже сегодняшний зацензурированный Copilot писается от смеха.

Ответить

ithitym

7 месяцев

Да, вы правы. Без сбора данных таких масштабов, ИИ был бы примитивен и годным лишь в узкоспециализированных областях (например во всяких лабораториях, обученный на их внутренней документации). Для многих людей, нейросети — это прорывная и очень полезная штука, несущая в мир свет и добро. Но я отношусь к ним скептически. Это технология и как и любая другая, может быть использована во вред.

Одно дело, если бы они хорошо заботились о данных пользователей и не использовали бы в датасетах для обучений — контент с авторскими правами. Сотрудничество с Reddit — отличный пример, когда "и вашим и нашим", все довольны и в плюсе. Но если вы за то чтоб нейросети обучались на ваших данных, где грань того, какую информацию может использовать, а какую нет? Например личные заметки или Word документы сохранённые в облаке, может использовать или это перебор?

Ответить

Алисия Степс

7 месяцев

Например личные заметки или Word документы сохранённые в облаке, может использовать или это перебор?

Лично пока не встречались такие новости, где паук залез в личные документы, если это облако типа Google Диска, то вряд ли оттуда что-то тащат априори, никто ведь не мешает поставить пароль на папку\документы? У вас есть доказательства таких инцидентов?

Ответить

ithitym

7 месяцев

Это был гиперболизированный пример. Сама Майкрософт отрицает использование данных из этих источников. Это заявление было сделано на фоне обнаруженной функции "connected experiences" включённой по умолчании. Из за чего люди сами додумали что под этим подразумевается. Сама Майкрософт на удивление хорошо обращается с пользовательскими данными и почти не имеет конфликтов связанных с обучением ИИ

Ответить

Комментарий скрыт

ithitym

7 месяцев

Хам_хам приди
Порядок наведи

Ответить

MrProRock(33RU)

7 месяцев

Вот так постоянно, его нет и дичь начинается

Ответить

ithitym

7 месяцев

Имеем, не ценим
потерявши — плачем
Он ещё и модерирует пользовательские посты, так что действительно много всего делает

Ответить