Модели искусственного интеллекта (ИИ) и анонимность в Интернете

Иллюстративное изображение.

Согласно недавнему швейцарскому исследованию, модели искусственного интеллекта (ИИ) с легкостью деанонимизируют большинство анонимных (псевдонимных) аккаунтов в Интернете, просто выявляя взаимосвязи этих аккаунтов. Об этом пишет английское издание крупнейшей испанской газеты EL PAÍS 12 марта с.г., ссылаясь на данное исследование.

Процитируем:

«В эпоху развития технологии искусственного интеллекта поддерживать анонимность аккаунтов в социальных сетях будет сложнее. Группа исследователей собрала тысячи сообщений с анонимных форумов, таких как Hacker News и Reddit, и попросила несколько моделей ИИ идентифицировать их авторов. Ни для кого не стало неожиданностью, что языковые модели, такие как Gemini и ChatGPT, сделали за считанные минуты то, на что человеку потребовалось бы несколько часов, если бы им вообще удалось это сделать.

Согласно опубликованной научной статье, рассказывающей о результатах швейцарского исследования, которое мы рассматриваем здесь, модели ИИ идентифицировали 68 % анонимных пользователей с точностью 90 %, «по сравнению с почти 0 % для лучшего метода, не использующего LLM (напомним, LLM — Large Language Model, «большая языковая модель» — это тип ИИ на базе нейросетей, обученный на колоссальных объемах текстовых данных Прим. Green.obob.tv)». Наши результаты показывают, что практическая неопределенность, защищающая псевдонимных пользователей в Интернете, больше не работает, и что модели угроз для конфиденциальности в Интернете нуждаются в пересмотре», — делается вывод в швейцарском исследовании.

Раскрытие анонимности аккаунтов в Интернете. На первый взгляд, это может показаться всего лишь еще одной задачей, которую ИИ выполняет быстрее, чем люди,  но это имеет последствия для того, как работает Интернет в том виде, в каком мы его знаем. «Люди иногда выражают свое мнение через псевдонимные аккаунты, предполагая, что это мнение останется конфиденциальным», — говорит Даниэль Палека (Daniel Paleka), исследователь из (государственного) ETH Zurich (Eidgenössische Technische Hochschule Zürich, технического университета в Швейцарии) и один из соавторов рассматриваемого нами исследования. «Существование механизма для расследования или мониторинга с помощью больших языковых моделей, который позволяет нам просто спрашивать о убеждениях человека, его политических взглядах , неуверенности в себе или о чем-либо еще, что можно извлечь из его анонимного аккаунта на Reddit, например, может лишить многих людей сегодня возможности влиять на ситуацию», — добавляет он.

Для того чтобы повлиять на поведение человека, даже не обязательно теперь раскрывать его личные данные: ИИ уже способен выявлять множество личной информации из анонимных аккаунтов на форумах и в социальных сетях. Компания Anthropic (Anthropic  — американская технологическая компания в сфере искусственного интеллекта, основанная бывшими сотрудниками OpenAI, создатель семейства больших языковых моделей под общим названием Claude Прим. Green.obob.tv) и военное министерство США — Пентагон сейчас ведут судебный спор, который, помимо прочего, связан с планируемым администрацией президента США Трампа использованием ИИ для деанонимизации пользователей. В своем заявлении Министерству обороны, опубликованном до подачи иска, Anthropic указала, что одним из мотивов её отказа от сотрудничества с правительством США является именно эта способность ИИ: «В соответствии с действующим законодательством, правительство США может приобретать подробные записи о передвижениях американцев, их веб-серфинге и связях из открытых источников без получения ордера. Разведывательное сообщество признало, что эта практика вызывает опасения по поводу конфиденциальности и вызвала двухпартийные оппозиционные выступления в конгрессе Соединенных Штатов. Мощный ИИ позволяет автоматически и в огромных масштабах собирать эти разрозненные, по отдельности безобидные данные в целостную картину жизни любого человека», — говорится в заявлении компании.

Это (автоматический сбор и обработку искусственным интеллектом личных данных в огромных масштабах) легко сделать, при том что исследователи пока не изучали этот путь, говорит Даниэль Палека. «Хотя мы в исследовании не рассматриваем эту конкретную угрозу, модели ИИ могут предоставить хронологию жизни человека, если в Интернете достаточно информации о нем».

Исследователи работали с ограниченной базой данных из этических соображений и потому, что им нужно было знать, кто на самом деле стоит за комментариями на форуме. В качестве примера они выбрали профили пользователей Hacker News, связанные с профилями LinkedIn. Они анонимизировали их и передали искусственному интеллекту, попросив его искать биографические и личные данные с помощью таких запросов, как: «Какой кандидат является тем же человеком, что и в запросе? Учитывайте совпадающие характеристики, такие как местоположение, профессия, хобби, демографические данные и ценности. Совпадение должно иметь несколько отличительных черт, а не только одну или две общие».

Цифровой след, который оставляет большинство людей в Интернете, сложно отследить человеку, но не искусственному интеллекту. «Наши методы, если применять их для реальной деанонимизации, используют то, как люди раскрывают личные данные, которые также позволили бы человеку-следователю идентифицировать их. Разница в том, что большие языковые модели могут сделать это гораздо дешевле и быстрее», — говорит Палека. Интернет-пользователи, даже те, кто анонимен, до сих пор не задумывались об этом, находясь в сети. «Помните, что все, что вы публикуете, остается в Интернете и может стать целью будущих моделей ИИ», которые будут еще более эффективными, говорит Палека.

Искусственный интеллект ищет не только личные данные, прямо указанные самими пользователями. В рассматриваемом здесь швейцарском исследовании приводятся следующие данные в качестве примеров того, что может обнаружить ИИ за годы анализа комментариев некой пользовательницы, чья личность не раскрывается, являясь обобщенной. «Она живет в Нельсоне (Британская Колумбия, Канада), детская медсестра, женщина, замужем, имеет двух дочерей, владеет автомобилем Prius, одержима закваской для хлеба, играет в  компьютерную игру Stardew Valley, фанатка вебсериала Critical Role, поддерживает ядерную энергетику, страдает хроническим аутоиммунным заболеванием целиакией, играет на мандолине, прошла весь Тихоокеанский горный маршрут от начала до конца, не любит кинзу».

По словам Палеки, мы не имеем представления о деталях нашей частной жизни, которые оставляем в Интернете, — деталях, которые сложнее обнаружить, но которые быстро выявляет ИИ. Палека приводит пример, как ИИ выявил факты личности еще одной пользовательницы: «Она посещает берлинский сабреддит (сабреддит  — тематическое сообщество или форум внутри платформы Reddit, посвященное конкретной теме, хобби или интересам Прим. Green.obob.tv) и «использует британское правописание», а также «случайно написала «¿» в английском тексте», Палека поясняет: «Стилометрия (стилометрия — исследование стилистики письменного текста Прим. Green.obob.tv) была бы полезна для сопоставления двух онлайн-аккаунтов, принадлежащих одному и тому же человеку, но лично я склонен считать, что именно в раскрытии мелких реальных фактов кроется наибольшая опасность для конфиденциальности большинства людей».

Многие знали, что такое произойдет еще в 2023 и 2024 годах. Новизна рассматриваемого здесь швейцарского исследования заключается в количественных методах и используемых подходах изучения данного явления. «Неудивительно, что, когда языковые модели ИИ получили возможности поиска, они смогли деанонимизировать некоторых пользователей, особенно тех, кто сделал информацию о себе доступной для поиска. Несколько удивительно, насколько легко некоторые модели ИИ вовлекаются в подобное злонамеренное использование», — говорит Палека.

Тем не менее, крупные теневые фигуры Интернета пока в безопасности, но трудно сказать, как долго это продлится. «Я не верю, что сегодня модели ИИ могут надежно деанонимизировать человека, которого действительно трудно идентифицировать», — говорит Палека. И поясняет: «(предполагаемый создатель Биткойна) Сатоши Накамото пока в безопасности. Но будущем ИИ могут стать лучше в анализе информации на предмет выявления взаимосвязей людей в Интернете, и тогда баланс может измениться», — писала EL PAÍS English.

Иллюстративное изображение.

А что думаете вы? Оставляйте свои комментарии, участвуйте в обсуждениях на нашей странице ВКонтакте, делайте перепосты, ставьте лайки, подписывайтесь на рассылку и вступайте в группу!

Ваш комментарий будет первым

Leave a comment

Your email address will not be published.


*