Судьба «права на забвение» в эпоху искусственного интеллекта

15 июля 2023, 18:05 1376

«Право на забвение» (RTBF, Right To Be Forgotten, право быть забытым) - право человека на удаление своих персональных данных из выдачи поисковых систем. Но, похоже, с появлением искусственного интеллекта и больших языковых моделей это право исчезает.

В новом исследовании эксперты попытались оценить последствия растущей популярности больших языковых моделей (LLM) и сервисов на основе чат-ботов на право быть забытым (RTBF). Исследование было проведено аналитиками Data61 Business Unit - подразделения австралийского Национального научного агентства, специализирующегося на искусственном интеллекте, робототехнике и кибербезопасности. В итоге эксперты пришли к выводу, что технологии ИИ часто переходят границы, установленные существующей правовой базой.

Как это работает?

«Право на забвение» гарантируется различными национальными законами, которые не ограничиваются европейским GDPR (Общим регламентом по защите данных). Аналогичные или похожие законы существуют в Канаде (CCPA), Японии (APPI) и других странах.

Но, вне зависимости от страны, процедуры «права на забвение», как правило, разработаны с учетом поисковых систем. То есть, человек может обратиться в Google, Microsoft и другие технологические компании, и потребовать, чтобы ссылки на устаревшую или порочащую его информацию больше не появлялись в результатах поиска. В этом случае компании выявляют и удаляют эти данные из собственного поискового индекса.

Но, когда дело доходит до искусственного интеллекта и больших языковых моделей (LLM) всё становится намного сложнее. По мнению австралийских экспертов, алгоритмы, основанные на машинном обучении, работают сложнее, чем поисковые системы. Кроме того, выявление того, какие данные использовались для обучения ИИ, становится чрезвычайно сложной задачей.

В результате возникает парадоксальная ситуация. Поисковик может скрыть какую-то информацию о человеке. Но искусственный интеллект в ответ на правильный запрос выложит всё, что тот пытался скрыть.

Что с этим делать?

По словам исследователей, пользователи могут проверить, использовались ли их данные при обучении LLM только «путем проверки исходного набора учебных данных или». Но, по очевидным причинам, компании не торопятся раскрывать свой набор данных обучения. Ситуация усложняется и тем, что языковой ИИ не выдает данные целыми готовыми абзацами, а перекомпилирует их. Соответственно, установить происхождение той или иной информации в его «голове» крайне проблематично. Кроме того, чат-боты имеют возможность генерировать вымышленные ответы, называемые «галлюцинациями». Исследователи подчеркивают, что LLM хранят и обрабатывают информацию совершенно не так, как это делают поисковые системы.

Все это создает массу проблем для «права на забвение». Но важно отметить, что LLM вовсе не освобождаются от соблюдения прав конфиденциальности. Чтобы решить эту проблему, исследователи уже работают над различными техническими решениями для удаления данных из обучающих моделей ИИ.

Читайте также: Всё, что вы загрузите в интернет, будет использоваться для обучения ИИ

Крупные компании, в настоящее время работающие в отрасли LLM, также пытаются решить проблему. Так, OpenAI, создатель ChatGPT, уже предлагает пользователям форму запроса на удаление их персональных данных из ответов ChatGPT. но как именно рассматриваются и реализуются эти просьбы, пока неясно.

В общем, появление и бурное распространение искусственного интеллекта очень многое перевернуло с ног на голову, и нам еще только предстоит осознать результаты всего этого бардака.