Искусственный интеллект крайне уязвим к дезинформации

10 января 2025, 17:35 543

Новое исследование Нью-Йоркского университета подчеркивает критическую проблему: большие языковые модели (LLM) легко поддаются влиянию дезинформации. Ученые обнаружили, что даже минимальное количество ложных данных в обучающем наборе может привести к распространению неточной информации, особенно в чувствительных областях, таких как медицина.

В рамках исследования, посвященного медицинским данным, выяснилось, что дезинформация, составляющая всего 0,001% обучающего материала, способна существенно изменить поведение языковой модели. Это вызывает опасения не только из-за возможных намеренных атак, но и из-за обилия ложных данных, уже присутствующих в интернете и случайно попадающих в обучающие наборы LLM.

Капля лжи

Эксперименты проводились на базе The Pile — широко используемой базы данных для обучения языковых моделей. Исследователи сосредоточились на трех медицинских областях: общей медицине, нейрохирургии и медикаментах, выбрав 20 тем из каждой категории (всего 60 тем). В базе данных The Pile содержалось более 14 миллионов упоминаний этих тем, что составляло около 4,5% от всех документов.

Для проверки влияния дезинформации ученые использовали GPT-3.5, чтобы создать «качественную» медицинскую дезинформацию, которую затем добавили в измененные версии The Pile. В некоторых версиях дезинформация составляла 0,5% или 1% от информации по отдельным темам.

Результаты оказались тревожными. Языковые модели, обученные на таких наборах данных, не только чаще генерировали ложную информацию по целевым темам, но и распространяли вредоносный контент на другие медицинские темы.

Даже при снижении доли дезинформации до 0,001% более 7% ответов, сгенерированных языковой моделью, содержали ошибки. Это особенно опасно, учитывая, насколько легко ложные данные могут попасть в обучающие наборы.

Уязвимость к манипуляциям

Ученые отметили, что атака на модель с 70 миллиардами параметров, такую как LLaMA 2, обученную на 2 триллионах токенов, потребовала бы всего 40 000 статей, что обошлось бы менее чем в $100. Это демонстрирует, насколько доступна манипуляция языковыми моделями для злоумышленников.

Стандартные тесты на производительность медицинских языковых моделей не смогли выявить изменения. «Компрометированные модели показывали результаты, сопоставимые с контрольными, по всем пяти медицинским тестам», — заявили исследователи. Это усложняет задачу обеспечения надежности медицинской информации, создаваемой ИИ.

Попытки улучшить модели после обучения, такие как использование методов инженерии запросов и донастройки инструкций, оказались малоэффективными.

Однако команда разработала потенциальное решение: алгоритм, распознающий медицинскую терминологию в ответах модели и сверяющий её с валидированной биомедицинской базой знаний. Хотя метод пока несовершенен, он показал высокую эффективность в выявлении медицинской дезинформации и может стать важным шагом в создании надежных медицинских LLM.

Читайте также: Meta планирует наполнить Facebook и Instagram ботами с искусственным интеллектом

Исследователи также указали на проблему случайного «заражения» данных из-за обилия дезинформации в интернете. По мере интеграции LLM в поисковые системы риск распространения ложной информации среди широкой аудитории увеличивается.

Кроме того, даже специализированные медицинские базы данных, такие как PubMed, не застрахованы от дезинформации. В медицинской литературе встречаются устаревшие методы лечения и диагностики, которые были заменены более обоснованными подходами.

Это исследование подчёркивает необходимость разработки методов проверки и защиты языковых моделей, особенно в таких критически важных областях, как медицина.