Новое исследование Нью-Йоркского университета подчеркивает критическую проблему: большие языковые модели (LLM) легко поддаются влиянию дезинформации. Ученые обнаружили, что даже минимальное количество ложных данных в обучающем наборе может привести к распространению неточной информации, особенно в чувствительных областях, таких как медицина.
В рамках исследования, посвященного медицинским данным, выяснилось, что дезинформация, составляющая всего 0,001% обучающего материала, способна существенно изменить поведение языковой модели. Это вызывает опасения не только из-за возможных намеренных атак, но и из-за обилия ложных данных, уже присутствующих в интернете и случайно попадающих в обучающие наборы LLM.
Капля лжи
Эксперименты проводились на базе The Pile — широко используемой базы данных для обучения языковых моделей. Исследователи сосредоточились на трех медицинских областях: общей медицине, нейрохирургии и медикаментах, выбрав 20 тем из каждой категории (всего 60 тем). В базе данных The Pile содержалось более 14 миллионов упоминаний этих тем, что составляло около 4,5% от всех документов.
Для проверки влияния дезинформации ученые использовали GPT-3.5, чтобы создать «качественную» медицинскую дезинформацию, которую затем добавили в измененные версии The Pile. В некоторых версиях дезинформация составляла 0,5% или 1% от информации по отдельным темам.
Результаты оказались тревожными. Языковые модели, обученные на таких наборах данных, не только чаще генерировали ложную информацию по целевым темам, но и распространяли вредоносный контент на другие медицинские темы.
Даже при снижении доли дезинформации до 0,001% более 7% ответов, сгенерированных языковой моделью, содержали ошибки. Это особенно опасно, учитывая, насколько легко ложные данные могут попасть в обучающие наборы.
Уязвимость к манипуляциям
Ученые отметили, что атака на модель с 70 миллиардами параметров, такую как LLaMA 2, обученную на 2 триллионах токенов, потребовала бы всего 40 000 статей, что обошлось бы менее чем в $100. Это демонстрирует, насколько доступна манипуляция языковыми моделями для злоумышленников.
Стандартные тесты на производительность медицинских языковых моделей не смогли выявить изменения. «Компрометированные модели показывали результаты, сопоставимые с контрольными, по всем пяти медицинским тестам», — заявили исследователи. Это усложняет задачу обеспечения надежности медицинской информации, создаваемой ИИ.
Попытки улучшить модели после обучения, такие как использование методов инженерии запросов и донастройки инструкций, оказались малоэффективными.
Однако команда разработала потенциальное решение: алгоритм, распознающий медицинскую терминологию в ответах модели и сверяющий её с валидированной биомедицинской базой знаний. Хотя метод пока несовершенен, он показал высокую эффективность в выявлении медицинской дезинформации и может стать важным шагом в создании надежных медицинских LLM.
Исследователи также указали на проблему случайного «заражения» данных из-за обилия дезинформации в интернете. По мере интеграции LLM в поисковые системы риск распространения ложной информации среди широкой аудитории увеличивается.
Кроме того, даже специализированные медицинские базы данных, такие как PubMed, не застрахованы от дезинформации. В медицинской литературе встречаются устаревшие методы лечения и диагностики, которые были заменены более обоснованными подходами.
Это исследование подчёркивает необходимость разработки методов проверки и защиты языковых моделей, особенно в таких критически важных областях, как медицина.