Google AI Overview ошибается в каждом десятом случае

2 часа назад 171

Несмотря на постоянные улучшения, AI-обзоры Google, которые теперь показываются по умолчанию в поиске, всё ещё содержат значительное количество ошибок. По оценкам, примерно один из десяти таких обзоров включает ложную информацию. Учитывая, что поисковик обрабатывает около 5 триллионов запросов в год, пользователи могут сталкиваться с более чем 57 миллионами неточных ответов каждый час — почти миллион в минуту.

Стартап Oumi по просьбе The New York Times проанализировал более 4300 поисковых запросов с помощью бенчмарка SimpleQA. В октябре Gemini версии 2 давал правильные обзоры в 85 % случаев. К февралю Gemini 3 улучшил результат до 91 %. Однако даже после обновления расхождения между AI-обзорами и источниками, на которые они ссылаются, выросли с 37 % до 56 %.

В некоторых случаях неправильный обзор сопровождался ссылкой на верную информацию, в других — точный обзор ссылался на неверный источник, а иногда ссылки вообще не содержали релевантных данных. Кроме того, обзоры оказались уязвимы к манипуляциям: журналист BBC опубликовал ложную информацию в блоге, и уже на следующий день Google повторил эти утверждения.

Представитель компании назвал тестирование Oumi некорректным и не отражающим реальное поведение пользователей. По внутренним данным Google, Gemini 3, работающий независимо от поиска, «галлюцинирует» в 28 % случаев. Тем не менее, компания рекомендует пользователям всегда перепроверять ответы.

Читайте также: ИИ вместо радиологов: глава крупнейшей больницы Нью-Йорка готов заменить врачей искусственным интеллектом

Аналогичную осторожность проявляют и другие разработчики: Microsoft прямо указывает в условиях использования Copilot, что инструмент предназначен для развлечения, а не для важных решений, а xAI признаёт возможность галлюцинаций.