Несмотря на громкие заявления о возможностях искусственного интеллекта, ведущие чат-боты мира до сих пор не способны давать адекватные финансовые рекомендации.
Исследователи Гэри Смит, Валентина Либерман и Исаак Варшав из Walter Bradley Center for Natural and Artificial Intelligence проверили способности четырех крупнейших языковых моделей — ChatGPT-4o от OpenAI, DeepSeek-V2, Grok 3 Beta от Илона Маска и Gemini 2 от Google. Они задали каждому боту 12 вопросов на финансовую тематику.
Результаты показали: все модели отвечали пространно, но нередко ошибались. Как отмечают авторы исследования, это подтверждает выводы предыдущей работы Смита для Journal of Financial Planning в прошлом году. Тогда тестирование ChatGPT 3.5, Bing с интеграцией GPT-4 и Bard от Google выявило аналогичные проблемы — грамматически правильные и уверенные на вид ответы содержали арифметические ошибки и ошибки в логике.
Оценка качества
Оценка качества ответов велась по простой шкале: 0 баллов за полностью неверный анализ, 0,5 — за верный анализ с математическими ошибками, и 1 — за безошибочные решения. Максимальный возможный результат составлял 12 баллов. Лучший результат показал ChatGPT — 5 баллов. За ним следовали DeepSeek (4 балла), Grok (3 балла) и Gemini (1,5 балла).
Некоторые ошибки оказались особенно грубыми. Так, Grok, складывая расходы на аренду недвижимости на Карибах ($3700 за аренду и $200 за коммунальные услуги), выдал сумму $4900 вместо правильных $3900.
Кроме того, исследование показало, что чат-боты плохо справляются даже с относительно простыми финансовыми задачами. Их наиболее удачные ответы, по мнению авторов работы, выглядели как пересказ материалов из открытых источников, особенно когда речь шла о базовых понятиях вроде устройства пенсионных счетов.
Отдельно подчеркивается, что стиль общения ИИ — дружелюбный и уверенный — может вводить пользователей в заблуждение, создавая иллюзию компетентности.
"Реальная опасность заключается не в том, что компьютеры умнее нас, а в том, что мы считаем их умнее и доверяем им принимать решения, которых доверять им не следует", — заключают исследователи.