Искусственный интеллект Facebook победил лучших игроков в покер

13 июля 2019, 0:36 3117

Мы привыкли, что компьютер может быть очень хорош в играх, связанных с логикой. Искусственный интеллект, побеждающий чемпионов в шахматы - не новость. Но вот в играх, где важную роль играют эмоции и блеф, машина еще не побеждала. Теперь и это ей под силу.

Искусственный интеллект под названием Pluribus, разработанный лабораторией Facebook AI при Университете Карнеги - Меллона, только что победил 12 лучших человеческих игроков в покер.

Игра длилась 12 дней. Всего было сыграно около 10 тысяч сдач. Искусственный интеллект противостоял 12 профессиональным игрокам в двух разных режимах. В первом режиме Pluribus играл против пяти человеческих игроков. Во втором - пять копий ИИ играли друг против друга и одного человека. В среднем, Pluribus выигрывал по $5 за раздачу и около $1 тыс. в час.

“Можно смело утверждать, что мы достигли сверхчеловеческого уровня игры, и это уже не изменится”, - говорит профессор Ноам Браун, один из разработчиков Pluribus.

“Pluribus - очень жесткий противник. Очень трудно подловить его, независимо от того, какие карты у тебя в руке”, - говорит Крис Фергюсон, шестикратный чемпион мира по покеру и один из тех, кому пришлось соперничать с ИИ.

Почему это важно?

В статье, опубликованной в журнале Science, ученые утверждают, что успех Pluribus - невероятно важное достижение в истории искусственного интеллекта. Машины уже превзошли человека в интеллектуальных и логических играх, вроде шахмат или “Го”. Они побеждают в компьютерных играх, требующих сочетания интеллекта и реакции, вроде Starcraft II и Dota. Но покер - нечто совершенно иное, особенно когда речь идет об игре с шестью игроками за столом.

Покер относится к классу “игр с неполной информацией”. В отличие от шахмат, где все фигуры на доске расположены открыто, правила покера предполагают, что игроки не знают карт соперников. Конечно, карты можно считать, но это позволяет лишь примерно прикинуть вероятность сдачи той или иной карты. Этого недостаточно. Особенно учитывая тот факт, что игроки намеренно блефуют, пытаясь ввести друг друга в заблуждение. А значит, знание правил и ведение статистики не гарантирует победы.

Несмотря на это, в 2015 году, играя с профессионалом один на один, компьютер смог победить. Но предсказать поведение пятерых человек одновременно ему пока было не по силам. То, что произошло сейчас - невероятный прорыв.

Как это работает?

Чтобы дать машине возможность бороться с несколькими людьми одновременно, профессор Браун и его коллега Туомас Сэндхолм из Университета Карнеги - Меллона использовали несколько новых стратегий.

Для начала, они научили Pluribus играть в покер, заставляя его играть против копий самого себя. Это - очень распространенная практика, которая позволяет обучать нейросети методом проб и ошибок. Также этот метод обучения работает очень быстро. Pluribus был создан всего за восемь дней на не самом мощном компьютере с 512 ГБ оперативной памяти. Стоимость такого компьютера составляет не более $150. Это мизер, в сравнении с другими современными ИИ, занимающими огромные сервера.

А затем ученые сделали нечто совершенно неожиданное - они ограничили свой ИИ. В результате, вместо того, чтобы пытаться прогнозировать действия шести игроков на много ходов вперед, Pluribus пытается угадывать, что они предпримут в ближайшие три хода. Оказывается, что для покера такой краткосрочной стратегии более чем достаточно.

По словам игроков-профессионалов, Pluribus приобрел потрясающую способность быть “предсказуемо непредсказуемым”. Непредсказуемость - фантастически важное качество при игре в покер. По словам профи, машина блефовала лучше, чем любой живой человек. Играя таким образом, ИИ не пытался разом сорвать банк, а понемножку вытягивал деньги из оппонентов, зарабатывая несколько долларов на каждой сдаче и всегда оставаясь в плюсе.

Тут важно отметить, что игра велась на компьютере. То есть, Pluribus не использовал никаких внешних систем для распознавания лиц или чтения эмоций игроков. Вероятно, способность следить за лицом противника дала бы ему огромное преимущество, но и этого не потребовалось для победы. Ведь человек - чертовски предсказуемая зверушка.

По словам профессора Брауна, мы привыкли воспринимать блеф как что-то, что может делать только эмоциональное живое существо. Но, как выясняется, даже для блефа можно выработать оптимальные математические стратегии. “ИИ не рассматривает блеф как обман. Он просто видит решение, которое принесет ему чуть больше выгоды в конкретной ситуации. ИИ может блефовать, и делает это лучше, чем любой человек”, - говорит Браун.

Что дальше?

Как мы знаем из опыта предыдущих побед искусственного интеллекта, люди тоже способны учиться у компьютеров. “Играя с ботом, я выношу для себя что-то новое, что улучшит мою игру”, - говорит профессиональный игрок Джимми Чоу. Так что, вероятно, стратегию, выработанную Pluribus, разберут и начнут применять живые игроки.

Также имеется вероятность, что “собратья” Pluribus найдут применение в реальном мире. Ведь покер - это всего лишь частный случай. В реальной жизни хватает ситуаций, которые включают нескольких “игроков”, много скрытой информации и многочисленные взаимовыгодные результаты. Так что, по словам Брауна и Сэндхолма, подобные ИИ могут найти применение в сферах кибербезопасности, экономике, финансовых переговорах и борьбе с мошенничеством.

Но можем ли мы теперь считать сам покер “взломанной” игрой? Профессор Браун не дает на этот вопрос прямого ответа. Но, по его словам, Pluribus - статическая программа. То есть, она не самообучалась по мере игры с профессионалами. Результат, который она продемонстрировала, является следствием изначального восьмидневного обучения. И всё же дюжина лучших игроков мира так и не смогла приспособиться и найти уязвимость в тактике Pluribus. С момента первой ставки искусственный интеллект играл лучше всех. На данный момент он непобедим.

Так стоит ли считать покер “взломанным”? Решать вам. Но автор этой статьи точно больше не сядет за покерный стол, если только не будет уверен, что все его противники состоят из плоти и крови.