Искусственный интеллект DeepMind побеждает в играх, не зная их правил / Все новости / Главная

В 2016 году компания DeepMind представила искусственный интеллект AlphaGo, который последовательно обыграл лучших человеческих игроков в Го. Через год был создан AlphaGo Zero, который оказался еще мощнее своего предшественника. Всё потому, что первый AlphaGo учился играть в Го, наблюдая любительские и профессиональные матчи людей, а новый AlphaGo Zero тренировался, проводя многочисленные партии против самого себя.

Чуть позже DeepMind научила AlphaGo Zero играть в шахматы и японскую настольную игру сёги, используя тот же принцип обучения в игре против самого себя. Но все эти алгоритмы имели ко-что общее. В начале тренировок искусственный интеллект был ознакомлен с правилами игры. Теперь правила не нужны. 

DeepMind представила новый искусственный интеллект MuZero, которому вообще ничего не нужно объяснять. Он разбирается в правилах игры сам, по ходу действия. Таким образом MuZero уже разобрался в го, сёги, шахматах и нескольких играх от Atari. Теперь машина играет в них лучше, чем любая из версий AlphaGo, и намного лучше, чем любой живой человек.

Самообучение без правил

Создание алгоритма, который может адаптироваться к ситуации, не зная всех правил, было давней мечтой разработчиков. MuZero последовательно пытается решать проблему, используя подход, называемый поиском. С помощью этого метода алгоритм рассматривает будущие состояния для планирования своих действий. 

Это немного напоминает то, как человек играет в виртуальную стратегию или шахматы. Прежде чем сделать ход, игрок думает, как на него отреагирует противник, и планирует свои действия соответствующим образом. 

MuZero точно так же пытается планировать свои действия на несколько ходов. Но поскольку даже в шахматах невозможно предусмотреть каждое возможное будущее состояние доски, ИИ расставляет приоритеты таким образом, чтобы выбирать ходы, которые наиболее вероятно ведут к победе. Поскольку в сложных ситуациях просто невозможно учитывать все факторы, ИИ учитывает лишь то что важно для принятия решения. И это по-настоящему роднит MuZero с человеческим интеллектом.

По словам исследователей DeepMind, живой человек ведет себя аналогичным образом. Когда вы смотрите в окно и видите грозовые облака на горизонте, вы не учитываете такие факторы, как влажность и фронты атмосферного давления. Одного вида сгущающихся туч достаточно, чтобы сделать достоверный прогноз о возможном дожде. Потому вместо углубления в анализ человек начинает думать о том, как ему следует одеваться, чтобы остаться сухим. 

MuZero действует аналогично. Он учитывает всего три фактора, по которым принимает решение. Это итоги предыдущего решения, нынешняя позиция, и наилучший курс действий для принятия следующего решения. На первый взгляд, это простой и очевидный подход. Но прост и очевиден он лишь для человека. Для искусственного интеллекта это - прорыв, который делает MuZero самым эффективным самообучающимся алгоритмом, существующим на сегодняшний день.

Тесты показали, что MuZero не уступает AlphaZero в шахматах, го и сёги, а в играх Atari он превосходит любые другие алгоритмы. Чем больше времени вы дадите MuZero на размышления, тем эффективнее будут его действия. Но даже при искусственном ограничении времени на расчеты алгоритм оказывается поразительно эффективным. 

Почему это важно?

Потому что MuZero ближе всех подобрался к званию “алгоритма общего назначения”. В реальном мире ничто и никогда не идет по правилам. И даже самое “правильное” поле боя никогда не напоминает шахматную доску. Если вы хотите использовать искусственный интеллект для решения реальных задач в реальной жизни, он должен уметь приспосабливаться к меняющейся обстановке и принимать эффективные решения на основании ограниченных данных. Именно этим и занимается MuZero.

Представители DeepMind утверждают, что однажды MuZero или подобный ему ИИ сможет помогать ученым решать сложные проблемы в областях где не существует простых правил. Это может быть разработка продвинутой робототехники, создание лекарств, управление различной техникой и многое другое. Алгоритм общего назначения называется так именно потому, что представляет собой универсальное решение. Куда бы вы не загрузили такой ИИ, он должен справиться с задачей наилучшим образом.

 

Если хотите получать новости через мессенджер, подписывайтесь на Telegram-канал iGate

Похожие новости
Комментарии

comments powered by Disqus
Мы в социальных сетях: