Студенты Университета Британской Колумбии (University of British Columbia) создали робота, который освоил аэрохоккей исключительно в виртуальной среде — и сразу после переноса в реальный мир начал успешно играть против людей. Никаких тысяч пробных партий на настоящем столе, никаких поломок оборудования во время обучения. Вся «практика» прошла в цифровом двойнике.

Обычно обучение роботов сложным физическим навыкам происходит методом проб и ошибок в реальном мире. Это долго, дорого и часто приводит к повреждению оборудования. Команда UBC решила пойти другим путём: они создали максимально точный цифровой двойник аэрохоккейного стола и обучили ИИ именно в нём.
Чтобы симуляция не была «слишком идеальной» (что часто становится проблемой при переносе в реальность), разработчики применили технику domain randomization — намеренно добавляли в виртуальную среду «дефекты» реального мира: неровные бортики, деформированную поверхность, непредсказуемые отскоки, просадки напряжения, задержки камеры и вибрации. Благодаря этому робот учился не точному расчёту траектории, а вероятностному прогнозированию: «шайба скорее всего окажется примерно здесь».
Для ускорения обучения отказались от стандартных физических движков (Unity, Unreal) и использовали метод soft actor critic — разновидность обучения с подкреплением, где агент получает награды или наказания в зависимости от результата. За миллионы симулированных игр ИИ научился адаптироваться к хаосу игры.
В реальной установке роботу помогает потолочная камера и шайба, покрытая светоотражающей лентой — это позволяет отслеживать её положение с частотой 120 кадров в секунду.
После переноса обученной модели на физического робота он сразу начал успешно играть против людей. Несмотря на отсутствие реального опыта, ИИ справлялся с высокой скоростью шайбы, непредсказуемыми отскоками и задержками системы. Ошибки, которые обычно губительны в аэрохоккее, робот научился компенсировать благодаря «привычке» к неидеальным условиям.
Разработчики отмечают, что их подход может ускорить обучение других автономных систем — дронов, роботов-манипуляторов, беспилотных автомобилей. Если сложные физические навыки можно надёжно переносить из симуляции в реальность, это радикально сократит время и стоимость разработки.
Проект уже выложен в открытый доступ на GitHub, и команда надеется, что метод domain randomization в сочетании с эффективными алгоритмами обучения с подкреплением найдёт применение в самых разных областях робототехники.
