Компания-разработчик роботов 1X выпустила видеоролик, на котором группа мобильных роботов-пылесосов плавно переходит от одной простой задачи к другой, убирая офисное помещение и выполняя голосовые команды пользователей.
Многозадачные роботы-гуманоиды
Компания Halodi Robotics, основанная в 2014 году, изначально разрабатывала универсальных роботов для совместной работы с людьми. В 2019 году компания открыла второй офис в Калифорнии, где впервые представила прототип колесного робота-гуманоида по имени Eve.
В 2022 году Halodi сменила название на 1X и объединила усилия с разработчиком искусственного интеллекта OpenAI. Хотя компания также разрабатывает двуногого робота и человекоподобные руки, основное внимание сейчас уделяется обучению робота Eve полезным навыкам для работы в офисе. Роботы будут понимать естественный язык и окружающее пространство, выполняя реальные задачи.
1X сообщает о создании голосового интерфейса, позволяющего пользователям управлять несколькими роботами с помощью естественных голосовых команд. Роботы при этом объединяют набор выученных действий для выполнения сложных задач.
Комплексная модель
В марте компания заявила о разработке автономной модели, объединяющей множество отдельных задач в единую модель поведения ИИ, включая выгрузку продуктов из сумки и определение места их хранения, уборку разлитой жидкости и складывание одежды.
В 1X отмечают, что улучшение выполнения одной задачи в рамках небольшой многозадачной модели может негативно повлиять на выполнение других задач. Решить эту проблему можно было бы увеличением количества параметров, но это приводит к увеличению времени обучения и замедлению разработки.
Вместо этого, внедрение голосового интерфейса на естественном языке позволяет операторам "объединять краткосрочные возможности нескольких небольших моделей в более длительные". Затем эти однозадачные модели могут быть объединены в модели с обусловленными целями по мере разработки единой модели для автоматизации действий высокого уровня с помощью ИИ.
"Управление роботами с помощью этого высокоуровневого языкового интерфейса предлагает новый пользовательский опыт для сбора данных. Вместо того, чтобы использовать VR для управления одним роботом, оператор может управлять несколькими роботами с помощью высокоуровневого языка и позволить низкоуровневым политикам выполнять низкоуровневые действия для достижения этих высокоуровневых целей. Поскольку высокоуровневые действия отправляются редко, операторы могут даже управлять роботами удаленно", - поясняет представитель компании Эрик Янг в своем блоге.
Компания 1X подчёркивает, что роботы-гуманоиды Eve в видео управляются нейронной сетью, а не телеоператором. В ролике также отсутствует компьютерная графика, "монтаж, ускорение видео или воспроизведение сценария". Следующим шагом станет интеграция в систему моделей компьютерного зрения и обработки естественного языка, таких как GPT-4o, VILA и Gemini Vision.