Разработчики уже давно пытаются научить искусственный интеллект точно описывать изображения. Еще в 2016 Google заявлял, что его ИИ может описывать изображения практически с точностью до 94 процентов. Но теперь Microsoft утверждает, что смог пойти еще дальше.
Инженеры компании создали искусственный интеллект, который описывает картинки даже точнее, чем живой человек. Новая ИИ-система находится в верхней части таблицы лидеров эталонного тестирования nocaps (novel object captioning at scale, масштабное описание новых объектов). Microsoft утверждает, что новая модель в два раза лучше, чем описательная модель, которая используется с 2015 года.
Разработка сама по себе является важной вехой в развитии искусственного интеллекта, но Microsoft не собирается оставлять технологию без дела. Новая модель станет доступна пользователям как часть сервиса Computer Vision в Azure AI. Разработчикам смогут использовать ее в своих продуктах. Также новая модель станет частью приложения Seeing AI, а в конце года начнет работать в Microsoft Word, Outlook и PowerPoint.
“Описание изображений является одной из самых сложных проблем в ИИ. Ведь речь идет не только о перечислении объектов в сцене, но и о понимании того, как эти объекты взаимодействуют”, - говорит Эрик Бойд, вице-президент Azure AI.
Если машина понимает, что изображено на картинке, она может выдавать более релевантные и точные результаты поиска. Или, например, точно описывать окружающую обстановку для слабовидящих пользователей.
В целом, взаимодействие с компьютером, который понимает контексты, становится более интуитивным. Потому Microsoft намерен и дальше развивать свои ИИ-системы. “За последние пять лет мы достигли сопоставимых с человеческими результатов в пяти крупных областях: в распознавании речи, в машинном переводе, в ответах на вопросы, в машинном чтении и понимании текста, а в 2020 году, несмотря на COVID-19, в описании изображений”, - говорит Сюэдун Хуан, главный технический директор Azure AI.