Японские ученые обнаружили, что небольшое изменение алгоритмов, используемых для улучшения изображений, может значительно повысить возможности компьютерного зрения в самых разных приложениях - от роботов до беспилотных автомобилей.
Интересные открытия часто рождаются на стыке наук. И данный случай - не исключение.
Медицинский подход
Открытие совершил ученый по имени Линь Гу из японского Института физико-химических исследований (RIKEN). В отличие от других специалистов по искусственному интеллекту, Линь Гу начал свою карьеру с профессии терапевта. Этот медицинский фон дал ему уникальное понимание дисперсии шкалы - критической проблемы, стоящей перед компьютерным зрением, которая относится к сложности точного обнаружения объектов в различных масштабах на изображении.
Поскольку большинство систем ИИ обучаются на изображениях с высоким разрешением, реалистичные низкокачественные изображения с размытыми или искаженными объектами впоследствии создают проблемы для алгоритмов распознавания.
Эта ситуация напомнила Линь Гу о «синдроме Алисы в Стране чудес». Так называется искаженное состояние зрения, которое заставляет объекты казаться меньше или больше, чем они есть на самом деле.
«Человеческое зрение имеет постоянство размеров, что означает, что мы воспринимаем объекты одного размера, несмотря на то, как меняется изображение на сетчатке. Напротив, существующим алгоритмам компьютерного зрения не хватает такого постоянства», - поясняет Гу.
Улучшенное компьютерное зрение
Понимая, как человеческий мозг мозгом обрабатывает изображения и формирует воспоминания, Линь Гу и его коллеги разработали улучшенную обучающую модель для компьютеров.
Модель случайным образом ухудшает разрешение обучающих материалов, добавляет на них размытость и шум. Таким образом, последующее обучение производится на расширенном наборе материалов, где присутствуют оригинальные высококачественные изображения и их ухудшенные и искаженные версии. Обученный таким образом алгоритм гораздо лучше справляется с некачественным изображением и лучше понимает, какие объекты на нем находятся и где они расположены.
Исследование опубликовано в журнале Computer Vision - ECCV 2022.