Понимание между человеком и машиной - одна из приоритетных задач разработчиков искусственного интеллекта. Этот ИИ понимает вас настолько хорошо, что может нарисовать то, что вы опишете словами.
Алгоритм DALL-E разработан исследователями из проекта OpenAI на архитектуре нейросети GPT-3. Он способен генерировать изображения, обрабатывая текстовые запросы на английском языке. Например, вот такую галерею картинок DALL-E выдал по запросу “кресло в форме авокадо” (“an armchair in the shape of an avocado”):
DALL-E понимает даже сложные абстрактные конструкции. Вот так, например, выглядит “полностью белый куб, глядящий на свое отражение в зеркале” (“a plain white cube looking at its own reflection in a mirror”):
По сути, DALL-E представляет собой гибрид графического и текстового алгоритма. За распознавание текста отвечает декодер, напоминающий тот, что распознает запросы в поисковых системах. Генерация изображения также происходит по тому же алгоритму, по которому текстовая нейросеть GPT-3 генерирует свои тексты.
Больше примеров работы DALL-E и его подробное описание можно найти на странице проекта.