Компания OpenAI, известная по разработке моделей искусственного интеллекта GPT-3 и DALL-E, продемонстрировала нейросеть под названием GLIDE. В отличие от аналогов, она способна не только генерировать изображения по текстовому описанию, но и редактировать существующие — с сохранением экспозиции и стиля.
Эффекта удалось достичь благодаря диффузионным моделям. Система искажает исходное изображение, постепенно добавляя в него гауссовский шум, а потом поворачивает процесс вспять, дорисовывая необходимые детали.
Исследователи обучили сеть на 3,5 млрд параметров и протестировали ее как с классификатором CLIP, так и автономно — второй подход оказался эффективнее и показал выборку более высокого качества.
Источник: vc.ru