Apple при поддержке ученых Корнеллского университета выложила в открытый доступ собственную мультимодальную большую языковую модель Ferret, которая в качестве запросов может принимать фрагменты изображений.
Принцип работы Ferret состоит в том, что модель изучает указанный фрагмент изображения, идентифицирует объекты на этом участке и очерчивает их рамкой. Распознанные на фрагменте изображения объекты система воспринимает как часть запроса, ответ на который предоставляется в текстовом формате.
К примеру, пользователь может выделить на картинке изображение животного и попросить Ferret распознать его. Модель даст ответ, к какому виду относится животное, и ей можно будет задать дополнительные вопросы в контексте, уточнив информацию по другим объектам или действиям.
Источник: 3dnews.ru