Мы поговорили с Константином Коломейцевым — Solution Architect в Sergek Group, которая уже несколько лет внедряет нейросети в системы умных городов. Он поделился, как, сидя в Казахстане, менять мировые технологические тренды.
Константин Коломейцев, Solution Architect в Sergek Group
О себе и пути в IT
Я с детства увлекался компьютерами. Факт того, что я могу получить устройство, которое будет делать то, что ты ему скажешь, казался магией. С восьмого класса я занимался программированием, в девятом классе сделал первый коммерческий проект: написал программу на основе книги по IQ-тестам. Начиная со второго курса университета уже работал программистом на полную ставку и так вплоть до текущего момента.
Про настоящий рабочий ИИ в первый раз услышал в новостях в 2016 году, когда показывали, как собрали автоматическую конвейерную линию, которая с помощью computer vision сортировала огурцы по категориям. Я сразу побежал читать, что это и как работает: но на тот момент область ИИ была еще слишком сложной, по большей части там рулила математика и огромные формулы. Поэтому я просто продолжил работать по специальности, развиваясь как программист.
Все изменилось в 2022 году, когда прогремел ChatGPT. Началось все с любопытства, просто посмотреть, что мне ответит этот «умник», затем захотелось глубже понять, как он работает, ведь я же программист. Начал активно подтягивать знания по математике и глубокому обучению, чтобы просто понять, как это работает. После того, как изучил основные концепции, настало время что-то сделать самому. Так все и началось. Теперь я все свободное время трачу как на изучение новых научных исследований в области ИИ, так и на собственные исследования.
О развитии ИИ-индустрии
ИИ — это на самом деле консервативная область. Все думают: «ИИ — это суперново, это самое передовое, что есть сегодня в технологиях». Но внутри все основано на трех основных архитектурных столпах: CNN — сверточные сети, обычно для работы с изображениями, RNN — рекуррентные сети для работы с последовательностями, например, текстом, и Transformers — они лежат в основе ChatGPT и большинства современных ИИ. Этими тремя архитектурами практически все и ограничивается. Новые подходы встречаются крайне редко. Большинство компаний просто делают модели больше и заливают их данными. Это как если бы музыку улучшали не новым звучанием, а просто увеличением громкости. Основные «инновации» связаны, в основном, с разными подходами к обучению, например, все думают, как можно улучшить обучение с подкреплением — reinforcement learning.
Reinforcement learning — это способ обучения искусственного интеллекта через пробу и ошибку. Модель как бы играет в игру: совершает действия, получает за них награду или наказание и со временем учится выбирать те шаги, которые приносят лучший результат. Так, например, ИИ может сам научиться играть в шахматы или управлять машиной, просто наблюдая за последствиями своих действий.
Но есть и примеры, где пробуют новые подходы. Например, в компании Higgsfield.ai решили: «А что, если генерировать видео и картинки не с помощью классических CNN, а через трансформеры?». Они применили архитектуру диффузионных трансформеров, добавив обучение с подкреплением. В итоге получилась крутая модель, которая демонстрирует отличную стабильность объектов в кадре даже при динамичных движениях. OpenAI пошли по тому же пути — они научили трансформеры рисовать по пикселям. И качество — просто на голову выше, чем у остальных.
Об опыте Sergek Group
Мы работаем над умными городами — системы видеонаблюдения, аналитика и мониторинг дорожной безопасности, экометеодатчики, спектрометры, системы комплексной безопасности и прочее. У нас в продакшене используются CNN и RNN сети. Но мы решили провести исследования, например как можно улучшить распознавание с помощью computer vision и расширить сценарии использования. Сейчас мы экспериментируем с вариацией модели трансформеров и CNN.
Речь идет о гибридной архитектуре. Это называется кастомная архитектура — не готовое решение, а система, собранная под конкретную задачу. Для ИИ это как собрать гоночную машину самому, вместо того чтобы брать готовую с завода. Как раз по этой теме я недавно написал исследование, которое показало, что, комбинируя архитектуры, выходя за рамки стандартных подходов и создавая что-то новое, можно получить лучшие результаты. В исследовании я продемонстрировал, как можно передать «знания» от одной модели в другую через специальный механизм под названием Enhanced Cross-Attention. По сути, это механизм, позволяющий одной модели учитывать «опыт» другой. Представьте: у вас есть студент — маленькая модель, и огромный научный справочник — большая модель. И когда мы даем студенту решить задачу, ему не нужно самому открывать законы физики или математики, ему достаточно заглянуть в справочник через механизм Cross-Attention и решить поставленную задачу по записанным формулам. Соответственно при обучении модели, нам не нужно грузить в модель все знания, достаточно научить ее пользоваться «справочником», ну и немного выучить новое, чего нет в справочнике. При этом большая модель остается «замороженной».
Это делается для того, чтобы не тратить тонны ресурсов. Обучение больших моделей — —это сотни тысяч долларов, а наша архитектура позволяет получить нужное качество, но с минимумом затрат. К тому же, мы можем точечно адаптировать ИИ под задачи бизнеса. Это и дешевле, и эффективнее. К примеру, на свои эксперименты с обучением моделей я потратил меньше 10$ в рамках написания исследования.
Мы хотим делиться результатами исследований. Чем больше исследований, тем больше инноваций, а мы все-таки одна из самых инновационных компаний в Казахстане, а в будущем, надеюсь, и в мире. К тому же научные публикации позволят Казахстану получить статус одного из центров по исследованию искусственного интеллекта, что благоприятно отразится на всех нас.
Sergek Group — одни из лидеров по созданию решений на базе Искусственного Интеллекта. Я же хочу подняться на ступень выше, чтобы компания стала лидером именно по созданию Искусственного Интеллекта, как OpenAI — создатели ChatGPT. Придумывать новые комбинации, ломать устаревшие шаблоны. И делать это в Казахстане.
Как настоящие рок-звезды ИИ, если рок-звезды — это те, кто не боится делать по-своему и разносить сцену.