Исследователи из лаборатории научных исследований «Т-Технологий» разработали новый метод обучения визуально-языковых моделей

Цифровизация

Искусственный интеллект

Исследователи из лаборатории научных исследований «Т-Технологий» разработали новый метод обучения визуально-языковых моделей

Исследователи из лаборатории научных исследований группы «Т-Технологии» доказали, что обучение визуально-языковых моделей в симуляторах может стать альтернативой дорогостоящему дообучению на реальных данных, а также представили VL-DAC — метод, который быстрее и дешевле учит модели совершать последовательность действий: анализировать изображение или интерфейс, выполнять задачи шаг за шагом и оценивать результат. После обучения модели лучше справляются с задачами веб-навигации, пространственной ориентации, планировании маршрута, что может применяться в банкинге, робототехнике, гейминге, промышленности и других отраслях. Об этом CNews сообщили представители «Т-Банка».

Суть открытия

Современные визуально-языковые модели хорошо справляются с распознаванием и описанием объектов и интерфейсов, но хуже работают в агентских сценариях с последовательностью действий: открыть нужный раздел сайта, применить фильтр, выбрать товар и т. д. В подобных сценариях моделям необходимо учитывать предыдущие действия и понимать, приближает ли каждое новое действие к достижению финального результата. Для развития этих навыков необходимо погружать модели в реальную среду, но это дорого и долго.

Исследователи из T-Bank AI Research разработали новый, более быстрый и дешевый метод обучать модели в недорогих синтетических средах – симуляторах, где цена ошибки неправильного действия существенно ниже. Эксперименты показали, что при дообучении методом VL-DAC модели требуется в 1,5—2,5 раза меньше шагов и, следовательно, меньше GPU-часов для успешного выполнения задачи, чем при исходном RL4VLM, при это качество выполнения задач выше.

В работе использовалось несколько видов симуляторов, каждый из которых развивает конкретный навык моделей: MiniWorld для навигации на местности и планирования маршрута; Gym-Cards для логических и арифметических задач с карточками; ALFWorld для решения бытовых задач и выполнения инструкций; WebShop для взаимодействия с интерфейсом в онлайн-магазинах.

В экспериментах исследователи дообучали Qwen2-VL-7B. После обучения модель показала улучшение навыков на внешних тестах: способность достигать цели в интерактивной среде улучшилась на более чем 50%, пространственное планирование — на 5%, веб-навигация — на 2%.

Уникальность метода

Главная особенность VL-DAC в том, что модель отдельно учится совершать действие и отдельно — оценивать полезность уже совершенного действия. В ранее разработанных методах эти сигналы зачастую мешали друг другу, что вынуждало исследователей каждый раз подбирать коэффициенты или хранить большой объем данных о предыдущих действиях. VL-DAC решает эту проблему обучением действию на уровне токенов, а оценке полезности — на уровне отдельного шага.

Вячеслав Кубаев, «Магнит»: В этом году мы запустим полностью роботизированный склад

Ритейл

Более того, исследование показало, что разнообразие симуляторов влияет на широту навыков модели. Каждый из небольших симуляторов в отдельности развивает свой вид навыков — навигацию, работу с физическими объектами, действия в веб-интерфейсе, — а в совокупности они покрывают широкий спектр способностей. В результате модель лучше переносит полученный опыт на реальные задачи и даже повышает качество выполнения более общих задач без дополнительного обучения на размеченных данных.

Практическое применение

Метод может применяться в задачах, где моделям нужно выполнить заранее заданную цепочку последовательных действий. Например, в банкинге и страховании модель может помочь заполнить форму с данными или сравнить несколько продуктов или услуг. В гейминге и робототехнике подход может использоваться для тестирования игровых сценариев и обучения физических роботов. Также метод применим для ретейла, промышленности и логистики: например, когда нужно понять расположение объектов, построить маршрут или спланировать движение по помещению.

Даниил Гаврилов, руководитель лаборатории фундаментальных научных исследований искусственного интеллекта группы «Т-Технологии»: «Нам удалось показать, что обучение с подкреплением в симуляторах может стать более дешевой и быстрой, но не менее точной альтернативой. Вместо того чтобы собирать данные из реального мира, модель можно обучать в симуляторах — и получать ровно те же навыки, что затем пригодятся в прикладных задачах. Это можно сравнить с тренажерным залом: каждый тренажер прорабатывает отдельные виды мышц, и чем больше разных тренажеров используешь, тем сильнее будет тело. По сути, мы предлагаем набор разных тренажеров для визуально-языковых моделей. Один учит навигации, другой — работе с физическими объектами, третий — действиям на веб-страницах. Чем разнообразнее набор симуляторов, тем шире набор навыков, которые модель может освоить и применить в реальности. Дальше мы планируем проверить, как этот подход работает в более сложных трехмерных средах и в задачах, где модели нужно не просто выбрать следующий шаг, а заранее выстроить последовательность действий».

Подобрать оптимальный тариф на IaaS на ИТ-маркетплейсе CNewsMarket среди десятков поставщиков

Подписаться на новости

Короткая ссылка

Meta* (Instagram*, Facebook*) и другие признанные экстремистскими организации/ресурсы запрещены в РФ.
Упоминания иностранных агентов сопровождаются маркировкой по закону.
Информационный материал. 18+.

Исследователи из лаборатории научных исследований «Т-Технологий» разработали новый метод обучения визуально-языковых моделей

Читайте также

Politico: Протесты No Kings 3 в США соберут 9 млн человек

Страх перед ИИ обвалил акции софтверных компаний на мировых рынках – WSJ