Компания VisionLabs (входит в МТС Web Services) разработала технологию мультимодального поиска на естественном языке по текстовому запросу.
Она реализована на платформе компьютерного зрения Luna Line, которая позволяет обучать модели искусственного интеллекта под отраслевые сценарии без программирования. Компания начала тестирование технологии с компаниями в Москве. VisionLabs рассчитывает получить от этого направления 5–10% выручки в 2027 году.
Мультимодальный поиск позволяет работать как с фотографиями с телефонов, так и с данными с видеокамер, установленных на улице и в общественном транспорте, и определять практически любые сценарии по текстовому описанию. Например, достаточно написать «разбитое стекло» или «переполненный мусорный бак» — и модель выдаст все изображения или кадры из видео, где они обнаружены.
«Я уверен, что будущее за визуально-языковыми моделями, когда каждый сможет размечать данные и искать изображения с помощью простого текстового запроса. Мы постоянно инвестируем в перспективные направления и в прошлом году вложили в исследования и разработку 200 миллионов рублей. Один из результатов — платформа Luna Line, которая позволяет создавать ML-модели без кода, ускоряет запуск проектов на 30% и на столько же сокращает бюджет на запуск и поддержку ML-решений», — комментирует Дмитрий Марков, генеральный директор VisionLabs.
О компании
VisionLabs — один из мировых лидеров в области решений по распознаванию на базе компьютерного зрения. Компания реализовала более 500 проектов в 37 странах. Технологии VisionLabs применяются в финансовой, телекоммуникационной и транспортной отраслях, а также в ритейле и промышленности. Более 1,7 млн камер по всему миру используют программное обеспечение VisionLabs.
