Секция посвящена проблемам зрительного искусственного интеллекта
Контакты:polevoy@smartengines.com
Формат проведения: онлайн
Дата и время проведения: 04.04.2026 в 12:00
Место проведения: МФТИ https://telemost.yandex.ru/j/74853729038261
В работе предлагается новая схема (пофильтровое 4.6-битное квантование), потенциально повышающая точность сверточных слоев в сравнении с простым 4.6-битным квантованием. Так же приводятся их сравнение для различных устройств и SIMD-расширений.
В работе предлагается метод автоматического детектирования пятен калибровочных элементов на проекционных снимках для калибровки мобильных систем КТ с ручным позиционированием источника излучения.
В работе рассматривается проблема искажения входных данных, что может приводить к непредсказуемому поведению систем распознавания. Предлагается метод детектирования посторонних предметов на изображениях документов, снятых в неконтролируемых условиях как этап оценки качества входного изображения.
При решении задачи распознавания документов встречаются поля без строго заданного формата, которые, зачастую, синтаксически целиком описать невозможно. В работе рассматривается метод контекстной пост-обработки результатов распознавания, используйющий частично определённый синтаксис. Описан принцип работы рассматриваемого метода. Проведён эксперимент с распознаванием поля "сумма прописью" на российских актах, подтверждающий возможность эффективного применения описанного метода.
Предложена система классификации участников футбольного матча (правый/левый игрок, правый/левый вратарь, судья), объединяющая методы метрического обучения и визуально-языковых моделей с последующей адаптацией к конкретному матчу. Предложенный подход обеспечивает устойчивое разделение команд за счёт совместного использования цветовых и пространственно-временных признаков и позволяет увеличить метрику GS-HOTA на 4,0 базисных пункта на тестовой выборке бенчмарка SoccerNet Game State Reconstruction.
В работе рассматривается задача многоклассовой сегментации лабораторных КТ-реконструкций объектов со сложной и изменчивой структурой. Проведено сравнение 2D и 3D моделей (nnU-Net) на различных областях объёма. Показано преимущество 3D-подхода за счёт учёта пространственного контекста и выявлены факторы, влияющие на качество сегментации, включая класс объекта, структуру данных и геометрические преобразования.
В работе предложена система автоматической верификации личности по изображению человека с предъявленным паспортом РФ SmartFacePass. Решение работает на мобильных устройствах без передачи данных в облако, обеспечивая безопасность обработки. В отличие от существующих методов, система реализует полный цикл обработки: автоматически обнаруживает лица, определяет тип документа, извлекает фотографию из паспорта и сравнивает её с лицом предъявителя.
Рассматривается применение сверточных нейросетей для детектирования ламинарно-турбулентного перехода в пограничном слое на стреловидном крыле. Переход определяется по мгновенным панорамным PIV-полям скорости и сигналам термоанемометрии без использования статистического усреднения. Показано, что нейросетевой метод обеспечивает высокую точность и вычислительную эффективность по сравнению с классическими алгоритмами и может применяться для диагностики положения перехода.
В работе предлагается метод автоматической генерации синтетических бликов на изображениях документов. Метод, основанный на физически достоверном рендеринге, позволяет генерировать неограниченное число разнообразных данных. Полученные данные могут использоваться в качестве обучающей выборки в задаче поиска бликов.
Предложена кросс-модальная функция потерь CrossModalEmotionLoss, повышающая эмоциональную согласованность речи и мимики при дообучении моделей генерации говорящих лиц без изменения архитектуры. Валидация на Wav2Lip (RAVDESS) показала рост Emotion F1 на +18,1 %.
В работе исследовано влияние пространственного распределения атмосферной дымки на доменный разрыв при обучении нейросетевых моделей раздымки для аэрокосмических снимков. Показано, что для успешного переноса модели на реальные данные необходимо отказаться от тривиальных моделей в пользу сложных математических абстракций. Валидация архитектуры DehazeFormer доказала, что предложенная гауссова модель позволяет уменьшить доменный разрыв и повысить качество восстановления снимков.
Автоматическое извлечение дорожной сети из спутниковых RGB-снимков является важной задачей для навигации и обновления картографических сервисов. Разработан модуль FastSnapper для сопоставления опорных точек с предсказанной маской дорог, ускоривший время работы модели в 2 раза; добавлен структурный компонент функции потерь, ориентированный на сохранение связности и тонких дорожных структур; проведена очистка обучающей разметки датасета от некорректных аннотаций.
Данная работа посвящена разработке генератора данных, с помощью которого можно задавать параметры камеры, света, гнутости для изображения. В соответствии с конфигурацией, описывающей линии сгиба, углы поворота, длину и ширину листа, алгоритм может генерировать двойной или тройной сгиб, накладывать текстуры документов на 3D модель листа, а также предоставляет управление камерой и светом.
В работе предлагается модульный пайплайн визуальной навигации БПЛА по линейным ориентирам (дороги, береговые линии) для повышения устойчивости при деградации GNSS. Метод переключает два режима: привязка кадра надирной камеры к локальному фрагменту карты по опорной точке через сопоставление и, при неустойчивости сопоставления, навигация по сегментированным протяжённым объектам с расчётом курсовой поправки. Показана реализуемость на Orange Pi с NPU в реальном времени.
Расширение рецептивного поля сверточной нейронной сети обычно сопровождается ростом вычислительной сложности и ограничивает применение моделей на мобильных и встраиваемых устройствах. В работе предлагается блок на основе обучаемых фильтров с бесконечной импульсной характеристикой, позволяющий расширить рецептивное поле при малом числе параметров. В задаче бинаризации документов модель демонстрирует сопоставимое с U-Net качество при сокращении числа параметров в 40 раз.
Выполнен сравнительный анализ методов оценки позы головы для мобильных устройств с селфи-камерой. Рассмотрены 3 класса подходов: на основе внешнего вида, анатомических ориентиров и гибридные. Формализованы критерии отбора с весовыми коэффициентами, на основе которых выполнен количественный анализ известных решений. Рассмотрен легковесный конвейер с использованием нейронных сетей и геометрических подходов. Выявлены перспективные методы для реализации в условиях ограниченных ресурсов.
В работе предложен метод PSFR для выбора ключевых кадров из длинных видео. Показано, что использование предподсчитанных визуальных признаков и эволюционно оптимизированной функции отбора позволяет лучше покрывать релевантные кадры по сравнению с равномерной выборкой и методом MaxInfo.
В работе представлена система оценки качества фреймворка детекции логических аномалий система Logical Anomaly Detection with Vision Language Model Generated Questions. Представлены метрики для оценки качества на разных этапах рассуждения. Проведенные эксперименты выявляют ключевые причины неэффективности макро-оценок, открывают новые возможности для совершенствования архитектур рассуждающих VLM-систем.
В работе рассматривается алгоритмический метод выделения области наклеенной фотографии. Алгоритм основывается на анализе изображений получаемых при разных направлениях подсветки и фиксированной геометрии камеры, что позволяет анализировать изменения характера теней и бликов для различных подсветок и делать вывод о расположении области наклеенного фото.