Секция посвящена проблемам зрительного искусственного интеллекта
Контакты:polevoy@smartengines.com
Формат проведения:
Дата и время проведения:
Место проведения:
В работе предлагается новая схема (пофильтровое 4.6-битное квантование), потенциально повышающая точность сверточных слоев в сравнении с простым 4.6-битным квантованием. Так же приводятся их сравнение для различных устройств и SIMD-расширений.
В работе предлагается метод автоматического детектирования пятен калибровочных элементов на проекционных снимках для калибровки мобильных систем КТ с ручным позиционированием источника излучения.
Предлагается энергетическая модель интерпретации BOLD в коре мозжечка связывающая частоты простых (SS) и сложных (CS) импульсов клеток Пуркинье с фМРТ-ответом. SS/CS генерируются модулем «клетка Пуркинье-лианное волокно» (формализм Маука), энергозатраты задаются полиномом, добавлена balloon-модель. Показано, что равновесное состояние является минималььным по энергии. В дальнейшем такие модели могут существенно способствовать интерпретации BOLD-сигнала.
В работе рассматривается проблема искажения входных данных, что может приводить к непредсказуемому поведению систем распознавания. Предлагается метод детектирования посторонних предметов на изображениях документов, снятых в неконтролируемых условиях как этап оценки качества входного изображения.
При решении задачи распознавания документов встречаются поля без строго заданного формата, которые, зачастую, синтаксически целиком описать невозможно. В работе рассматривается метод контекстной пост-обработки результатов распознавания, используйющий частично определённый синтаксис. Описан принцип работы рассматриваемого метода. Проведён эксперимент с распознаванием поля "сумма прописью" на российских актах, подтверждающий возможность эффективного применения описанного метода.
В работе предложена система классификации участников футбольного матча (правый/левый полевой игрок, правый/левый вратарь, судья), объединяющая методы Metric Learning и VLM с последующей адаптацией к конкретному матчу. Предложенный подход обеспечивает устойчивое разделение команд за счёт совместного использования цветовых и пространственно-временных признаков и позволяет увеличить значение метрики GS-HOTA на 4,0 базисных пункта на тестовой выборке бенчмарка SoccerNet Game State Reconstruction.
В работе рассматривается многоклассовая сегментация лабораторных КТ-срезов грецких орехов с использованием nnU-Net. Исследуется разреженная схема аннотирования по оси Z и её влияние на точность сегментации ядра, скорлупы и перегородки. Показано, что при умеренном шаге достигается приемлемое качество, однако при увеличении разреженности снижается точность из-за потери межсрезового контекста.
В работе предложена система автоматической верификации личности по изображению человека с предъявленным паспортом РФ SmartFacePass. Решение работает на мобильных устройствах без передачи данных в облако, обеспечивая безопасность обработки. В отличие от существующих методов, система реализует полный цикл обработки: автоматически обнаруживает лица, определяет тип документа, извлекает фотографию из паспорта и сравнивает её с лицом предъявителя.
Рассматривается применение сверточных нейросетей для детектирования ламинарно-турбулентного перехода в пограничном слое на стреловидном крыле. Переход определяется по мгновенным панорамным PIV-полям скорости и сигналам термоанемометрии без использования статистического усреднения. Показано, что нейросетевой метод обеспечивает высокую точность и вычислительную эффективность по сравнению с классическими алгоритмами и может применяться для диагностики положения перехода.
В работе предлагается метод автоматической генерации синтетических бликов на изображениях документов. Метод, основанный на физически достоверном рендеринге, позволяет генерировать неограниченное число разнообразных данных. Полученные данные могут использоваться в качестве обучающей выборки в задаче поиска бликов.
Предложена кросс-модальная функция потерь CrossModalEmotionLoss для синхронизации эмоций в аудио- и видеопотоке генерируемых говорящих лиц. Замороженные энкодеры Wav2Vec2-Large и TimeSformer проецируют представления в общее пространство; косинусное расстояние добавляется к L1-потере генератора Wav2Lip. При λ = 0,01 реконструкция не ухудшается (L1 = 0,0501 vs. 0,0502), а доля эмоционального совпадения достигает 90,3 %.
В работе рассматривается алгоритмический метод выделения области наклеенной фотографии. Алгоритм основывается на анализе изображений получаемых при разных направлениях подсветки и фиксированной геометрии камеры, что позволяет анализировать изменения характера теней и бликов для различных подсветок и делать вывод о расположении области наклеенного фото.
В работе исследовано влияние пространственного распределения атмосферной дымки на доменный разрыв при обучении нейросетевых моделей раздымки для аэрокосмических снимков. Показано, что для успешного переноса модели на реальные данные необходимо отказаться от тривиальных моделей в пользу сложных математических абстракций. Валидация архитектуры DehazeFormer доказала, что предложенная гауссова модель позволяет уменьшить доменный разрыв и повысить качество восстановления снимков.
Автоматическое извлечение дорожной сети из спутниковых RGB-снимков является важной задачей для навигации и обновления картографических сервисов. Разработан модуль FastSnapper для сопоставления опорных точек с предсказанной маской дорог, ускоривший время работы модели в 2 раза; добавлен структурный компонент функции потерь, ориентированный на сохранение связности и тонких дорожных структур; проведена очистка обучающей разметки датасета от некорректных аннотаций
Данная работа посвящена разработке генератора данных, с помощью которого можно задавать параметры камеры, света, гнутости для изображения. В соответствии с конфигурацией, описывающей линии сгиба, углы поворота, длину и ширину листа, алгоритм может генерировать двойной или тройной сгиб, накладывать текстуры документов на 3D модель листа, а также предоставляет управление камерой и светом.
В работе предлагается модульный пайплайн визуальной навигации БПЛА по линейным ориентирам (дороги, береговые линии) для повышения устойчивости при деградации GNSS. Метод переключает два режима: привязка кадра надирной камеры к локальному фрагменту карты по опорной точке через сопоставление и, при неустойчивости сопоставления, навигация по сегментированным протяжённым объектам с расчётом курсовой поправки. Показана реализуемость на Orange Pi с NPU в реальном времени.
Расширение рецептивного поля сверточной нейронной сети обычно сопровождается ростом вычислительной сложности и ограничивает применение моделей на мобильных и встраиваемых устройствах. В работе предлагается блок на основе обучаемых фильтров с бесконечной импульсной характеристикой, позволяющий расширить рецептивное поле при малом числе параметров. В задаче бинаризации документов модель демонстрирует сопоставимое с U-Net качество при сокращении числа параметров в 40 раз.
Выполнен сравнительный анализ методов оценки позы головы для мобильных устройств с селфи-камерой. Рассмотрены 3 класса подходов: на основе внешнего вида, анатомических ориентиров и гибридные. Формализованы критерии отбора с весовыми коэффициентами, на основе которых выполнен количественный анализ известных решений. Рассмотрен легковесный конвейер с использованием нейронных сетей и геометрических подходов. Выявлены перспективные методы для реализации в условиях ограниченных ресурсов.
В работе предложен метод PSFR для выбора ключевых кадров из длинных видео. Показано, что использование предподсчитанных визуальных признаков и эволюционно оптимизированной функции отбора позволяет лучше покрывать релевантные кадры по сравнению с равномерной выборкой и методом MaxInfo.
Работа посвящена исследованию точности определения положения камеры при использовании цветных плоских шаблонов на основе фидуциальных маркеров. Рассмотрен метод поканальной обработки изображения двухцветного маркера, направленный на повышение устойчивости и точности оценки ориентации. Экспериментальное исследование выполнено на основе видеоданных, полученных откалиброванной камерой. В качестве метрики точности использован угол относительного поворота.
В работе представлена системаоценки качества фреймворка детекции логических аномалий система Logical Anomaly Detection with Vision Language Model Generated Questions. Представлены метрики для оценки качества на разных этапах рассуждения. Проведенные экспериментывыявляет ключевые причины неэффективности макро-оценок, открывает более глубокий уровень интерпретации решений системы LogicQA с помощью введенных метрик.