Конференции

68-я Всероссийская научная конференция МФТИ

Список разделов ФПМИ - Секция когнитивных технологий

Секция посвящена проблемам зрительного искусственного интеллекта

 

 

 

 

Контакты:polevoy@smartengines.com

Формат проведения: 

Дата и время проведения: 

Место проведения: 

 

  • Быстрое пофильтровое 4.6-битное квантование для сверточных нейронных сетей

    В работе предлагается новая схема (пофильтровое 4.6-битное квантование), потенциально повышающая точность сверточных слоев в сравнении с простым 4.6-битным квантованием. Так же приводятся их сравнение для различных устройств и SIMD-расширений.

  • Метод автоматической детекции калибровочных элементов в томографических системах с ручным позиционированием источника излучения

    В работе предлагается метод автоматического детектирования пятен калибровочных элементов на проекционных снимках для калибровки мобильных систем КТ с ручным позиционированием источника излучения.

  • Энергетически обоснованная модель BOLD-сигнала мозжечка: связь простых и сложных импульсов клетки Пуркинье с нейроваскулярной динамикой

    Предлагается энергетическая модель интерпретации BOLD в коре мозжечка связывающая частоты простых (SS) и сложных (CS) импульсов клеток Пуркинье с фМРТ-ответом. SS/CS генерируются модулем «клетка Пуркинье-лианное волокно» (формализм Маука), энергозатраты задаются полиномом, добавлена balloon-модель. Показано, что равновесное состояние является минималььным по энергии. В дальнейшем такие модели могут существенно способствовать интерпретации BOLD-сигнала.

  • Детектор посторонних объектов для систем мобильного распознавания документов

    В работе рассматривается проблема искажения входных данных, что может приводить к непредсказуемому поведению систем распознавания. Предлагается метод детектирования посторонних предметов на изображениях документов, снятых в неконтролируемых условиях как этап оценки качества входного изображения.

  • Оптическое распознавание полей документа на мобильных устройствах с использованием частично определённого синтаксиса

    При решении задачи распознавания документов встречаются поля без строго заданного формата, которые, зачастую, синтаксически целиком описать невозможно. В работе рассматривается метод контекстной пост-обработки результатов распознавания, используйющий частично определённый синтаксис. Описан принцип работы рассматриваемого метода. Проведён эксперимент с распознаванием поля "сумма прописью" на российских актах, подтверждающий возможность эффективного применения описанного метода.

  • Матч-специфичная классификация игровых ролей в футболе на основе Metric Learning и VLM

    В работе предложена система классификации участников футбольного матча (правый/левый полевой игрок, правый/левый вратарь, судья), объединяющая методы Metric Learning и VLM с последующей адаптацией к конкретному матчу. Предложенный подход обеспечивает устойчивое разделение команд за счёт совместного использования цветовых и пространственно-временных признаков и позволяет увеличить значение метрики GS-HOTA на 4,0 базисных пункта на тестовой выборке бенчмарка SoccerNet Game State Reconstruction.

  • Многоклассовая сегментация лабораторных КТ реконструкций

    В работе рассматривается многоклассовая сегментация лабораторных КТ-срезов грецких орехов с использованием nnU-Net. Исследуется разреженная схема аннотирования по оси Z и её влияние на точность сегментации ядра, скорлупы и перегородки. Показано, что при умеренном шаге достигается приемлемое качество, однако при увеличении разреженности снижается точность из-за потери межсрезового контекста.

  • SmartFacePass: система верификации лица предъявителя с его образом на изображении паспорта РФ

    В работе предложена система автоматической верификации личности по изображению человека с предъявленным паспортом РФ SmartFacePass. Решение работает на мобильных устройствах без передачи данных в облако, обеспечивая безопасность обработки. В отличие от существующих методов, система реализует полный цикл обработки: автоматически обнаруживает лица, определяет тип документа, извлекает фотографию из паспорта и сравнивает её с лицом предъявителя.

  • Применение сверточных нейросетей для детектирования ламинарно-турбулентного перехода на стреловидном крыле

    Рассматривается применение сверточных нейросетей для детектирования ламинарно-турбулентного перехода в пограничном слое на стреловидном крыле. Переход определяется по мгновенным панорамным PIV-полям скорости и сигналам термоанемометрии без использования статистического усреднения. Показано, что нейросетевой метод обеспечивает высокую точность и вычислительную эффективность по сравнению с классическими алгоритмами и может применяться для диагностики положения перехода.

  • Метод генерации бликов на изображениях документов

    В работе предлагается метод автоматической генерации синтетических бликов на изображениях документов. Метод, основанный на физически достоверном рендеринге, позволяет генерировать неограниченное число разнообразных данных. Полученные данные могут использоваться в качестве обучающей выборки в задаче поиска бликов.

  • Кросс-модальная функция потерь для эмоциональной согласованности в моделях генерации говорящих лиц

     

    Предложена кросс-модальная функция потерь CrossModalEmotionLoss для синхронизации эмоций в аудио- и видеопотоке генерируемых говорящих лиц. Замороженные энкодеры Wav2Vec2-Large и TimeSformer проецируют представления в общее пространство; косинусное расстояние добавляется к L1-потере генератора Wav2Lip. При λ = 0,01 реконструкция не ухудшается (L1 = 0,0501 vs. 0,0502), а доля эмоционального совпадения достигает 90,3 %.

  • Выделение области наклеенной фотографии на цифровом изображении документа с использованием сканера с направленной подсветкой

    В работе рассматривается алгоритмический метод выделения области наклеенной фотографии. Алгоритм основывается на анализе изображений получаемых при разных направлениях подсветки и фиксированной геометрии камеры, что позволяет анализировать изменения характера теней и бликов для различных подсветок и делать вывод о расположении области наклеенного фото.

  • Влияние пространственного распределения синтетической атмосферной дымки на обобщающую способность нейросетевых алгоритмов в задачах дистанционного зондирования

    В работе исследовано влияние пространственного распределения атмосферной дымки на доменный разрыв при обучении нейросетевых моделей раздымки для аэрокосмических снимков. Показано, что для успешного переноса модели на реальные данные необходимо отказаться от тривиальных моделей в пользу сложных математических абстракций. Валидация архитектуры DehazeFormer  доказала, что предложенная гауссова модель позволяет уменьшить доменный разрыв и повысить качество восстановления снимков.

  • Построение графа дорожной сети по спутниковым снимкам

    Автоматическое извлечение дорожной сети из спутниковых RGB-снимков является важной задачей для навигации и обновления картографических сервисов. Разработан модуль FastSnapper для сопоставления опорных точек с предсказанной маской дорог, ускоривший время работы модели в 2 раза; добавлен структурный компонент функции потерь, ориентированный на сохранение связности и тонких дорожных структур; проведена очистка обучающей разметки датасета от некорректных аннотаций

  • Конвейер генерации данных для разработки систем мобильного ввода документов

    Данная работа посвящена разработке генератора данных, с помощью которого можно задавать параметры камеры, света, гнутости для изображения. В соответствии с конфигурацией, описывающей линии сгиба, углы поворота, длину и ширину листа, алгоритм может генерировать двойной или тройной сгиб, накладывать текстуры документов на 3D модель листа, а также предоставляет управление камерой и светом.

  • Визуальная навигация дрона по линейным ориентирам: от сегментации до коррекции маршрута

    В работе предлагается модульный пайплайн визуальной навигации БПЛА по линейным ориентирам (дороги, береговые линии) для повышения устойчивости при деградации GNSS. Метод переключает два режима: привязка кадра надирной камеры к локальному фрагменту карты по опорной точке через сопоставление и, при неустойчивости сопоставления, навигация по сегментированным протяжённым объектам с расчётом курсовой поправки. Показана реализуемость на Orange Pi с NPU в реальном времени.

  • Обучаемые фильтры с бесконечной импульсной характеристикой как механизм формирования рецептивного поля в нейронных сетях

    Расширение рецептивного поля сверточной нейронной сети обычно сопровождается ростом вычислительной сложности и ограничивает применение моделей на мобильных и встраиваемых устройствах. В работе предлагается блок на основе обучаемых фильтров с бесконечной импульсной характеристикой, позволяющий расширить рецептивное поле при малом числе параметров. В задаче бинаризации документов модель демонстрирует сопоставимое с U-Net качество при сокращении числа параметров в 40 раз.

  • Сравнительный анализ методов оценки позы головы для мобильных устройств с селфи-камерой

    Выполнен сравнительный анализ методов оценки позы головы для мобильных устройств с селфи-камерой. Рассмотрены 3 класса подходов: на основе внешнего вида, анатомических ориентиров и гибридные. Формализованы критерии отбора с весовыми коэффициентами, на основе которых выполнен количественный анализ известных решений. Рассмотрен легковесный конвейер с использованием нейронных сетей и геометрических подходов. Выявлены перспективные методы для реализации в условиях ограниченных ресурсов. 

  • PSFR: эволюционно оптимизированный метод выбора ключевых кадров для анализа длинных видео

    В работе предложен метод PSFR для выбора ключевых кадров из длинных видео. Показано, что использование предподсчитанных визуальных признаков и эволюционно оптимизированной функции отбора позволяет лучше покрывать релевантные кадры по сравнению с равномерной выборкой и методом MaxInfo.

  • Исследование точности определения положения камеры при использовании цветных плоских шаблонов

    Работа посвящена исследованию точности определения положения камеры при использовании цветных плоских шаблонов на основе фидуциальных маркеров. Рассмотрен метод поканальной обработки изображения двухцветного маркера, направленный на повышение устойчивости и точности оценки ориентации. Экспериментальное исследование выполнено на основе видеоданных, полученных откалиброванной камерой. В качестве метрики точности использован угол относительного поворота.

  • Система оценки качества моделей детекции логических аномалий

    В работе представлена системаоценки качества фреймворка детекции логических аномалий система Logical Anomaly Detection with Vision Language Model Generated Questions. Представлены метрики для оценки качества на разных этапах рассуждения. Проведенные экспериментывыявляет ключевые причины неэффективности макро-оценок, открывает более глубокий уровень интерпретации решений системы LogicQA с помощью введенных метрик.