Конференция 68 МФТИ

Быстрое пофильтровое 4.6-битное квантование для сверточных нейронных сетей

9 февраля
Станислав Соловьёв

В работе предлагается новая схема (пофильтровое 4.6-битное квантование), потенциально повышающая точность сверточных слоев в сравнении с простым 4.6-битным квантованием. Так же приводятся их сравнение для различных устройств и SIMD-расширений.

Метод автоматической детекции калибровочных элементов в томографических системах с ручным позиционированием источника излучения

13 февраля
Андрей Киркича

В работе предлагается метод автоматического детектирования пятен калибровочных элементов на проекционных снимках для калибровки мобильных систем КТ с ручным позиционированием источника излучения.

Детектор посторонних объектов для систем мобильного распознавания документов

26 февраля
Ирина Ромадова

В работе рассматривается проблема искажения входных данных, что может приводить к непредсказуемому поведению систем распознавания. Предлагается метод детектирования посторонних предметов на изображениях документов, снятых в неконтролируемых условиях как этап оценки качества входного изображения.

Оптическое распознавание полей документа на мобильных устройствах с использованием частично определённого синтаксиса

27 февраля
Пётр Тихонов

При решении задачи распознавания документов встречаются поля без строго заданного формата, которые, зачастую, синтаксически целиком описать невозможно. В работе рассматривается метод контекстной пост-обработки результатов распознавания, используйющий частично определённый синтаксис. Описан принцип работы рассматриваемого метода. Проведён эксперимент с распознаванием поля "сумма прописью" на российских актах, подтверждающий возможность эффективного применения описанного метода.

Матч-специфичная классификация игровых ролей в футболе на основе метрического обучения и визуально-языковых моделей

27 февраля
Владислав Винокуров

Предложена система классификации участников футбольного матча (правый/левый игрок, правый/левый вратарь, судья), объединяющая методы метрического обучения и визуально-языковых моделей с последующей адаптацией к конкретному матчу. Предложенный подход обеспечивает устойчивое разделение команд за счёт совместного использования цветовых и пространственно-временных признаков и позволяет увеличить метрику GS-HOTA на 4,0 базисных пункта на тестовой выборке бенчмарка SoccerNet Game State Reconstruction.

Многоклассовая сегментация лабораторных КТ реконструкций

27 февраля
Анастасия Ясакова

В работе рассматривается задача многоклассовой сегментации лабораторных КТ-реконструкций объектов со сложной и изменчивой структурой. Проведено сравнение 2D и 3D моделей (nnU-Net) на различных областях объёма. Показано преимущество 3D-подхода за счёт учёта пространственного контекста и выявлены факторы, влияющие на качество сегментации, включая класс объекта, структуру данных и геометрические преобразования.

SmartFacePass: система верификации лица предъявителя с его образом на изображении паспорта РФ

27 февраля
Варвара Карякина

В работе предложена система автоматической верификации личности по изображению человека с предъявленным паспортом РФ SmartFacePass. Решение работает на мобильных устройствах без передачи данных в облако, обеспечивая безопасность обработки. В отличие от существующих методов, система реализует полный цикл обработки: автоматически обнаруживает лица, определяет тип документа, извлекает фотографию из паспорта и сравнивает её с лицом предъявителя.

Применение сверточных нейросетей для детектирования ламинарно-турбулентного перехода на стреловидном крыле

28 февраля
Виктор Коробков

Рассматривается применение сверточных нейросетей для детектирования ламинарно-турбулентного перехода в пограничном слое на стреловидном крыле. Переход определяется по мгновенным панорамным PIV-полям скорости и сигналам термоанемометрии без использования статистического усреднения. Показано, что нейросетевой метод обеспечивает высокую точность и вычислительную эффективность по сравнению с классическими алгоритмами и может применяться для диагностики положения перехода.

Метод генерации бликов на изображениях документов

28 февраля
Александр Гусев

В работе предлагается метод автоматической генерации синтетических бликов на изображениях документов. Метод, основанный на физически достоверном рендеринге, позволяет генерировать неограниченное число разнообразных данных. Полученные данные могут использоваться в качестве обучающей выборки в задаче поиска бликов.

Кросс-модальная функция потерь для эмоциональной согласованности в моделях генерации говорящих лиц

28 февраля
Катрин Почтар

Предложена кросс-модальная функция потерь CrossModalEmotionLoss, повышающая эмоциональную согласованность речи и мимики при дообучении моделей генерации говорящих лиц без изменения архитектуры. Валидация на Wav2Lip (RAVDESS) показала рост Emotion F1 на +18,1 %.

Влияние пространственного распределения синтетической атмосферной дымки на обобщающую способность нейросетевых алгоритмов в задачах дистанционного зондирования

28 февраля
Вячеслав Волосянкин

В работе исследовано влияние пространственного распределения атмосферной дымки на доменный разрыв при обучении нейросетевых моделей раздымки для аэрокосмических снимков. Показано, что для успешного переноса модели на реальные данные необходимо отказаться от тривиальных моделей в пользу сложных математических абстракций. Валидация архитектуры DehazeFormer доказала, что предложенная гауссова модель позволяет уменьшить доменный разрыв и повысить качество восстановления снимков.

Построение графа дорожной сети по спутниковым снимкам

1 марта
Никита Ефимов

Автоматическое извлечение дорожной сети из спутниковых RGB-снимков является важной задачей для навигации и обновления картографических сервисов. Разработан модуль FastSnapper для сопоставления опорных точек с предсказанной маской дорог, ускоривший время работы модели в 2 раза; добавлен структурный компонент функции потерь, ориентированный на сохранение связности и тонких дорожных структур; проведена очистка обучающей разметки датасета от некорректных аннотаций.

Конвейер генерации данных для разработки систем мобильного ввода документов

1 марта
Мария Мехова

Данная работа посвящена разработке генератора данных, с помощью которого можно задавать параметры камеры, света, гнутости для изображения. В соответствии с конфигурацией, описывающей линии сгиба, углы поворота, длину и ширину листа, алгоритм может генерировать двойной или тройной сгиб, накладывать текстуры документов на 3D модель листа, а также предоставляет управление камерой и светом.

Визуальная навигация дрона по линейным ориентирам: от сегментации до коррекции маршрута

1 марта
Илья Прамский

В работе предлагается модульный пайплайн визуальной навигации БПЛА по линейным ориентирам (дороги, береговые линии) для повышения устойчивости при деградации GNSS. Метод переключает два режима: привязка кадра надирной камеры к локальному фрагменту карты по опорной точке через сопоставление и, при неустойчивости сопоставления, навигация по сегментированным протяжённым объектам с расчётом курсовой поправки. Показана реализуемость на Orange Pi с NPU в реальном времени.

Обучаемые фильтры с бесконечной импульсной характеристикой как механизм формирования рецептивного поля в нейронных сетях

1 марта
Дарья Ершова

Расширение рецептивного поля сверточной нейронной сети обычно сопровождается ростом вычислительной сложности и ограничивает применение моделей на мобильных и встраиваемых устройствах. В работе предлагается блок на основе обучаемых фильтров с бесконечной импульсной характеристикой, позволяющий расширить рецептивное поле при малом числе параметров. В задаче бинаризации документов модель демонстрирует сопоставимое с U-Net качество при сокращении числа параметров в 40 раз.

Сравнительный анализ методов оценки позы головы для мобильных устройств с селфи-камерой

8 марта
Полина Горохова

Выполнен сравнительный анализ методов оценки позы головы для мобильных устройств с селфи-камерой. Рассмотрены 3 класса подходов: на основе внешнего вида, анатомических ориентиров и гибридные. Формализованы критерии отбора с весовыми коэффициентами, на основе которых выполнен количественный анализ известных решений. Рассмотрен легковесный конвейер с использованием нейронных сетей и геометрических подходов. Выявлены перспективные методы для реализации в условиях ограниченных ресурсов.

PSFR: эволюционно оптимизированный метод выбора ключевых кадров для анализа длинных видео

10 марта
Андрющенко Соломон

В работе предложен метод PSFR для выбора ключевых кадров из длинных видео. Показано, что использование предподсчитанных визуальных признаков и эволюционно оптимизированной функции отбора позволяет лучше покрывать релевантные кадры по сравнению с равномерной выборкой и методом MaxInfo.

Система оценки качества моделей детекции логических аномалий

10 марта
Даниэль Сахаров

В работе представлена система оценки качества фреймворка детекции логических аномалий система Logical Anomaly Detection with Vision Language Model Generated Questions. Представлены метрики для оценки качества на разных этапах рассуждения. Проведенные эксперименты выявляют ключевые причины неэффективности макро-оценок, открывают новые возможности для совершенствования архитектур рассуждающих VLM-систем.

Выделение области наклеенной фотографии на цифровом изображении документа с использованием сканера с направленной подсветкой

28 февраля
Иван Косенко

В работе рассматривается алгоритмический метод выделения области наклеенной фотографии. Алгоритм основывается на анализе изображений получаемых при разных направлениях подсветки и фиксированной геометрии камеры, что позволяет анализировать изменения характера теней и бликов для различных подсветок и делать вывод о расположении области наклеенного фото.

68-я Всероссийская научная конференция МФТИ

Список разделов ФПМИ - Секция когнитивных технологий