Конференции

66-я Всероссийская научная конференция МФТИ

Список разделов ФПМИ - Секция проблем интеллектуального анализа данных, распознавания и прогнозирования

Секция посвящена проблемам анализа данных, распознавания образов и прогнозирования

 

Формат проведения: Очно-дистанционный

Дата проведения: 06.04.2024 в 15:00, МФТИ, TBA

  • Метод порождения графов с контролем статистических свойств

    В работе предлагается новый метод порождения графов, разделяющий статистические характеристики графа на две группы с последующем контролем одной из них. Первая группа может быть вычислена эффективными детерминированными алгоритмами, а вторая генерируется в скрытом пространстве и отвечает за закономерности графа, которые невозможно описать первой группой. Этот подход позволяет генерировать графы с точно заданными характеристиками, при этом сохраняя их разнообразие.

  • Метод комплексирования разноспектральной информации в задаче обнаружения и распознавания объектов

    В данной работе предлагается новый метод комплексирования разноспектральных изображений с целью повышения итогового качества детектирования объектов. Рассматривается эффективность применения данного метода для решения задачи обнаружения и распознавания объектов.

  • О разработки базы знаний (атласа зависимостей) на основе анамнеза пациентов НИИ Нейрохирургии им. Бурденко методом интеллектуального анализа данных ДСМ-метода.

    Инструменты ранней диагностики заболеваний на основании данных, собранных специалистами в анамнезе, сталкиваются с общими для всех систем, использующих технологии и методы искусственного интеллекта, проблемами недостаточности данных, данных разной семантики и данных разной природы. В работе представлено решение на базе Web-сервиса, использующего ДСМ ИАД метод для решения задачи анализа новых пациентов и прогнозирования возможного ухудшения состояния пациента после проводимых процедур.

  • Определение достаточного размера выборки по апостериорному распределению параметров модели

    Исследуется задача выбора достаточного размера выборки. Рассматривается проблема определения достаточного размера выборки без постановки статистической гипотезы о распределении параметров модели. Предлагаются два подхода на основании близости апостериорных распределений параметров модели на схожих подвыборках.

  • Тензорная декомпозиция и прогноз для набора временных рядов

    Декомпозиция временного ряда применяется для получения его структуры: разложения на простые или интерпретируемые составляющие, выявление периодичности, избавление от шума и т.д. В случае же набора многих сигналов необходимо также учесть зависимости между ними. В данной работе предлагается метод, учитывающий фактор взаимосвязи рядов. Подход основывается на методе SSA и тензорных разложениях, и позволяет строить декомпозицию и прогноз рядов.

  • Классификация траекторий динамических систем с помощью физически-информированных нейросетей

    В работе рассмотрена задача классификации многомерных траекторий физических систем. Данная задача осложнена тем, что требуется учитывать не только временные зависимости во временном ряде, но и зависимости между компонентами данного ряда. Классификация проводится на основе лагранжевых нейронных сетей (LNN) для временных рядов, являющимися траекториями механических систем. В свою очередь в работе представляется метод векторизации, полученных лагранжианов, использующаяся для классификаторов.

  • Разработка языковой модели для анализа электронных медицинских карт: алгоритм обработки естественного языка для медицинских лабораторных исследований

    Качественный анализ и интерпретация медицинских лабораторных данных при помощи искуственного интеллекта позволит улучшить подходы к диагностике заболеваний и планированию лечения. Нами был проведен обширный литературный обзор существующих медицинских больших языковых моделей, определена вычислительная проблема и создан прототип, дообученный на наборах данных с открытым исходным кодом. Также нами обозначен дальнейший план исследований в области NLP-анализа лабораторных медицинских исследований.

  • Пространственно-временные методы анализа временных рядов

    Исследуются пространственно-временные характеристики в задаче декодирования временных рядов с дискретным представлением времени. Проводится анализ временной зависимости между последовательностью снимков функциональной магнитно-резонансной томографии и видеорядом, просматриваемым человеком. Предлагается метод аппроксимации показаний фМРТ по просматриваемому видеоряду. Рассматривается проблема классификации временных рядов для анализа пространственных характеристик. 

  • Методы оптимизации с предобуславливанием и затуханием весов.

    В работе исследуется скорость сходимости методов оптимизации с предобуславливанием и затуханием весов, доказывается  ассимптотическая  сходимость таких методов при различных условиях на минимизируемый функционал и по различным критериям сходимости. Проводятся эксперименты на разлисных наборах данных и моделях, иллюстрирующие сходимость данных методов и сравнение их с другими методами оптимизации.

  • Метод классификации ЭЭГ сигналов на основе парадигмы отказа от классификации

    В данной работе рассматривается проблема классификации ЭЭГ сигналов, полученных с использованием нейрокомпьютерного интерфейса. Предлагается использовать новый подход, основанный на порождающем моделировании и парадигме отказа от классификации.

  • Автоматическое выделение терминов для тематического моделирования

    Новые научные термины появляются каждый день. Ручное извлечение терминов с привлечением узкоспециализированных специалистов является трудозатратным. Цель настоящей работы — обнаружение таких терминов в коллекциях документов в автоматическом режиме. Для решения данной задачи используется метод выделения коллокаций (TopMine) и он же в сочетании с модульной технологией тематического моделирования (с использованием библиотеки BigARTM). Производится сравнение рассматриваемых решений.

  • Генерация датасета для задачи распознавания мусора по снимкам с дрона на основе кликовой сегментации и синтетических данных

    С появлением глубоких свёрточных сетей, задача многоклассовой семантической сегментации перешла из разряда нерешаемых в разряд классических. Главное препятствие на пути разработчиков машинного обучения – поиск данных, на которых алгоритм будет обучаться.

    Ручная разметка - это долго и дорого. Честная генерация данных - это тоже долго и дорого. Однако для некоторых типов изображений удается соединить эти два подхода и взять лучшее из обоих. 

  • Методы оценки качества предсказания спроса на авиабилеты

    В данной работе предлагается метод оценки качества предсказания спроса на авиабилеты. Использование одной из классических метрик машинного обучения оказывается недостаточно, так как данные имеют разный масштаб, а также определенную зависимость спроса от дня до вылета. Разработанный метод заключается в оценке качества с трех взаимодополняющих сторон: масштаб, средняя ежедневная точность и эластичность, что позволит покрыть обозначенные особенности данных.

  • Оценка погрешности последовательного анализа Вальда

    Исследование посвящено анализу эффективности последовательного анализа Вальда в контексте проверки гипотез бернуллиевских распределений, с акцентом на оптимизацию параметров алгоритма для повышения точности вероятностей ошибок I и II рода. В работе проведено моделирование различных сценариев тестирования.

  • Методы детекции машинно-сгенерированных фрагментов в документах

    Работа посвящена способам детекции машинно-сгенерированных фрагментов в текстах, написанных людьми. Исследуются как традиционные методы, основанные на анализе смены стиля, так и методы с использованием трансформерных архитектур

  • Комплексная рекомендательная система на основе бустинга

    В данной работе рассматривается нестандартный подход к построению рекомендательных систем при помощи каскада моделей бустинга, который позволяет решить следующие проблемы:

    - недостаточность данных для применения методов матричной факторизации, а именно малое число продуктов относительно числа пользователей (соотношение 1:100000);

    - действия пользователей не единовременны (покупка/просмотр), а имеют некоторую продолжительность во времени;

    - прогнозирование на различные временные периоды.

  • Обобщенная жадная градиентная оптимизация гиперпараметров

    В работе рассматривается задача градиентной оптимизации гиперпараметров. Проблема заключается в том, что подсчет точного гиперградиента является вычислительно сложной задачей. В данной работе предлагается линейный по количеству параметров и гиперпараметров метод подсчета гиперградиента, удовлетворяющий достаточному условию спуска. Экспериментальные результаты на задаче перевзвешивания объектов обучающей выборки показывают целесообразность предложенного подхода.

  • Дифференцированный поиск ансамблей нейронных сетей с контролем их разнообразия

    Эта статья создана с целью представить новый метод построения ансамблей моделей глубокого обучения. В работе применяется гиперсеть, которая сэмплирует архитектуры для формирования итогового ансамбля. Для обучения гиперсети используется регуляризатор, основанный на разнице в количестве ребер в текущей и оптимальной архитектурах, найденной заранее. Метод оценивается в вычислительном эксперименте на датасете CIFAR-100, где показывает хорошие результаты.

  • Слои нормализации по батчу как индикатор типичности обучающего домена

    Слои нормализации по батчу (BN), аппроксимирую распределение фичей обучающего датасета. В данной работе мы углубляемся в концепцию BN и показываем, как информация о обучающем домене может быть использована для оценки типичности входных данных. Такая оценка может проводиться по всем слоям сети, что позволяет дополнительно анализировать глубину, ширину и другие характеристики сети. В качестве примера практической применимости предлагаемого подхода используется задача оценки качества изображения.

  • Восстановление модели расчета параметра EGT Margin турбовинтовых авиационных двигателей методами машинного обучения

    Состояние современных турбовентиляторных авиационных двигателей анализируется специальным ПО, под общим названием Engine Condition Monitoring (ECM). В данной работе описывается восстановление математической модели показателя Exhaust Gas Temperature Margin (EGTM) на основе полётной информации воздушного судна методами машинного обучения.

  • Преобразования признакового пространства в модели процесса многократного машинного обучения

    В данной работе проанализированы системы многократного машинного обучения, и как на них влияет преобразование признаков. Целью этого исследования является нахождение условий, при которых результаты, полученные для системы с исходными обучающими данными, могут быть перенесены на аналогичную систему с преобразованными признаками.

  • Выбор оптимальной модели в задаче моделирования динамики физической системы

    В работе решается задача предсказания динамики физической системы. Нейронные сети не имеют априорных знаний о моделируемой системе, т.е. их параметры не учитывают физические законы. Предлагается Нётеровская лагранжева нейронная сеть, учитывающая законы сохранения энергии, импульса и момента импульса. Результаты экспериментов по моделированию динамики системы двойного маятника подтверждают гипотезу, что внесение априорного знания о физике системы повышает качество модели

  • Применение стохастической аппроксимации нулевого порядка с техникой запоминания в алгоритме Франк-Вульфа

    В данной работе рассматривается детерминированная и стохастическая задачи минимизации на ограниченном выпуклом множестве Q в предположении, что у нас нет доступа к градиенту целевой функции f(x), поэтому нам нужно каким-то образом оценить его. Предлагается рассмотреть и доказать сходимость метода нулевого порядка JAGUAR, который использует информацию из предыдущих итераций и требует вызовов оракула O(1) в алгоритме Франка-Вулфа.

  • Determination of the Number of Topics Intrinsically: Is It Possible?

    The number of topics might be the most important parameter of a topic model.
    The topic modelling community has developed a set of various procedures to estimate the number of topics in a dataset, but there has not yet been a sufficiently complete comparison of existing practices.
    This study attempts to partially fill this gap by investigating the performance of various methods applied to several topic models on a number of publicly available corpora.

  • Fine-Tuning как эффективная альтернатива регрессии для трансформеров молекулярных структур

    В данной работе предлагается архитектура, позволяющая эффективно решать задачу предсказания молекулярных свойств или классификацию молекул с использованием двух различных подходов машинного обучения: BERT и GNN.

  • Методы оптимизации для обучения гетерогенных ансамблей

    В рамках данного исследования рассматриваются различные методы оптимизации для эффективного обучения гетерогенных ансамблей моделей RoBERTa и GNN в области хемоинформатики, с учетом использования алгоритмов оптимизации для обучения на больших выборках.

  • Об оценках взаимной информации с помощью метода сжатия с потерями

    В работе предлагается подход для оценки взаимной информации между многомерными случайными величинами с помощью сжатия данных. Проведены эксперименты на синтетических данных, подтверждающие качество предложенного подхода. Получены теоретические границы для отклонения оценки взаимной информации с помощью сжатия данных от истинного значения. Кроме того, проведены эксперименты по анализу реальных нейросетей с помощью предложенного метода.

  • Итеративное улучшение аддитивно регуляризованной тематической модели

    Целью данной работы является построение итеративно обновляемой тематической модели, при обучении которой учитывается накопленная ранее информации об уже найденных в процессе моделирования релевантных, нерелевантных и «плохих» темах. С тем, чтобы сохранить релевантные темы и уменьшить число «плохих» тем. Релевантные темы сохраняются с помощью регуляризатора сглаживания, число плохих тем уменьшается с помощью регуляризатора декоррелирования. 

  • Восстановление зашумленных значений многомерных временных рядов с помощью тензорного метода задержек и тензорного разложения

    С помощью тензорного метода задержек и маскирвоания, выбирается оптимальное низкоранговое представление многомерного временного ряда. Из комбинации полученных низкоранговых представлений формируются итоговые времянные ряды.

  • Применение физически обусловленной нейросетевой модели в задаче расчета изменения нуклидного состава ядерного топлива

    В работе рассматривается возможность моделирования динамики изменения изотопного состава топлива с помощью нейронной сети. Используется парадигма физически обусловленных нейронных сетей путем введения модифицированной функции потерь учитывающей как отклонение результата прогнозирования от тренировочных данных, так и отклонение результатов от формального аналитического решения системы уравнений выгорания

  • Выразительная сила рекуррентных нейронных сетей

    Одним из актуальных направлений в исследовании теоретических основ глубоких нейронных сетей является изучение выразительной силы различных архитектур глубоких сетей. В значимых статьях по этой теме в качестве меры выразительности сети рассматривается канонический CP-ранг тензора, соответствующего определенной архитектуре сети. Мы докажем теорему о “нижней оценке” CP-ранга тензора, у которого в Tensor Train разложении внутренние ядра совпадают.

  • О задаче поиска равновесного распределения потоков.

     

    В работе рассматривается задача поиска равновесного распределния транспортных потоков. Исследуются различные модификации алгоритма Frank-Wolfe в приложении к этой задаче.

  • Применение метода PINNs на плоских многообразиях

    В данной работе предложена адаптация метода Physics-Informed Neural Networks для решения дифференциальных уравнений на плоских многообразиях. В качестве примера рассмотрено решение уравнения теплопроводности на ленте Мёбиуса.

  • Модель переходной синхронизации в многоэлементной системе попарно взаимодействующих бинарных стохастических процессов

    С целью изучения переходной синхронизации взаимодействующих точечных стохастических процессов численно исследована дискретная динамика модельной системы из N бинарных элементов – "нейронов", чье состояние описывалось нестационарным процессом Бернулли. Если два нейрона одновременно испускают спайк, то их вероятности испускания спайка увеличиваются на константу. Как функция от N, получено время перехода всех нейронов системы от начальной до максимально допустимой вероятности спайка.