Секция посвящена проблемам искусственного интеллекта
Формат проведения: очно-дистанционный
Дата и время проведения: 03.04.2025 с 10.00 до 18.00
Место проведения: МФТИ поточная 4 этаж Физтех.Арктика
Большие языковые модели получили распространение из-за способности решать широкий спектр задач. Но они демонстрируют тенденцию к генерации галлюцинаций. В рамках данного исследования разработан класс методов, которые повышают устойчивость RAG (Retrieval Augmented Generation) — системы, сочетающей поиск релевантной информации в базе знаний и формирование ответа, к генерации ложной информации.
Одной из ключевых задач в области энергоэффективности является мониторинг и анализ потребления электроэнергии.
В данной работе рассматривается применение графовых нейронных сетей в задаче дезагрегации энерегии.
Методы самообучения позволяют тренировать модели машинного обучения на неразмеченных данных. В данной работе была обобщена модель самообучения, предназначенная для обработки временных рядов, на пространственно-временной случай. В качестве прикладной задачи была выбрана актуальная проблема предсказания засухи для выбранного региона.
В докладе представлен прототип модели принятия легитимных и этичных решений автономными системами искусственного интеллекта (далее ИИ) при управлении корпорациями. Прототип выпущен по лицензии MIT (https://github.com/iboard-project/prototype). Программный код исследования и набор искусственных данных доступны в репозитории: https://github.com/iboard-project.
В работе представлены результаты детального изучения методов PCA и PLS для выделения информативных признаков в спектральных данных. Показана эффективность использования выделенных признаков в моделях машинного обучения SVM и GaussianNB.
Использовались данные CASIA-B и видеозаписи патологической походки. Статические признаки извлекались с помощью Mask R-CNN и ResNet-18, а динамические — на основе OpenPose, включая частоту шагов, длину шага и движения рук. Для объединения признаков разработан модуль слияния на основе механизма внимания. Итоговые признаки подавались в полносвязанный классификатор.
Спекулятивное декодирование стало популярным методом для ускорения генерации ответов большими языковыми моделями, сохраняя при этом качество ответов. Однако методы спекулятивного декодирования, разработанные для обработки одного запроса за раз (batch size = 1), не так эффективны при работе с большими пакетами запросов (batch size ≥ 8). В данной работе предлагается метод спекулятивного декодирования, который эффективно работает с большими пакетами запросов (batch size ≥ 8).
Применение стохастического обучения модели нейронной сети для решения задач популяционной генетики
В данной работе предлагается использование графа сцены, сформированного модулем визуальной сегментации, для улучшения результата перепланирования в реальном времени. Такой подход позволяет обрабатывать запросы с использованием общих терминов, корректировать план при блокировании объектами взаимодействия с находящимися рядом, а также корректировать план под актуальные положения объектов.
Классические методы восстановления глубины включают стереозрение и использование лазерных сканеров, однако эти подходы имеют ряд ограничений. В этом исследовании предлагается подход, в котором для восстановления метрических карт глубин используется нейросеть, с последующей калибровкой карты глубин на основе детекции особых меток. Такой подход позволяет повысить точность и качество карт глубин.
Изучение возможностей гибридных квантово-классических нейронных сетей для решения задачи классификации в бинарном исполнении. В данной работе представлен выйгрыш такого метода и возможности.
В данной работе представлена модульная нейронная сеть, использующая селективную заморозку базового экстрактора и отсоединяемый классификатор для эффективного трансферного обучения и иерархической классификации. Реализация трёхэтапного цикла обучения на CIFAR-10 и CIFAR-100 демонстрирует, что предложенный подход позволяет достичь сопоставимых или более высоких показателей точности при снижении вычислительных затрат.
Настоящее исследование посвящено анализу влияния различных конфигураций гибридных нейросетевых архитектур на эффективность детекции аномальных событий в видеопоследовательностях. В рамках работы рассмотрены модели, комбинирующие сверточные сети/блоки внимания для пространственного анализа и рекуррентные/трансформерные блоки для обработки временной динамики. Основной целью является разработка легковесной архитектуры, обеспечивающей высокий уровень точности при минимальном количестве параметров.
Данная работа направлена на применение в роботехнике, где часто возникает необходимость сбора и разметки датасета для задачи детекции. Предлагается автоматизировать процесс получения сбора и разметки изображений с помощью симулятора, а затем использовать методы адаптации домена для решения проблемы доменного сдвига между изображениями из симуляции и реальности.
В работе предлагается метод детекции аномалий во временных рядах, основанный на байесовских нейронных сетях. Подход использует вероятностные апостериорные распределения весов, что позволяет учитывать неопределённость и повышать надёжность обнаружения аномальных точек. Предложенная архитектура обучается в режиме без учителя (unsupervised learning) и способна адаптироваться к широкому спектру данных — от промышленных сигналов до финансовых индикаторов.
В этой работе мы предлагаем метрику текстового воздействия с учетом эмоций ETIA (Emotion-Aware Textual Influence Activation), которая автоматически определяет эффективные эмоциональные промпты LLM на основе значений активаций в моделе. Результаты экспериментов подтверждают, что мы можем эффективно улавливать эмоциональное воздействие, что было продемонстрировано на моделях Gemma-2, LLaMA-3.3 и Qwen-2.5.
В работе исследуется подход к улучшению качества сегментации дороги путем уплотнения лидарного облака точек за счет использования лидарной одометрии. Полученные результаты могут быть применены при проектировании систем автономного транспорта.
В работе представлена VerifyLLM — система верификации планов роботов перед выполнением. Объединяя большие языковые модели с темпоральной логикой, система выявляет позиционные ошибки, отсутствие предусловий и избыточные действия. Тесты на наборах данных ALFRED-LTL и VirtualHome-LTL показывают улучшение метрики LCS в 2.5 раза и сокращение ошибок порядка вдвое. Абляционные исследования подтверждают критическую важность обоих компонентов, особенно модуля LLM-верификации.
В работе представлен метод атаки на алгоритм нанесения водяных знаков StegaStamp, полностью удаляющий водяные знаки с изображения с минимальной потерей качества, разработанный в рамках соревнования от NeurIPS “Erasing the invisible”.
В работе изучаются методы оптимизации больших языковых моделей (LLM) путем удаления слоев и квантизации весов. Рассмотрен алгоритм удаления слоев на основе углового расстояния между представлениями. Проведены эксперименты с моделями семейства Gemma, измерены перплексия (PPL) и снижение потребления видеопамяти. Для восстановления качества после оптимизации использован LoRA-адаптер, что позволило повысить точность генерации при сокращении объема модели.
Представлена система реального времени для обнаружения дефектов дороги и препятствий в сложных погодных условиях на основе стерео-камеры. Используются модели Mask2Former для сегментации дефектов и YOLOv11-seg для обнаружения объектов. Обучение проведено на собственных и открытых датасетах. Система достигает mIoU = 73.47%, работает со скоростью 14 FPS на RTX 4070 и обеспечивает надежную детекцию в сложных условиях.
Исследование фокусируется на анализе современных методов 3D-детекции на основе лидарных данных и делает акцент на улучшении эффективности работы алгоритма VoxelNeXt, что позволяет добиться инференса в режиме реального времени на видеокартах уровня GTX3060Ti при сохранении качества работы. Кроме этого, демонстрируется практическое применение алгоритма в настоящем беспилотном автомобиле.
В работе представлен новый подход к детекции машинно-сгенерированных текстов, показывающий на выбранном бенчмарке SOTA результаты. Он основан на применении понижения размерности конкретного внутреннего представления предобученной модели-декодировщика с последующей классификацией. С ним сравниваются текущие наиболее эффективные модели классификации. Также проводится анализ скрытых слоёв LLM и их влияние на модель выявления сгенерированных текстов.
В работе исследуется применение больших языковых моделей для генерации мелодий в символьном домене на основе текста песен. Основная задача — создание мелодии, где каждой ноте соответствует слог из исходного текста. Для решения задачи были дообучены три модели: Llama 3.1, Saiga и Vykhr, с использованием двух этапов обучения: pretrain на датасете мелодий и SFT на инструкциях по генерации мелодий.
We systematically analyzed vulnerabilities, identified threats and summarized the mitigation strategies in a MLOps platform through STRIDE threat modeling.
Собран датасет с разметкой по материалам объектов на изображениях. Проведена валидация моделей семантической сегментации и визуальных языковых моделей.
В работе рассматривается проблема сегментации тонких и вытянутых объектов, таких как провода, шланги и неровности поверхности. Современные модели часто ошибаются при их выделении из-за малых размеров, размытых границ и схожести с фоном.
Для решения этой проблемы предложен метод, улучшающий сегментацию с использованием текстового описания сцены. Разработанная архитектура HQ-SAM-Text интегрирует текстовую информацию, что повышает точность выделения сложных объектов.
Для совершенствования методов диагностики заболеваний перспективно применение мультимодальных моделей, способных анализировать всю доступную информацию. В настоящей работе проведен анализ эффективности сочетанного использования данных пола, возраста и результатов общего анализа крови, электрокардиографии и рентгенографии органов грудной клетки – одних из наиболее простых, доступных и широко используемых методов диагностики – относительно максимально широкого спектра заболеваний.
Предлагается новый метод LERa для корректировки плана действий поведения агента в виртуальной среде. Данный подход был аппробирован на виртуальных средах ALFRED, PyBullet и реальном роботе манипуляторе.
В данной работе представлен LEG-SLAM (Language-Enhanced Gaussian Splatting SLAM) — первая система, объединяющая SLAM, Gaussian Splatting и языковые признаки для реконструкции трехмерных сцен в реальном времени с возможностью семантического анализа на основе текстовых запросов.
Эксперименты на Replica и ScanNet демонстрируют, что LEG-SLAM достигает 10 FPS на Replica и 18 FPS на ScanNet, что значительно превосходит существующие методы.
Исследовано применение нейронного оптимального транспорта для трансфера голоса. Эксперименты показали улучшение метрики FAD при умеренном росте EER и WER, обеспечивая гибкий компромисс между качеством синтеза и точностью распознавания речи.
This work presents and showcases a novel reinforcement learning agent which is model-free and ensures online environment stabilization. Online means that in each learning episode, the environment is stabilized. The base actor-critic scheme of the proposed approach is analogous to SARSA, however unlike SARSA it comprises Lyapunov-like constraints that ensure asymptotic stability. This was confirmed with a formal result.
В работе рассмотрена задача детектирования и классификации аномалий во временных рядах применительно к открытому датасету 3W. Предложена и реализована архитектура модели на основе энкодера трансформера, учитывающая широкий контекст входных эмбедингов. В конце работы озвучены направления дальнейшего развития для достижения SOTA результатов на выбранном датасете
В данной работе представлен программный модуль для варьирования физических и визуальных параметров симуляционной среды на базе платформы IsaacSim, разработанный для генерации разнообразных сценариев для обучения и тестирования моделей.
В работе представляется обзорная характеристика KAN с упором на их концептуальные отличия от классических MLP. Особое внимание уделяется вариациям архитектуры KAN, основанным на идеях использования преобразования Фурье. Обсуждаются примеры использования KAN в задачах анализа данных и возможные пути дальнейших улучшений, включая смешанные подходы (гибриды KAN и MLP), а также аспекты оптимизации периодических функций активации.
Современные методологии управления проектами сталкиваются с проблемой неточных оценок трудозатрат и времени выполнения задач. Ошибочные прогнозы приводят к нарушению сроков, перерасходу ресурсов и ухудшению качества продукта. В данной работе рассматривается применение методов машинного обучения автоматической корректировки оценок задач
В работе исследуется эффективность трансформерных моделей и методы повышения их стабильности и устойчивости в онлайн обучении с подкреплением для задач непрерывного управления. Для этого проводится сравнительный анализ моделей на основе GPT-2, LSTM, MLP на средах MuJoCo и ManiSkill3 с использованием алгоритмов PPO и TD3. Полученные результаты подтверждают потенциал трансформеров как универсальной архитектуры для онлайн RL и открывают перспективы для дальнейших исследований.
В работе представлен новый алгоритм SI-RRT (Safe-Interval rapidly exploring random tree) для планирования траекторий манипуляторов в динамической среде с движущимися препятствиями. SI-RRT объединяет метод безопасных интервалов (SIPP) с двунаправленным рандомизированным поиском (RRT-Connect).
Работа посвящена адаптации мультимодальных моделей машинного обучения для медицинской диагностики. Предложен подход дообучения предобученной модели с использованием техник тонкой настройки и квантования весов для снижения вычислительных требований. Проведено сравнение адаптированной и исходной моделей. Показано, что предложенные методы улучшают качество генерации медицинских отчётов по изображениям, подтверждая перспективность их применения в автоматизированной диагностике.