Конференция 68 МФТИ

Исследование ускоренного метода градиентного типа с неточным оракулом для сильно квазар-выпуклых функций

15 февраля
Вадим Абронин

В работе предложен вариант ускоренного метода первого порядка для сильно квазар-выпуклых задач с неточным оракулом. При этом детально рассмотрен как детерминированный , так и стохастический метод. Помимо этого предложен безградиентный метод для сильно квазар-выпуклых функций, так же рассмотрен случай когда целевая функция имеет Гёльдеров градиент. Так же
был разработан частично адаптивный метод на базе предложенных
методов.

Cведение одной задачи оптимального управления деградирующей системой к конечномерной задаче булевой оптимизации

25 февраля
Богдан Корж, Богдан Корж

В работе рассмотрена дискретная модель, в которой состояние объекта описывается уровнем деградации и накопленным потенциалом восстановления, а управление имеет бинарный характер и интерпретируется как проведение технического обслуживания. Предложен интегральный критерий и показано, что он представим в виде псевдобулевой функции от вектора управлений. Для решения задачи предлагается использование методов квадратизации и алгоритмов оптимизации, таких как QPBO.

Сходимость методов первого порядка при наличии композитной неточности в градиенте

26 февраля
Артем Васин

Мы рассматриваем методы первого порядка с неточным детерменированным оракулом, в котором ошибка состоит из относительной и абсолютной компоненты. Для задач минимизации сильно выпуклых и гладких функций предложен ускоренный метод, учитывающий обе компоненты неточности. Для оценки качества предложенного алгоритма была доказана нижняя оценка скорости сходимости методов с относительной неточностью в градиенте.

Сходимость градиентных методов с высокой вероятностью при марковском шуме

27 февраля
Полина Подзорова

В работе исследуется сходимость градиентных методов с высокой вероятностью в условиях марковской стохастики. Получены гарантии сходимости для SGD со специальной техникой батчинга в невыпуклой постановке с предположением об ограниченности шума. Анализ расширен на более слабое предположение об ограниченной дисперсии с использованием техники клиппинга, что позволило доказать сходимость ускоренного SGD в выпуклом случае. Для обоих методов были получены оценки на оракульную сложность.

Оптимизация на основе тензорного поезда в задачах c линейными равенствами

28 февраля
Сергей Юдин

Мы исследуем методы комбинаторной оптимизации на основе Тензорного Поезда (ТП). Подходы, использующие $$U\left(1\right)$$-симметрию для кодирования ограничений, зависят от «зарядов» в обучающем датасете. При отсутствии нужных зарядов генерация решения невозможна. Мы предлагаем локальный поиск в пространстве зарядов, порождающий новые допустимые конфигурации. Метод кратно увеличивает число корректных решений, расширяя применимость ТП-оптимизации к комбинаторным задачам.

Теоретическое обоснование и адаптивный warm-up для LMO-оптимизаторов

28 февраля
Андрей Веприков

В работе предложено теоретическое обоснование и реализован адаптивный алгоритм разогрева (warm-up) для LMO-оптимизаторов, основанный на новом условии гладкости. Это допущение позволило аналитически вывести оптимальное расписание шага, естественным образом включающее фазы разогрева и спада, а разработанный практический метод автоматического подбора длительности warm-up продемонстрировал эффективность на уровне лучших ручных настроек при дообучении моделей.

Адаптивные и гиперградиентные методы оптимизации в машинном обучении

28 февраля
Нурышева Алина

Предложены гибридные методы оптимизации, сочетающие адаптивное онлайн-предобуславливание (OSGM) с ускоренными методами (AGD, AOR-HB). На примере сильно выпуклых квадратичных функций и реальных задач классификации показано, что в зависимости от параметров задачи и типа данных разные гибридные методы превосходят существующие подходы.

Метод адаптивного выбора количества клиентов для федеративного обучения

28 февраля
Владимир Алетов

В работе предложен метод адаптивного выбора числа клиентов в федеративном обучении (FedAdaBatch), который динамически регулирует размер клиентской выборки на основе оценки дисперсии градиента.

Эксперименты показали снижение коммуникационных затрат и времени обучения без потери точности, повышая эффективность FL при неоднородных данных.

Оценка скорости сходимости методов второго порядка в условиях относительной неточности

28 февраля
Константин Яковлев

В работе решается задача оптимизации сильно выпуклой функции с липшицевым градиентом и гессианом в условиях относительной неточности. Установлены неассимптотические оценки скорости сходимости по функции для неускоренного и ускоренного методов второго порядка. В отличие от постановки с абсолютной неточностью, в которой сходимость гарантируется только к некоторой окрестности решения, в предложенной постановке удается избежать данную проблему.

Об оптимальном риске в постановке дилеммы заключенных с нормально распределенными параметрами матрицы выигрыша

28 февраля
Никита Машалов

Рассмотрена задача управления риска в постановке аналогичной дилеме заключенных. Найдено и количественно изучено нарушение семантики выбора в условиях значительной дисперсии. Оценен оптимальный объем вложений с учетом издержек на компенсацию риска. Дополнительно оценен объем арбитражных стратегий в условиях обладания полной информаций.

Оптимизация нулевого порядка для дообучения LLM с помощью обучаемого сэмплирования направлений

28 февраля
Григорий Евсеев

Дообучение LLM требует больших ресурсов памяти из-за хранения состояний оптимизатора и обратного распространения ошибки. Методы нулевого порядка обходятся без градиентов, оценивая направленные производные напрямую, что снижает нагрузку на память. Однако классические оценки имеют высокую дисперсию и сильно зависят от размерности параметрического пространства. Мы предлагаем подход с обучаемым распределением направлений возмущений, которое адаптивно обновляется для снижения дисперсии.

Адаптивная оптимизация нулевого порядка с анизотропной адаптацией ковариации для стохастического оракула.

28 февраля
Александр Шолохов

В работе предлагается семейство непараметрических безградиентных методов, использующих анизотропное семплирование из адаптивной ковариационной матрицы и эффективную размерность пространства.

Исследование автоматов со словарём и смежных моделей вычислений

28 февраля
София Маланчук

В данной работе исследуются различные вариации автоматов со словарем и определяются классы языков, распознаваемых полученными моделями вычислений.

Разделяются классы языков, распознаваемых разными вариациями таких автоматов, а также взаимное расположение этих классов с известными классами языков, в частности контекстно-свободными.

Методы оптимизации распределенных вариационных неравенств без пересылки полного градиента

1 марта
Наиль Баширов

В данной работе предложены новые методы решения распределенных вариационных неравенств. В то время как оптимальные методы строятся на технике редукции дисперсии, разработанные алгоритмы не используют подсчет полного градиента и достигают квази-оптимальных теоретических оценок с существенным улучшением в задачах глубокого обучения.

Защита от византийских атак через пробную функцию и доверительные веса

1 марта
Глеб Молодцов

Недавние достижения в области машинного обучения повысили производительность моделей, но одновременно увеличили и вычислительные затраты. В данной работе рассматриваются византийские атаки, при которых скомпрометированные клиенты внедряют враждебные обновления, нарушая обучение. Объединяется концепция доверительных оценокс методологией пробной функции для динамической фильтрации выбросов. Методы позволяют системе функционировать даже в условиях, когда византийские узлы составляют большинство.

Алгоритм стохастической оптимизации MUON с адаптивным шагом

1 марта
Макар Сидоров

Новый метод оптимизации MUON, предложенный в 2024-м году, показал свою эффективность в обучении БЯМ, но требует подбора гиперпараметров, а именно размера шага, его расписания, и моментума, что является вычислительно затратной процедурой. В данной работе мы предлагаем модифицированный метод с адаптивным шагом и моментумом, способный заменить подбор данных гиперпараметров в практических задачах обучения нейросетей.

Обобщение оценки регрета для алгоритмов смешивания апостериорных распределений

1 марта
Анастасия Зухба

В данной работе предложен метод, позволяющий получать оценки потерь алгоритмов семейства MPP (Mixing Past Posteriors) с учетом ограничений на потери отдельных экспертов.

Приближение транспортной модели Бекмана моделью Нестерова-де Пальма в контексте поиска неэффективных рёбер

1 марта
Олег Шитиков

Данная работа рассматривает ослабленную задачу поиска неэффективных рёбер в транспортной сети. Предлагается алгоритм построения по равновесию в модели Бекмана приближающего его равновесия в модели Нестерова-де Пальма и рассматривается связь поведения моделей при малых изменениях потока, в частности поведение "перегруженных" рёбер и рёбер на остаточном пути.

Оптимизация политики в персонализированном обучении с подкреплением на основе отзывов людей: распределенная онлайн постановка

1 марта
Владимир Солодкин

Персонализация больших языковых моделей требует учета предпочтений пользователей без централизации данных, что мотивирует постановку федеративного дообучения. Алгоритмы, применяемые к обучению с подкреплением на основе отзывов, хорошо подходят для моделирования предпочтений, их использование остается одноагентным. В работе представлен фреймворк оптимизации политики, который позволяет клиентам с ограничениями конфиденциальности сотрудничать, сохраняя при этом траектории локальными.

Децентрализованный блочно-координатный метод условного градиента

1 марта
Игорь Игнашин

Рассматриваются стохастические подходы в децентрализованной постановке оптимизации, основанные на методах условного градиента. Обсуждаются современные результаты в области децентрализованных схем с отслеживанием градиента и блочно-координатных модификаций Frank–Wolfe, направленных на снижение вычислительной сложности итераций. Предложен метод деценетрализованного условного градиента, использующий блочно координатный метод при подсчете линейного минимизационного оракула

Онлайн оптимизация на симплексе: применение к задаче о максимальном одновременном потоке и её адаптивным модификациям

1 марта
Никита Артюх, Никита Артюх

Исследование алгоритма Гарга-Кёнемана как алгоритма онлайн оптимизации на симплексе и его адаптивных модификаций.

Кубически регуляризованный метод Ньютона с адаптивной гладкостью гессиана

1 марта
Евсей Обжерин

В работе рассматривается кубически регуляризованный метод Ньютона при адаптивной гладкости гессиана, зависящей от нормы градиента. Проведен анализ с разделением на дальний и ближний режимы и получены оценки числа итераций для достижения $$\varepsilon$$-стационарности. Доказана конечность числа переключений между режимами. Это позволяет получить более точные оценки сложности по сравнению с классическим случаем постоянной гладкости.

Исследование знаковых и классических градиентных методов оптимизации в глубоком обучении

2 марта
Тимофей Белинский

В работе представлен SoftSignum – новый метод оптимизации, сочетающий преимущества знакового и классического градиентного спуска. Предложенный подход реализует плавный, независимый для каждого параметра переход от метода Signum к SGD. Это позволяет сохранить высокую скорость обучения на ранних этапах и избежать осцилляций вблизи оптимума на финальной стадии. Эксперименты на данных с тяжелохвостыми распределениями подтвердили превосходство SoftSignum над Adam и SGD.

Децентрализованный градиентный спуск для (L0,L1)-гладких задач на базе (\Delta, \alpha)-неточного градиента

2 марта
Михаил Рудоманов

Рассматривается задача безусловной минимизации f(x)\to\min_{x \in \mathbb{R}^d}, где f принадлежит классу (L_0,L_1)-гладких функций и удовлетворяет условию Поляка-Лоясиевича. Дополнительно учитывается смешанная детерминированная неточность градиента. Цель работы — использование построенного централизованного метода для доказательства сходимости децентрализованного алгоритма минимизации суммы.

Алгоритм Франк-Вульфа для (L0−L1)-гладких функций

8 марта
Александр Выгузов

Мы предлагаем новую версию метода Франка—Вульфа, разработанную для задач оптимизации с целевыми функциями, обладающими (L_0,L_1)-гладкостью. Мы показали, что данный алгоритм обладает более высокими теоретическими скоростями сходимости по сравнению с классическим методом Франка—Вульфа. Кроме того, мы вводим новую адаптивную процедуру, которая динамически настраивает параметры гладкости и демонстрирует явные практические преимущества по сравнению с существующими вариантами.

Ускоренные универсальные методы первого порядка для относительно гладких и относительно сильно выпуклых задач оптимизации

10 марта
Олег Савчук

Работа посвящена разработке ускоренных универсальных градиентных методов для относительно гладких и относительно сильно выпуклых задач оптимизации. Для специального подкласса относительно гладких задач с треугольным шкалированным свойством дивергенции Брэгмана предложен универсальный вариант метода подобных треугольников с неточным оракулом. Доказаны оптимальные оценки сложности как для относительно гладких, так и относительно липшицевых задач выпуклой и относительно сильно выпуклой оптимизации.

Ускорение алгоритма OMP для решения задачи цифрового предыскажения сигнала с применением байесовской оптимизации

10 марта
Николай Спицын

Высокочастотный усилитель часто рассматривается как нелинейная «чёрная коробка» с эффектами памяти. Для компенсации этих эффектов применяются методы линеаризации, такие как цифровое предыскажение (digital predistortion, DPD), вводящий нелинейный предыскажатель, аппроксимирующий преобразование, обратное преобразованию усилителя. Подбор коэффициентов в аппроксимации преобразования - задача вычислительно сложная, и данная работа призвана облегчить эту задачу.

Ортогонализация направлений для оптимизации на многообразии Штифеля

10 марта
Солонько Михаил

В работе рассматриваются задачи выбора направления оптимизации на многообразии Штифеля обобщающие метод Muon. Предложены два альтернативных алгоритма, Skewon и StiefelRiemannion, для которых получены теоретические оценки сходимости и проведено численное сравнение с существующими методами.

Секанто-сохраняющий метод Бройдена как обобщение классических квазиньютоновских методов и ускорения Андерсона

10 марта
Роман Можаев

В методе Бройдена $$\delta B= (y_k-B_ks_k)v_k\top /(v_k\top s_k) $$, $v_k = s_k$ . В работе предлагается выбирать $v_k$ так, чтобы сохранить последние p секущих условий без увеличения ранга обновления. Обновление минимально по норме Фробениуса среди всех матриц, удовлетворяющих расширенному набору секущих условий. Численные эксперименты подтверждают ускорение сходимости в 1,5–3 раза по сравнению с классическим Бройденом и ускорением Андерсона.

Стохастический подход к планированию расписания авиакомпании по критерию устойчивости к сбойным ситуациям

10 марта
Денис Карамушко

В работе предложен стохастический подход к планированию расписания авиакомпании, направленный на повышение его устойчивости к сбойным ситуациям. Рассматривается вероятностное планирование времени разворота и полётного времени, оптимизация стыковочного времени для трансферных направлений. Разработанный комплекс моделей обеспечивает формализованное управление вероятностными рисками и может служить основой для системы поддержки принятия решений при составлении расписания авиакомпании.

Разработка и применение моделей линейного программирования для оптимизации производственной функции на примере регионального Медиахолдинга

10 марта
Егор Губин

В работе разработана модель оценки эффективности государственного регионального медиахолдинга на основе линейного программирования. Модель формализует многокритериальную задачу оптимизации распределения ограниченных ресурсов при балансировании коммерческих целей и выполнения государственного задания. Апробация на реальных данных подтвердила её практическую применимость и эффективность.

68-я Всероссийская научная конференция МФТИ

Список разделов ФПМИ - Секция математических основ управления