Секция посвящена теории и приложениям алгоритмов выпуклой и невыпуклой оптимизации, а также смежным направлениям: статистическим методам высокой размерности, равновесным задачам теории игр, вопросам математических оснований анализа больших данных. Секция приглашает участников представить результаты оригинальных теоретических и экспериментальных исследований по актуальным постановкам задач на вышеуказанные темы
Контакты:podlipnova.iv@phystech.edu
Формат проведения:
Дата и время проведения:
Место проведения:
В работе предложен вариант ускоренного метода первого порядка для сильно квазар-выпуклых задач с неточным оракулом. При этом детально рассмотрен как детерминированный , так и стохастический метод. Помимо этого предложен безградиентный метод для сильно квазар-выпуклых функций, так же рассмотрен случай когда целевая функция имеет Гёльдеров градиент. Так же
был разработан частично адаптивный метод на базе предложенных
методов.
В работе рассмотрена дискретная модель, в которой состояние объекта описывается уровнем деградации и накопленным потенциалом восстановления, а управление имеет бинарный характер и интерпретируется как проведение технического обслуживания. Предложен интегральный критерий и показано, что он представим в виде псевдобулевой функции от вектора управлений. Для решения задачи предлагается использование методов квадратизации и алгоритмов оптимизации, таких как QPBO.
Мы рассматриваем методы первого порядка с неточным детерменированным оракулом, в котором ошибка состоит из относительной и абсолютной компоненты. Для задач минимизации сильно выпуклых и гладких функций предложен ускоренный метод, учитывающий обе компоненты неточности. Для оценки качества предложенного алгоритма была доказана нижняя оценка скорости сходимости методов с относительной неточностью в градиенте.
В работе исследуется сходимость градиентных методов с высокой вероятностью в условиях марковской стохастики. Получены гарантии сходимости для SGD со специальной техникой батчинга в невыпуклой постановке с предположением об ограниченности шума. Анализ расширен на более слабое предположение об ограниченной дисперсии с использованием техники клиппинга, что позволило доказать сходимость ускоренного SGD в выпуклом случае. Для обоих методов были получены оценки на оракульную сложность.
Мы исследуем методы комбинаторной оптимизации на основе Тензорного Поезда (ТП). Подходы, использующие $$U\left(1\right)$$-симметрию для кодирования ограничений, зависят от «зарядов» в обучающем датасете. При отсутствии нужных зарядов генерация решения невозможна. Мы предлагаем локальный поиск в пространстве зарядов, порождающий новые допустимые конфигурации. Метод кратно увеличивает число корректных решений, расширяя применимость ТП-оптимизации к комбинаторным задачам.
В работе предложено теоретическое обоснование и реализован адаптивный алгоритм разогрева (warm-up) для LMO-оптимизаторов, основанный на новом условии гладкости. Это допущение позволило аналитически вывести оптимальное расписание шага, естественным образом включающее фазы разогрева и спада, а разработанный практический метод автоматического подбора длительности warm-up продемонстрировал эффективность на уровне лучших ручных настроек при дообучении моделей.
Предложены гибридные методы оптимизации, сочетающие адаптивное онлайн-предобуславливание (OSGM) с ускоренными методами (AGD, AOR-HB). На примере сильно выпуклых квадратичных функций и реальных задач классификации показано, что в зависимости от параметров задачи и типа данных разные гибридные методы превосходят существующие подходы.
В работе предложен метод адаптивного выбора числа клиентов в федеративном обучении (FedAdaBatch), который динамически регулирует размер клиентской выборки на основе оценки дисперсии градиента.
Эксперименты показали снижение коммуникационных затрат и времени обучения без потери точности, повышая эффективность FL при неоднородных данных.
В работе решается задача оптимизации сильно выпуклой функции с липшицевым градиентом и гессианом в условиях относительной неточности. Установлены неассимптотические оценки скорости сходимости по функции для неускоренного и ускоренного методов второго порядка. В отличие от постановки с абсолютной неточностью, в которой сходимость гарантируется только к некоторой окрестности решения, в предложенной постановке удается избежать данную проблему.
Рассмотрена задача управления риска в постановке аналогичной дилеме заключенных. Найдено и количественно изучено нарушение семантики выбора в условиях значительной дисперсии. Оценен оптимальный объем вложений с учетом издержек на компенсацию риска. Дополнительно оценен объем арбитражных стратегий в условиях обладания полной информаций.
Дообучение LLM требует больших ресурсов памяти из-за хранения состояний оптимизатора и обратного распространения ошибки. Методы нулевого порядка обходятся без градиентов, оценивая направленные производные напрямую, что снижает нагрузку на память. Однако классические оценки имеют высокую дисперсию и сильно зависят от размерности параметрического пространства. Мы предлагаем подход с обучаемым распределением направлений возмущений, которое адаптивно обновляется для снижения дисперсии.
В работе предлагается семейство непараметрических безградиентных методов, использующих анизотропное семплирование из адаптивной ковариационной матрицы и эффективную размерность пространства.
В данной работе исследуются различные вариации автоматов со словарем и определяются классы языков, распознаваемых полученными моделями вычислений.
Разделяются классы языков, распознаваемых разными вариациями таких автоматов, а также взаимное расположение этих классов с известными классами языков, в частности контекстно-свободными.
В данной работе предложены новые методы решения распределенных вариационных неравенств. В то время как оптимальные методы строятся на технике редукции дисперсии, разработанные алгоритмы не используют подсчет полного градиента и достигают квази-оптимальных теоретических оценок с существенным улучшением в задачах глубокого обучения.
Недавние достижения в области машинного обучения повысили производительность моделей, но одновременно увеличили и вычислительные затраты. В данной работе рассматриваются византийские атаки, при которых скомпрометированные клиенты внедряют враждебные обновления, нарушая обучение. Объединяется концепция доверительных оценокс методологией пробной функции для динамической фильтрации выбросов. Методы позволяют системе функционировать даже в условиях, когда византийские узлы составляют большинство.
Новый метод оптимизации MUON, предложенный в 2024-м году, показал свою эффективность в обучении БЯМ, но требует подбора гиперпараметров, а именно размера шага, его расписания, и моментума, что является вычислительно затратной процедурой. В данной работе мы предлагаем модифицированный метод с адаптивным шагом и моментумом, способный заменить подбор данных гиперпараметров в практических задачах обучения нейросетей.
В данной работе предложен метод, позволяющий получать оценки потерь алгоритмов семейства MPP (Mixing Past Posteriors) с учетом ограничений на потери отдельных экспертов.
Данная работа рассматривает ослабленную задачу поиска неэффективных рёбер в транспортной сети. Предлагается алгоритм построения по равновесию в модели Бекмана приближающего его равновесия в модели Нестерова-де Пальма и рассматривается связь поведения моделей при малых изменениях потока, в частности поведение "перегруженных" рёбер и рёбер на остаточном пути.
Персонализация больших языковых моделей требует учета предпочтений пользователей без централизации данных, что мотивирует постановку федеративного дообучения. Алгоритмы, применяемые к обучению с подкреплением на основе отзывов, хорошо подходят для моделирования предпочтений, их использование остается одноагентным. В работе представлен фреймворк оптимизации политики, который позволяет клиентам с ограничениями конфиденциальности сотрудничать, сохраняя при этом траектории локальными.
Рассматриваются стохастические подходы в децентрализованной постановке оптимизации, основанные на методах условного градиента. Обсуждаются современные результаты в области децентрализованных схем с отслеживанием градиента и блочно-координатных модификаций Frank–Wolfe, направленных на снижение вычислительной сложности итераций. Предложен метод деценетрализованного условного градиента, использующий блочно координатный метод при подсчете линейного минимизационного оракула
Исследование алгоритма Гарга-Кёнемана как алгоритма онлайн оптимизации на симплексе и его адаптивных модификаций.
В работе рассматривается кубически регуляризованный метод Ньютона при адаптивной гладкости гессиана, зависящей от нормы градиента. Проведен анализ с разделением на дальний и ближний режимы и получены оценки числа итераций для достижения $$\varepsilon$$-стационарности. Доказана конечность числа переключений между режимами. Это позволяет получить более точные оценки сложности по сравнению с классическим случаем постоянной гладкости.
В работе представлен SoftSignum – новый метод оптимизации, сочетающий преимущества знакового и классического градиентного спуска. Предложенный подход реализует плавный, независимый для каждого параметра переход от метода Signum к SGD. Это позволяет сохранить высокую скорость обучения на ранних этапах и избежать осцилляций вблизи оптимума на финальной стадии. Эксперименты на данных с тяжелохвостыми распределениями подтвердили превосходство SoftSignum над Adam и SGD.
Мы предлагаем новую версию метода Франка—Вульфа, разработанную для задач оптимизации с целевыми функциями, обладающими (L_0,L_1)-гладкостью. Мы показали, что данный алгоритм обладает более высокими теоретическими скоростями сходимости по сравнению с классическим методом Франка—Вульфа. Кроме того, мы вводим новую адаптивную процедуру, которая динамически настраивает параметры гладкости и демонстрирует явные практические преимущества по сравнению с существующими вариантами.
Работа посвящена разработке ускоренных универсальных градиентных методов для относительно гладких и относительно сильно выпуклых задач оптимизации. Для специального подкласса относительно гладких задач с треугольным шкалированным свойством дивергенции Брэгмана предложен универсальный вариант метода подобных треугольников с неточным оракулом. Доказаны оптимальные оценки сложности как для относительно гладких, так и относительно липшицевых задач выпуклой и относительно сильно выпуклой оптимизации.
Высокочастотный усилитель часто рассматривается как нелинейная «чёрная коробка» с эффектами памяти. Для компенсации этих эффектов применяются методы линеаризации, такие как цифровое предыскажение (digital predistortion, DPD), вводящий нелинейный предыскажатель, аппроксимирующий преобразование, обратное преобразованию усилителя. Подбор коэффициентов в аппроксимации преобразования - задача вычислительно сложная, и данная работа призвана облегчить эту задачу.
В работе рассматриваются задачи выбора направления оптимизации на многообразии Штифеля обобщающие метод Muon. Предложены два альтернативных алгоритма, Skewon и StiefelRiemannion, для которых получены теоретические оценки сходимости и проведено численное сравнение с существующими методами.
В методе Бройдена $$\delta B= (y_k-B_ks_k)v_k\top /(v_k\top s_k) $$, . В работе предлагается выбирать так, чтобы сохранить последние p секущих условий без увеличения ранга обновления. Обновление минимально по норме Фробениуса среди всех матриц, удовлетворяющих расширенному набору секущих условий. Численные эксперименты подтверждают ускорение сходимости в 1,5–3 раза по сравнению с классическим Бройденом и ускорением Андерсона.
В работе предложен стохастический подход к планированию расписания авиакомпании, направленный на повышение его устойчивости к сбойным ситуациям. Рассматривается вероятностное планирование времени разворота и полётного времени, оптимизация стыковочного времени для трансферных направлений. Разработанный комплекс моделей обеспечивает формализованное управление вероятностными рисками и может служить основой для системы поддержки принятия решений при составлении расписания авиакомпании.