На секцию перспективных вычислительных технологий принимаются научные работы, посвященные промежуточному и системному ПО; системам моделирования и анализа производительности вычислительных систем; оптимизации приложений искусственного интеллекта; операционным системам и драйверам; вычислительной литографии.
Формат проведения: смешанный
Дата и время проведения: 03.04.2025 в 10:00
Место проведения: Москва, Кутузовский просп., 32, корп. 1
Реализована библиотека, которая является удобным инструментом для работы с упакованными структурами в языке Rust, обеспечивая корректную и быструю обработку бинарных данных, а также автоматическую генерацию документации.
Плазмохимическое травление — важный процесс в полупроводниковой промышленности для создания микроструктур. Традиционные методы настройки параметров травления дороги и трудоемки, поэтому используются суррогатные модели, такие как нейронные сети, для ускорения моделирования. Однако обучение таких моделей требует больших объемов данных, что ресурсоемко. В работе предложен метод адаптивного сэмплирования, который сокращает объем обучающей выборки, добавляя только релевантные данные.
В работе представлена реализация механизма сбора точных архитектурных событий для вычислитекльных систем с архитектурой RISC-V. Разработанный механизм позволяет устранить погрешности, присущие существующим методам сэмплирования, и обеспечивает точную привязку возникающих архитектурных событий к инструкциям, что способствует более оправданному применению оптимизаций основанных на информации профилирования.
Для калибровки моделей формирования контура фоторезистивной маски обычно используют аппроксимационные модели, настраиваемые по данным моделирования распределения интенсивности оптического излучения. В данной работе предложен метод семплирования данных в пространстве характеристик «воздушного изображения», который сравнивается с равномерным семплированием. Исследуется подход к формированию обучающего набора данных для нейросетевой модели фоторезиста на основе архитектуры DOINN.
Исследование посвящено разработке системы нагрузочного тестирования микросервиса при работе с различными СУБД. Система включает генератор репрезентативных данных, механизм наполнения тестовых баз и блок формирования нагрузки. Проведено сравнительное тестирование PostgreSQL и SQLite на различных объемах данных.
В рамках данной работы исследована функциональность существующего в компиляторе GCC межпроцедурного распространения констант, реализован алгоритм, расширяющий его возможности, произведены замеры улучшения производительности приложений.
Косимуляция – это метод совместного моделирования, при котором несколько симуляторов работают вместе для эмуляции сложных программно-аппаратный систем. Такой подход сочетает точность аппаратной симуляции с гибкостью и производительностью программной эмуляции.
В работе предложен подход, позволяющий тензорному компилятору на базе OpenXLA определять оптимальную раскладку входных и выходных данных в памяти целевого устройства с учетом векторизации и гранулярности обращений.
Для взаимодействия с устройствами в гетерогенной системе обычно применяется подход с вызовами вычислительных ядер (англ. kernels), написанных с помощью внешних библиотек или языковых расширений. В данной работе предлагается иной подход: автоматическая подстановка вычислительных ядер компилятором напрямую в компилируемый код. Применение этого метода упростит работу как пользователя, так и компилятора, позволяя сгенерировать более оптимальный код.
Для уменьшения влияния «стены памяти», существует большое количество решений, включая внедрение кэша для ускорения работы и повышения эффективности использования ресурсов процессора. Кэширование данных позволяет хранить часто используемые данные близко к процессору, обеспечивая к ним быстрый доступ.
В данной работе представлена аппаратная реализация кэша данных первого уровня для RISC-V ядра класса MCU с открытым исходным кодом.
Исследование посвящено поиску наиболее эффективного метода межпроцессного взаимодействия для передачи больших объемов данных внутри системы. В рамках исследования проведено сравнение производительности передачи данных через сокеты (TCP/UDS) и механизмы общей памяти (memory-mapped files). Для измерений разработана специализированная утилита на Rust.
Исследование предлагает использование метода FDTD для моделирования литографических систем, решая уравнения Максвелла с учетом поляризации и дифракции. Разработан Python-симулятор с PML-границами, успешно протестированный на преломлении линзы и дифракции щели. Интеграция FDTD с ML позволит создавать синтетические данные для обучения нейросетей, оптимизирующих процессы литографии (ILT, OPC), что повысит точность и разрешение в микроэлектронике.
В литографии применяются методы повышения разрешения, среди которых выделяется коррекция оптической близости (ОРС). Последние работы показывают, что обучение с подкреплением (RL) в смежных областях микроэлектроники ускоряет оптимизацию без снижения точности, поэтому в работе изучается возможность применения методов RL к решению задачи ОPC.
В работе оценивается применимость сверточных и физически обоснованных нейронных сетей для моделирования процесса экспонирования в ILT, выявляются их недостатки. Исследуемые нейросетевые архитектуры включают DeepLabV3, UNet, Doinn и Nitho. Показано, что UNet, DeepLabV3 имеют общий критичный для данной задачи недостаток, для детектирования которого в работе предлагается собственная топологическая метрика TopoMetric.
Программные модели производительности -- популярное средство анализа работы вычислительных систем. Одно из их преимуществ состоит в масштабируемости сбора телеметрии. Для её обеспечения в работе предлагается программная архитектура, связывающая три независимых узла и использующая многомерное пространство событий для передачи данных между ними. Полученная архитектура соответствует принципам сокрытия информации и единственной ответственности, что позволяет эффективно масштабировать модель.
Данная работа представляет статистический подход к предсказанию вероятностей дуг без использования профиля программы. Существующий алгоритм реализован в компиляторе GCC и предсказывает вероятность ветвления с помощью обученной на основе большого количества бинарных программ модели.
В работе анализируется влияние работы оптимизации раскрутки циклов на программную конвейеризацию циклов для архитектур с широкой командой, ограничения и проблемы этих оптимизаций. Предлагается эвристическое решение для оценки фактора раскрутки цикла, ограниченное максимальным интервалом инициации на этапе конвейеризации. Представлены результаты тестирования этого решения.
В работе предлагается рецепт по использованию триггера, обладающего рекордным временем удержания. Он сохраняет высокую производительность без увеличения потребления и большого количества задержек между последовательными триггерами. Это позволяет устанить временные нарушения в анализе по времени удержания при проектировании высокопроизводительных полупроводниковых систем и уменьшить цикл разработки.
В работе создана транзакционная модель синтезируемого RTL-модуля. Использование связки SystemC + TLM (Transaction Level Model) обеспечивает быстрое и понятное описание референсной модели для верификации SystemVerilog моделей. Созданное верификационное окружение позволяет масштабировать тестируемую систему, а также внедрять в тестируемый дизайн транзакционные модули, например, вместо еще не реализованных, для верификации системы целиком.
Предложена аналитическая модель задержек обработки запросов в 2D-Mesh сети на кристалле в вычислительной системе с распределенной памятью, с помощью которой произведено сравнение алгоритмов маршрутизации DOR и адаптивный DOR. Точность модели подтверждена потактовой симуляцией (расхождение не превышает 5%). Полученные результаты показывают явное превосходство адаптивного DOR над классическим DOR, что достигается за счет как удвоения аппаратных ресурсов, так и равномерности распределения трафика.
В работе предлагается реализация модификации RISC-V микропроцессора с открытым исходным кодом, заключающаяся в добавлении второй линии исполнения команд внутри ядра микропроцессора. Результаты модификации анализируются при помощи бенчмарка Dhrystone 2.1, сравнивается эффективность модификации для различных конфигураций процессора и типов подключённой к нему памяти, находятся оптимальные условия для получения максимального прироста производительности.
В работе предложен метод ускорения инференса нейронных сетей на CPU для задач с единичным пакетом через комбинацию методов компрессии моделей (прунинг, квантование) и кэш-ориентированных алгоритмов инференса.