论文主题内容介绍

研究背景

随着人工智能和大规模模型计算的迅速发展,GPU在数据中心中的需求持续增长,尤其在大规模训练与推理任务中。异构多GPU系统因集成了不同类型与计算能力的GPU,成为高性能计算的重要支撑资源。然而,这带来了两大核心挑战:其一,不同GPU在性能与功耗上的差异使得任务调度成为一个复杂的多目标优化问题,需要在能耗与性能之间取得平衡;其二,缺乏跨GPU任务共享与能效管理的统一机制,易导致GPU过载或资源浪费,影响整体系统稳定性与能效表现。

不同GPU的能耗特性与推理性能差异
多任务并行执行的性能退化对比

为解决上述问题,本文提出了一种面向数据中心的异构GPU节能高效框架——HeShare。该框架针对异构GPU的任务调度和共享机制进行了系统设计,通过能耗感知的任务调度策略与基于MPS和DVFS的GPU共享优化机制,实现了能效与性能的协同优化。

本文的核心贡献包括:

  1. 提出了一种能耗感知的多目标任务调度策略,通过多目标遗传算法生成高质量Pareto解集,在性能与能耗之间取得最优平衡;
  2. 设计了一种结合MPS(Multi-Process Service)与DVFS(Dynamic Voltage and Frequency Scaling)的GPU共享优化机制,能够自适应调整GPU资源配置与频率,实现细粒度能耗控制与性能保障;
  3. 构建了基于随机森林(Random Forest)的能耗与性能预测模型,实现任务级别的能效特征预测与调度决策辅助。
HeShare系统总体架构

实验结果表明,HeShare在多个异构GPU平台(T4、V100、A100)上均显著优于现有方案:在保持任务性能的同时,平均能耗降低26%,作业完成时间缩短31%。该结果充分证明了HeShare在多任务异构GPU环境下的能效调度优势和通用性。

江卓龙个人介绍

本科学校:上海交通大学

研究方向:模型推理优化