论文主题内容介绍

研究背景

联邦学习作为一种分布式机器学习框架, 能够在保护数据隐私的前提下实现跨分散数据源的协作学习, 已在推荐系统、医疗影像分析等多个领域展现出重要价值。然而, 在联邦环境中训练和部署模型仍面临诸多挑战。其中, 客户端数据的非独立同分布特性导致的数据异构性问题尤为突出, 进而引发局部模型过拟合和客户端漂移现象, 严重制约了全局模型的收敛性能和泛化能力。此外, 大型模型的高计算复杂度和通信开销也显著降低了联邦学习的效率。

解决方案

我们在本文中提出了FedACL,一个新的适用于预训练大模型的联邦微调框架。FedACL集成了两个核心模块:

AWLoRA (注意力感知低秩适应):通过引入可学习的中间矩阵来建模低秩分解因子之间的交互, 显著减少需要微调的参数数量,降低计算成本和通信开销, 同时增加低秩模块的表达能力;
MCL (模型对比学习):专门为预训练大规模模型定制, 通过在模型表示层面构建正负样本对, 增强全局模型的鲁棒性并加速收敛, 有效缓解客户端漂移问题。

设计概述

FedACL框架的设计围绕参数高效微调和客户端对齐两个核心目标展开。

Fig 1. edACL整体框架与工作流程

AWLoRA模块提出了一种新的低秩微调方法，标准LoRA将模型权重的更新分解为两个低秩矩阵的乘积, 虽然大幅减少了需要训练的参数量, 但这种简单的矩阵分解忽略了两个分解矩阵之间可能存在的复杂交互关系。AWLoRA在两个低秩矩阵之间引入一个可学习的注意力矩阵, 使得模型能够动态地捕捉和建模这两个矩阵之间的依赖关系。这种设计在保持参数效率的同时,增强了模型的表达能力和适应性。

MCL模块MCL模块是一种适配于大规模预训练模型的模型对比适配模块, 专门设计用于解决客户端漂移问题。MCL在模型表示空间中进行对比学习。在每轮本地训练中, MCL通过构建正负样本对来约束局部模型的更新方向。通过拉近锚点与正样本(全局模型)的距离, MCL引导局部模型向全局一致的方向更新; 同时通过推远锚点与负样本(上一轮的自身状态)的距离, MCL促使模型不断进化, 避免停滞或过拟合于局部数据分布。这种双重约束机制抑制了客户端漂移, 加速了全局模型的收敛。

整个FedACL的训练流程如下:首先,服务器将AWLoRA参数分发给参与本轮训练的客户端; 然后, 每个客户端在本地数据上使用AWLoRA进行模型微调, 同时应用MCL损失函数进行约束; 训练完成后,客户端将更新后的AWLoRA参数上传到服务器; 服务器对收集到的所有客户端参数进行聚合, 更新全局模型; 最后, 新的全局模型参数被分发回客户端, 开始下一轮训练。

实验结果

论文在多个基准数据集上进行了全面的实验评估, 包括计算机视觉任务(CIFAR-10, MNIST, CIFAR-100)和自然语言处理任务(AG-News, LEDGAR)。实验设置涵盖了数据分布一致和数据分布不一致两种场景。

在模型准确率方面, FedACL在数据异构性场景下, 在所有测试数据集上都达到了最优性能。在CIFAR-100数据集上, FedACL的准确率达到84.6%, 相比次优方法Fed-Hello的83.9%提升了0.7个百分点, 相比于仅使用本地数据训练方法的44.2%提升了40.4个百分点。在LEDGAR数据集上, FedACL的准确率达到79.3%, 相比Fed-Hello的78.8%提升0.5个百分点, 相比于仅使用本地数据训练方法的39.6%提升了39.7个百分点。

在通信效率方面, FedACL每轮通信仅需传输1.13 MB的参数更新, 所需的总通信量减少了99.7%, 同时相比于标准LoRA仅有0.01 MB的参数增加。这种通信效率的提升对于网络带宽受限或设备资源有限的实际应用场景具有重要意义。

消融实验结果表明, AWLoRA在所有五个数据集上都取得了更好的表现。在更复杂的CIFAR-100数据集上, AWLoRA的准确率为86.31%, 比标准LoRA的86.18%高出0.13个百分点。LEDGAR数据集上AWLoRA达到83.22%, 比标准LoRA的83.06%高出0.16个百分点。AWLoRA引入的增强了模型的表达能力, 在几乎不增加参数量的情况下提升了模型性能。特别是在复杂任务上,AWLoRA的优势更加明显。

Fig 2. AWLoRA和LoRA训练对比图

赵子杰个人介绍

本科学校:上海交通大学

研究方向:深度学习算法与应用