发布日期:2025-07-13 17:37 点击次数:200
江中华,浙江大学软件学院硕士生二年龄开云体育,导师为张圣宇真诚。究诘所在为大小模子端云协同蓄意。张圣宇,浙江大学平台「百东说念主蓄意」究诘员。究诘所在包括大小模子端云协同蓄意,多媒体分析与数据挖掘。
跟着机器学习时间的发展,阴私保护和分散式优化的需求日益增长。联邦学习动作一种分散式机器学习时间,允好多个客户端在不分享数据的情况下协同稽察模子,从而灵验地保护了用户阴私。然则,每个客户端的数据可能各不疏通,有的数据量大,有的数据量小;有的数据特征丰富,有的数据特征单一。这种数据的异质性和不屈衡性(Non-IID)会导致一个问题:土产货稽察的客户模子冷落了全局数据中清爽的更世俗的模式,团聚的全局模子可能无法准确反应通盘客户端的数据分散,致使可能出现「辛普森悖论」—— 多端各自数据分散趋势独揽,但与多端全局数据分散趋势违反。
张开剩余90%为了惩办这一问题,来自浙江大学东说念主工智能究诘所的究诘团队提议了 FedCFA,一个基于反事实学习的新式联邦学习框架。
FedCFA 引入了端侧反事实学习机制,通过在客户端土产货生成与全局平均数据对皆的反事实样本,缓解端侧数据中存在的偏见,从而灵验幸免模子学习到造作的特征 - 标签关联。该究诘已被 AAAI 2025 收受。
论文标题:FedCFA: Alleviating Simpson’s Paradox in Model Aggregation with Counterfactual Federated Learning 论文贯穿:https://arxiv.org/abs/2412.18904 形状地址:https://github.com/hua-zi/FedCFA辛普森悖论
辛普森悖论(Simpson's Paradox)是一种统计阵势。浅陋来说,当你把数据分红几个子组时,某些趋势或联系在每个子组中默契出一致的所在,但在通盘数据靠拢却出现了各别的趋势。
图 1:辛普森悖论。在全局数据集上不雅察到的趋势在子集上袪除 / 逆转,团聚的全局模子无法准确反应全局数据分散
在联邦学习中,辛普森悖论可能会导致全局模子无法准确捕捉到数据的着实分散。举例,某些客户端的数据中存在特定的特征 - 标签关联(如心思与动物种类的联系),而这些关联可能在全局数据中并不存在。因此,径直将土产货模子汇注周到局模子可能会引入造作的学习成果,影响模子的准确性。
如图 2 所示。探求一个用于对猫和狗图像进行分类的联邦学习系统,波及具有不同数据集的两个客户端。客户端 i 的数据集主要包括白猫和黑狗的图像,客户端 j 的数据集包括浅灰色猫和棕色狗的图像。关于每个客户端而言,数据集揭示了一样的趋势:淡色动物被归类为「猫」,而深色动物被归类为「狗」。这导致团聚的全局模子倾向于将心思与类别标签揣测联并为心思特征分派更高的权重。然则,全局数据分散引入了好多不齐心思的猫和狗的图像(举例黑猫和白狗),与团聚的全局模子相矛盾。在全局数据上稽察的模子不错很容易地发现动物心思与特定分类无关,从而减少心思特征的权重。
图 2:FedCFA 不错生成客户端土产货不存在的反事实样本,防御模子学习到不正确的特征 - 标签关联。
反事实学习
反事实(Counterfactual)就像是「如若事情发生了另一种情况,成果会何如?」 的假定性推理。在机器学习中,反事实学习通过生成与履行数据不同的诬捏样本,来探索不同条目下的模子行径。这些诬捏样本不错匡助模子更好地支持数据中的因果联系,幸免学习到作假的关联。
反事实学习的中枢想想是通过对现存数据进行羁系,生成新的样本,这些样本反应了某种假定条目下的情况。举例,在图像分类任务中,咱们不错更正图像中的某些特征(如心思、局势等),生成与原图不同的反事实样本。通过让模子学习这些反事实样本,不错提高模子对着实数据分散的支持,幸免过拟合局部数据的特质。
反事实学习世俗诳骗于保举系统、医疗会诊、金融风险评估等畛域。在联邦学习中,反事实学习不错匡助缓解辛普森悖论带来的问题,使全局模子更准确地反应举座数据的着实分散。
FedCFA 框架简介
为了惩办联邦学习中的辛普森悖论问题,FedCFA 框架通过在客户端生成与全局平均数据对皆的反事实样本,使得土产货数据分散更接近全局分散,从而灵验幸免了造作的特征 - 标签关联。
如图 2 所示,通过反事实变换生成的反事实样本使局部模子简略准确掌合手特征 - 标签关联,幸免局部数据分散与全局数据分散相矛盾,从而缓解模子团聚中的辛普森悖论。从时间上讲,FedCFA 的反事实模块,弃取性地替换枢纽特征,将全局平均数据集成到土产货数据中,并构建用于模子学习的反事实正 / 负样本。具体来说,给定土产货数据,FedCFA 识别无可不行 / 不行或缺的特征因子,通过相应地替换这些特征来实践反事实调度以取得正 / 负样本。通过对更接近全局数据分散的反事实样本进行对比学习,客户端土产货模子不错灵验地学习全局数据分散。然则,反事实调度靠近着从数据中索求零丁可控特征的挑战。一个特征不错包含多种类型的信息,举例动物图像的一个像素不错佩带心思和局势信息。为了提高反事实样本的质地,需要确保索求的特征因子只包含单一信息。因此,FedCFA 引入因子去揣测吃亏,径直处分因子之间的揣测总共,以完毕特征之间的解耦。
全局平均数据集的构建
反事实变换模块
图 3:FedCFA 中的土产货模子稽察进程
FedCFA 中的土产货模子稽察进程如图 3 所示。反事实变换模块的主要任务是在端侧生成与全局数据分散对皆的反事实样本:
因子去揣测吃亏
归并像素可能包含多个数据特征。举例,在动物图像中,一个像素不错同期佩带心思和外不雅信息。为了提高反事实样本的质地,FedCFA 引入了因子去揣测(Factor Decorrelation, FDC)吃亏,用于减少索求出的特征因子之间的揣测性,确保每个特征因子只佩带单一信息。具体来说,FDC 吃亏通过蓄意每对特征之间的皮尔逊揣测总共(Pearson Correlation Coefficient)来量度特征的揣测性,并将其动作正则化项加入到总吃亏函数中。
实验成果
实验遴荐两个策动:500 轮后的全局模子精度 和 达到认识精度所需的通讯轮数,来评估 FedCFA 的性能。
实验基于 MNIST 构建了一个具有辛普森悖论的数据集。具体来说,给 1 和 7 两类图像进行上色,并按心思浅深分辩给 5 个客户端。每个客户端的数据中,数字 1 的心思都比数字 7 的心思深。随后预稽察一个准确率 96% 的 MLP 模子,动作联邦学习模子开动模子。让 FedCFA 与 FedAvg,FedMix 两个 baseline 动作对比,在该数据集上进行稽察。如图 5 所示,稽察过程中,FedAvg 和 FedMix 均受辛普森悖论的影响,全局模子准确率下落。而 FedCFA 通过反事实调度,不错冒失数据中的作假的特征 - 标签关联,生成反事实样本使得土产货数据分散靠拢全局数据分散,模子准确率进步。
图 4: 具有辛普森悖论的数据集
图 5: 在辛普森悖论数据集上的全局模子 top-1 准确率
消融实验
图 6:因子去揣测 (FDC) 吃亏的消融实验开云体育
发布于:北京市Powered by 开云官网kaiyun切尔西赞助商 (中国)官方网站 登录入口 @2013-2022 RSS地图 HTML地图