当前位置：首页 > article >正文

土耳其理工大学教你用“自动筛选员“让AI协作训练更聪明

article 2026/5/8 0:44:18

这项由土耳其盖布泽理工大学计算机工程系主导的研究发表于2025年的《工程科学与技术国际期刊》Engineering Science and Technology, an International Journal第61卷论文编号101920感兴趣的读者可以通过DOI编号10.1016/j.jestch.2024.101920查询完整论文。一、当AI们需要一起学习却又不能互相看答案假设你所在的城市有一千所学校教育局想让所有学校的学生共同参与一场大规模的期末考试备考但每所学校的学生信息都属于个人隐私不能集中到一起。于是教育局想了一个办法每所学校的学生各自在本地复习复习完之后只把复习心得的总结上交给教育局教育局汇总这些心得再发回给所有学校如此循环往复最终所有人都能从彼此的经验中受益却没有任何人看到其他人的试卷。这就是联邦学习Federated Learning的核心思想。在真实的技术世界里这一千所学校可以是医院、手机、智能摄像头或者各种物联网设备复习心得则是机器学习模型的参数更新而那位教育局就是位于云端的中央服务器。各个设备上的原始数据从不离开本地只有模型的更新信息在网络中流通从而保护了用户的数据隐私。这个机制听起来相当美好但现实中却隐藏着一个让整个系统头疼的难题如果某些学校的学生经常交上乱写的答案甚至有人故意捣乱、把错误的心得混入提交材料中整个系统的学习质量就会急剧下滑。更麻烦的是各个学校的学生数量、学习内容都不一样——这就是所谓的非独立同分布数据non-IID data问题简单说就是每个设备上的数据分布完全不同这会让整个协作训练的过程变得极不稳定。盖布泽理工大学的研究团队正是为了解决这个问题而行动的。他们设计了一套自动筛选员系统能在训练过程中悄悄识别并过滤掉那些乱写的答案让整个联邦学习系统更加健壮、准确。二、噪声的两张面孔贴错标签和混入异类在深入了解这套筛选系统之前有必要先认识一下噪声这个概念在机器学习中的具体含义因为它并不只有一种形态。研究团队在实验中主要处理两种不同类型的噪声数据。第一种叫做闭集噪声closed-set noise可以用一个生动的场景来理解在一个专门辨认猫和狗的训练数据集里某些狗的照片被错误地打上了猫的标签反之亦然。数据本身是合法的、有意义的图片只是标签贴错了。这就好比图书馆里所有书都是正常的书但有人把《动物学》放到了烹饪书架上。第二种叫做开集噪声open-set noise情况更加混乱在那个猫狗分类数据集里突然混入了一堆汽车、飞机的照片而且这些照片还被强行打上了猫或者狗的标签。这就好比图书馆里不仅放错了位置还混进来一些根本不属于图书馆收藏范围的奇怪物品比如一把雨伞被贴上了书号。这两种噪声对机器学习模型的伤害方式不尽相同。错贴标签的数据会让模型对真实类别产生混淆而完全无关的数据则会让模型花费大量精力去理解一些根本不该出现的内容最终导致模型的判断能力严重下降。研究团队将这两种噪声以40%的比例注入到训练数据中——也就是说每10张训练图片里有4张是坏数据。这个比例相当高足以让一个没有任何防御机制的模型表现得一塌糊涂。选择这么高的噪声率是为了让筛选方法的效果更清晰地呈现出来。实验使用了两个知名的图像数据集MNIST手写数字图片共60000张训练图片10个类别和CIFAR10包含飞机、汽车、鸟类等10种物体的彩色图片共50000张。对于开集噪声的来源CIFAR10实验中使用了ImageNet32和SVHN街景房屋号码图片MNIST实验中则使用了ImageNet32和EMNIST手写字母图片。三、那个特殊的多面手神经网络在正式介绍筛选策略之前研究团队首先设计了一个特殊的神经网络架构这个网络是整套方案的核心基础被称为多任务自动编码器Multi-Task Autoencoder简称MTAE。普通的图像分类神经网络只做一件事看图片说出它是什么。而自动编码器autoencoder则做另一件事把图片压缩成一段紧凑的摘要然后再从这段摘要重新把图片还原出来。这种先压缩再还原的过程迫使网络深刻理解图片的本质特征而不仅仅记住表面像素。研究团队把这两种能力合并到了同一个网络里。这个MTAE由三个部分组成一个负责把图片压缩成摘要的编码器encoder一个负责从摘要重建原始图片的解码器decoder以及一个根据摘要判断图片类别的分类器classifier。整个网络同时接受两种训练信号一种是重建误差衡量还原出来的图片与原图差多少另一种是分类误差衡量判断类别时错了多少。这两种误差通过一个加权公式合并在一起。研究团队经过大量实验最终确定了重建误差的权重为1分类误差的权重为0.05。分类误差的权重被有意设置得很低原因在于如果让分类任务主导训练网络就会更专注于记住标签反而导致重建出来的图片模糊不清同时也会让网络对错误标签过于敏感。把重建任务的权重设高能保留网络对图片细节的感知能力进而更好地识别出那些在视觉上格格不入的异常图片。针对MNIST数据集研究团队设计的MTAE编码器使用两层卷积神经网络分别使用32和64个滤波器将图片压缩到一个512维的向量表示。解码器则用两层反卷积网络将这个向量还原成原始大小的图片。针对更复杂的CIFAR10彩色图片编码器增加到四层卷积滤波器数量依次为64、128、128和256生成一个1024维的向量表示解码器也相应地增加到四层反卷积。这两套网络的尺寸和复杂度都是根据各自处理的数据特性量身定制的。这个双重任务的设计有一个精妙之处分类误差能帮助识别那些标签被贴错的闭集噪声因为错误标签会让分类任务产生异常高的误差而重建误差则能帮助识别那些完全是外来物的开集噪声因为那些从未在训练数据中出现过的奇怪图片网络很难把它们准确还原。两种信号互相补充覆盖了两种不同类型噪声的检测需求。四、三位筛选员各显神通有了这个能输出双重误差信号的MTAE之后研究团队设计了三种不同的策略来利用这些信号筛除噪声样本。可以把这三种策略理解为三种不同风格的质检员各有各的工作方法。第一位质检员叫做OCSVM全名是单类支持向量机One-Class Support Vector Machine。这位质检员的工作逻辑是这样的先收集所有正常样本的特征在特征空间中划出一个边界边界之内是正常区域边界之外则被判定为异常。具体来说研究团队让每个客户端在本地计算每张图片的加权损失值把重建误差和分类误差合并成一个数字然后把这些损失值发送到中央服务器。服务器收集来自所有参与训练的客户端的损失值用这些数据训练OCSVM模型确定正常损失值的地盘在哪里。训练好之后这个模型被发回各个客户端各客户端用它来判断自己本地每张图片的损失值是否落在正常地盘之外落在外面的就被视为噪声并剔除。整个过程中OCSVM使用的是径向基函数核RBF kernel这种核函数特别擅长在高维空间中处理非线性的分布边界能更精准地捕捉复杂的噪声模式。第二位质检员叫做IF全名是孤立森林Isolation Forest。这位质检员的工作思路与OCSVM完全不同它的核心理念是异常值通常很容易被孤立出来而正常值则往往扎堆在一起。孤立森林通过随机切分数据发现那些只需要很少几刀就能与其他数据分开的点——这些容易被孤立的点很可能就是异常值。研究团队根据数据量的大小使用数据集大小的平方根作为孤立森林的决策树数量这个设置在计算效率和模型准确性之间取得了良好的平衡。第三位质检员叫做AT即自适应阈值Adaptive Threshold方法这是研究团队在一个名为FedBalancer的已有方法基础上改进而来的。与OCSVM和IF这两位从大量样本中学习规律的质检员不同AT的工作方式更像一把动态调节的滤网在每一轮训练中服务器根据各客户端上报的损失值范围每个客户端报告自己本地样本的最低损失和最高损失计算出一个全局阈值。损失值超过这个阈值的样本被认为是高风险样本其中大部分75%的比例会被随机保留参与训练因为高损失有时意味着样本很有价值模型还没学好而损失值低于阈值的样本则全部参与训练因为低损失通常意味着模型已经很好地掌握了这类样本的规律。这个阈值并非一成不变而是随着训练进程动态调整。具体的调整逻辑是服务器每隔5轮检查一次最近几轮的平均损失如果训练趋于稳定损失在下降就适当提高阈值过滤掉更多高损失样本如果训练出现波动损失在上升就降低阈值让更多样本参与训练。这种自动反馈调节的机制让AT方法能随机应变避免了人工设置固定阈值的局限性。AT方法与OCSVM和IF相比有一个显著的优势它的计算成本极低只需要每个客户端上报两个数字最低损失和最高损失服务器也只需要做简单的数学计算不需要训练任何复杂的模型因此对通信带宽和计算资源的消耗几乎可以忽略不计。这三位质检员都有一个共同的工作安排样本筛选从第400轮训练之后才正式开始。这个安排是精心设计的。在训练初期模型对数据知之甚少几乎所有样本的损失值都差不多高正常样本和噪声样本混在一起根本分不清楚而训练时间过长又会出现过拟合问题模型可能开始把噪声样本也记住了导致噪声样本的损失值反而变低更难被识别出来。第400轮这个时间点恰好是模型开始趋于稳定、正常样本和噪声样本的损失差异开始明显的阶段。OCSVM和IF的模型每5轮更新一次以跟上训练过程中损失分布的变化。五、在特征空间里找格格不入者除了基于损失值的筛选策略研究团队还探索了另一条路直接在特征空间中寻找异常样本。前面提到MTAE的编码器会把每张图片压缩成一个高维向量MNIST是512维CIFAR10是1024维。在这个向量空间里同类别的正常图片应该聚集在一起而那些异常图片尤其是开集噪声则理论上应该散布在距离正常聚类很远的地方。基于这个思路研究团队同样使用OCSVM和IF这两位质检员只不过这次的输入不再是损失值而是每张图片对应的高维特征向量。然而单纯在高维特征空间中做检测有一个挑战如果模型没有被专门训练来让同类样本聚集、异类样本分散那么编码器输出的特征向量可能会乱成一团正常样本和噪声样本在特征空间里混在一起根本难以区分。为了解决这个问题研究团队提出了一个新颖的联邦多类SVDD损失Federated Multi-Class SVDD Loss。SVDD全名是支持向量数据描述Support Vector Data Description它的核心思想是为每个类别的正常样本在特征空间中拟合一个尽可能小的超球体可以理解为一个多维空间中的气泡然后通过训练让每个类别的样本都尽量挤进自己对应的气泡里同时让气泡尽量紧凑。那些无法被任何气泡容纳的样本就很可能是异常值。将这个方法与联邦学习结合的具体流程是这样的当全局模型训练到一定程度研究中是第500轮之后服务器使用一份公开的测试数据集计算出各个类别在特征空间中的质心centroid即每个类别所有样本特征向量的平均位置和半径radius即气泡的大小由距离质心最远的正常样本决定。这些质心和半径被广播给各个客户端客户端在本地计算每张图片的特征向量与对应类别质心之间的距离如果距离超过了半径那这张图片就需要为自己的离群行为付出额外的损失代价。这个额外的损失被加到MTAE原本的训练目标中权重设置为一个非常小的值λreg 10??以确保不会过度干扰原本的分类和重建任务。本地训练结束后客户端把每张图片到对应类别质心的距离上报给服务器服务器用这些距离来更新各类别的气泡半径使用q分位数方法其中q1-νν是一个控制被视为异常的数据比例的超参数。这样的设计让气泡的大小能随着训练动态调整而非固定不变。特征空间的筛选操作从第600轮之后才启动比损失值筛选晚了200轮这是有意为之的设计SVDD损失需要先运行一段时间从第500轮开始让特征空间先变得更加有条理之后才能有效地在其中辨别异常样本。六、实验结果数字背后的故事研究团队搭建了一套模拟实验环境使用FedML这个专门为联邦学习设计的开源框架在一台配备NVIDIA RTX 3090显卡的机器上模拟了不同规模的联邦学习场景包括50、100、200和1000个客户端的情况每轮参与训练的客户端数量始终保持在总数的10%例如1000个客户端时每轮选100个参与。每轮训练中每个客户端在本地进行5个完整的训练周期批次大小为64使用带有0.001权重衰减的随机梯度下降优化器学习率为0.1总训练轮数为1000轮。作为基准对比研究团队首先在完全没有噪声、也没有任何样本筛选的情况下训练了模型。结果显示随着客户端数量的减少即每个客户端拥有更多数据模型性能持续提升。以CIFAR10为例1000个客户端时最高准确率为57.95%而50个客户端时则能达到71.05%。MNIST的表现更好从1000个客户端的94.60%提升到50个客户端的97.49%。这个规律说明数据量和数据多样性对联邦学习的重要性。加入40%的噪声之后模型性能出现了大幅下滑尤其是闭集噪声标签错误的破坏力最为强烈。CIFAR10在闭集噪声下、50个客户端时的准确率跌至38.59%MNIST在同样条件下也跌到了85.58%。开集噪声的影响相对温和一些但同样不容忽视CIFAR10在ImageNet32开集噪声下1000个客户端时的准确率只有47.47%远低于无噪声时的57.95%。加入损失值筛选方法之后情况发生了显著改观。在CIFAR10的闭集噪声场景中OCSVM的表现尤为亮眼50个客户端时准确率从38.59%跳升到45.61%提升幅度高达7.02个百分点200个客户端时提升6.44个百分点。IF的表现与OCSVM不相上下50个客户端时提升6.65个百分点。AT在这个场景下的表现较为保守只在1000和50个客户端的情况下带来了轻微的改善反而在100和200个客户端时略有下降。在MNIST的闭集噪声场景中AT方法反而成了表现最佳的选手100个客户端时准确率提升了1.83个百分点。OCSVM在1000个客户端时提升了1.63个百分点但在200个客户端时却下降了0.72个百分点——这被研究团队解释为RBF核在特定数据分布下的过拟合倾向把一些正常样本错误地判定为异常。在开集噪声的场景中不同噪声来源的难度大相径庭。SVHN数据集街景数字图片作为CIFAR10的开集噪声时各种筛选方法的效果都相对有限原因在于SVHN的图片相对简单模型很容易就把这些噪声样本学会了导致它们的损失值降低变得难以与正常样本区分。而ImageNet32作为开集噪声时OCSVM和IF都取得了更显著的改善IF在200个客户端时提升了3.61个百分点OCSVM在100个客户端时提升了2.54个百分点。在MNIST的开集噪声场景中噪声来源的相似性至关重要。EMNIST中的手写字母图片与MNIST的手写数字图片非常相似导致IF方法在所有客户端规模下都出现了精度下滑而OCSVM凭借更强的非线性边界刻画能力在50个客户端时取得了1.12个百分点的提升。ImageNet32作为MNIST的开集噪声时由于图片风格与手写数字差异极大OCSVM和IF都能比较容易地识别出这些外来者分别取得了最高0.91%和0.66%的准确率提升。研究团队还额外统计了精确率Precision、召回率Recall和F1分数这三个更全面的分类性能指标在1000个客户端的场景下进行了分析。这三个指标的变化趋势与准确率基本一致进一步验证了实验结论的可靠性。OCSVM在CIFAR10闭集噪声场景中的F1分数提升达到5.64个百分点在所有方法和场景组合中表现最为稳定。关于特征空间筛选方法的实验结果故事则稍显复杂。在没有加入SVDD损失的情况下单纯在高维特征空间中使用OCSVM和IF进行异常检测在几乎所有场景下都没能超越不使用任何筛选的基准结果。这说明在40%这样高的噪声比例下模型可能已经将噪声样本的特征内化了导致它们在特征空间中与正常样本难以区分。加入联邦SVDD损失之后情况在CIFAR10上有所改善尤其是在1000和200个客户端的场景中。以CIFAR10加ImageNet32开集噪声为例加入SVDD损失后OCSVM在200个客户端时取得了0.99个百分点的提升IF也取得了0.80个百分点的提升。然而对于100和50个客户端的场景SVDD损失反而造成了一定的性能下降研究团队推测这可能是因为在客户端数量较少时模型容易把噪声样本的特征向量强行拉向类别质心反而导致分类判断变得混乱。在MNIST的所有场景中联邦SVDD损失均未能带来正向提升同时还造成了PSNR和SSIM指标的下降说明特征空间的结构被扭曲了。研究团队坦率地承认这是一个需要进一步研究的问题并将超参数的自动化调优包括SVDD损失的启动时间和权重列为未来工作的重要方向。七、方法的边界与代价任何工具都有它的适用范围和使用代价这套方案也不例外。研究团队在论文中详细讨论了各方法的局限性这种坦诚使整个研究更具参考价值。从计算复杂度的角度来看OCSVM的训练时间与样本数量呈平方甚至立方关系数据量一大就变得非常耗时IF的训练则相对高效时间复杂度大约与树的数量和子采样大小的对数成正比。对于客户端来说OCSVM的预测时间与支持向量的数量成正比IF的预测时间则与树的深度对数成正比。相比之下AT方法在客户端上几乎没有额外的计算负担只需要上报两个数字是三种方法中计算代价最低的。染污率contamination parameter的设置是一个敏感问题。研究中将其设为0.4与实际噪声率一致但在现实应用中噪声率往往是未知的。如果将污染率设置得过高大量正常样本会被错误地剔除反而损害模型性能设置得过低则噪声样本无法被有效过滤。研究团队建议未来可以借助自适应方法来动态估计污染率而不是依赖人工设定。样本筛选的启动时机也是一个关键但脆弱的超参数。启动太早模型还没学会区分正常和异常筛选效果差启动太晚模型可能已经记住了噪声样本损失值不再有区分度。研究团队通过观察准确率提升速度放缓的时间点第400轮附近来确定这个时机但这种判断方式在不同数据集和噪声类型下可能需要重新校准。从整体表现来看OCSVM在大多数场景下是最可靠的筛选工具尤其是在复杂的CIFAR10数据集上。IF在某些场景下能取得更高的峰值提升但稳定性略逊一筹特别是在噪声与正常数据相似度较高的场景如EMNIST噪声对MNIST数据中会出现明显的性能下降。AT方法虽然计算成本最低但在大规模客户端场景如1000个客户端下效果有限可能是因为全局阈值难以适应各客户端数据分布差异极大的情况。说到底这项研究给了联邦学习社区一套实用而有效的工具让分散在各个设备上的模型训练过程能够自动对抗数据中的噪声干扰。研究团队用大量的实验数据证明了通过在中央服务器上训练异常检测模型并将其广播给各客户端用于本地样本筛选可以在不暴露任何原始数据的前提下显著提升联邦学习在嘈杂、不均衡数据环境下的性能。归根结底这套方案的价值不仅在于那个7.02%的准确率提升数字更在于它探索了一条可行的路径让分散的、充满噪声的数据能够被有效利用。在未来随着越来越多的设备参与联邦学习数据质量参差不齐将会是一个越来越普遍的问题而这类主动筛选的思路无疑会成为解决这类问题的重要参考。对于研究者来说如何自动化地调节超参数特别是污染率和筛选启动时机、如何在客户端资源极度受限时降低计算成本以及如何让联邦SVDD损失在更多场景下稳定发挥作用都是值得深入探索的后续方向。感兴趣的读者可以通过DOI编号10.1016/j.jestch.2024.101920获取完整论文或直接在工程科学与技术国际期刊第61卷上查阅原文。QAQ1联邦学习中的非独立同分布数据non-IID data是什么意思A非独立同分布数据是指各个客户端设备上的数据内容和分布规律彼此差异很大不像从同一个大池子里随机捞出来的那种均匀分布。例如某家医院的数据全是肺部CT另一家则全是脑部MRI两者数据差异悬殊。这种不均匀性会让各客户端的模型更新方向产生冲突导致合并后的全局模型偏向某些客户端的数据分布进而影响整体训练效果和收敛速度。Q2多任务自动编码器MTAE在联邦学习样本筛选中具体怎么工作AMTAE同时学习两件事把图片压缩再还原重建任务以及判断图片属于哪个类别分类任务。正常图片通常能被准确还原分类误差也较低而噪声图片要么很难还原开集噪声要么分类误差异常高闭集噪声。训练过程中两种误差信号被合并为一个损失值这个损失值就成为判断每张图片是否是噪声的依据让后续的筛选算法有据可查。Q3自适应阈值AT方法和OCSVM方法相比各有什么优缺点AAT方法的优势在于计算成本极低客户端只需上报两个数字服务器只做简单运算几乎不增加通信和计算负担且能根据训练进度动态调整阈值。缺点是依赖单一损失函数面对大规模客户端时全局阈值难以适配每个客户端的数据差异在复杂数据集上效果有限。OCSVM能学习更复杂的非线性边界在大多数场景下更可靠但训练成本高且需要预先设定污染率参数若参数设置不当可能误判正常样本。

土耳其理工大学教你用“自动筛选员“让AI协作训练更聪明

相关文章：

土耳其理工大学教你用“自动筛选员“让AI协作训练更聪明

DX研究团队揭秘链上AI交易代理的可靠性密码

KS-Downloader：快手无水印视频下载的终极解决方案

华东师范联手上海AI实验室：把真实房间“复制“进Minecraft，AI导航机器人就此诞生

中科院深圳先进技术研究院等机构揭示网站生成智能体的致命盲区

《玩转OpenClaw内置诊断，建立属于自己的部署运维逻辑》

AISMM模型效能跃迁路径（2024企业实测数据全披露）：平均运营人效提升42.6%，TOP10%团队已全面启用

TinyMaix：轻量级机器学习库在微控制器上的应用

从“AI向善”到“AI合规”：2026奇点大会定义AISMM-ESG耦合度公式（α=0.63β+γ²），你的企业达标了吗？

AISMM评估结果总被质疑？用这6类动态交互图表让评审专家当场签字认可

深入解析Intel Texture Works：专业级纹理压缩技术实现方案

AgentScaffold：为AI编程助手构建持久化知识图谱与治理框架

2026年如何部署Hermes Agent/OpenClaw？阿里云部署指南及Coding Plan配置解析

【软考高级架构】案例题考前突击13：SAAM / ATAM / CBAM

如何用 watchEffect 实现根据参数自动获取数据？代码简化干货

Univer：构建企业级AI原生表格的创新解决方案

告别CPU瓶颈：手把手教你用Android Hardware Buffer打通OpenGL与NCNN Vulkan

事件驱动爬虫框架claw.events：构建高解耦、可扩展的数据采集系统

软考必备｜数据结构算法速记表（高频考点，直接背）

从语音到智能体：构建语音交互式AI系统的架构与实践

NLP情感分析：从传统方法到深度学习

自建RSS阅读器：基于Go与Docker的YourRSS部署与优化指南

【计算机毕业设计】基于Springboot的线上辅导班系统+LW

MacSweep：专为AI开发者设计的精准清理工具，一键释放数十GB空间

为什么很多公司服务器一多，运维反而越来越“失控”？

告别电脑！这5款手机自动化脚本App，让你躺着搞定日常重复操作（附详细对比）

Open-Lyrics：基于异步并发架构的高性能语音字幕生成系统设计

从无人机飞控到机械臂：手把手教你用Python实现RPY角与旋转矩阵互转（附完整代码库）

从评价指标反推损失函数：拆解YDTR论文中SSIM与空间频率(SF)损失的PyTorch实现

如何用CellProfiler实现生物图像自动分析：从手动处理到批量智能化的完整指南