当前位置: 首页 > article >正文

土耳其理工大学教你用“自动筛选员“让AI协作训练更聪明

这项由土耳其盖布泽理工大学计算机工程系主导的研究发表于2025年的《工程科学与技术国际期刊》Engineering Science and Technology, an International Journal第61卷论文编号101920感兴趣的读者可以通过DOI编号10.1016/j.jestch.2024.101920查询完整论文。一、当AI们需要一起学习却又不能互相看答案假设你所在的城市有一千所学校教育局想让所有学校的学生共同参与一场大规模的期末考试备考但每所学校的学生信息都属于个人隐私不能集中到一起。于是教育局想了一个办法每所学校的学生各自在本地复习复习完之后只把复习心得的总结上交给教育局教育局汇总这些心得再发回给所有学校如此循环往复最终所有人都能从彼此的经验中受益却没有任何人看到其他人的试卷。这就是联邦学习Federated Learning的核心思想。在真实的技术世界里这一千所学校可以是医院、手机、智能摄像头或者各种物联网设备复习心得则是机器学习模型的参数更新而那位教育局就是位于云端的中央服务器。各个设备上的原始数据从不离开本地只有模型的更新信息在网络中流通从而保护了用户的数据隐私。这个机制听起来相当美好但现实中却隐藏着一个让整个系统头疼的难题如果某些学校的学生经常交上乱写的答案甚至有人故意捣乱、把错误的心得混入提交材料中整个系统的学习质量就会急剧下滑。更麻烦的是各个学校的学生数量、学习内容都不一样——这就是所谓的非独立同分布数据non-IID data问题简单说就是每个设备上的数据分布完全不同这会让整个协作训练的过程变得极不稳定。盖布泽理工大学的研究团队正是为了解决这个问题而行动的。他们设计了一套自动筛选员系统能在训练过程中悄悄识别并过滤掉那些乱写的答案让整个联邦学习系统更加健壮、准确。二、噪声的两张面孔贴错标签和混入异类在深入了解这套筛选系统之前有必要先认识一下噪声这个概念在机器学习中的具体含义因为它并不只有一种形态。研究团队在实验中主要处理两种不同类型的噪声数据。第一种叫做闭集噪声closed-set noise可以用一个生动的场景来理解在一个专门辨认猫和狗的训练数据集里某些狗的照片被错误地打上了猫的标签反之亦然。数据本身是合法的、有意义的图片只是标签贴错了。这就好比图书馆里所有书都是正常的书但有人把《动物学》放到了烹饪书架上。第二种叫做开集噪声open-set noise情况更加混乱在那个猫狗分类数据集里突然混入了一堆汽车、飞机的照片而且这些照片还被强行打上了猫或者狗的标签。这就好比图书馆里不仅放错了位置还混进来一些根本不属于图书馆收藏范围的奇怪物品比如一把雨伞被贴上了书号。这两种噪声对机器学习模型的伤害方式不尽相同。错贴标签的数据会让模型对真实类别产生混淆而完全无关的数据则会让模型花费大量精力去理解一些根本不该出现的内容最终导致模型的判断能力严重下降。研究团队将这两种噪声以40%的比例注入到训练数据中——也就是说每10张训练图片里有4张是坏数据。这个比例相当高足以让一个没有任何防御机制的模型表现得一塌糊涂。选择这么高的噪声率是为了让筛选方法的效果更清晰地呈现出来。实验使用了两个知名的图像数据集MNIST手写数字图片共60000张训练图片10个类别和CIFAR10包含飞机、汽车、鸟类等10种物体的彩色图片共50000张。对于开集噪声的来源CIFAR10实验中使用了ImageNet32和SVHN街景房屋号码图片MNIST实验中则使用了ImageNet32和EMNIST手写字母图片。三、那个特殊的多面手神经网络在正式介绍筛选策略之前研究团队首先设计了一个特殊的神经网络架构这个网络是整套方案的核心基础被称为多任务自动编码器Multi-Task Autoencoder简称MTAE。普通的图像分类神经网络只做一件事看图片说出它是什么。而自动编码器autoencoder则做另一件事把图片压缩成一段紧凑的摘要然后再从这段摘要重新把图片还原出来。这种先压缩再还原的过程迫使网络深刻理解图片的本质特征而不仅仅记住表面像素。研究团队把这两种能力合并到了同一个网络里。这个MTAE由三个部分组成一个负责把图片压缩成摘要的编码器encoder一个负责从摘要重建原始图片的解码器decoder以及一个根据摘要判断图片类别的分类器classifier。整个网络同时接受两种训练信号一种是重建误差衡量还原出来的图片与原图差多少另一种是分类误差衡量判断类别时错了多少。这两种误差通过一个加权公式合并在一起。研究团队经过大量实验最终确定了重建误差的权重为1分类误差的权重为0.05。分类误差的权重被有意设置得很低原因在于如果让分类任务主导训练网络就会更专注于记住标签反而导致重建出来的图片模糊不清同时也会让网络对错误标签过于敏感。把重建任务的权重设高能保留网络对图片细节的感知能力进而更好地识别出那些在视觉上格格不入的异常图片。针对MNIST数据集研究团队设计的MTAE编码器使用两层卷积神经网络分别使用32和64个滤波器将图片压缩到一个512维的向量表示。解码器则用两层反卷积网络将这个向量还原成原始大小的图片。针对更复杂的CIFAR10彩色图片编码器增加到四层卷积滤波器数量依次为64、128、128和256生成一个1024维的向量表示解码器也相应地增加到四层反卷积。这两套网络的尺寸和复杂度都是根据各自处理的数据特性量身定制的。这个双重任务的设计有一个精妙之处分类误差能帮助识别那些标签被贴错的闭集噪声因为错误标签会让分类任务产生异常高的误差而重建误差则能帮助识别那些完全是外来物的开集噪声因为那些从未在训练数据中出现过的奇怪图片网络很难把它们准确还原。两种信号互相补充覆盖了两种不同类型噪声的检测需求。四、三位筛选员各显神通有了这个能输出双重误差信号的MTAE之后研究团队设计了三种不同的策略来利用这些信号筛除噪声样本。可以把这三种策略理解为三种不同风格的质检员各有各的工作方法。第一位质检员叫做OCSVM全名是单类支持向量机One-Class Support Vector Machine。这位质检员的工作逻辑是这样的先收集所有正常样本的特征在特征空间中划出一个边界边界之内是正常区域边界之外则被判定为异常。具体来说研究团队让每个客户端在本地计算每张图片的加权损失值把重建误差和分类误差合并成一个数字然后把这些损失值发送到中央服务器。服务器收集来自所有参与训练的客户端的损失值用这些数据训练OCSVM模型确定正常损失值的地盘在哪里。训练好之后这个模型被发回各个客户端各客户端用它来判断自己本地每张图片的损失值是否落在正常地盘之外落在外面的就被视为噪声并剔除。整个过程中OCSVM使用的是径向基函数核RBF kernel这种核函数特别擅长在高维空间中处理非线性的分布边界能更精准地捕捉复杂的噪声模式。第二位质检员叫做IF全名是孤立森林Isolation Forest。这位质检员的工作思路与OCSVM完全不同它的核心理念是异常值通常很容易被孤立出来而正常值则往往扎堆在一起。孤立森林通过随机切分数据发现那些只需要很少几刀就能与其他数据分开的点——这些容易被孤立的点很可能就是异常值。研究团队根据数据量的大小使用数据集大小的平方根作为孤立森林的决策树数量这个设置在计算效率和模型准确性之间取得了良好的平衡。第三位质检员叫做AT即自适应阈值Adaptive Threshold方法这是研究团队在一个名为FedBalancer的已有方法基础上改进而来的。与OCSVM和IF这两位从大量样本中学习规律的质检员不同AT的工作方式更像一把动态调节的滤网在每一轮训练中服务器根据各客户端上报的损失值范围每个客户端报告自己本地样本的最低损失和最高损失计算出一个全局阈值。损失值超过这个阈值的样本被认为是高风险样本其中大部分75%的比例会被随机保留参与训练因为高损失有时意味着样本很有价值模型还没学好而损失值低于阈值的样本则全部参与训练因为低损失通常意味着模型已经很好地掌握了这类样本的规律。这个阈值并非一成不变而是随着训练进程动态调整。具体的调整逻辑是服务器每隔5轮检查一次最近几轮的平均损失如果训练趋于稳定损失在下降就适当提高阈值过滤掉更多高损失样本如果训练出现波动损失在上升就降低阈值让更多样本参与训练。这种自动反馈调节的机制让AT方法能随机应变避免了人工设置固定阈值的局限性。AT方法与OCSVM和IF相比有一个显著的优势它的计算成本极低只需要每个客户端上报两个数字最低损失和最高损失服务器也只需要做简单的数学计算不需要训练任何复杂的模型因此对通信带宽和计算资源的消耗几乎可以忽略不计。这三位质检员都有一个共同的工作安排样本筛选从第400轮训练之后才正式开始。这个安排是精心设计的。在训练初期模型对数据知之甚少几乎所有样本的损失值都差不多高正常样本和噪声样本混在一起根本分不清楚而训练时间过长又会出现过拟合问题模型可能开始把噪声样本也记住了导致噪声样本的损失值反而变低更难被识别出来。第400轮这个时间点恰好是模型开始趋于稳定、正常样本和噪声样本的损失差异开始明显的阶段。OCSVM和IF的模型每5轮更新一次以跟上训练过程中损失分布的变化。五、在特征空间里找格格不入者除了基于损失值的筛选策略研究团队还探索了另一条路直接在特征空间中寻找异常样本。前面提到MTAE的编码器会把每张图片压缩成一个高维向量MNIST是512维CIFAR10是1024维。在这个向量空间里同类别的正常图片应该聚集在一起而那些异常图片尤其是开集噪声则理论上应该散布在距离正常聚类很远的地方。基于这个思路研究团队同样使用OCSVM和IF这两位质检员只不过这次的输入不再是损失值而是每张图片对应的高维特征向量。然而单纯在高维特征空间中做检测有一个挑战如果模型没有被专门训练来让同类样本聚集、异类样本分散那么编码器输出的特征向量可能会乱成一团正常样本和噪声样本在特征空间里混在一起根本难以区分。为了解决这个问题研究团队提出了一个新颖的联邦多类SVDD损失Federated Multi-Class SVDD Loss。SVDD全名是支持向量数据描述Support Vector Data Description它的核心思想是为每个类别的正常样本在特征空间中拟合一个尽可能小的超球体可以理解为一个多维空间中的气泡然后通过训练让每个类别的样本都尽量挤进自己对应的气泡里同时让气泡尽量紧凑。那些无法被任何气泡容纳的样本就很可能是异常值。将这个方法与联邦学习结合的具体流程是这样的当全局模型训练到一定程度研究中是第500轮之后服务器使用一份公开的测试数据集计算出各个类别在特征空间中的质心centroid即每个类别所有样本特征向量的平均位置和半径radius即气泡的大小由距离质心最远的正常样本决定。这些质心和半径被广播给各个客户端客户端在本地计算每张图片的特征向量与对应类别质心之间的距离如果距离超过了半径那这张图片就需要为自己的离群行为付出额外的损失代价。这个额外的损失被加到MTAE原本的训练目标中权重设置为一个非常小的值λreg 10??以确保不会过度干扰原本的分类和重建任务。本地训练结束后客户端把每张图片到对应类别质心的距离上报给服务器服务器用这些距离来更新各类别的气泡半径使用q分位数方法其中q1-νν是一个控制被视为异常的数据比例的超参数。这样的设计让气泡的大小能随着训练动态调整而非固定不变。特征空间的筛选操作从第600轮之后才启动比损失值筛选晚了200轮这是有意为之的设计SVDD损失需要先运行一段时间从第500轮开始让特征空间先变得更加有条理之后才能有效地在其中辨别异常样本。六、实验结果数字背后的故事研究团队搭建了一套模拟实验环境使用FedML这个专门为联邦学习设计的开源框架在一台配备NVIDIA RTX 3090显卡的机器上模拟了不同规模的联邦学习场景包括50、100、200和1000个客户端的情况每轮参与训练的客户端数量始终保持在总数的10%例如1000个客户端时每轮选100个参与。每轮训练中每个客户端在本地进行5个完整的训练周期批次大小为64使用带有0.001权重衰减的随机梯度下降优化器学习率为0.1总训练轮数为1000轮。作为基准对比研究团队首先在完全没有噪声、也没有任何样本筛选的情况下训练了模型。结果显示随着客户端数量的减少即每个客户端拥有更多数据模型性能持续提升。以CIFAR10为例1000个客户端时最高准确率为57.95%而50个客户端时则能达到71.05%。MNIST的表现更好从1000个客户端的94.60%提升到50个客户端的97.49%。这个规律说明数据量和数据多样性对联邦学习的重要性。加入40%的噪声之后模型性能出现了大幅下滑尤其是闭集噪声标签错误的破坏力最为强烈。CIFAR10在闭集噪声下、50个客户端时的准确率跌至38.59%MNIST在同样条件下也跌到了85.58%。开集噪声的影响相对温和一些但同样不容忽视CIFAR10在ImageNet32开集噪声下1000个客户端时的准确率只有47.47%远低于无噪声时的57.95%。加入损失值筛选方法之后情况发生了显著改观。在CIFAR10的闭集噪声场景中OCSVM的表现尤为亮眼50个客户端时准确率从38.59%跳升到45.61%提升幅度高达7.02个百分点200个客户端时提升6.44个百分点。IF的表现与OCSVM不相上下50个客户端时提升6.65个百分点。AT在这个场景下的表现较为保守只在1000和50个客户端的情况下带来了轻微的改善反而在100和200个客户端时略有下降。在MNIST的闭集噪声场景中AT方法反而成了表现最佳的选手100个客户端时准确率提升了1.83个百分点。OCSVM在1000个客户端时提升了1.63个百分点但在200个客户端时却下降了0.72个百分点——这被研究团队解释为RBF核在特定数据分布下的过拟合倾向把一些正常样本错误地判定为异常。在开集噪声的场景中不同噪声来源的难度大相径庭。SVHN数据集街景数字图片作为CIFAR10的开集噪声时各种筛选方法的效果都相对有限原因在于SVHN的图片相对简单模型很容易就把这些噪声样本学会了导致它们的损失值降低变得难以与正常样本区分。而ImageNet32作为开集噪声时OCSVM和IF都取得了更显著的改善IF在200个客户端时提升了3.61个百分点OCSVM在100个客户端时提升了2.54个百分点。在MNIST的开集噪声场景中噪声来源的相似性至关重要。EMNIST中的手写字母图片与MNIST的手写数字图片非常相似导致IF方法在所有客户端规模下都出现了精度下滑而OCSVM凭借更强的非线性边界刻画能力在50个客户端时取得了1.12个百分点的提升。ImageNet32作为MNIST的开集噪声时由于图片风格与手写数字差异极大OCSVM和IF都能比较容易地识别出这些外来者分别取得了最高0.91%和0.66%的准确率提升。研究团队还额外统计了精确率Precision、召回率Recall和F1分数这三个更全面的分类性能指标在1000个客户端的场景下进行了分析。这三个指标的变化趋势与准确率基本一致进一步验证了实验结论的可靠性。OCSVM在CIFAR10闭集噪声场景中的F1分数提升达到5.64个百分点在所有方法和场景组合中表现最为稳定。关于特征空间筛选方法的实验结果故事则稍显复杂。在没有加入SVDD损失的情况下单纯在高维特征空间中使用OCSVM和IF进行异常检测在几乎所有场景下都没能超越不使用任何筛选的基准结果。这说明在40%这样高的噪声比例下模型可能已经将噪声样本的特征内化了导致它们在特征空间中与正常样本难以区分。加入联邦SVDD损失之后情况在CIFAR10上有所改善尤其是在1000和200个客户端的场景中。以CIFAR10加ImageNet32开集噪声为例加入SVDD损失后OCSVM在200个客户端时取得了0.99个百分点的提升IF也取得了0.80个百分点的提升。然而对于100和50个客户端的场景SVDD损失反而造成了一定的性能下降研究团队推测这可能是因为在客户端数量较少时模型容易把噪声样本的特征向量强行拉向类别质心反而导致分类判断变得混乱。在MNIST的所有场景中联邦SVDD损失均未能带来正向提升同时还造成了PSNR和SSIM指标的下降说明特征空间的结构被扭曲了。研究团队坦率地承认这是一个需要进一步研究的问题并将超参数的自动化调优包括SVDD损失的启动时间和权重列为未来工作的重要方向。七、方法的边界与代价任何工具都有它的适用范围和使用代价这套方案也不例外。研究团队在论文中详细讨论了各方法的局限性这种坦诚使整个研究更具参考价值。从计算复杂度的角度来看OCSVM的训练时间与样本数量呈平方甚至立方关系数据量一大就变得非常耗时IF的训练则相对高效时间复杂度大约与树的数量和子采样大小的对数成正比。对于客户端来说OCSVM的预测时间与支持向量的数量成正比IF的预测时间则与树的深度对数成正比。相比之下AT方法在客户端上几乎没有额外的计算负担只需要上报两个数字是三种方法中计算代价最低的。染污率contamination parameter的设置是一个敏感问题。研究中将其设为0.4与实际噪声率一致但在现实应用中噪声率往往是未知的。如果将污染率设置得过高大量正常样本会被错误地剔除反而损害模型性能设置得过低则噪声样本无法被有效过滤。研究团队建议未来可以借助自适应方法来动态估计污染率而不是依赖人工设定。样本筛选的启动时机也是一个关键但脆弱的超参数。启动太早模型还没学会区分正常和异常筛选效果差启动太晚模型可能已经记住了噪声样本损失值不再有区分度。研究团队通过观察准确率提升速度放缓的时间点第400轮附近来确定这个时机但这种判断方式在不同数据集和噪声类型下可能需要重新校准。从整体表现来看OCSVM在大多数场景下是最可靠的筛选工具尤其是在复杂的CIFAR10数据集上。IF在某些场景下能取得更高的峰值提升但稳定性略逊一筹特别是在噪声与正常数据相似度较高的场景如EMNIST噪声对MNIST数据中会出现明显的性能下降。AT方法虽然计算成本最低但在大规模客户端场景如1000个客户端下效果有限可能是因为全局阈值难以适应各客户端数据分布差异极大的情况。说到底这项研究给了联邦学习社区一套实用而有效的工具让分散在各个设备上的模型训练过程能够自动对抗数据中的噪声干扰。研究团队用大量的实验数据证明了通过在中央服务器上训练异常检测模型并将其广播给各客户端用于本地样本筛选可以在不暴露任何原始数据的前提下显著提升联邦学习在嘈杂、不均衡数据环境下的性能。归根结底这套方案的价值不仅在于那个7.02%的准确率提升数字更在于它探索了一条可行的路径让分散的、充满噪声的数据能够被有效利用。在未来随着越来越多的设备参与联邦学习数据质量参差不齐将会是一个越来越普遍的问题而这类主动筛选的思路无疑会成为解决这类问题的重要参考。对于研究者来说如何自动化地调节超参数特别是污染率和筛选启动时机、如何在客户端资源极度受限时降低计算成本以及如何让联邦SVDD损失在更多场景下稳定发挥作用都是值得深入探索的后续方向。感兴趣的读者可以通过DOI编号10.1016/j.jestch.2024.101920获取完整论文或直接在工程科学与技术国际期刊第61卷上查阅原文。QAQ1联邦学习中的非独立同分布数据non-IID data是什么意思A非独立同分布数据是指各个客户端设备上的数据内容和分布规律彼此差异很大不像从同一个大池子里随机捞出来的那种均匀分布。例如某家医院的数据全是肺部CT另一家则全是脑部MRI两者数据差异悬殊。这种不均匀性会让各客户端的模型更新方向产生冲突导致合并后的全局模型偏向某些客户端的数据分布进而影响整体训练效果和收敛速度。Q2多任务自动编码器MTAE在联邦学习样本筛选中具体怎么工作AMTAE同时学习两件事把图片压缩再还原重建任务以及判断图片属于哪个类别分类任务。正常图片通常能被准确还原分类误差也较低而噪声图片要么很难还原开集噪声要么分类误差异常高闭集噪声。训练过程中两种误差信号被合并为一个损失值这个损失值就成为判断每张图片是否是噪声的依据让后续的筛选算法有据可查。Q3自适应阈值AT方法和OCSVM方法相比各有什么优缺点AAT方法的优势在于计算成本极低客户端只需上报两个数字服务器只做简单运算几乎不增加通信和计算负担且能根据训练进度动态调整阈值。缺点是依赖单一损失函数面对大规模客户端时全局阈值难以适配每个客户端的数据差异在复杂数据集上效果有限。OCSVM能学习更复杂的非线性边界在大多数场景下更可靠但训练成本高且需要预先设定污染率参数若参数设置不当可能误判正常样本。

相关文章:

土耳其理工大学教你用“自动筛选员“让AI协作训练更聪明

这项由土耳其盖布泽理工大学计算机工程系主导的研究,发表于2025年的《工程科学与技术:国际期刊》(Engineering Science and Technology, an International Journal),第61卷,论文编号101920,感兴…...

DX研究团队揭秘链上AI交易代理的可靠性密码

这项由DX研究团队(DXRG)开展的研究于2026年4月发表,论文编号为arXiv:2604.26091v1,归类于计算机科学人工智能领域。对于想深入了解原始内容的读者,可通过该编号在arXiv平台查询完整论文。**一切从一个真实的问题开始**…...

KS-Downloader:快手无水印视频下载的终极解决方案

KS-Downloader:快手无水印视频下载的终极解决方案 【免费下载链接】KS-Downloader 快手(KuaiShou)视频/图片下载工具;数据采集工具 项目地址: https://gitcode.com/gh_mirrors/ks/KS-Downloader 还在为下载快手视频时出现的…...

华东师范联手上海AI实验室:把真实房间“复制“进Minecraft,AI导航机器人就此诞生

这项由华东师范大学计算机科学与技术学院联合上海人工智能实验室、上海创新研究院共同完成的研究,于2026年发表在国际顶级机器学习会议ICLR 2026(第十四届国际学习表征会议)上,论文编号为arXiv:2604.27578v1,感兴趣的读…...

中科院深圳先进技术研究院等机构揭示网站生成智能体的致命盲区

这项由中国科学院深圳先进技术研究院、中国科学院大学、大连理工大学以及澳大利亚新南威尔士大学共同完成的研究,以预印本形式发布于2026年4月30日,论文编号为arXiv:2604.27419v1,分类于计算机人工智能领域。感兴趣的读者可通过该编号在arXiv…...

《玩转OpenClaw内置诊断,建立属于自己的部署运维逻辑》

很少有人知道,OpenClaw自带的原生诊断工具,其实能深入系统底层的每一个环节,精准定位绝大多数部署问题的根源,其准确率远超任何第三方排查工具。这个被绝大多数教程一笔带过的命令,才是真正能让你从部署小白变成运维高…...

AISMM模型效能跃迁路径(2024企业实测数据全披露):平均运营人效提升42.6%,TOP10%团队已全面启用

更多请点击: https://intelliparadigm.com 第一章:AISMM模型效能跃迁路径(2024企业实测数据全披露):平均运营人效提升42.6%,TOP10%团队已全面启用 AISMM(Adaptive Intelligent Service Managem…...

TinyMaix:轻量级机器学习库在微控制器上的应用

1. TinyMaix:为微控制器而生的轻量级机器学习库在嵌入式开发领域,我们常常面临一个尴尬的局面:那些功能强大的机器学习框架动辄需要几十MB的内存和强大的处理器,而手头的项目却可能只有几KB的RAM和几十KB的Flash。作为一名长期奋战…...

从“AI向善”到“AI合规”:2026奇点大会定义AISMM-ESG耦合度公式(α=0.63β+γ²),你的企业达标了吗?

更多请点击: https://intelliparadigm.com 第一章:从“AI向善”到“AI合规”:范式跃迁的底层逻辑 “AI向善”曾以伦理倡议与行业自律为基石,强调技术的人本温度;而“AI合规”则标志着治理重心向可验证、可审计、可追责…...

AISMM评估结果总被质疑?用这6类动态交互图表让评审专家当场签字认可

更多请点击: https://intelliparadigm.com 第一章:AISMM模型评估数据可视化的核心价值与挑战 AISMM(Adaptive Intelligent Semantic Modeling and Monitoring)模型在工业智能诊断、金融风控建模及多模态语义理解等场景中日益关键…...

深入解析Intel Texture Works:专业级纹理压缩技术实现方案

深入解析Intel Texture Works:专业级纹理压缩技术实现方案 【免费下载链接】Intel-Texture-Works-Plugin Intel has extended Photoshop* to take advantage of the latest image compression methods (BCn/DXT) via plugin. The purpose of this plugin is to prov…...

AgentScaffold:为AI编程助手构建持久化知识图谱与治理框架

1. 项目概述:为AI编程助手装上“记忆”与“纪律”如果你和我一样,深度使用过Cursor、Claude Code这类AI编程助手,那你一定经历过这种“甜蜜的烦恼”:每次开启一个新会话,它都像一张白纸,需要重新读取你的项…...

2026年如何部署Hermes Agent/OpenClaw?阿里云部署指南及Coding Plan配置解析

2026年如何部署Hermes Agent/OpenClaw?阿里云部署指南及Coding Plan配置解析 。OpenClaw作为阿里云生态下新一代的开源AI自动化代理平台,曾用名Moltbot/Clawdbot,凭借“自然语言交互自动化任务执行大模型智能决策”的核心能力,正在…...

【软考高级架构】案例题考前突击13:SAAM / ATAM / CBAM

一、SAAM 架构情景分析法 1. 场景开发:与系统相关风险承担者共同协商,开发一组任务场景。 2. 架构描述:对系统架构进行正式描述,包含计算构件、数据构件及构件间交互关系。 3. 单个场景评估:逐一评估每个场景,判断架构对直接场景、间接场景的支持程度。 4. 场景交互:…...

如何用 watchEffect 实现根据参数自动获取数据?代码简化干货

用 watchEffect 实现参数变化自动重拉,核心是将请求逻辑写在回调中并直接读取响应式依赖(如 route.params.id、searchKey.value),Vue 自动追踪;需封装请求函数但不可提前解构响应式值;可同步控制 loading/e…...

Univer:构建企业级AI原生表格的创新解决方案

Univer:构建企业级AI原生表格的创新解决方案 【免费下载链接】univer Build AI-native spreadsheets. Univer is a full-stack framework for creating and editing spreadsheets on both web and server. With Univer Platform, Univer Spreadsheets is driven dir…...

告别CPU瓶颈:手把手教你用Android Hardware Buffer打通OpenGL与NCNN Vulkan

告别CPU瓶颈:手把手教你用Android Hardware Buffer打通OpenGL与NCNN Vulkan 在移动端AI应用开发中,GPU加速已成为提升性能的关键手段。然而,当我们需要在OpenGL渲染管线与NCNN推理引擎之间传递数据时,传统的CPU拷贝方式往往会成为…...

事件驱动爬虫框架claw.events:构建高解耦、可扩展的数据采集系统

1. 项目概述:一个事件驱动的开源爬虫框架最近在折腾数据采集项目时,我一直在寻找一个既能处理复杂异步逻辑,又能保持代码结构清晰、易于维护的爬虫框架。传统的Scrapy虽然强大,但在处理高度动态、事件驱动的采集场景时&#xff0c…...

软考必备|数据结构算法速记表(高频考点,直接背)

软考必备|数据结构&算法速记表(高频考点,直接背)备考软考(软件设计师)的小伙伴都知道,数据结构&算法是分值天花板,选择题下午大题占比极高,也是很多人容易丢分的…...

从语音到智能体:构建语音交互式AI系统的架构与实践

1. 项目概述:从语音到智能体的桥梁最近在探索AI智能体(Agent)的落地应用时,我遇到了一个非常有意思的开源项目:thom-heinrich/voice2agent。这个项目直译过来就是“语音到智能体”,它的核心目标非常明确——…...

NLP情感分析:从传统方法到深度学习

NLP情感分析:从传统方法到深度学习 1. 技术分析 1.1 情感分析任务 类型描述典型应用二分类积极/消极评论分析三分类积极/中性/消极舆情监测多标签多种情感混合复杂文本 1.2 方法对比 方法特点性能词典方法基于情感词典中等传统MLTF-IDFSVM良好深度学习Word2VecCNN/R…...

自建RSS阅读器:基于Go与Docker的YourRSS部署与优化指南

1. 项目概述:一个现代、自托管的RSS阅读器如果你和我一样,是个信息获取的重度依赖者,同时又对数据隐私和阅读体验有近乎偏执的要求,那么“自建RSS阅读器”这个念头,大概率已经在你脑海里盘旋过无数次了。我们怀念那个通…...

【计算机毕业设计】基于Springboot的线上辅导班系统+LW

博主介绍:✌全网粉丝3W,csdn特邀作者、CSDN新星计划导师、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌ 技术范围:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、…...

MacSweep:专为AI开发者设计的精准清理工具,一键释放数十GB空间

1. 项目概述:一个真正懂AI开发的Mac清理工具如果你是一名在Mac上折腾AI开发的程序员,那你一定对硬盘空间被无声吞噬的痛楚深有体会。今天要聊的这个项目,MacSweep,就是为解决这个痛点而生的。它不是另一个CleanMyMac,也…...

为什么很多公司服务器一多,运维反而越来越“失控”?

为什么很多公司服务器一多,运维反而越来越“失控”? 很多人刚入行运维的时候。 总觉得: 运维 = 装系统 + 部署服务 + 改配置后来进了真正的大型互联网公司才发现: 根本不是这么回事。 真正的大规模运维现场,经常是这样的: 凌晨 3 点。 报警群疯狂闪烁。 Promethe…...

告别电脑!这5款手机自动化脚本App,让你躺着搞定日常重复操作(附详细对比)

告别电脑!这5款手机自动化脚本App,让你躺着搞定日常重复操作 每天早上醒来第一件事就是打开五个App签到领积分?游戏日常任务刷到手指发麻?工作群里的日报周报永远忘记提交?这些重复性操作正在悄悄吞噬你的时间和精力。…...

Open-Lyrics:基于异步并发架构的高性能语音字幕生成系统设计

Open-Lyrics:基于异步并发架构的高性能语音字幕生成系统设计 【免费下载链接】openlrc Transcribe and translate voice into LRC file using Whisper and LLMs (GPT, Claude, et,al). 使用whisper和LLM(GPT,Claude等)来转录、翻译你的音频为字幕文件。 …...

从无人机飞控到机械臂:手把手教你用Python实现RPY角与旋转矩阵互转(附完整代码库)

从无人机飞控到机械臂:Python实现RPY角与旋转矩阵互转实战指南 在无人机自动降落时,飞控系统需要根据IMU数据实时计算机身姿态;当机械臂抓取物品时,末端执行器的空间方位必须精确控制——这些场景都离不开RPY角(Roll-P…...

从评价指标反推损失函数:拆解YDTR论文中SSIM与空间频率(SF)损失的PyTorch实现

从评价指标反推损失函数:拆解YDTR论文中SSIM与空间频率(SF)损失的PyTorch实现 在图像融合领域,评价指标与损失函数的设计往往存在微妙的关联。YDTR论文的创新点之一,就是将传统用于评估结果质量的SSIM(结构相似性)和SF…...

如何用CellProfiler实现生物图像自动分析:从手动处理到批量智能化的完整指南

如何用CellProfiler实现生物图像自动分析:从手动处理到批量智能化的完整指南 【免费下载链接】CellProfiler An open-source application for biological image analysis 项目地址: https://gitcode.com/gh_mirrors/ce/CellProfiler 你是否还在为处理海量细胞…...