当前位置：首页 > article >正文

战略分类：当机器学习遭遇策略性操纵与未知图结构

article 2026/5/24 6:16:51

1. 战略分类中的学习复杂性从理论到实践在机器学习领域我们常常谈论模型的泛化能力也就是一个算法从有限样本中学到的规则能否在面对新数据时依然有效。这背后有两个核心的理论工具VC维Vapnik-Chervonenkis dimension和Littlestone维。VC维衡量的是一个假设类在概率近似正确PAC学习框架下的表达能力简单说就是你的模型家族能“打散”多少种不同的数据标注方式。VC维越高模型越复杂需要更多的数据才能学得好。Littlestone维则是针对在线学习场景的它刻画的是在最坏情况下一个假设类能承受的预测错误次数下界。这两个维度为我们理解“学习到底有多难”提供了数学基础。然而现实世界很少是静态的。在诸如信贷审批、内容推荐、大学录取等场景中被预测的对象我们称之为“智能体”并非被动接受判决。他们会观察学习器部署的规则并策略性地调整自己的特征以期获得更有利的结果比如更高的信用评分、更精准的推荐、或录取机会。这就是“战略分类”研究的问题。例如一个申请者得知某大学看重某项课外活动他可能会去突击参与一个内容创作者发现平台算法偏好某种标题他便会调整自己的文案。这种战略性行为彻底改变了学习问题的面貌。学习器不再是与一个固定的数据分布博弈而是在与一群会根据你的模型动态调整行为的智能体博弈。更棘手的是智能体能够如何修改特征通常由一个“操纵图”来刻画。图中的节点是特征向量一条从特征x指向特征x’的边意味着拥有特征x的智能体可以付出一定成本后将自己修改为x’。在很多实际应用中这个图的结构对学习器而言是未知的。我们可能只知道一个大概的图类例如所有节点的出度都不超过k的图而真实的操纵图★就隐藏在其中。这就引出了本文要深入探讨的核心问题当操纵图未知时我们还能有效地进行学习吗样本复杂性和在线学习的遗憾Regret会如何变化我们将看到战略行为不仅让学习变得更难而且未知的图结构会带来额外的、有时是不可避免的学习成本。2. 模型与设定当学习遭遇策略性操纵2.1 战略分类的基本框架让我们先形式化地定义战略分类的战场。我们关注二分类任务特征空间是标签空间是{0, 1}假设类ℋ是从到的一组映射函数。每个数据点在这里称为“智能体”是一个特征-标签对(, )。核心的博弈结构由操纵图 (, ℰ)定义。这是一个有向图节点是所有可能的特征向量。如果存在一条从到′的边(, ′) ∈ ℰ就意味着一个原始特征为的智能体可以操纵自己将特征变为′。我们用_()表示在中的出邻域即所有可以从一步到达的节点()表示图中所有节点的最大出度。这个“出度”参数至关重要它量化了单个智能体策略选择的丰富程度。越大智能体可选的“变装”选项就越多学习器面临的不确定性也就越大。博弈的回合如下学习器部署一个假设ℎ ∈ ℋ。对于一个到来的智能体(, )如果ℎ在其原始特征上给出的预测是负类ℎ()0但存在某个邻居′ ∈ _()被ℎ预测为正类ℎ(′)1那么该智能体就会操纵自己移动到这样一个正类邻居′上。否则即ℎ()1或者所有邻居都是负类智能体保持原样停留在。无论是否操纵智能体的真实标签保持不变。最终学习器根据智能体操纵后的特征_,ℎ()来给出预测并承担预测错误的损失。由此我们定义诱导标记ℎ_() ℎ(_,ℎ())以及战略损失ℓ_str^(ℎ, (, )) 1(ℎ_() ≠ )。这个损失函数捕捉的正是在智能体针对你的模型进行最优反应后你是否还能正确分类。注意这里隐含了一个重要的假设即智能体是“收益最大化”的他们一旦发现通过操纵能获得正类预测就一定会这么做。同时我们通常假设当有多个正类邻居可选时智能体会以某种固定的方式打破平局例如随机选择。这个假设保证了训练和测试阶段行为的一致性。2.2 学习环境与信息结构我们考虑两种经典的学习范式PAC学习智能体从一个固定的未知分布中独立同分布地抽取。学习器的目标是找到一个假设ℎ使得其战略总体损失ℒ_str^{★,}(ℎ) [ℓ_str^{★}(ℎ, (, ))]很小。在线学习智能体由一个对抗者顺序生成。在每一轮学习器部署假设ℎ_观察到智能体(_, _)及其操纵后的结果然后遭受损失。学习器的目标是最小化Stackelberg遗憾即与事后看来最好的固定假设ℎ★所犯错误总数的差值。在可实现情况下存在一个完美假设ℎ★使得所有轮次的损失都为0此时遗憾就退化为学习器犯错误的总数。问题的难度极大地依赖于学习器在每一轮能获得多少信息。我们区分三种由易到难的设定完全信息设定学习器既知道真实的操纵图★也在部署假设ℎ_之前就观察到了智能体的原始特征_。这是最理想的情况学习器可以精确计算智能体会如何反应。一些场景符合这个设定例如银行在给出贷款利率前已审核完客户的完整资料。操纵后反馈设定学习器知道★但无法在部署假设前观察到_。她只能在做出预测后观察到_或操纵后的特征_显然知道_比只知道_信息量更大。这是Ahmadi等人2023引入的设定它更贴近许多实际场景——你通常是在决策之后才看到对方的“底牌”。未知操纵图设定这是本文的焦点也是最现实的设定。学习器不知道真实的★仅知道它属于某个已知的图类例如所有最大出度≤的图。信息反馈模式也有多种变体最简单的是在部署前知道_部署后知道_更难的是部署后才知道(_, _)对最难的是只知其一。我们主要分析最具信息性的第一种模式但也会证明即使在第二种模式下确定性算法也可能表现很差。一个关键的洞察是我们的算法并不需要知道整个图。在完全信息和操纵后反馈设定中我们只需要在遇到特征_时能查询到它的局部邻域信息_★(_)即可。在未知图设定中我们则需要利用历史交互数据来同时学习图和假设。3. 已知图下的学习复杂度如何增长当操纵图★已知时问题在一定程度上被简化了。我们可以直接针对战略损失进行经验风险最小化。但战略行为是否增加了学习的根本难度呢答案是肯定的且增长的程度可以通过假设类的复杂度来衡量。3.1 PAC学习VC维的视角在PAC框架下要保证泛化我们需要控制假设类ℋ_★ {ℎ_★ | ℎ ∈ ℋ}的VC维这个类包含了所有假设ℎ经过★诱导后的函数。一个核心结论是定理 3.1 (VC维的膨胀)对于任意假设类ℋ和图★最大出度为有 VCdim(ℋ_★) ≤ log()其中 VCdim(ℋ)。并且这个上界在本质上是最优的存在构造使得 VCdim(ℋ_★) ≥ log 。这意味着什么这意味着战略分类的样本复杂度至多是普通分类样本复杂度的(log )倍。只要是有限的一个PAC可学习的类在战略环境下依然是PAC可学习的。这个对数因子是智能体操纵能力带来的“学费”。构造与直觉考虑一个简单的例子1即ℋ的VC维为13。我们构造log 2个“簇”每个簇包含一个中心节点_{,0}和个叶子节点{_{,1}, ..., _{,}}从中心节点有边指向所有叶子节点。现在定义个假设ℎ_。对于第个簇ℎ_将叶子节点_{,}标记为1当且仅当的二进制表示的第位是1否则标记为0所有中心节点标记为0。可以验证原始的ℋ的VC维是1因为任意两个点都无法被所有ℎ_以(1,1)的方式打散。但是在战略环境下呢智能体位于中心节点_{,0}时如果某个ℎ_将其某个叶子邻居标记为1它就会操纵过去导致ℎ_对_{,0}的诱导预测为1。因此ℎ_对所有这些中心节点的诱导预测恰好构成了的二进制编码。于是这log 个中心节点可以被ℋ_★打散。VC维从1增长到了log 。实操心得这个结论给算法设计者的启示是在面对战略性智能体时选择VC维较小的简单模型族如线性分类器、浅层决策树尤为重要。因为复杂度惩罚项 log 会随着模型复杂度急剧上升。在资源有限时用稍简单的模型换取对操纵更稳健的泛化性能可能是更明智的选择。3.2 在线学习Littlestone维与算法设计在线学习环境中我们关心的是错误界或遗憾界。对于完全信息设定通过类似的组合分析可得最优错误界依赖于Littlestone维且有一个Θ(log )的因子增长。但在操纵后反馈设定中只知道_情况变得更有挑战性。Ahmadi等人的工作给出了依赖于假设类大小|ℋ|的遗憾界。我们则希望给出依赖于Ldim(ℋ)的、适用于无限假设类的算法。算法 3.1 (Red2Online-PMF: 基于专家权重的在线学习) 我们的核心思想是将战略在线学习问题归约到标准在线学习问题。我们维护一个“专家”集合每个专家是一个标准在线学习算法的实例例如SOA算法并赋予其一个权重。预测对于一个特征我们查询所有专家。如果预测为1的专家总权重大于总权重的 1/(2(1))我们就预测ℎ_()1否则为0。这个阈值保证了在犯错时我们有足够的“责任专家”可以更新。更新当在观察点_上犯错时假阳性预测为1真实标签为0这意味着目标假设ℎ★必须将_预测为0。因此我们将所有预测_为1的专家用样本(_, 0)进行更新并将其权重减半。假阴性预测为0真实标签为1这意味着ℎ★一定将_的某个邻居★预测为1。但我们不知道是哪个邻居。对于所有将_整个闭邻域_★[_]都预测为0的专家我们将其“分裂”。具体来说为邻域中的每一个节点创建一个该专家的新副本并用(, 1)这个样本去更新对应的副本然后将原专家的权重平分给这些新副本并减半。这样至少有一个新专家接收到了正确的训练信号(★, 1)。定理 3.4对于任何标准在线学习算法错误界为上述算法在可实现序列上的错误界为( log · )。若采用最优的SOA算法其 Ldim(ℋ)则总错误界为( log · Ldim(ℋ))。定理 3.5 (下界)存在图★最大出度和假设类ℋLdim(ℋ)使得任何确定性算法都至少会犯(-1)次错误。对比与解读完全信息 vs 操纵后反馈在完全信息下对的依赖是Θ(log )在操纵后反馈下上界是( log )下界是Ω()。这中间存在一个近似(log )的差距我们的算法几乎达到了确定性算法的极限。信息缺失的代价无法在预测前观察到_导致错误界对的依赖从对数级跃升到了线性级。这是因为在假阴性错误时学习器无法 pinpoint 具体是哪个邻居应该为正只能通过“专家分裂”这种更耗资源的方式来覆盖所有可能性。注意事项这个算法的权重更新和专家分裂机制计算开销可能较大尤其当很大时。在实际部署中需要对专家集合进行剪枝例如定期移除权重过低的专家以控制计算和存储成本。此外阈值1/(2(1))的选择是关键它平衡了探索和利用。在实践中如果对智能体的操纵倾向有先验知识可以微调这个阈值。4. 未知图下的学习挑战与代理损失当操纵图★未知时我们无法再计算战略损失ℓ_str。学习器必须在探索图结构的同时进行学习。我们假设已知一个图类例如所有最大出度≤的图且真实的★ ∈ 可实现情况或至少作为一个比较器类不可知情况。4.1 可实现情况下的算法与样本复杂度核心思路是如果我们能找到一个与真实图★“足够接近”的近似图那么在这个近似图下学到一个好假设ℎ其战略损失也不会太差。我们定义邻域预测损失ℒ_neighborhood() Pr_{(,)∼}[_★() ≠ _()]即图对邻居的预测错误概率。可以证明战略损失能被邻域损失和近似图下的战略损失所控制 ℒ_str^{★,}(ℎ) ≤ ℒ_neighborhood() ℒ_str^{,}(ℎ)因此我们的目标是找到一对(, ℎ)使得经验战略损失为0并且与观测到的历史数据一致。但仅仅一致还不够一个将所有边都包含进来的“全图”也是一致的但它的邻域损失会很大。我们需要一个正则项来挑选出“更紧致”的图。算法 4.1 (未知图PAC学习)数据收集阶段对于每一轮观察到_后我们部署一个特殊的假设ℎ_() 1( ≠ _)即除了_本身其他所有点都预测为正。这迫使智能体从_★(_)中均匀随机地操纵到一个邻居_。我们记录下这些(_, _)对。输出阶段从所有图-假设对(, ℎ) ∈ (, ℋ)中选择满足以下条件且经验出度和最小的一对(b, bℎ) a.一致性对于所有历史数据都有_ ∈ _(_)。能解释所有观察到的操纵边 b.零经验误差在假设使用图时ℎ在历史数据上的战略经验误差为0。输出假设bℎ。为什么最小化经验出度和有效直观上真实的图★通常不会是边特别多的那个除非智能体操纵能力极强。通过最小化经验出度和我们倾向于选择那些边集更“经济”、更接近真实图的候选图。理论分析表明这个简单的正则项足以保证只要样本量足够我们找到的图b的邻域损失ℒ_neighborhood(b)就会很小。定理 3.2 (样本复杂度)对于VC维为的ℋ最大出度≤的图类在可实现情况下要保证输出假设bℎ的战略损失≤概率至少1-所需的样本复杂度为 ( ( log() log(1/) log || · (log(1/) ) log(1/)) / )关键依赖关系解读 log()/这是已知图情况下战略PAC学习的样本复杂度主体部分来源于ℋ_★的VC维膨胀。 log ||/这是为学习图本身所支付的额外代价。log ||衡量了图类的复杂度则是因为我们需要通过随机探索部署全正假设来采样邻域每个样本只能提供1比特关于邻域的信息某条边是否存在而每个节点最多有条出边。下界定理 3.3这个log ||的依赖是不可避免的。存在简单的例子ℋ的VC维1中每个图最大出度1使得任何算法在样本量少于log ||/时都可能输出一个误差很大的假设。这本质上是一个假设检验问题你需要足够的样本从||个可能的图中识别出正确的那一个。4.2 不可知情况与代理损失在不可知情况下可能不存在一个完美的图-假设对能做到零经验误差。更大的挑战在于邻域损失ℒ_neighborhood()无法得到无偏估计因为我们永远看不到完整的邻域_★(_)只能看到从其中采样出来的一个点_。我们的解决方案是构造一个可估计的代理损失 ℒ_proxy() : 2 · _[Pr_{∼Unif(_★())}( ∉ _())] (1/)[|_()|] - (1/)[|_★()|]这个代理损失为什么有效可估计性对于一项数据(_, _)量 2·1(_ ∉ _(_)) (1/)|_(_)| 是ℒ_proxy()前两项的无偏估计第三项是常数。近似性可以证明(1/)ℒ_neighborhood() ≤ ℒ_proxy() ≤ 3ℒ_neighborhood()。即代理损失与真实的邻域损失在乘以因子的范围内近似。因此我们可以通过最小化代理损失的经验值找到一个使ℒ_proxy()较小的图。再结合之前的分解式并在这个上运行ERM最终得到的假设ℎ的战略损失将与最优的图-假设对相比最多相差一个()的因子。实操心得代理损失的设计是处理不可知情况的关键。它巧妙地将不可观测的邻域比较问题转化为了可观测的“采样点是否在候选邻域内”以及“候选邻域大小”的问题。在实际应用中如果对最大出度没有确切的先验知识可以将其设为一个宽松的上界但代价是近似因子会变大样本复杂度也会增加。因此尽可能准确地估计或约束智能体的操纵能力值对算法性能至关重要。4.3 与多标签学习的联系我们的图学习算法本身具有独立的价值一个直接的应用是多标签学习。考虑一个推荐系统场景用户可能喜欢多部电影标签。我们的目标是学习一个二分图★其中边(, )表示用户喜欢电影。在现实中系统无法一次性询问用户喜欢的所有电影。更常见的交互是系统推荐一个电影列表即一个假设ℎ_将列表中的电影标记为正用户从她喜欢的且被推荐的电影中随机点击一部即_ ∈ _★(_) ∩ ℎ_。这完美契合了我们“未知图”的设定学习器不知道用户完整的喜好集合邻域只能通过用户对推荐列表的反馈随机点击一个喜欢的来逐步学习。我们的算法为此提供了一种解决方案通过主动推荐相当于部署假设来探索用户的喜好邻域并利用代理损失来逼近真实的用户-物品关联图。这为交互式推荐、兴趣探索等问题提供了新的理论视角和算法框架。5. 未知图下的在线学习利用图类先验在线设定下未知图的挑战更大因为错误会实时累积。我们的算法思想是在操纵后反馈算法Algorithm 3的基础上运行一个该算法的实例但其使用的“邻域”信息不是真实的_★(_)而是基于当前与历史数据一致的图集合所投票产生的“多数票邻域”。算法 5.1 (基于多数票邻域的在线学习)维护一个与历史数据一致的图集合_consistent ⊆ 。在每一轮观察到_后计算多数票邻域e(_)包含那些在至少一半的_consistent的图中是_邻居的节点。预测对于任何 ∉ e(_)即它不太可能是真实邻居我们直接预测ℎ_()1。对于 ∈ e(_)我们调用Algorithm 3但使用e(_)作为邻域反馈来决定预测。更新如果我们在一个 ∉ e(_)的节点_上犯错假阳性那就证明(_, _)这条边在真实图中存在。这至少可以排除掉一半认为这条边不存在的图因为_不在多数票邻域中。更新_consistent。如果我们在一个 ∈ e(_)的节点上犯错则按照Algorithm 3的规则更新内部的专家权重。注意在假阴性情况下我们使用e(_)作为邻域反馈来分裂专家。由于e(_)是真实邻域_★(_)的超集且大小不超过2这个更新仍然是安全的。定理 3.6 (错误上界)该算法在可实现序列上的错误总数上界为( log() · Ldim(ℋ) log ||)。定理 3.7 (下界)存在Ldim(ℋ)1的ℋ和最大出度为1的图类||使得任何确定性算法都至少会犯Ω(log / log log )次错误。结果解读代价分解错误界由两部分组成。( log · Ldim(ℋ)) 是在已知邻域信息下处理战略反馈本身所需的代价。(log ||) 则是为了从图类中识别出真实图★所必须付出的探索代价。这个log ||的加法项是不可避免的。信息的重要性我们进一步研究了更困难的反饋模式。命题 3.1指出如果学习器只在每轮结束后才同时观察到(_, _)而不是在预测前知道_那么任何确定性算法在最坏情况下都可能犯Ω(||)次错误即错误数与图类大小成线性关系这凸显了在部署假设前获得原始特征信息_的极端重要性。没有这个信息学习器几乎无法进行有效的图辨识。常见问题与排查样本复杂度中的 log ||项在实践中很大怎么办这提示我们图类的先验知识至关重要。如果太大例如所有可能的有向图理论保证会失效。我们必须利用领域知识来设计紧致的图类。例如在信贷评分中可以假设用户只能修改有限几个特征如增加储蓄、减少负债且修改有方向性分数只能增加不能减少这能极大缩小的范围。算法需要维护所有一致的图计算是否可行对于巨大的图类显式维护_consistent不可行。此时需要参数化或采用其他方式表示图类如基于规则的图、低秩图等并设计相应的约束推理或优化算法来隐式地处理一致性集合。计算复杂度从依赖于||转变为依赖于图表示的参数大小。代理损失中的如果估计不准会有什么影响如果高估了代理损失中的正则项(1/)|_()|会变小导致算法可能选择边数过多的图从而增加近似误差。如果低估了则正则项权重过大可能选择边数过少的图无法拟合数据。稳健的做法是使用一个保守的上界或者尝试多个值并通过验证集选择。6. 总结与延伸思考本文系统性地分析了战略分类特别是在操纵图未知这一最具挑战性设定下的学习理论问题。我们得到了一系列紧致的上界和下界清晰地刻画了战略行为和各种信息限制如何提升了学习的样本复杂度和在线错误界。核心结论一览表学习设定信息结构样本复杂度 (PAC) / 错误界 (在线)关键依赖关系已知图完全信息 (知_, 知★)( ( log )/ ) / ( log )对数依赖最优已知图操纵后反馈 (不知_, 知★)( ( log )/ ) / ( log · )样本复杂度仍为对数在线错误界升为线性未知图最易反馈 (知_, 后知_)( ( log log未知图较难反馈 (后知(_, _))下界: Ω(给实践者的启示模型复杂度控制是第一要务战略环境放大了模型复杂度的代价 log 。优先选择VC维/Littlestone维小的简单模型。获取先验信息至关重要尽可能获取并利用关于操纵结构图类和智能体原始特征_的信息。这能直接降低样本复杂度和错误率。在系统设计时应尽量创造在决策前观察原始特征的条件。主动探索与稳健设计在未知图情况下需要设计主动策略如算法中的“全正假设”阶段来探索图结构。同时采用正则化如最小化度或代理损失来保证学到的图和假设的稳健性。计算-统计的权衡我们的理论算法有时需要遍历图类或维护专家集合计算开销大。在实际中需要结合问题结构设计高效的近似算法这可能需要在统计保证上做出轻微妥协。未解决的问题与未来方向不可知在线学习本文主要关注可实现情况。如何将未知图下的在线学习结果扩展到不可知情况即不存在完美的图和假设是一个重要的开放问题。标准的归约技巧可能不直接适用。计算复杂性在完全信息PAC设定中计算经验战略风险最小化假设需要()倍于标准ERM的时间。在未知图设定中我们需要在庞大的图-假设对空间中进行优化。设计具有计算效率的近似算法是走向实际应用的关键。更复杂的策略行为本文假设智能体是“贪婪的”一旦能获得正预测就操纵。现实中操纵可能有成本智能体可能权衡成本与收益。将成本函数纳入模型研究其在学习复杂性上的影响是一个有意义的扩展。对的依赖能否改进在操纵后反馈的在线学习中我们的上界是( log · )下界是Ω( · )。这个log 的间隙能否被消除可能需要随机化算法或更精细的分析。战略分类将机器学习从被动的模式识别推向了一个与动态、理性主体交互的新前沿。理解其学习复杂性不仅具有理论美感更是构建鲁棒、公平、且能适应策略性环境的智能系统的基石。本文的工作为这片充满活力的领域打下了一块坚实的理论地基而在此基础上建造起实用、高效的算法大厦将是接下来令人兴奋的挑战。

战略分类：当机器学习遭遇策略性操纵与未知图结构

相关文章：

战略分类：当机器学习遭遇策略性操纵与未知图结构

机器学习求解流体PDE：警惕弱基准与报告偏误导致的效率高估

机器学习赋能非结构网格CFD：GNN、PINN与降阶建模实战

结构可辨识性映射：提升小样本时间序列分类性能的机理驱动方法

小样本下机器学习模型性能稳定性评估：分位数与置信区间实战

基于神经进化势函数与差分进化算法解析γ-Al2O3缺陷结构

非结构化网格数据处理：从传统插值到GNN与PINNs的AI求解器演进

行列式点过程：从统计独立到负依赖的机器学习范式跃迁

Android HTTPS抓包失败根源：系统证书信任链详解

个性化机器学习评估：预测精度与解释质量为何会背离？

VAE-TCN时间序列分析：从架构稳定性到复杂模式挖掘

多重样本分割：提升异质性处理效应估计稳定性的关键技术

随机森林回归与PISO算法融合：实现CFD在线模型修正与状态估计

集合卡尔曼滤波结合机器学习代理模型的长期精度理论分析与实践

破解特征相关性难题：MVIM与CVIM如何提供更稳健的变量重要性评估

机器学习势函数与元动力学模拟：揭示电催化水分解的原子尺度反应机理

变分量子编译：用乘积态训练实现高效量子动力学模拟

基于Petri网与机器学习的等离子体化学反应网络简化方法

AI 初稿查重 15%-45%？2026 毕业论文双降（降重 + 降 AI）软件全攻略

[智能体-29]：Chatbox 一款开源、跨平台的「AI 客户端聚合工具」，它本身不提供 AI 模型，而是帮你统一接入 ChatGPT、DeepSeek、Ollama 等几乎所有主流大模

[智能体-30]：curl、requests、Ollama、Ollama API、OpenAI API各种的作用和他们之间的关系

[智能体-29]：curl 命令完整详解

[智能体-28]：Python HTTP 请求库：requests 背景、原理、作用完整版详解

[智能体-27]：Ollama 通过命令行与模型交互的几种方式

高维数据压缩：秩-1格点与双曲交叉方法原理与应用

软体机器人跳跃：离散弹性杆仿真与动态分岔原理详解

多任务学习优化文档级机器翻译：源语句重建与上下文重建策略对比

华为防火墙双ISP出口服务器发布避坑指南

GE 和 Runtime：不是上下游，是协同决策

【芯片测试】：6. 向量、Sequencer 指令与高速串行 IO