当前位置：首页 > article >正文

DML2 vs DML1：新渐近框架下的理论优势与最优折叠数选择

article 2026/5/24 20:33:48

1. 项目概述DML2为何在理论上优于DML1在因果推断和半参数模型的实证研究中我们常常面临一个核心挑战如何在高维或非参数干扰函数nuisance function存在的情况下稳健且高效地估计我们真正关心的核心参数比如平均处理效应ATE。传统的“先估计干扰函数再代入估计目标参数”的“插件法”plug-in estimator看似直接实则暗藏风险。因为同一个样本既用于估计干扰函数又用于估计目标参数会引入所谓的“自身观测偏差”own observation bias导致估计量的渐近分布不再标准推断失效。为了绕过这个难题去偏机器学习Debiased Machine Learning, DML应运而生并迅速成为应用计量经济学和统计学中的主流工具。DML的精髓在于其巧妙的两步设计Neyman正交性条件和交叉拟合。Neyman正交性像是一个“缓冲垫”它确保目标参数的估计方程对干扰函数的估计误差不那么敏感。而交叉拟合则是一种样本分割策略它将数据随机分成K份用其中K-1份数据训练干扰函数模型然后在剩下的1份数据上评估目标参数如此循环最终合并结果。这套组合拳的核心价值在于它允许我们使用任意复杂的机器学习模型如随机森林、神经网络、Lasso等去拟合干扰函数而无需担心这些模型的复杂性会“污染”核心参数的估计最终仍能获得具有参数收敛速率和渐近正态性的估计量。然而在实践DML时我们面临一个看似微小却至关重要的选择DML1还是DML2这两种由Chernozhukov等人在2018年提出的算法都基于交叉拟合但“合并信息”的方式截然不同。简单来说DML1是“先分治后平均”它在每个数据折fold内独立求解目标参数最后对所有折的结果取平均。DML2则是“先平均后求解”它先将所有折的估计方程moment condition平均起来然后求解这个统一的方程。在传统的渐近理论框架下即固定K让样本量n趋于无穷这两种方法被证明具有完全相同的极限分布。这导致了一个理论上的“盲区”——既然渐近性质一样那该选哪个早期的模拟证据似乎更青睐DML2但缺乏严格的理论支撑。这就引出了本文要探讨的核心问题在更贴近现实有限样本情形的渐近框架下——即折叠数K也随样本量n一同趋于无穷时——DML1和DML2的表现是否依然等价如果不谁更优以及我们应该如何选择K这个超参数本文基于一篇前沿理论论文深入拆解了这些问题。研究发现在新的渐近框架下DML2在偏差和均方误差方面展现出明确的理论优势。更关键的是对于DML2当折叠数K取到最大值即等于样本量n时此时即为留一交叉验证其估计量在渐近偏差和精度上达到最优。这个结论挑战了实践中常被推荐的K5或K10等经验法则为数据科学家和计量经济学家提供了更坚实的算法选择与超参数调优依据。2. DML1与DML2的核心机制与差异解析要理解DML2的理论优势我们必须先吃透DML1和DML2在机制上的根本区别。这个区别看似只是计算顺序的调换但其背后的统计含义和在小样本下的表现影响深远。2.1 问题设定与符号约定假设我们关心的参数是θ₀它由一个已知的矩条件所定义E[m(W, θ₀, η₀(X))] 0。其中W是观测到的随机向量X是W的一个子向量通常是协变量而η₀(X)就是我们未知的干扰函数它可能包含倾向得分、条件期望结果等。矩函数m通常是θ₀的线性函数即m(W, θ, η) ψ_b(W, η) - ψ_a(W, η) * θ。在这种设定下θ₀可以表示为一个比值θ₀ E[ψ_b(W, η₀)] / E[ψ_a(W, η₀)]。一个理想的“神谕”估计量oracle estimator是将上述期望替换为样本均值并用真实的η₀代入。但η₀未知我们只能用估计值ˆη去替代。如果粗暴地用全部数据先估计ˆη再代入全部数据计算θ就是前面提到的插件法会引入偏差。DML的交叉拟合正是为了解决这个问题。2.2 交叉拟合流程与两种估计量构建交叉拟合的第一步是将n个样本随机、均匀地划分为K个折fold记为I₁, I₂, ..., I_K。对于第k折我们使用除该折之外的所有数据即n*(K-1)/K个样本来训练一个干扰函数估计器记为ˆη_k(·)。然后对于属于第k折的每个样本ii ∈ I_k其干扰函数估计值定义为ˆη_i ˆη_k(X_i)。至此我们为每个样本都获得了一个“样本外”预测的干扰函数估计值。接下来分歧出现了DML1的构建逻辑分治在每个折k内部利用该折的样本和对应的干扰函数估计值独立地求解一个局部参数估计值˜θ_k。具体来说就是求解折内的矩条件(1/n_k) Σ_{i∈I_k} m(W_i, θ, ˆη_i) 0。由于m是线性的这等价于计算˜θ_k (Σ_{i∈I_k} ψ_b(W_i, ˆη_i)) / (Σ_{i∈I_k} ψ_a(W_i, ˆη_i))。平均得到K个局部估计值˜θ₁, ..., ˜θ_K后DML1估计量就是它们的简单平均ˆθ_{n,1} (1/K) Σ_{k1}^K ˜θ_k。DML2的构建逻辑聚合DML2不先求解局部参数而是先将所有折的矩条件“池化”。它构建一个全局的估计方程(1/K) Σ_{k1}^K [ (1/n_k) Σ_{i∈I_k} m(W_i, θ, ˆη_i) ] 0。求解求解这个全局方程得到最终的估计量。由于矩条件是线性的这个解有一个非常简洁的表达式ˆθ_{n,2} (Σ_{i1}^n ψ_b(W_i, ˆη_i)) / (Σ_{i1}^n ψ_a(W_i, ˆη_i))。注意DML2的最终形式ˆθ_{n,2}看起来非常像那个“神谕”估计量只是把真实的η_i替换成了估计的ˆη_i。而DML1的最终形式ˆθ_{n,1}则是一个加权平均其权重隐含在分母ψ_a的折内波动中。2.3 一个关键特例与直觉理解当ψ_a(W, η)是一个常数例如在估计ATE时ψ_a ≡ 1时DML1和DML2在数学上是完全等价的。因为此时每个折内的分母都是常数˜θ_k正比于折内ψ_b的和对其平均后分子分母的求和可以交换最终形式与DML2一致。然而在更一般的情况下例如估计LATE局部平均处理效应时ψ_a本身也是一个需要估计的函数与工具变量的条件概率有关此时ψ_a(W_i, ˆη_i)在不同样本间是变化的。正是这种变化成为了区分DML1和DML2性能的关键。我们可以这样直观理解DML1像是进行了K次独立的实验每次实验用一部分数据估计一个θ然后报告这K次实验的平均结果。如果每次实验的“测量尺子”即分母ψ_a本身有误差且在各折间波动那么对测量结果直接平均可能会放大这种波动带来的偏差。DML2则是先用所有数据共同确定一把“统一的尺子”即全局的分母Σ ψ_a(W_i, ˆη_i)然后用这把尺子去度量总体效应。它更有效地利用了所有样本信息来稳定估计方程的分母部分。在传统固定K的渐近理论下无论ψ_a如何波动只要样本量n足够大这种波动的影响都是高阶无穷小因此DML1和DML2渐近等价。但是当我们考虑K也增长的情形时每个折的样本量n_k n/K增长得没那么快甚至可能不增长折内ψ_a的估计误差就不能被忽略了。此时两种算法处理误差的方式不同就会导致渐近性质的差异。3. 新渐近框架下的理论突破为何K→∞至关重要传统的DML渐近分析假设折叠数K是一个固定常数。这个假设在理论推导上很方便因为它保证了每个折的样本量n_k n/K会随着n增大而趋于无穷从而可以应用标准的大数定律和中心极限定理。然而这个框架与一个重要的实践动机脱节为了提高干扰函数ˆη_k的估计精度我们通常希望使用尽可能多的数据来训练它也就是希望K大一些。因为每个ˆη_k使用了(K-1)/K比例的数据K5时用到了80%的数据K10时用到了90%的数据K越大用于训练干扰函数的数据比例就越高。3.1 新框架的设定与动机本文提出的新渐近框架是让折叠数K也随着样本量n一同趋于无穷即 K → ∞ 当 n → ∞。这个框架更好地刻画了有限样本下的一个现实场景研究者为了提升干扰函数估计的精度有意增加折叠数K。此时每个折的样本量n_k的增长速度可能远慢于n例如如果K ∝ √n则n_k ∝ √n甚至可能保持有界。在这个框架下分析DML估计量面临巨大的技术挑战。传统的证明严重依赖于每个折的样本量趋于无穷当K也→∞时许多基于折内独立同分布样本的标准渐近工具不再直接适用。论文通过引入对干扰函数估计量更强的结构假设Assumption 3.2为其设定了一个包含方差项和偏差项的随机展开式从而为分析K→∞时的行为提供了数学抓手。3.2 DML1的潜在渐近偏差在新框架下论文得到了一个关键结论DML1估计量的一阶渐近分布可能包含一个额外的偏差项而DML2则没有这个问题。具体来说DML1估计量经过标准化后其极限分布可以表示为√n (ˆθ_{n,1} - θ₀) →_d N( (Λ / K) * B, σ² )其中σ²是大家熟悉的渐近方差而(Λ / K) * B就是一个额外的渐近偏差项。这里Λ是一个只依赖于真实数据生成过程矩函数m、真实参数θ₀和干扰函数η₀的常数B是另一个与估计误差有关的常数。这个偏差项的出现根源在于DML1“先分治、后平均”的策略。当K很大时每个折的样本量很小折内求解˜θ_k时分母Σ_{i∈I_k} ψ_a(W_i, ˆη_i)的估计误差与分子Σ_{i∈I_k} ψ_b(W_i, ˆη_i)的估计误差之间的相关性会以一种非线性的方式影响局部估计量˜θ_k在对K个˜θ_k求平均后这些局部相关性并没有被消除反而聚合成了一个系统性的偏差。偏差的大小与Λ成正比与K成反比但注意K在增长所以这个偏差项的整体影响需要综合看。3.3 DML2的稳健性相比之下DML2估计量ˆθ_{n,2}在新框架下的一阶渐近分布保持了“干净”的形式√n (ˆθ_{n,2} - θ₀) →_d N( 0, σ² )也就是说无论K如何增长DML2估计量始终是√n-相合且渐近无偏的其渐近方差与固定K情形下、甚至与“神谕”估计量都相同。为什么DML2能如此稳健核心在于其估计量的构造形式ˆθ_{n,2} (Σ ψ_b) / (Σ ψ_a)。这个形式使得分子和分母的求和是在全样本上进行的。当我们将干扰函数的估计误差ˆη_i - η_i代入并进行泰勒展开时由于Neyman正交性条件一阶项为零。剩下的高阶项中那些可能产生偏差的交叉项在DML2的全局求和形式下通过一种类似于“自我标准化”的过程被有效地抵消掉了。而DML1的局部求和与后续平均破坏了这种抵消机制。3.4 参数Λ的决定性作用常数Λ成为了区分DML1和DML2表现的“分水岭”当 Λ 0 时DML1的渐近偏差项消失。此时在固定K和K→∞两种框架下DML1和DML2具有相同的一阶渐近性质。许多重要的因果参数满足Λ0例如平均处理效应ATE、双重差分中的处理组平均处理效应ATT-DID、部分线性模型PLM的处理效应系数等。当 Λ ≠ 0 时DML1会表现出对K值的敏感性。Λ的绝对值越大DML1的偏差和均方误差对大的K值就越敏感。而DML2则完全不受Λ影响。局部平均处理效应LATE和加权平均处理效应w-ATE就是Λ通常不为零的典型例子。这个发现具有极强的实践指导意义。它意味着对于像LATE这类参数如果使用DML1并采用较大的K值比如K10或留一法可能会引入不可忽视的偏差。而使用DML2则可以完全避免这个问题。因此从稳健性的角度出发无论目标参数是什么优先选择DML2总是一个更安全、理论性质更优的策略。4. 最优折叠数选择为何Kn是DML2的黄金标准既然DML2在新框架下表现稳健下一个自然的问题是对于DML2我们应该选择多大的K常见的实践建议是K5或10这更多是出于计算复杂度和偏差-方差权衡的经验选择。然而本文的理论分析给出了一个更激进且最优的答案在满足一定条件下选择K n即留一交叉验证可以使DML2估计量在渐近偏差和渐近均方误差意义上达到最优。4.1 高阶渐近分析下的偏差最小化论文在更严格的假设下Assumption 3.3对DML2估计量进行了高阶渐近展开。分析发现DML2估计量的高阶偏差高于一阶的主要偏差项的绝对值随着折叠数K的增加而单调递减。也就是说K越大高阶偏差越小。其背后的直觉是DML2的偏差主要来源于干扰函数估计误差ˆη_i - η_i的二阶项。每个ˆη_k是用除第k折外的数据训练的。K越大每个折的样本量n_k越小但用于训练每个ˆη_k的样本量n₀ n*(K-1)/K却越接近n。更重要的是当Kn时ˆη_k变成了一个留一估计量leave-one-out estimator即用除了第i个样本外的所有n-1个样本来预测η(X_i)。这种构造方式使得干扰函数的估计误差在特定意义下与样本i“几乎独立”从而最大程度地削减了偏差项中那些讨厌的交叉相关项。因此在最小化渐近偏差的目标下Kn是DML2的最优选择。这推翻了“K不能太大否则方差会增大”的传统经验认知。对于DML2更大的K在理论上有助于降低偏差。4.2 二阶渐近均方误差的最优性除了偏差我们同样关心估计的精度即均方误差。论文进一步分析了DML2估计量的二阶渐近均方误差。结论是在一定的数据依赖条件下Kn同样能最小化这个二阶渐近均方误差。这意味着选择留一法不仅减少了偏差而且在很多情况下也提升了估计的总体精度偏差平方方差。这提供了一个强有力的理论依据支持我们在计算资源允许的情况下尽可能使用最大的K值即留一法来实施DML2。4.3 对常见实践建议的重新审视本文的结论对当前主流实践指南构成了直接挑战。许多优秀的应用研究和软件包如Ahrens等2024Bach等2022默认推荐使用K5或10进行交叉拟合。这些建议通常是基于计算便利性和一些模拟实验的综合考量。然而本文的理论表明从纯粹的渐近偏差和精度角度看K5或10对于DML2来说是次优的。当然这并不意味着这些建议是“错误”的因为理论结论依赖于一系列假设且留一法在计算上可能非常昂贵尤其是当干扰函数需要用计算密集型机器学习方法如深度神经网络来估计时。4.4 次优选择的相对损失一个很实际的问题是如果我因为计算成本而无法使用Kn选择K10会损失多少精度论文提供了一个令人安心的量化分析选择K10而非最优的Kn来实施DML2在渐近偏差方面的最大相对损失大约为10%在渐近精度二阶MSE方面的最大相对损失大约为5%。这个分析非常宝贵。它告诉实践者虽然Kn在理论上是黄金标准但采用一个中等大小的K如10所带来的效率损失是相对有限且可接受的。这为在理论最优与实践可行性之间进行权衡提供了清晰的量化参考。如果你的计算资源有限或者模型训练非常耗时那么选择K10依然是一个非常好的折中方案其性能接近最优。5. 实操指南与注意事项基于以上理论分析我们可以为应用研究者总结出一套清晰的DML实施指南。5.1 算法选择坚定不移地选择DML2首要且最明确的建议是在你的因果推断或半参数估计项目中默认使用DML2而不是DML1。理由DML2具有更优越的理论性质。它在K→∞的新渐近框架下保持无偏而DML1可能引入渐近偏差。除非你非常确定你所估计的参数满足Λ0例如ATE并且你使用的K很小否则DML2是更安全、更稳健的选择。实操在代码实现上DML2的最终表达式ˆθ_{n,2} (Σ ψ_b) / (Σ ψ_a)计算起来通常比DML1更简单无需在折间循环求解再平均。许多现成的软件包如Python的EconML、DoubleMLR的DoubleML默认或主要实现的就是DML2算法。5.2 折叠数选择追求Kn但K10是优秀的实用选择关于折叠数K的选择理想目标是Kn留一法但K10是一个在精度和计算成本之间极佳的平衡点。追求最优当计算可行时如果你的样本量不是特别大例如n 10,000并且干扰函数模型训练一次的成本可以接受那么强烈建议尝试使用留一法Kn。这能确保你获得理论上偏差最小、可能也是最精确的估计结果。对于线性或较简单的模型留一法的计算量是O(n²)对于中等规模数据仍是可行的。实用折中方案对于大数据集或复杂模型如深度学习训练n个模型是不现实的。此时将K设置为10是一个经过理论验证的、优秀的默认值。它保证了用于训练每个干扰函数模型的数据比例高达90%同时将计算量控制在训练10个模型。理论分析表明其性能损失相对于留一法很小。需要避免的避免使用太小的K比如K2。虽然这只需要训练2个模型但每个模型只用了50%的数据会显著降低干扰函数的估计精度进而可能影响最终目标参数估计的效率和偏差即使对于DML2也是如此。5.3 干扰函数估计的注意事项DML的强大之处在于允许使用灵活的机器学习方法估计干扰函数但以下几点至关重要模型选择与验证即使采用了交叉拟合干扰函数模型本身的质量仍然重要。应在每个训练折即{i ∉ I_k}内部使用交叉验证等方法选择超参数避免数据泄露。保证Neyman正交性确保你使用的估计方程或得分函数是经过“去偏”或“增广”的使其满足Neyman正交性条件。对于常见的因果参数如ATE、LATE文献中已有标准的双稳健Doubly Robust估计方程直接使用即可。切勿使用不满足正交性的简单插件估计方程。方差估计与推断DML估计量的渐近方差σ²的估计也需要小心。通常采用基于影响函数Influence Function的估计量ˆσ² (1/n) Σ_i [m(W_i, ˆθ, ˆη_i)]² / [ (1/n) Σ_i ψ_a(W_i, ˆη_i) ]²。注意这里的ˆη_i必须是样本外预测值即来自交叉拟合。然后利用ˆθ ~ N(θ₀, ˆσ²/n)进行假设检验和构建置信区间。5.4 常见陷阱与排查结果不稳定或方差极大可能原因ψ_a(W_i, ˆη_i)的估计值接近零导致分母不稳定。这在估计LATE等参数时尤其常见因为分母涉及工具变量的条件概率之差。排查检查ψ_a的样本分布。是否存在极端小的值考虑对倾向得分或工具变量概率的估计进行修剪trimming例如将估计值限制在[ε, 1-ε]区间内如ε0.01。与简单估计量差异巨大可能原因干扰函数如倾向得分、条件均值的机器学习模型拟合效果很差或者存在过拟合。排查在训练折上评估干扰函数模型的预测性能。对于倾向得分模型检查预测值的分布是否合理对于条件均值模型查看样本外R²。考虑使用更稳健或更简单的模型作为基线对比。置信区间覆盖不足可能原因样本量不足或者干扰函数估计的收敛速度太慢不满足n^(-1/4)速率要求导致高阶项的影响仍较大。排查尝试增加样本量如果可能。使用收敛速度更快的机器学习方法如Lasso、梯度提升树来估计干扰函数。也可以尝试使用更保守的方差估计方法如折刀法jackknife或自助法bootstrap尽管计算量更大。计算时间过长可能原因使用了Kn留一法且干扰函数模型训练很慢。解决方案这是采用最优理论方案的实际代价。可以尝试a) 使用K10b) 使用更高效的模型c) 利用并行计算同时训练多个折的模型d) 对于超大样本考虑使用近似留一法或K折交叉验证的变种。6. 理论启示与未来扩展方向本文的理论分析不仅提供了明确的实践指南也深化了我们对DML方法本身的理解并指出了若干有价值的扩展方向。6.1 对“正交化”与“样本分割”的再认识DML的成功依赖于Neyman正交性和交叉拟合的协同作用。本文的工作进一步阐明正交化处理的是估计方程对干扰函数误差的敏感性而交叉拟合特别是DML2的构建方式处理的是如何将多个基于部分样本的、误差相关的估计量最优地组合起来。DML2的优越性在于其组合方式天然地抑制了高阶交叉项产生的偏差。这提示我们在设计其他复杂的估计方法时估计量的聚合方式需要仔细考量不能简单地取平均了事。6.2 对超参数调优的范式影响在机器学习中超参数如K的选择通常通过交叉验证最小化预测误差来决定。然而本文指出对于因果/半参数估计中的DML2存在一个理论上的最优K即n其最优性是由估计量本身的渐近性质决定的而非通过基于样本的调优。这为我们调优算法超参数提供了新的思路有时理论推导可以直接给出最优解无需进行昂贵的网格搜索。这节省了计算资源也避免了调优过程引入的随机性。6.3 有待探索的领域非标准渐近框架的应用本文采用的K→∞框架是一种“许多折、每折样本量有限”的渐近思想。这种思想可以推广到其他依赖样本分割的统计方法中例如各种自助法bootstrap、子抽样subsampling方法用于研究它们在更现实场景下的性质。数据依赖的折叠数选择虽然Kn在理论上是全局最优但理论结论依赖于一些条件。一个有趣的方向是开发数据驱动的准则在样本中自动判断这些条件是否近似成立从而自适应地选择K。例如可以构建一个估计Λ的统计量如果发现Λ显著不为零则更坚定地选择DML2和大K值。计算与统计效率的进一步权衡留一法DML2的计算复杂度是O(n * T)其中T是训练一个干扰函数模型的成本。对于超大样本和复杂模型这不可行。研究Kn的近似算法如基于影响函数的近似、分布式计算框架下的高效实现将具有很高的实用价值。扩展到非线性矩条件本文主要关注矩条件关于θ是线性的情况。对于非线性的广义矩估计GMM问题DML1和DML2的差异可能会更加复杂其理论分析是一个重要的扩展方向。总而言之这项研究将DML从一种实用的“黑箱”算法提升到了具有深刻理论内涵和明确最优决策指南的方法论高度。它告诉我们在因果推断的工程实践中一个细微的算法实现选择DML1 vs DML2和一个超参数的设定K的值背后都有着坚实的统计理论支撑。遵循DML2 大K值理想为n的原则能让我们的估计在理论上站得更稳在实践中走得更远。

DML2 vs DML1：新渐近框架下的理论优势与最优折叠数选择

相关文章：

DML2 vs DML1：新渐近框架下的理论优势与最优折叠数选择

美团mtgsig签名环境模拟：Android Native层风控对抗实战

轻量神经网络在量子比特实时控制中的嵌入式部署实践

交叉拟合与Neyman正交性：驯服机器学习因果推断中的偏差

为Hermes Agent自定义Provider并接入Taotoken服务

条件矩约束模型中的局部稳健推断与正交工具变量应用

ALMA评审系统：基于分层规则与LDA的专家精准匹配工程实践

2026告别水印烦恼！免费图片去水印保姆级教程，从微信小程序到手机App一看就会

2026照片去水印免费软件app详细教程：保姆级指南，一看就会

【避坑指南】Midscene.js 常见报错解析：Timeout、模型幻觉与跨域问题的终极解法

如何永久保存你的微信聊天记忆？WeChatMsg完整解决方案揭秘

老Mac焕新秘籍：3个步骤让你的旧设备运行最新macOS系统

从 ROI 看：什么时候只用单 Agent 更优

飞算JavaAI：Java专属AI助手，是“工程提效”还是“新坑”？

ChatGPT新闻稿写作终极模板包（含敏感词实时拦截表+信源可信度打分卡+记者视角反问清单）：仅开放前500份

第41天：MySQL新特性

第39天：SQL详解之DQL

企业如何利用 Taotoken 为内部知识问答系统集成大模型

独立开发者如何借助Taotoken模型广场为不同任务选择性价比模型

Wireshark实战识别与防御ARP欺骗攻击

CentOS 7 SSH端口修改实战：SELinux、firewalld与密钥登录全闭环

Termux-X免Root移动渗透工作台实战指南

ASP.NET ViewState反序列化漏洞原理与防御实战

Python爬虫绕过JA3/JA4指纹检测的TLS定制实战

使用taotoken聚合api为智能客服场景提供稳定大模型支持

利用Taotoken为AIGC内容生成平台提供稳定模型供应链

FPGA加速SVM量子态判别：5.74纳秒低延迟与8位量化硬件实现

如何快速掌握游戏MOD制作：LSLib开源工具箱的终极指南

告别黄牛票：用DamaiHelper脚本轻松抢到大麦网演唱会门票

2026亲测：专业AI智能降重工具TOP1推荐