【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

2019-08-202019-12-31 国政学人 0 Comments

简介

【作者】Jens Hainmueller，斯坦福大学政治学系教授，主要研究兴趣为移民与难民、统计方法、政治经济学以及政治行为；Jonathan Mummolo，普林斯顿大学政治学与公共事务系助理教授，主要研究兴趣为官僚政治和政治行为，并特别关注执法机构和警民互动。Yiqing Xu，截至本论文发表时任加州大学圣地亚哥分校政治学系助理教授，现任斯坦福大学政治学系助理教授，主要研究兴趣为中国政治以及政治学研究方法等。

【编译】兰星辰

【校对】李雯珲虞敷扬

【来源】Hainmueller, J., Mummolo, J., & Xu, Y. (2019). How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice. Political Analysis, 27(2), 163-192.

【期刊】《政治分析》（Political Analysis）发表在政治学研究方法（包括定量和定性方法）领域具有原创性并有重大进展的论文。它是美国政治学协会政治方法学会的官方期刊，由剑桥大学出版社出版，2018年的影响因子为2.548，现任编辑为美利坚大学（American University）政治学系教授Jeff Gill

【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具

How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice

【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

Jens Hainmueller

内容提要

乘积交互模型（Multiplicative Interaction Model）已经被广泛地应用于社会科学研究中，用于检验某一自变量和因变量的关系是否随着调节变量（moderator）而变化。然而，近来的实证研究主要存在两个问题。第一，古典标准乘积交互模型预设了一个随调节变量保持一个常数变化率的线性交互作用假定，这一假定过强因而在实践中可能不能满足这个假定。第二，一些研究缺乏对调节变量的共同支持（common support），因此这些研究对自变量的条件作用的估计是有偏误的。本文对政治学五大顶级期刊最近发表的22篇研究结果进行了复检，发现很多研究存在这两个问题。本文提出了检验这两个问题的方法并且给出了更加灵活的、允许非线性交互作用、避免过度推断（excessive extrapolation）的估计方法，这些估计方法在R和STATA中都可以实现。

文章导读

乘积交互模型

在实证研究中被广泛使用的古典线性乘积交互项回归模型可以写为如下形式：

【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

这一模型（模型1）中，Y为因变量，X为影响处理效应的强度和方向的调节变量，D为核心自变量（本文用“处理”变量treatment来表示），Z为一组控制变量，μ 为常数项，ε为误差项。如果模型设定正确，在通常的线性回归假定下，易知处理变量D对因变量Y的边际效应（Y对D的偏导数）即：

【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

上式是一个关于X的线性函数，线性交互假定表明D对Y的效应随X线性变化，而这一假定很强，因为在理论和实证上通常并没有充足的证据证明这一点。反而，D对Y的效应很有可能是非线性的或者是非单调的。比如X较小时，这一效应可能很小，对X取中间值，这一效应可以比较大，随后X较大时，这一效应可能又会很大。另外，如果我们考虑D取两个不同值（d1和d2）的边际效应的差值时即：

此时如果d1和d2所在的两个函数关系式其中一个或两个因为非线性、非单调或者X/D的分布为偏态分布出现错误识别时，LIE假定失效，估计就会出现偏差。另外，这一方程还表明这两个函数需要对X有共同支持（common support）。即在X取任意给定的值x0的情况下，需要在X=x0的邻域内有足够多的数据点，并且这些数据点需要在处理变量D上展现出相同的变化。比如，如果在X=x0的邻域内所有的数据点都是处理单元（D=1），那么我们则缺乏这一共同支持假定，因为在控制单元（D=0）没有数据点，此时对条件效应的估计就会被过度解读（extrapolation）因此非常脆弱并且是模型依赖的（model dependent），而现实中很少存在这种情况。对这两种问题的检验一直被学者忽视，接下来，本文给出了对这两种问题的诊断方法。

模型诊断

为方便进行诊断，本文首先生成了两个函数，通过这两个函数为例说明了诊断的原理

【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

第一个函数中，X和扰动项都服从正态分布，D可以是虚拟变量也可以是连续变量，当D为虚拟变量的时候服从参数为0.5的二项分布，当D为连续变量的时候服从均值为3，方差为1的正态分布，第一个函数中D对Y的边际效应为MED = -9+3X。第二个函数中X服从均匀分布，D依然服从参数为0.5的二项分布，扰动项服从正态分布，此时D对Y的边际效应为

M E_D = −5 + 2X ² ，本文的检验方法是画出线性交互诊断图（Linear Interaction Plot, LIP, 本例使用R软件）：

【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

其中（a）（c）绘制的是第一个函数的情况，（b）是第二个函数的情况

检验的具体步骤是，第一，当D为虚拟变量时，画出控制组（D=0）和处理组（D=1）的散点图，然后对比对数据进行LOESS（Locally Weighted Scatterplot Smoothing，局部加权回归散点平滑法，图中红线所示）回归和OLS回归（图中蓝线所示）的结果，可以看出，在线性边际效应的情况下这两条线高度吻合，而（b）非线性的情况下OLS回归出现偏误。第二，绘出X的箱线图，对比处理组和控制组里调节变量X的分布，在本例中显然满足共同支持的假定（数据生成过程已经满足了这一点），而如果处理组和控制组里调节变量X的箱线图分布差别过大（本文随后的一些例子里），则可能不满足共同支持的假定。第三，针对D为连续变量的情况，本文建议根据经验使用分箱法（binning approach），即把X按顺序分成相等的几组（本文分为三组），每组都进行OLS和LOESS回归，这里线性模型都比较合理，但是可以观察到，在X取低值的时候D和Y之间关系为负，X取中间值时接近平行，X取高值是为正。本文还指出使用广义加性模型（generalized additive model，GAM）生成出的三维图形来观察交互作用，具体可参考附录。

估计策略

分箱估计量 binning estimator

本文给出了两种估计策略，第一种为分箱估计量（binning estimator），该估计方法的原理和步骤大致如下：第一，把连续变量X按大小分到三个“箱子”里，为每一个“箱子”生成一个虚拟变量G，即：

【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

第二步，取三个箱子中每个箱子里面X的中位数x₁, x₂, x₃（也可取平均数），

第三步，估计如下模型：

相对于对古典标准乘积交互模型的估计，分箱估计量的好处在于，第一，它为每一个箱子分别估计出来一个交互项，更加灵活，因此放松了LIE假定；第二，箱子是根据X的值建立的，因此保证了条件边际效应是调节变量取特定值的情况下估计出来的，因此不会产生过度推断；第三是分箱估计量便于在一般的软件上操作，并且条件边际效应的标准误都是通过回归直接估算出来；第四，实际上，标准的乘积交互模型是分箱估计量的一个特例，因此分箱估计量可以检验标准乘积交互模型的LIE假定是否成立，因为可以证明当标准乘积交互模型是正确设定时，下式依概率收敛置0：

【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

（该证明巧妙而并不复杂，有兴趣的读者可以参考附录的具体证明过程。基本思路是将分箱估计量的目标函数右端移项配凑为和古典标准乘积交互模型相似的形式，在标准乘积交互模型正确设定时，依据斯拉斯基定理Slutsky Theorem得以证明）

随后，本文分箱估计量对模拟的两个函数进行了估计，效果非常明显，具体可以参考下图：

【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

核估计量 kernal estimator

核估计已经被广泛地用于半参数估计中，在下列函数中

【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

g (·) 捕捉了D对Y的边际效应，核平滑估计非常灵活，对任意x₀，通过最小化下式得到

对fˆ(x₀), gˆ(x₀), and γˆ(x₀)的估计：

K (·) 为高斯核, h 是带宽参数，通过最小二乘交叉验证来选取（least-squares cross-validation）

其中，fˆ(x₀) = µˆ(x₀), and gˆ(x₀) = αˆ (x₀). （模型估计的具体细节参考原文和核估计方法的相关书籍），核估计也比较好的得到了边际效应估计量，如下图所示

【方法研究】我们应该在多大程度上信任乘积交互模型？改进实证研究的简单工具 | 国政学人

作者随后选取了几个案例，复检了它们的研究结果，并将本文的诊断方法和估计法应用到这些数据上，发现一些论文存在上文所述的使用乘积交互项的两大问题。随后本文对五大政治学顶级期刊AJPS、APSR、CPS、IO、JOP的46篇使用乘积交互项的论文再次复检，检验结果如下图所示，满分为三分，分数越高证明存在的问题越严重。本文发现只有9.8%的文章通过了作者提出的三个检验，再次证明了改进乘积交互项模型的必要性。

（由于本文的检验较多，感兴趣的读者可以参考原文）

结论

本文认为，尽管乘积交互模型已经被广泛使用，但是研究者往往忽视了对它的假定的验证，因此结果很可能出现偏误，对政治学五大顶级期刊的复检也确实说明了这一问题。为了改进实证研究，本文认为应该重视这些问题并谨慎使用乘积交互模型，同时提出了检验这些问题的方法，并给出了灵活估计边际效应的分箱估计法和核估计法。同时本文指出本文提出的改进方式并不能保证模型被正确识别，研究者也需要进行通常的回归分析检验。另外，本文的检验并不能帮助解决其他的例如内生性和遗漏变量等影响推断的问题，这些问题需要通过更好的研究设计来加以解决。

本文由国政学人平台编译推荐

往期阅读

【重磅速递】约瑟夫·奈：美国霸权的兴衰：从威尔逊到特朗普 | 国政学人

【重磅推荐】巴里·布赞：英国学派视角下的中国崛起 | 国政学人

【重磅速递】米尔斯海默：注定失败：自由主义国际秩序的兴衰 | 国政学人

【IPE重磅】罗伯特·基欧汉：国际政治经济学的新与旧｜国政学人

【百年国关】专题导言：巴黎和会后的百年国关 | 国政学人

【百年国关】复兴中国与凡尔赛遗产 | 国政学人

【百年国关】劳伦斯·弗里德曼：大国战争的兴衰 | 国政学人

【百年国关】一战后不同帝国的发展轨迹 | 国政学人

【百年国关】邝云峰：权力——世界政治中的威望 | 国政学人

【百年国关】历史在国际社会中的应用：从巴黎和会到现在 | 国政学人