【方法研究】我们应该在多大程度上信任乘积交互模型?改进实证研究的简单工具 | 国政学人
我们应该在多大程度上信任乘积交互模型?改进实证研究的简单工具
How Much Should We Trust Estimates from Multiplicative Interaction Models? Simple Tools to Improve Empirical Practice
Jens Hainmueller
乘积交互模型(Multiplicative Interaction Model)已经被广泛地应用于社会科学研究中,用于检验某一自变量和因变量的关系是否随着调节变量(moderator)而变化。然而,近来的实证研究主要存在两个问题。第一,古典标准乘积交互模型预设了一个随调节变量保持一个常数变化率的线性交互作用假定,这一假定过强因而在实践中可能不能满足这个假定。第二,一些研究缺乏对调节变量的共同支持(common support),因此这些研究对自变量的条件作用的估计是有偏误的。本文对政治学五大顶级期刊最近发表的22篇研究结果进行了复检,发现很多研究存在这两个问题。本文提出了检验这两个问题的方法并且给出了更加灵活的、允许非线性交互作用、避免过度推断(excessive extrapolation)的估计方法,这些估计方法在R和STATA中都可以实现。
在实证研究中被广泛使用的古典线性乘积交互项回归模型可以写为如下形式:
这一模型(模型1)中,Y为因变量,X为影响处理效应的强度和方向的调节变量,D为核心自变量(本文用“处理”变量treatment来表示),Z为一组控制变量,μ 为常数项,ε为误差项。如果模型设定正确,在通常的线性回归假定下,易知处理变量D对因变量Y的边际效应(Y对D的偏导数)即:
上式是一个关于X的线性函数,线性交互假定表明D对Y的效应随X线性变化,而这一假定很强,因为在理论和实证上通常并没有充足的证据证明这一点。反而,D对Y的效应很有可能是非线性的或者是非单调的。比如X较小时,这一效应可能很小,对X取中间值,这一效应可以比较大,随后X较大时,这一效应可能又会很大。另外,如果我们考虑D取两个不同值(d1和d2)的边际效应的差值时即:
此时如果d1和d2所在的两个函数关系式其中一个或两个因为非线性、非单调或者X/D的分布为偏态分布出现错误识别时,LIE假定失效,估计就会出现偏差。另外,这一方程还表明这两个函数需要对X有共同支持(common support)。即在X取任意给定的值x0的情况下,需要在X=x0的邻域内有足够多的数据点,并且这些数据点需要在处理变量D上展现出相同的变化。比如,如果在X=x0的邻域内所有的数据点都是处理单元(D=1),那么我们则缺乏这一共同支持假定,因为在控制单元(D=0)没有数据点,此时对条件效应的估计就会被过度解读(extrapolation)因此非常脆弱并且是模型依赖的(model dependent),而现实中很少存在这种情况。对这两种问题的检验一直被学者忽视,接下来,本文给出了对这两种问题的诊断方法。
模型诊断
为方便进行诊断,本文首先生成了两个函数,通过这两个函数为例说明了诊断的原理
M ED = −5 + 2X 2 ,本文的检验方法是画出线性交互诊断图(Linear Interaction Plot, LIP, 本例使用R软件):
其中(a)(c)绘制的是第一个函数的情况,(b)是第二个函数的情况
检验的具体步骤是,第一,当D为虚拟变量时,画出控制组(D=0)和处理组(D=1)的散点图,然后对比对数据进行LOESS(Locally Weighted Scatterplot Smoothing,局部加权回归散点平滑法,图中红线所示)回归和OLS回归(图中蓝线所示)的结果,可以看出,在线性边际效应的情况下这两条线高度吻合,而(b)非线性的情况下OLS回归出现偏误。第二,绘出X的箱线图,对比处理组和控制组里调节变量X的分布,在本例中显然满足共同支持的假定(数据生成过程已经满足了这一点),而如果处理组和控制组里调节变量X的箱线图分布差别过大(本文随后的一些例子里),则可能不满足共同支持的假定。第三,针对D为连续变量的情况,本文建议根据经验使用分箱法(binning approach),即把X按顺序分成相等的几组(本文分为三组),每组都进行OLS和LOESS回归,这里线性模型都比较合理,但是可以观察到,在X取低值的时候D和Y之间关系为负,X取中间值时接近平行,X取高值是为正。本文还指出使用广义加性模型(generalized additive model,GAM)生成出的三维图形来观察交互作用,具体可参考附录。
分箱估计量 binning estimator
本文给出了两种估计策略,第一种为分箱估计量(binning estimator),该估计方法的原理和步骤大致如下:第一,把连续变量X按大小分到三个“箱子”里,为每一个“箱子”生成一个虚拟变量G,即:
第二步,取三个箱子中每个箱子里面X的中位数x1, x2, x3(也可取平均数),
第三步,估计如下模型:
相对于对古典标准乘积交互模型的估计,分箱估计量的好处在于,第一,它为每一个箱子分别估计出来一个交互项,更加灵活,因此放松了LIE假定;第二,箱子是根据X的值建立的,因此保证了条件边际效应是调节变量取特定值的情况下估计出来的,因此不会产生过度推断;第三是分箱估计量便于在一般的软件上操作,并且条件边际效应的标准误都是通过回归直接估算出来;第四,实际上,标准的乘积交互模型是分箱估计量的一个特例,因此分箱估计量可以检验标准乘积交互模型的LIE假定是否成立,因为可以证明当标准乘积交互模型是正确设定时,下式依概率收敛置0:
(该证明巧妙而并不复杂,有兴趣的读者可以参考附录的具体证明过程。基本思路是将分箱估计量的目标函数右端移项配凑为和古典标准乘积交互模型相似的形式,在标准乘积交互模型正确设定时,依据斯拉斯基定理Slutsky Theorem得以证明)
随后,本文分箱估计量对模拟的两个函数进行了估计,效果非常明显,具体可以参考下图:
核估计量 kernal estimator
核估计已经被广泛地用于半参数估计中,在下列函数中
g (·) 捕捉了D对Y的边际效应,核平滑估计非常灵活,对任意x0,通过最小化下式得到
对fˆ(x0), gˆ(x0), and γˆ(x0)的估计:
K (·) 为高斯核, h 是带宽参数,通过最小二乘交叉验证来选取(least-squares cross-validation)
其中,fˆ(x0) = µˆ(x0), and gˆ(x0) = αˆ (x0). (模型估计的具体细节参考原文和核估计方法的相关书籍),核估计也比较好的得到了边际效应估计量,如下图所示
作者随后选取了几个案例,复检了它们的研究结果,并将本文的诊断方法和估计法应用到这些数据上,发现一些论文存在上文所述的使用乘积交互项的两大问题。随后本文对五大政治学顶级期刊AJPS、APSR、CPS、IO、JOP的46篇使用乘积交互项的论文再次复检,检验结果如下图所示,满分为三分,分数越高证明存在的问题越严重。本文发现只有9.8%的文章通过了作者提出的三个检验,再次证明了改进乘积交互项模型的必要性。
(由于本文的检验较多,感兴趣的读者可以参考原文)
本文认为,尽管乘积交互模型已经被广泛使用,但是研究者往往忽视了对它的假定的验证,因此结果很可能出现偏误,对政治学五大顶级期刊的复检也确实说明了这一问题。为了改进实证研究,本文认为应该重视这些问题并谨慎使用乘积交互模型,同时提出了检验这些问题的方法,并给出了灵活估计边际效应的分箱估计法和核估计法。同时本文指出本文提出的改进方式并不能保证模型被正确识别,研究者也需要进行通常的回归分析检验。另外,本文的检验并不能帮助解决其他的例如内生性和遗漏变量等影响推断的问题,这些问题需要通过更好的研究设计来加以解决。
往期阅读
【重磅速递】约瑟夫·奈:美国霸权的兴衰:从威尔逊到特朗普 | 国政学人
【重磅推荐】巴里·布赞:英国学派视角下的中国崛起 | 国政学人
【重磅速递】米尔斯海默:注定失败:自由主义国际秩序的兴衰 | 国政学人
【IPE重磅】罗伯特·基欧汉:国际政治经济学的新与旧 |国政学人
【百年国关】历史在国际社会中的应用:从巴黎和会到现在 | 国政学人
【国际组织】IO杂志:联合国维和行动的武力运用问题研究 | 国政学人
【国际秩序】为什么自由主义国际秩序理念将美国外交政策引入歧途?| 国政学人
【关系理论】“关系”:世界政治关系理论的中国话语 | 国政学人
【英国学派】张勇进:中国与全球国际社会中的自由主义等级制:实力与对规范变迁的协商 | 国政学人
【地区秩序】论经济实力的可转化性:中国经济崛起与东亚安全秩序 | 国政学人
【中俄关系】不得已的伙伴:系统-单元动态与中俄关系 | 国政学人
【IPE研究】美国对外贸易政策的“1934年体制”是如何形成的?| 国政学人
【现实主义】斯蒂芬·沃尔特:傲慢的终结与美国克制的新时代 | 国政学人
【理论批判】系统、层次与结构理论:沃尔兹的理论并非系统理论 | 国政学人
【外交政策】单极体系下的不和平状态与美国外交政策 | 国政学人
【欧洲研究】资本主义多样性与合规:加入欧盟后中东欧的经济改革 | 国政学人
【理论研究】吴建树:权力、道德、均势、联盟与摩根索——汉斯·摩根索的经典现实主义思想再解读
【友谊国关】将友谊重新引入国际关系:从中国到西方的关系本体论
【定量研究】政党实力和经济增长(Party Strength and Economic Growth)| 国政学人
【台湾学者】向骏:美国从“霸权稳定”到“霸凌不稳定” | 国政学人
【理论研究】巴里·布赞等:重思日本:主流国际关系理论的偏见 | 国政学人
【南亚研究】南亚对冲:中印竞争中经济和安全利益的平衡 | 国政学人
【外交政策】美国霸权的自我毁灭:华盛顿浪费了单极时代 | 国政学人
【定量研究】谁在欧洲议会中领导委员会? ——基于2014年欧洲议会选举的研究 | 国政学人
【定量研究】暴露于难民危机之中会让当地人更有敌意吗?| 国政学人
【恐怖主义】恐怖主义组织扩展数据(EDTG)的介绍——从1970年到2016年 | 国政学人
【定量研究】赞助、信任和国家能力:庇护主义的历史轨迹 | 国政学人
【伊朗研究】比较伊朗伊斯兰革命前后威权政体的本质和领导能力 | 国政学人
【东亚研究】东亚的重叠式区域主义:决定因素和潜在影响 | 国政学人
【战争研究】不确定的战争:克劳塞维茨在全球时代仍适用吗?|国政学人
【历史类比】克服西方历史想象的贫困:理解中国南海冲突的其他历史类比案例 | 国政学人
【区域重磅】阿米塔·阿查亚:重塑东南亚研究:自我怀疑、渴望和对比较的承诺 | 国政学人
【安全研究】打击军事力量的新时代:科技变化与核威慑的未来 |国政学人
【理论研究】砝码国家何以自抬身价?——两极格局下同盟政治中的“科林斯难题”研究
【中东研究】国际误识:以色列公共外交中的幽默政治和国家认同 | 国政学人
【IPE研究】公平贸易运动对内嵌自由主义的挑战 | 国政学人
【社群冲突】非洲农村社群冲突分析:剩男与一夫多妻的邻族 | 国政学人
原文始发于微信公众号(国政学人):【方法研究】我们应该在多大程度上信任乘积交互模型?改进实证研究的简单工具 | 国政学人