漆海霞、皇甫行健:正视大数据应用的优势与不足 ——大数据在国际关系领域的应用前景
当前大数据已经在诸多领域得到应用,与我们的生活息息相关。例如,打开网络我们就会收到关于购物的推荐广告,进入电子邮箱时就会看到系统自动识别的垃圾信件等,这些现象背后均与大数据和人工智能密不可分。然而,与之形成对比的是,在国际关系研究领域,大数据似乎并未得到普遍应用。那么大数据在国际关系领域应用前景究竟如何呢?笔者尝试就此作一番探究。
国际关系数据存在特殊性
大数据顾名思义是数据量巨大的数据,有时也被称为海量数据。随着互联网技术的应用和普及,人类社会中产生了越来越多的数据,例如网络发言、网络购物、图片、音频和视频等。对于这些数据的挖掘和研究,有助于科研的创新和企业的发展。因此,我们可以看到大数据以及人工智能算法在我们生活中的诸多方面得到了普遍应用。
然而与在国内社会领域得到普遍应用的情况不同,国际关系研究领域似乎尚未对大数据加以深入探究。可以看到,无论是理论前沿还是国际关系热点,我们都很难看到大数据的应用,这与国际关系研究的对象有关。国际关系的研究问题往往为高政治领域,例如国际冲突与战争、同盟缔结与破裂等现象,而战争与结盟等现象的发生次数是有限的,样本量往往很难上万,依靠传统数据库就足以解决。这导致国际关系主流数据库的数据规模都较小,例如战争相关因素数据库(COW)、乌普萨拉冲突数据库(UCDP)、奥斯陆国际和平研究所的武装冲突数据(ACD)、同盟协议数据库(ATOP)等。由于这些主流数据库都可以免费使用,其变量、指标和维度均受到国际关系专业人士的认可,因此得到了广泛应用。
大数据在国际关系领域的应用现状
由于专业特性,大数据在当前的国际关系研究领域似乎较少有用武之地,然而随着数据挖掘的深入,也有一些国际关系研究开始将大数据作为研究的变量之一。首先,比较具有应用前景的有GIS地理信息系统(Geographic Information System)提供的地理分布数据有助于学者对空间数据进行建模,使既往研究中长期被忽视的地理因素得以重回大家的视野。其次,全球夜间灯光数据也具有应用价值,该数据由美国国防气象卫星计划(DMSP)的卫星观测所得,比较客观地反映了各国/地区的生产、生活状况,可以替代GDP成为度量经济活动的可行指标之一。再次,谷歌(Google)公司提供的GDELT全球事件数据项目(GDELT Event Database)提供了全球100多种语言的媒体、网页上的事件信息,时间跨度为1979年至今,数据量达亿级,包括国家、事件类型、地理位置等多个维度。除此以外,学者们也可以通过采用网络爬虫技术抓取网络上自己感兴趣的信息,然后再对自己挖掘的数据进行文本分析、自然语言处理和图像识别等技术加工。
根据以上分析,我们可以看到,大数据在国际关系领域的应用存在局限。第一,从研究主体上看,传统国际关系数据库大部分关注的主体是国家,而大数据的主体则出现向微观个体转变的趋势,例如网络发言或微信等自媒体上的数据都是以个人为主体,因此应用大数据有助于我们对于舆论的判断和选举的民情进行评估。第二,从时间上看,大数据借助于新技术而出现,例如网络、卫星等,因此大数据的时间段往往集中于最近数十年,这导致对于一些涉及较长时间段的普遍性理论,例如战争与和平问题,目前的大数据似乎难以提供有力的帮助。第三,从数据质量看,大数据的质量有待提高,例如应用自然语言处理技术从新闻报道中获得的大数据,尽管有量大和速度快等优点,但是这类数据受到新闻报道者偏好的影响很大,有些新闻会重复报道,有些偏远地区的事件则被忽视。例如近年来民众似乎对欧洲“恐袭”印象深刻,然而从发生次数看,不论是与2010年以前的欧洲“恐袭”次数比较,还是与其他地区“恐袭”频率比较,近年的次数并不多。显然这一现象与全球媒体对欧洲的密切关注有关。因此,研究人员要对挖掘出来的大数据进行清洗,排除重复报道、错误报道、有倾向性的报道等因素的影响。第四,大数据不一定包括总体,在统计中,随机抽样技术是为了尽量使样本能够体现出总体的特征,然而不能因为数据量的巨大就判定大数据能代表总体。例如,在考虑民情舆论时,根据网络发言大数据得到的初步判断可能是有偏差的,因为网络言论只能表明那些乐于在网上表达意见的人群的立场,而没有考虑到不爱上网的人群和上网不爱发言的人群的立场。
算法应用提高预测准确率
在李世石与AlphaGo的人机大战中,机器学习、深度学习算法对AlphaGo的获胜起了重要作用,这些算法同样对于国际关系预测具有重大帮助。在传统回归方法中,统计模型的假设检验需要对样本数据的分布做出假定,例如正态分布、卡方分布和F分布等,从而进行进一步计算。这一方法的缺陷是,如果样本数据的分布不符合假定,则结论不一定成立。大数据中常用的机器学习算法主要采用交叉验证,将数据分为训练集和测试集两类,先用训练集建模,然后用测试集加以检验,可以规避传统回归中对分布假定带来的不足。目前国际关系学界也应用了一些算法进行预测,例如朴素贝叶斯模型、Logistic模型、隐马尔可夫模型、神经网络等,取得了较好的预测准确率。
然而,机器学习、深度学习等算法往往关注的是变量间的相关关系,而较少考虑因果关系。即使根据某些算法能够提高预测准确率,研究人员也很难对模型中各变量的作用机制加以解释。例如神经网络算法可以根据输入的数据得出结果,但没法给出被拟合函数的数学表达式,整个过程是黑箱操作。此外,神经网络结果对于参数十分依赖,然而调参没有客观标准,由研究人员凭经验决定。由于以上特点,机器学习、深度学习算法往往被用于政策应用或者现实生活,而较难给国际关系领域带来重大理论突破。
在大数据时代,数据挖掘技术使研究人员可以获得大量过去难以得到的数据,这对国际关系学科的创新具有重大推动作用。然而,根据国际关系研究的特点,大数据及相关算法在国际关系领域存在应用界限,我们一方面要充分利用新技术带来的研究创新空间,另一方面也不必过度迷信大数据,正确认识到大数据的优势与不足,推进学术创新。
(作者单位:清华大学国际关系学系;来源:中国社会科学网、中国社会科学报 2019年1月18日)
更多阅读
为方便学人及时阅读高质量文章
别忘把国政学人设置星标哦~
原文始发于微信公众号(国政学人):漆海霞、皇甫行健:正视大数据应用的优势与不足 ——大数据在国际关系领域的应用前景