陈冲:机器学习与大数据冲突预测:进展与反思
2022年12月17日,由清华大学计算社会科学与国家治理实验室主办的首届清华交叉学科研究能力提升计划“大数据与因果推断研讨班”第十讲在线上举行。本次讲座邀请了清华大学社会科学学院国际关系学系陈冲副教授。陈冲老师为研讨班学员作题为“机器学习与大数据冲突预测:进展与反思”的主题讲座。本讲由清华大学公共管理学院副教授陈思丞主持,“大数据与因果推断研讨班”全体入选学员及助教以网络会议形式参加。
课程伊始,陈冲老师从国际关系领域引入,介绍了大数据时代冲突预测研究的相关情况,围绕“大数据时代的冲突研究”、“机器学习与冲突预测”、“案例研究”和“讨论与展望”四个方面进行授课。
(1)概述“大数据时代的冲突研究”。陈冲老师从政治学国际关系的角度介绍了“大数据”的基本定义,社会学领域的“大数据”通常是指技术的创新允许学者可以收集的数据(如社交媒体数据)或以较小成本收集大量传统的数据(如政府文本),很少有1TB或者1PB的数据用于国际关系研究中。陈冲老师认为,对于社会科学家而言,大数据很多时候并不是关于“大”或者“数据”本身,我们的目的是借助数据认识、理解和预测复杂的社会现象。陈冲老师指出大数据时代为国际关系研究者在理论、问题、方法和证据上都提供了前所未有的机遇。但与此同时,大数据时代国际关系研究者也面临着新的挑战,比如如何提出有意义的研究而避免沉迷数据本身、如何将数据、研究设计、理论和因果推论结合在一起、如何避免掉入数据陷阱等。陈冲老师表示他主要关注如何利用机器学习方法让大数据为研究冲突预测服务,尤其在“一带一路”等国际战略实施背景下具有非常现实的意义。接下来,陈冲老师介绍了冲突研究中的大数据利用,列举了关于文本数据(比如新闻档案数据、网络文本数据、图像、音频和视频数据、手机通讯数据)、地理空间数据(地理距离、位置和空间扩散、族群空间分布与冲突、公路数据与公路网络)运用的相关研究,并介绍了“建模”领域和信息通讯技术与冲突领域的大数据运用。
(2)介绍“机器学习与冲突预测”。陈冲老师指出冲突预测是冲突研究领域最具创新性的方向之一,他所关注的冲突预测主要是基于一定量的样本通过模型预测一定时间内发生冲突的概率,而不是一个决定性事件的发生。陈冲老师认为冲突预测一个非常重要的手段是机器学习,通过海量的数据提取冲突发生的趋势和特征。大数据的出现改变了传统机器学习面临的“训练数据集”较少的局限,能够较好地满足“学习数据、训练模型”的需求。随后,陈冲老师介绍了基于机器学习的冲突预测程序,并表示机器学习不仅是一个方法,它更偏向于一个思维或者说程序,而机器学习的关键在于模型的选择。一般而言,预测的主要流程分为六步:确定预测任务、选取预测窗口、数据收集、变量选择、建立模型、验证反思与改进。在国际关系领域有学者提出了基于Box’s Loop的机器学习与预测流程,尤其在冲突预测研究领域运用较多。接下来,陈冲老师介绍了大数据时代冲突预测的研究进展,指出未来冲突预测研究的时间分辨更高和空间分辨率都更高,并列举了地理网格与恐怖主义预测的例子。陈冲老师也指出了冲突预测也存在着很多挑战,比如冲突事件本身的稀有属性、新闻大数据事件的时空精确度难以保证、行为体的战略决策导致数据有偏等。最后,陈冲老师认为可以通过提升地理空间数据预测冲突,提出要搭建统一的地理空间数据平台、建立预测模型需要吸收冲突研究的理论成果,冲突预测的地理空间数据分辨率要兼容。
(3)详析“案例研究”。接下来,陈冲老师用一个实际的研究案例为我们介绍大数据与冲突预测。陈冲老师表示这个研究是在一带一路大背景下做的,主要目的是提前六个月预测一带一路国家发生冲突的概率,研究数据主要来自1997年以来全世界发生的暴力事件发生的经纬度、时间、行为体、伤亡人数,总计865918次事件,此外还包括卫星夜间灯光数据。以缅甸预测数据为例,空间分辨力确定为256个单元格,时间分辨率确定为2010年4月1日-2020年9月30日,采用集成贝叶斯模型平均的方法,预测未来六个月内每个单元格内发生冲突的概率并通过未来六个月实际收集的数据进行验证。结果表示,在系数排名前15的单元格内,未来6个月中有14个单元格内发生了冲突,这表示预测是非常准确的。陈冲老师指出,大数据时代,机器学习和预测研究的结合可以产生非常具有实际意义的预测结果,未来这个领域还有更宽广的研究空间。
(4)分享讨论与展望。随后,陈冲老师讨论了大数据与因果推论的关系。陈冲老师认为尽管预测不需要因果假设,但是基于因果机制的预测要更强一些,知道了原因之后的干预也更有效果。陈老师指出大数据虽然并不能完全解决因果推论的根本问题,但二者也不必然是竞争关系,大数据的出现改变不了解释性研究依赖于“其他条件相同的情况下...”这一推论方式的事实。此外,即便大数据可以接近研究的总体,但不管多“大”,它依然是从总体中收集的一个样本,大数据的“代表性”也是在因果推断过程中需要注意的重要问题。最后,陈冲老师讨论了大数据与理论研究的关系。陈冲认为社会科学家感兴趣的不仅仅是“when and where”,同样对“why and how”感兴趣,很多大数据都是关于个体或者社会层次的行为和现象,而国际关系的本事是国与国之间的互动,因此运用大数据时尤其需要考虑理论或者解释的结果是否包含国家——社会——个人互动的维度。不管多大的数据,从分析的角度上看都是“将大数据变小”,尤其是将高维数据降维。
课程快结束的时候,陈冲老师就学员的提问进行了耐心、细心地解答。最后,陈思丞老师向陈冲老师的精彩授课表示感谢并进行总结。至此,本次讲座圆满结束。