位置: 首页 - 人才培养 - 能力提升计划 - 正文

季程远:大数据技术与政治学研究

时间:2023年02月10日作者:点击数:

季程远:大数据技术与政治学研究


2022年12月10日上午,由清华大学计算社会科学与国家治理实验室主办的首届清华交叉学科研究能力提升计划“大数据与因果推断研讨班”第八讲在线上举行。本次讲座邀请上海交通大学大学国际与公共事务学院副教授季程远为研讨班学员作题为“大数据技术与政治学研究”的主题讲座。课程从方法和技术两个方面介绍大数据技术在政治学研究中的应用。方法上,机器学习等方法在探索、测量、推断等方面深化了政治学研究;技术手段上,爬虫、正则表达式等工具在数据来源、数据预处理等方面拓宽了政治学研究的范围和效率。本讲由清华大学公共管理学院副教授陈思丞主持,“大数据与因果推断研讨班”全体入选学员及助教以网络会议形式参加。

本次讲座以“大数据技术与政治学研究”为主题。季程远老师首先为大家介绍了基于宏观背景与微观互动的大数据时代,社会科学面临着研究方法与技术手段两方面的革新。在此基础上,引出本讲的两个主要内容:机器学习方法与政治学研究,大数据技术与政治学研究。课程通过对四篇相关研究的介绍与讨论展开。

机器学习方法与政治学研究。与经典的程序设计相对应,机器学习是人们输入数据和从这些数据中与其得到的答案,由系统输出规则,后将这些规则应用于新的数据并得到答案。从数据中提取特征,抽取尽可能多的准确的特征,是最考验之处。一个新的有效的特征,对于机器学习至关重要,是利用机器学习进行研究的目的。这与传统的社会科学研究方法(如问卷调查)具有很大的差异。基于参考文献Grimmer, Justin, Margaret E. Roberts, and Brandon M. Stewart. "Machine Learning for Social Science: An Agnostic Approach" ,季程远老师介绍了机器学习在社会科学研究中的应用框架,本讲的两部分内容对应了“探索”与“测量”两个类别。

传统的机器学习分类包括有监督机器学习与无监督机器学习。将无监督机器学习应用于以“探索”为目的的政治学研究,一种使用路径是聚类分析(clustering)。季程远老师选择了以Ahlquist & Breunig(2012)发表在Political Analysis上的一个研究进行说明;该研究使用机器学习的方法对话了资本主义多样性,将样本国家按照若干标准进行聚类分析。另一种使用路径是主题建模(topic modeling),即由计算机推测分析各个文档内容分别是什么主题,及各个文档中各个主题出现的概率大小;代表性算法为LDA算法(Latent Dirichlet Allocation,隐含狄利克雷分布),它假设一组共现(co-occurrence)词项关联着一个隐含的主题类别。随后,季程远老师对LDA的可视化与将协变量加入主题模型进行了介绍。

将有监督机器学习应用于以“测量”为目的的政治学研究,代表性的使用场景是对非结构化数据的分类。有监督机器学习是将某个任务相关的许多示例输入机器学习系统,它会在这些示例中找到统计结构,从而最终找到规则将后续任务自动化。有监督的机器学习难点是根据数据类型,样本量等,切换不同算法,调节每个算法的参数,搜寻最佳模型及其参数。季程远老师通过自己于2022年发表的文章说明了有监督机器学习如何介入政治学领域。基于新闻联播中国际新闻数据库,Ji & Liu(2022)通过有监督机器学习发现经济因素也是策略性选择报道的原因之一,从而回应了即有研究中对非西方国家媒体报道选择影响因素的讨论。

大数据技术与政治学研究。季程远老师以自己的两篇研究为例,对使用大数据技术进行政治学研究的应用场景与使用方法进行了说明,主要聚焦于使用网络爬虫技术获取数据以及使用正则表达式进行数据预处理。大数据技术的兴起满足了政治学研究中对数据的需求,季程远和孟天广(2020)通过网络爬虫技术获得了测量各市反腐落马官员的规模与结构的相关数据,探究了“一把手落马”与当地政治信任之间的关系。在此过程中,季程远老师讲解了网络爬虫的技术程序与基础理论。另一篇文章使用了正则表达式对非结构化数据的特征工程进行了提取,Ji & Ma(2022)使用了正则表达式提取出研究对象的出生地,并结合相关数据库探究了地方获得资源(建立高铁)与其政治资源(当地的将军数量)之间的关系。通过该文章,季老师讲解了什么是正则表达式,如何使用正则表达式以及如何学习正则表达式。

最后季老师就讲座中提到的重要问题和方法做了进一步说明与回顾,并回答了同学们在线提出的相关问题。至此,本次讲座圆满结束。