【导读】2023年11月15日,由清华大学计算社会科学与国家治理实验室主办的清华交叉学科研究能力提升计划“2023秋大数据与因果推断研讨班”第七期在线上举行。本次讲座邀请清华大学公共管理学院副教授陈思丞为研讨班学员作题为“公共管理研究中的事件史分析方法”的主题讲座,讲座以JPART, PAR, Governance, CPS, JOP和World Politics等顶级期刊上的六篇文献为例,从方法概述、模型设定以及研究应用等方面为学员讲授公共管理研究中运用事件史分析方法的注意事项与实用技巧。同时,陈思丞老师还是本次“大数据与因果推断研讨班”的组织人。23秋大数据与因果推断研讨班全体入选学员及助教通过B站直播的方式参加。
本次讲座以“公共管理研究中的事件史分析方法”为主题。讲座伊始,陈思丞老师以自己的研究和发表经历为案例,首先与学员介绍了基于事件史分析方法的“组织声誉与中央部委机构改革”的相关研究,指出媒体影响力(media salience)会影响行政重组。之后,陈老师从数据收集、文章写作、投稿发表等方面和学员们分享了如何做高水平的学术研究,同时提醒同学们多学习思考公共管理领域理论,关注理论意义,也要尽最大可能完善数据,提高数据独特性。
第二部分,陈老师为学员讲授事件史分析方法的发展历程、应用范围、应用原理以及主要应用类型。陈老师指出,事件史分析是研究社会现象动态过程的一类统计模式,关注事件的发生以及发生之前的持续时间。该方法最初应用于生物医学与工程学,20世纪60、70 年代开始应用于社会科学领域。在社会科学领域,事件史分析法已涵盖包括犯罪、婚姻等个体行为等在内的社会学领域,政策创新扩散、官员职位调动等公共政策领域,国家形态演变等国际关系领域。接着陈老师结合实例讲解了事件史分析数据的特点,方法的统计基础以及在何种情况下使用何种方法。
接下来,陈老师分别对事件史分析方法中的Logit模型、COX比例风险模型、PCE模型、连续时间参数模型,以及因变量为多种类事件的连续时间模型等具体模型进行了详细的讲授。对于事件史分析中的Logit模型。陈老师讲道,当事件、时间是离散型时,我们可采用离散时间模型。Logit模型是离散时间模型的主要方法。该模型的优点在于容易处理删截情况、容易更新随时间变化的变量,容易处理资料结构并解释统计结果。在具体应用中,陈老师结合2019年Governance发表文章“Competing for father‘s love? The politics of central government agency termination in China”为大家做了演示。
对于Cox比例风险模型,陈老师讲道,为规避直接估计似然函数可能导致的偏差,学者提出只需要估计参数后半部分的半参数模型。其成立的重要前提是比例风险假设成立,即风险函数中的解释变量x与时间t不相关。常用的几种检验方法包括:对数-对数图;观测-预测图;基于舍恩菲尔德残差的检验。而当检验不满足时可以采用分层Cox模型将不满足比例风险假设的变量按照其取值水平分组,或者引入随时间变化的解释变量。在模型的应用部分,陈老师以2002年发表于Journal of Politics上的文章“The politics of agency termination: Confronting the myth of agency immortality”为例,为同学们进行详细的实例讲解。在此基础上,进一步对Logit模型和Cox模型进行对比分析。随后,陈老师为大家介绍风险函数中只需估计协变量参数的分段常数指数模型(PCE Model),并介绍其在研究中的具体应用,并为学员演示stata操作。
对于连续时间模型参数模型,陈老师指出,连续时间模型参数模型可以提高模型的精度和解释力,包括比例风险模型与加速失效时间模型。课上,陈老师以Comparative Political Studies 中“Testing the China Model of Meritocratic Promotions:Do Democracies Reward Less Competent Ministers Than Autocracies?”为例,讲解了模型在研究中具体应用,并指出高质量的研究与发表通常需要结合有力的理论解释、吸引人的题目、大样本的数据与前沿的方法。当因变量为多种类型事件,即因变量不是只有0和1两种情况,而存在多种类时,需要用到竞争性风险模型。竞争性风险指的是一个事件由“是否发生”细分为多种不同的结果,每一种结果都是互斥的,一种事件的发生将样本中的个体从其他种类事件发生的风险中排除,各类事件的发生存在竞争性。在实例操作中,陈老师用发表于PAR期刊的“What Explains Agency Heads’ Length of Tenure? Testing Managerial Background, Performance, and Political Environment Effects”文章中“机构主管离开现机构后的三种选择”讲解了该模型的使用。
第三部分,陈老师就讲座中提到的重要问题和方法进行Stata演示。分别对事件史分析中常用的模型,Logit模型(Gov, 2019),Cox模型(JOP, 2002),参数模型(CPS, 2020)等给出了详细的STATA代码,并且一步一步指导大家如何进行统计分析以及绘制相应图表。此外,陈老师还带领大家逐行分析STATA的回归结果。同时,对于今年以来高速发展的生成式AI,陈老师给出了近年来学习使用统计编程软件的心得,尤其是R语言。陈老师亲自展示了如何使用文心一言等生成式AI程序对R语言代码进行解读、模仿甚至调试。这有利于编程新手迅速上手使用R语言、Python等编程语言分析数据,把更多的时间精力放在顶刊文章的构思和写作上。结合实例,陈老师用World Politics上2023年的文章——“The Rise of Grassroots Civil Society under One-Party Rule: the Case of China’s Homeowner Associations” 详细演示事件史分析方法在R语言中的操作,利用该文章的R语言分析代码,陈老师演示了如何借助生成式AI逐篇乃至逐句地解读R语言代码得到相应标注,以此来开拓同学们的研究视野,比如运用IV-COX、三次样条去提高研究分析的稳健性和可信度。针对调试这一个在使用程序语言必须面对的步骤,陈老师教导大家可以巧用生成式AI进行代码调试,减少数据分析负担。
最后,陈老师详细回答了同学们提出的关于程序语言调试等大数据分析与因果推断的相关问题。至此,本次讲座圆满结束。