位置: 首页 - 人才培养 - 能力提升计划 - 正文

活动回顾|陈冲:地理断点回归设计在国际问题研究中的运用

时间:2024年12月30日作者:点击数:

2024年11月13日,由清华大学计算社会科学与国家治理实验室主办的清华交叉学科研究能力提升计划“大数据与因果推断研讨班”第二期在线上举行。清华大学社会科学学院陈冲副教授应邀作为主讲人,做了主旨为“地理断点回归设计在国际问题研究中的运用”的讲座。讲座全程由清华大学公共管理学院陈思丞副教授主持。

陈老师首先以Müller-Crepon(2024)发表于《美国政治科学》(AJPS)杂志上《行政单位如何塑造非洲的族群》的文章为例,引入断点回归设计(Regression Discontinuity Designs, RDD),它可以通过观察临界值附近的概率突变来识别因果效应。这种方法的核心思想是让得分略低于临界值的单位作为得分略高于临界值单位的反事实,从而在断点两侧建立可比性,从而可以很好地解决由于选择偏差、忽略变量偏见和逆向因果而难以解释的因果效应问题。相较于DID等其他方法,RDD方法不需要大量的协变量,也不需要面板数据。但是,研究者需要找到一个驱动变量上的断点,要求使得获得干预的概率存在不连续跳跃,并且研究对象不能操纵,这就要求研究者积累大量关于研究对象的专业知识。

具体来说,RDD主要有两种类型:清晰断点回归设计(Sharp RDD)模糊断点回归设计(Fuzzy RDD),而地理/空间断点回归设计(Geographic/spatial RDD,GRDD)与上述两种类型均有关联。陈老师重点讲解了地理断点回归设计,这是一种以地理距离作为驱动变量的断点设计,具体设计方法与清晰断点回归一致,但是需要保证地理边界设置的随机性。首先,需要根据每个个体的地理位置确定其到边界的距离,其中,处理组的距离被表示为正数,控制组的距离被表示为负数,当距离大于临界值时,可以计算出二元处理变量。随后,可以选择线性回归、多项式回归和局部线性回归等模型来估计干预效应,断点前的参数即为我们感兴趣的系数,反映条件均值的差。可以通过交互项来构建不同的回归模型,如线性回归、允许实验组和控制组有不同的斜率的模型,以及多项式回归等。

就局部多项式回归而言,陈老师解释了核方程(kernel function)这一概念,它给用于估计的距离一个权重,距离越近的点权重越大,而距离越远的点权重越小,包括Triangular function和Uniform distribution function。这里就需要判断带宽,它决定了研究数据的幅度,带宽外的数据点将不被纳入估计。带宽的选择涉及权衡问题,当带宽较小时,可以避免误把非线性关系当作断点问题,但是可能导致局部效应估计方差非常大,尽管这时的偏差较小。一些算法可以帮助我们进行带宽的选择,当然,也可以比较不同带宽结果保证结论的稳健性。

针对地理断点回归可以有三种具体的估计方法:一是单一维度的估计,依赖数据点地理位置计算平面距离或者球面距离等,进而把二维坐标信息降维到一维距离信息,但是这种方法会忽略地理位置的异质性。二是保留地理坐标的二维数据,从而在一定程度上避免一维距离对地理位置异质性的忽视。此外,还可以在以上两种方法的基础上,将地理边界划分为若干等份,并在回归中控制分组的固定效应,从而体现位置的异质性

陈老师还强调了RDD方法的实证验证,包括平衡性检验、针对不同临界值的安慰剂检验、针对分类问题的密度检验。他指出,RDD方法的有效性依赖于关键的识别假设,即在临界点处潜在结果变量的连续性。通过对这些假设的检验,研究者可以更准确地评估干预措施的因果效应。所以陈老师建议在研究前可以做一些描述性数据的可视化,判断断点是否真的存在。此外,陈老师还介绍了R软件包在RDD分析中的应用,包括sf、sp、SpatialRDD等,这些工具为RDD的实施提供了强大的技术支持。他通过实际操作演示,让学员们对RDD的数据分析过程有了更直观的认识。

讲座的最后,陈老师探讨了GRDD现有研究中的外部有效性问题,以Kuffuor et al.(2022)中的“模板匹配”方法为基础,来增强RDD估计的普遍性;RDD还可以与DID方法结合,估计干预效应的动态变化,并提供了相关的参考文献。

本次讲座不仅为学员们提供了一个深入了解GRDD方法的平台,也为国际问题研究领域带来了新的研究工具和思路。陈冲副教授的精彩讲解和深入分析,赢得了在场学员的一致好评。讲座结束后,学员们就如何寻找地理断点等进行了积极提问,与陈老师进行了热烈的讨论,进一步加深了对GRDD方法的理解和应用。