【导读】 2023年10月25日晚,清华交叉学科研究能力提升计划“大数据与因果推断研讨班”开班。清华大学计算社会科学与国家治理实验室执行主任、清华大学公共管理学院教授孟庆国老师出席开班式并致辞。本期研讨班首场讲座“宏观面板数据与相关应用”由中国农业大学人文与发展学院教授臧雷振老师讲授,清华大学公共管理学院副教授陈思丞老师主持,共有2000余名校内外师生通过B站直播的方式参加开班式和首次学术讲座。
孟庆国老师对入选本届研讨班的青年教师和同学们表示热烈祝贺并介绍了清华计算社会科学与国家治理实验室以及清华交叉学科研究能力提升计划“大数据与因果推断研讨班”的基本情况。清华计算社会科学与国家治理实验室于2021年12月成立,作为教育部批准建设的全国首批哲学社会科学实验室,是促进文科与理工学科交叉融合的综合支撑平台与创新基地。清华“大数据与因果推断研讨班”通过邀请经济学、管理学、社会学、政治学、新闻传播和法学等多个哲学社会科学领域的优秀青年学者,分享自己运用因果推断和大数据等研究方法开展实证研究的经验,从而提高青年学者的实证研究能力,推动哲学社会科学领域的青年学者学习新兴研究方法。最后,孟老师感谢各位授课教师和活动组织者的辛苦付出,并预祝本次研讨班圆满成功。
当前宏观面板数据在政治体系和制度研究、国际关系和跨国合作研究、政府政策和政策效果研究等方面应用广泛,系统地了解宏观面板数据对研究者具有重要的意义。臧雷振老师本次讲座主要从什么是宏观面板数据、宏观面板数据的来源及类型、研究设计与分析工具、应用及案例以及生成式人工智能时代宏观面板数据研究的机遇、挑战和局限五部分为大家介绍宏观面板数据及其应用。
在第一部分,臧老师通过国家统计局、各省市实际数据介绍宏观面板数据的定义,即包含多个观测指标和多个观测时间点的数据集合。宏观面板数据常用于研究政府、政治制度、公共政策和相关宏观政治经济社会现象,目的在于捕捉政治和公共管理领域的变化特征和模式。这一数据类型具有多个观测指标和多个时间点、呈现趋势和波动性、固定效应和随机效应、充分反映面板结构和充分使用面板数据方法以及数据可用性等特征。此外,臧老师从时间维度、单位维度、动态分析、个体差异分析、数据分析方法等方面比较宏观面板数据与截面数据二者间的差异,并结合自身研究介绍宏观面板数据所能解决的学术问题。
在第二部分,臧老师指出,宏观面板数据可从国别数据、省市县数据、社会调查和调查机构、金融市场数据提供商、聚合自微观数据上进行获取。在类型划分上,从观测单位类型上宏观面板数据可分为国家或地区宏观面板数据、行业或公司宏观面板数据、政治社会经济领域宏观面板数据、金融市场宏观面板数据;从数据的组织方式和排列方式可将其分为大N小T数据(宽面板)和大T小N数据(长面板);从数据特征和性质可分为动态面板、静态面板、平衡面板、非平衡面板四类数据。
在第三部分,臧老师认为,进行宏观面板数据的研究设计时要先明确研究设计理念以及计量方法执行与变量的理念。在研究设计理念上,要先明晰宏观面板数据的优缺点,并对研究的研究对象、研究假设、评估政策内容以及变量间的因果关系进行厘清。在计量方法执行和变量的理念上,要结合自身研究进行计量方法、回归模型的选择,且可用机器学习训练的方法对控制变量进行处理。据此,臧老师结合政策评估设计这一案例帮助学员更好地理解宏观面板数据研究设计与分析工具。
在第四部分,臧老师结合其发表在Governance期刊上的文章Is democracy pro‐poor? An empirical test of the Sen Hypothesis based on global evidence为大家详细讲解宏观面板数据的应用,尤其对如何使用机器学习进行数据插补以及不同插补方法的比较进行全面系统地讲解。
在第五部分,臧老师通过Chat-GPT的实操例子探讨生成式人工智能时代宏观面板数据研究的机遇、挑战和局限。在他看来,生成式人工智能能够在数据生成与增强、数据可视化与解释、预测与模拟、异常监测、个性化分析等方面为宏观面板数据使用带来机遇,但也在数据质量和数据稀疏性、数据伦理、数据维度和计算资源、非线性关系与缺乏因果关系等方面面临挑战,存在预测不确定性、数据偏差、泛化能力、数据规模等局限性。臧老师进一步提出要从基于数据建模目的对模型进行选择、增强研究透明度和可复制性,促进数据共享与复制等方面进行完善。
最后,臧老师指出,由于面板数据的复杂性,研究者在模型选择、检验方式处理上要抱有严谨的态度。陈思丞老师感谢臧雷振老师的精彩发言并做简要总结。至此,本次讲座圆满结束。
本次研讨班开讲第一课在B站直播的热度达到了2.11万,累计观看人数为1.27万人,收到8000多个点赞,直播期间排在整个B站排行榜的前列。此次直播充分利用了自媒体的优势,以免费的云在线方式,让所有对大数据与因果推断感兴趣的师生充分参与,实现思维的交流与碰撞。课后参加本次课程的学员们自发地组建二十多个微信群开展自主学习和研讨,其中既有关注研究方法群,也有关注不同学科领域的群。大数据与因果推断研讨班所建立的学术社群,为学员们提供了一个开放互补的沟通交流平台,为大数据与因果推断相关方法的推广做出贡献。