2025年4月2日,由清华大学计算社会科学与国家治理实验室主办的2024秋季清华交叉学科研究能力提升计划“大数据与因果推断研讨班”第十五期在线上举行。中国人民大学公共管理学院臧雷振教授应邀作为主讲人,围绕“人工智能时代宏观面板数据信息挖掘”主题展开讲座。讲座全程由清华大学公共管理学院陈思丞副教授主持。
本次课程一共分为五个部分。第一部分:什么是宏观面板数据;第二部分:宏观面板数据的来源及类型;第三部分:宏观面板数据的研究设计与分析工具;第四部分:宏观面板数据的应用及案例;第五部分:生成式人工智能时代宏观面板数据研究的机遇、挑战和局限。

第一部分:什么是宏观面板数据。臧雷振教授从宏观面板数据的定义入手,指出其核心特征为“多指标、多时间点、多观测单位”,通常涵盖国家、地区或行业层级的长期观测数据(如GDP、失业率等)。他强调,宏观面板数据能够捕捉政治、经济和社会现象的时空演变规律,尤其适合研究政策效果、制度变迁等宏观议题。通过与截面数据和时间序列数据的对比,臧雷振教授阐释了面板数据的优势,包括动态分析能力、个体差异控制以及因果推断的增强,并举例说明其在分析政府治理绩效、跨国政策评估中的不可替代性。
第二部分:宏观面板数据的来源及类型。臧雷振教授系统梳理了宏观面板数据的主要来源,包括国际组织(如世界银行、IMF)、政府统计年鉴(如中国统计年鉴)、学术数据库(如QoG政府质量数据库)以及金融市场数据平台。他进一步将宏观面板数据分为“大N小T”(宽面板)和“大T小N”(长面板)两类,指出前者关注截面异质性,后者侧重时间趋势分析,并以中国省级经济数据为例,展示了长面板在追踪区域发展动态中的应用。此外,他还讨论了平衡与非平衡面板、静态与动态面板的适用场景及计量挑战。
第三部分:宏观面板数据的研究设计与分析工具。臧雷振教授提出,宏观面板数据分析需从明确研究问题、构建因果链条、选择单位与时间维度入手,并强调“简单方法优先”原则。他详细对比了固定效应模型、随机效应模型、动态面板GMM等方法的适用性,并演示了Stata代码实现(如reghdfe命令)。针对政策评估中的内生性问题,他介绍了多期DID、工具变量法(IV)、倾向得分匹配(PSM)等前沿方法。
第四部分:宏观面板数据的应用及案例。臧雷振教授以“民主制度与贫富差距”研究为例,展示宏观面板数据的实证应用。通过整合151个国家1983-2017年的数据,并采用随机森林填补缺失值,研究发现:民主制度的完善显著降低基尼系数,但边际效应递减;总统制国家与非殖民历史国家的政策效果更为明显。此外,他通过可视化回归结果,对比不同插补方法的优劣,强调机器学习在提升数据信度中的作用。案例还涉及政府腐败指数与经济发展的异质性分析,凸显面板数据在复杂机制解释中的价值。
第五部分:生成式人工智能时代宏观面板数据研究的机遇、挑战和局限。臧雷振教授指出,生成式AI为宏观面板数据研究带来革命性机遇:包括数据补全(如文本转量化指标)、自动化建模(如Transformer分析时序关联)、多模态整合(融合文本、空间数据)以及动态可视化与交互式报告。然而,AI也面临严峻挑战,如数据偏差(社交媒体数据代表性不足)、算法黑箱(模型可解释性弱)、隐私伦理问题及“数据规模化”与“奥卡姆剃刀”原则的冲突。他呼吁学界在拥抱技术的同时,需坚守理论驱动的研究范式,平衡预测能力与因果解释的深度。
讲座最后,主持人陈思丞副教授对臧雷振教授的精彩分享表示衷心感谢。他指出,本次讲座内容详实、案例丰富,为听众提供了从理论到实践的全视角洞察,彰显了宏观面板数据在社会科学研究中的核心地位及其智能化转型的广阔前景。讲座在同学们的感谢中圆满结束。
撰稿人
重庆大学 青年教师 潘虹
日本名古屋南山大学 博士生 倪一鑫