2022年秋季清华大数据与因果推断研讨班期末论文工作坊
2022年12月31日,由清华大学计算社会科学与国家治理实验室主办的首届清华交叉学科研究能力提升计划“大数据与因果推断研讨班期末论文工作坊”在线上举行。清华大学公共管理学院教授、实验室执行主任孟庆国致辞,对研讨班进行了回顾,对工作坊进行了介绍,并对各位老师和同学的积极参与和支持表示感谢。活动由清华大学公共管理学院副教授陈思丞主持,具体分为四个分论坛,20位老师和同学进行论文报告,8位老师进行点评和指导,围绕因果推断研究方法和大数据与文本分析方法展开探讨。
论坛一
论坛一围绕双重差分方法与应用展开探讨,由清华大学公共管理学院博士后肖玉贤主持,5位报告人进行论文报告,中国人民大学公共管理学院教授马亮、清华大学公共管理学院副教授刘生龙进行点评。清华大学社科学院博士后刘丽娜的研究聚焦中国对外援助能否改善对华印象,运用双重差分模型,对全球事件、语言和语调数据库的1316803个观察数据以及2000-2014年中国对外援助项目进行实证分析。发现中国对外援助项目存在选择偏好,援助的对华印象改善效应在援助项目结束后5-6年达到峰值,随后逐渐减弱,但回落速度较慢、长期效应依然存在;在项目实施之初,对华印象改善效应则存在反向作用和倒退期。
浙江工商大学经济学院副教授张志坚的研究围绕项目制下的道德风险与逆向选择问题,基于多任务委托-代理模型框架,利用2015-2018年全国地表水水质监测站点的时点水质数据,进行实证检验。研究发现,全国水生态文明城市建设项目的期末验收增加了站点在III类和IV类分级点上“低报”水质等级的概率,而重要饮用水水源地达标建设项目的年度审核则增加了站点在II类与III类分级点上“高报”水质等级的倾向,项目约束条件与地方官员晋升激励是否匹配是水质数据操纵现象发生的重要原因。
香港理工大学建设及环境学院博士生范国源的研究考察了将环境保护纳入干部考核体系能否缓解逐底竞争,通过分析2007年至2018年发生在279个城市的25万多宗工业用地交易发现,当地方官员面临潜在政治晋升的重大审查时,会降低工业用地价格以吸引投资,尤其是来自污染密集型企业的审查,以及地方官员在经济绩效方面竞争激烈的地区。在环境保护成为干部考核标准后,通过双重差分发现,土地运输中的逐底竞争得到缓解。
中国农业大学人文与发展学院硕士生朱逸飞的研究针对贫困县在不同年份错时退出,借助渐进双重差分法估计贫困县摘帽对其城乡收入差距的处理效应。研究发现,以脱贫摘帽为节点带来贫困县发展策略调整,导致城乡发展资源转移效应及城乡差距的扩大,城乡差距扩张主要由城镇人均收入增长所引领。当贫困县同时具有主体功能区的生态县身份则能减少城乡发展资源转移效应,降低城乡差距的扩大趋势,实现与乡村振兴战略形成政策协同。
华南理工大学公共管理学院博士生王凡凡的研究关注目标考核何以改善地方安全生产治理效果,论文基于2001-2019年中国大陆31个省份的平衡面板数据,利用双重差分模型和空间杜宾模型进行检验。研究发现,由于省份之间竞争效应和示范效应的存在,目标考核对本地区和空间关联地区的安全生产治理效果产生了“制度红利”。中部-西部地区目标考核改善了本地区和空间关联地区的安全生产治理效果,更多表现出一种竞争效应;而在东部-西部地区,目标考核的影响更多来自经济层面,并且表现出一种示范效应。
中国人民大学公共管理学院教授马亮、清华大学公共管理学院副教授刘生龙进行了点评,认为这些研究的选题都很有意义,在理论、方法和数据方面亮点颇多,也指出了可能存在的问题并提出了相关建议。刘丽娜的论文中,因变量反映的是大众媒体的对华印象,但更重要的是民调反映;不同国家之间的差异性、数据结构的复杂性、一些重要的控制变量等问题需要关注。张志坚的论文中,需要对数据操纵进行进一步论证,并且需要区分到底是数据操纵,还是有实质性改进;两类事件的异质性、官员任期等问题也许进一步探讨。范国源的论文中,2013年的分割点不一定是“一刀切”,各地区之间可能会分地区实施,并且要考虑后续官员晋升的基本逻辑的变化;工业用地价格和高污染企业之间的关联还需要进一步的证据,一些竞争性假设需要排除,交互效应最好能有一些可视化呈现。朱逸飞的论文中,需要分析不同时段摘帽的差异以及带来的影响,脱贫攻坚主要是关注农村的收入兜底,城镇则关注较少,理论作用机制到底是怎样的?王凡凡的论文中,需要重点关注因变量是真下降还是数据操纵,空间溢出效应与背后考核机制的关系需进一步探讨。
图 马亮和刘生龙老师进行点评论坛二
论坛二
论坛二围绕因果推断展开探讨,由清华大学公共管理学院博士生夏昕主持,5位报告人进行论文报告,中国农业大学人文与发展学院教授臧雷振、清华大学公共管理学院副教授朱俊明进行点评。
东北大学文法学院公共管理博士生薛增鑫的研究基于中国家庭追踪调查(CFPS)数据,通过多维贫困脆弱性和相对剥夺指数测算脱贫农户的返贫风险和收入不平等,采用模糊断点回归的方法,实证检验脱贫不脱政策的“阻返效应”和“分配效应”。研究发现,脱贫不脱政策显著降低了脱贫农户的多维贫困脆弱性和相对剥夺感,在“后扶贫时代”有利于形成遏制返贫风险与收入分配改善的双赢局面,并且会显著提高不依赖政府兜底保障脱贫家庭的劳动参与和经营性收入,激发其通过劳动改变生活的精神状态,但会使得依赖政府兜底保障脱贫家庭产生一定的福利依赖,从而削弱长期稳定脱贫的政策成效。
山东大学政治学与公共管理学院副研究员程龙的研究聚基于湖北省2010-2019年县域面板数据,利用PSM-DID模型,实证检验易地扶贫搬迁对地区农民减贫增收的影响效应和机制。研究发现:易地扶贫搬迁对农民人均收入具有显著的正向作用,但政策对农民收入的效应存在一定滞后性。主要通过生计资本、增减挂钩政策实施、非农就业减贫三个路径影响搬迁农户收入。此外,第二产业产值比例和城镇化率变量对搬迁农户的减贫增收也具有积极得影响作用。
北京大学汇丰商学院硕士生朱祥杰的研究关注高铁建设与法律服务从业人员跨区域流动,运用多期倍差法,探讨了新型交通基础设施建设如何影响高质量服务业的国内大循环。研究表明,高铁开通能够有效促进以律师跨城出庭为代表的法律服务城际流动。机制分析发现,高铁带给律师跨城流动的促进作用来源于对中长途交通工具的补充,并且这一促进作用在依靠火车、客车来往的城市间要比依靠飞机来往的城市间更强。
杜克大学IMEP硕士生江亦晗的研究围绕企业ESG(环境、社会和治理)能否缓解融资约束问题,以2011-2019年沪深A股上市公司为样本,研究了ESG表现对企业融资约束程度的影响。研究发现,企业提高ESG表现有助于降低融资约束。企业提高ESG表现可能通过吸引机构投资者扩大持股比例和降低债务融资成本,从而缓解企业融资约束程度。进一步分析表明,重污染行业的企业和处于低污染地区的企业提高ESG表现对缓解融资约束的边际效益更高。
上海交通大学安泰经济与管理学院博士后孙大鑫的研究以中国2012年以来的反腐调查为重点,考察政治动荡是否以及如何影响企业家的创业决策。利用2012年至2016年中国家庭面板研究(CFPS)调查的面板数据集,研究发现反腐运动增加而不是减少了个人创业的可能性。论文测试了构成焦点关系的两个潜在机制:政治经验和社会比较,研究发现那些之前与政府有积极互动或经济地位较低的人比其他人更容易创业。
中国农业大学人文与发展学院教授臧雷振、清华大学公共管理学院副教授朱俊明进行点评,对文章进行了肯定,也指出了可能存在的问题并提出了相关建议。薛增鑫的论文中,在理论框架建构、数据处理和差异化等方面还需完善,被解释变量基于指数可能带来的系统性偏差需关注,建议对不同收入的群体进行更加精细化的分组处理和讨论。程龙的论文中,如何准确识别异地搬迁的净效应,影响机制方面需进一步论证,内生性、平行趋势检验等问题也许关注,基于微观数据进行细致的分组讨论,可能会更有解释力。朱祥杰的论文中,研究特色需进一步突出,研究假设的层次性、递进性和逻辑性,案件和区域等异质性及大城市“虹吸效应”等问题需要考虑。江亦晗的论文中,企业异质性、外部政策冲击等问题需要关注,内生性、反向因果问题也需进一步探讨。孙大鑫的论文中,时间维度的动态性需深入考察,自变量代表的腐败程度还是反腐败程度需进一步明确,可能得竞争性解释也需关注。
图 臧雷振和朱俊明老师进行点评
论坛三
论坛三围绕大数据与文本分析研究方法展开探讨,由清华大学公共管理学院博士生陈晓阳主持,5位报告人进行论文报告,清华大学公共管理学院教授张楠、上海交通大学国际与公共事务学院副教授季程远进行点评。
厦门大学公共事务学院硕士生赖丽琴的研究关注中国人工智能叙事的“主题-要素-效应”,基于16601条政府网站文章和14530条热门微博数据,利用LDA主题模型识别主题和要素特征,分析其叙事效应。结果表明,政府部门之间、政府与公众之间的叙事主题偏好存在差异,人工智能科研创新成果、人工智能时代宏观特征、中国互联网企业全球竞争力、中美人工智能行业挑战受到了政府和公众共同关注;传达发展技术价值政策偏好的叙事明显多于技术风险的叙事;主流叙事有助于获取人们对技术发展政策的支持,关于技术担忧和风险的叙事较少。
湖南大学经济与贸易学院博士后周莎的研究探讨了个人内容提供商(ICP)在社交媒体平台上的免费内容的特征影响其付费内容销售的潜在机制,基于品牌理论和社会影响理论,提出了一个整合分析框架,将ICP的内容货币化解构为依附机制和影响机制的结合,并利用社会问答平台的数据进行了验证。结果表明,免费内容的三个特征,即质量、多样性和专业性对ICP付费内容的销售有显著的正向影响,其中ICP的影响力起中介作用。
清华大学社会科学学院心理系博士后周晓禹的研究探讨了词语中的情感因素是否影响新闻标题的真实性判断。该研究从健康新闻和八卦新闻数据集中收集了标题及其真实性信息,其中包括1064个标题和8391个单词。以每个词的情绪唤醒、配价分数和在句子中的位置作为词级情绪语法的特征,这些特征被用来预测健康和八卦标题的准确性,通过弹性净回归和重复10倍交叉验证。结果表明,在两个新闻数据集中,当开头词较少偏离句子的平均情感,结尾词较多偏离句子的平均情感时,这样的标题更有可能是真正的新闻。
山东大学政治学与公共管理学院博士生刘红兵的研究探讨了极端天气灾害在社交媒体上的话题和情感表达,以2021年7月发生郑州的极端天气和洪水事件为例进行探讨。使用LDA方法进行话题建模和情感分析发现,官方媒体发布的帖子和公众评论在话题和情绪上都存在差异,一致性相对较差。在紧急事件期间,媒体的帖子更多地关注事实,如极端天气事件、发生地点、影响、搜救工作,而公众评论更多地是对农村地区被忽视的人的帮助呼吁,以及对受害者及其家人的道义支持、慰问或鼓励等情感表达。问责调查结束后,媒体主要报道调查过程、处罚归因和教训,而公众的评论则相对情绪化。
对外经济贸易大学国际经济研究院博士生苑文华的研究基于贸易协定规则文本,采用2000-2018年64个国家矩阵50个细分行业贸易隐含碳数据,实证探究贸易协定环境条款深度对贸易隐含碳的影响。研究发现:无论是中间品贸易、最终品贸易还是总贸易,贸易协定环境条款深度的提升均能显著降低贸易隐含碳。主要通过促进国家间绿色技术合作、增强国家内部环境治理能力和提升碳生产率三条机制路径有效减少贸易隐含碳。此外,不同细分贸易协定环境条款减少贸易隐含碳的效果具有明显异质性。
清华大学公共管理学院教授张楠、上海交通大学国际与公共事务学院副教授季程远进行点评,肯定了文章在理论、方法和数据方面的探索,也指出了可能存在的问题并提出了相关建议。赖丽琴的论文中,在数据获取和处理细节方面需要完善,如扩展检索关键词、时间一致性、主题交叉性等;热门微博数据更多反映的是媒体叙事,而非公众叙事;此外,中央政府和地方政府的叙事差异也许进一步考虑。周莎的论文中,需要进一步厘清免费内容和付费内容之间的关系,并建议更多考虑新入者。周晓禹的论文中,需进一步明确相关概念和结论,打开相关“黑箱”做进一步解释。刘红兵的论文中,建议加强因果性分析,并注意分析报告和实证研究的差异。苑文华的论文中,研究对象、行业细分和样本量等需进一步明确,并厘清中介效应和调节效应的差异。
图 张楠和季程远老师进行点评
论坛四
论坛四继续围绕大数据与文本分析研究方法展开探讨,由清华大学公共管理学院博士后吴金鹏主持,5位报告人进行论文报告,清华大学社会科学学院政治学系副教授胡悦、北京大学政府管理学院助理教授刘伦进行点评。
中国人民大学信息资源管理学院讲师杨泽坤的研究关注公民态度和官员反应之间的动态变化,使用人民网领导留言板数据,研究了公民礼貌如何影响政府的反应,以及政府级别、官员职位和等级制度的调节作用。研究结果表明,政府更有可能、更迅速地对礼貌程度更高的留言做出回应。研究还发现,礼貌性回应关系取决于目标官员的职位地位和等级。
香港大学经管学院经济学硕士生王朝晖的研究探讨了战略整合在企业创新中的作用,采用文本网络分析(TNA)对25592份年度报告进行无监督聚类,得出了多维数字战略:数字产品与流程、数字金融和数字营销,并采用中国制造业A股上市公司2011-2019年面板数据进行了检验。结果表明,数字金融和数字营销对企业创新没有直接影响,但增强了数字产品和流程对企业创新的正向作用。通过数字战略的四种不平衡分布分析,揭示了战略整合失败导致的创新劣势。
哈尔滨工业大学经济与管理学院博士生郭雨的研究关注多行为体之间如何合作以及参与动机,并以北极地区为例,基于GDELT数据库构建协作网络,分析网络演化特征和参与动机。研究发现,这种进化趋势的特征是参与者和协作的增长,以及网络主导地位从单一参与者向多参与者的转变。国家是网络中的核心行为体,国家与非国家行为体之间的合作被证明是主要的互动模式,非国家行为体对全球公域的参与似乎依赖于国家行为体。跨界网络存在优先依附效应、国家的社会性效应和“先到者”效应。
东北财经大学管理科学与工程学院博士生牛雪琪的研究关注新冠肺炎疫情期间餐饮业商业弹性的决定因素,利用大众点评网的在线顾客评论数据衡量消费趋势,并识别对餐厅销售的冲击。研究结果表明,与速食餐厅相比,疫情严重破坏了提供全方位服务的餐厅。研究明确了四个决定因素:社会资本(即餐厅评级)、物质资本(即非接触式服务)、经济资本(即连锁经营)和自然资本(如位置),它们在疫情期间与餐厅业务的弹性显著相关,这四个因素在全面服务和快速服务餐厅的弹性中起着不同的作用。
华南理工大学公共管理学院博士生潘文浩的研究分析了新冠疫情期间网民正能量表达特征,以及节点事件对公众情绪表达的影响。首先,通过文本数据清理和分词,基于6525249篇微博数据构建了语料库,采用Word2Vec技术构建了包含正能量的细粒度情感词汇,并用于对原始帖子进行情感类别分析。然后,通过人工标注和多分类机器学习模型,选择四种主流机器学习算法来训练情绪强度模型。分析表明,在新冠疫情期间,积极能量情绪表现最高,而惊喜情绪表现得最低。节点事件分析结果显示,正式确认疫情后,正能量和畏惧感的表达量同时增加。疫情防控取得初步胜利后,正能量和伤感的表达达到峰值。
清华大学社会科学学院政治学系副教授胡悦、北京大学政府管理学院助理教授刘伦进行点评,肯定了文章在理论、方法和数据方面的探索,也指出了可能存在的问题并提出了相关建议。杨泽坤的论文中,理论建构方面需进一步打磨,细化明确数据判断标准,实证方面需将回应性经典文献中的影响因素纳入分析,加强因果性分析。王朝晖的论文中,建议在理论框架和实证分析之间进行更好的连接,并优化对控制变量的处理。郭雨的论文中,研究问题和研究假设还需继续打磨,网络分析中需加强对点与点之间关系的分析。牛雪琪的论文中,研究假设的科学性还需论证,在分析框架和控制变量的处理上做进一步优化。潘文浩的论文中,对理论问题以及对既有研究的回应等方面还需优化。
图 胡悦和刘伦老师进行点评