孟天广、苏宇轩：基于大语言模型的政治史料分类方法研究：从史料结构化到智能标注-清华大学计算社会科学与国家治理实验室

成果展示

孟天广、苏宇轩：基于大语言模型的政治史料分类方法研究：从史料结构化到智能标注

时间：2026年06月18日作者：点击数:

人工智能的迅猛发展正在推动社会科学研究范式转换。本研究聚焦大语言模型(LLMs)在历史政治文本分析中的应用潜力，系统探讨了其在文本处理、语义解码与分类标注中的技术表现与方法价值。本文以《清实录》为例，围绕“模型适用场景”“分类性能对比”“提示词优化策略”及“模型选择路径”四个关键问题，开展了跨模型、多任务的实验分析。研究发现:大语言模型在无需人工标注的零样本环境下，展现出超越传统机器学习的显著优势，特别适用于复杂语境与隐喻性语言的文本分类任务;在“推理时间－分类精度”的权衡框架中，模型性能呈现“预训练模型－大语言模型－传统模型”的阶梯型结构，大语言模型在保证较高准确率的同时具备更好的灵活性与成本－效益优势;提示词工程中的情景嵌入技术可有效增强模型表现，而过度定义反而会削弱其语义泛化能力。对《明实录》的稳健性检验呈现了大语言模型在古代汉语文本处理中的适应性，构建起历史文本智能分类的方法路径，为基于海量史料的社会科学研究提供了可复制、可推广的新方法。

附件：

基于大语言模型的政治史料分类方法研究：从史料结构化到智能标注_孟天广.pdf 下载次数：

上一篇：朴景华、李勇：大型社会模拟器：开发、验证与应用

下一篇：周庆安、李涵沁：国际传播知识体系的发展脉络：解释体系、区域视野与学科图谱