未来金融创新工程中心

以前沿研究和创新工程,探索数字时代金融发展的新范式。

中心新闻

助力资本市场基础数据设施进一步完善,“人大-新华”A股上市公司行业分类数据集正式发布

2026-03

编者按:3月25日,“2026全球南方金融家论坛”在北京开幕。由中国人民大学与新华财经联合研发的“人大-新华”A股上市公司行业分类数据集在论坛正式发布,得到各方广泛关注和高度评价。该成果基于中国人民大学未来金融创新工程中心与财政金融学院研究团队的“中国A股上市公司行业分类数据集构建——基于大语言模型的方法”工作论文,作者包括:吴轲,中国人民大学未来金融创新工程中心副主任,中国人民大学财政金融学院应用金融系主任;应镇焜,中国人民大学财政金融学院;钱宗鑫,中国人民大学未来金融创新工程中心执行主任,中国人民大学财政金融学院副院长;周德馨,纽约市立大学巴鲁克学院齐克林商学院。如下转自新华财经报道。


风从南方起,客自南方来。3月25日,“2026全球南方金融家论坛”在新华社国家金融信息大厦开幕。全球南方金融家分享科技金融、绿色金融实践,携手打造更加包容、可持续的金融合作生态,为共同迈向现代化注入澎湃的金融动能。

在论坛的主场发布环节,中国人民大学未来金融创新工程中心执行主任、财政金融学院副院长钱宗鑫正式发布由中国人民大学与新华财经联合研发的“人大-新华”A股上市公司行业分类数据集,介绍了该数据集的研发背景与应用前景,并宣布数据集已在新华财经专业终端正式上线。


钱宗鑫现场发布原图.jpg

图为钱宗鑫在论坛发布“人大-新华”A股上市公司行业分类数据集


钱宗鑫表示,目前A股主流行业分类标准是按照静态的主营业务进行划分,较为实用,不过在实际使用中也存在更新滞后、区分度不足、方法不透明等问题。为此,研究团队利用大语言模型技术,自动识别企业核心业务特征并进行归类,最终构建出涵盖26个一级行业、102个二级行业和271个三级行业的全新分类体系。

据介绍,与传统分类相比,“人大-新华”A股上市公司行业分类数据集具有三大优势:一是更及时,能够跟踪企业业务变化动态更新;二是更准确,经实证检验在多项指标上优于现有主流分类标准;三是更透明,分类方法完全公开,研究人员可自行复现和调整。

钱宗鑫表示,构造“人大-新华”公司分类体系分为嵌入、聚类、命名、测试四个步骤,嵌入部分主要是利用嵌入大模型把上市公司的文本,非常重要的MD&A部分转化为数值向量,然后以自下而上的逻辑进行聚类。

命名分为两个阶段,一是摘要,用大模型生成一级行业的业务画像,二是用大模型按照字符长度、互斥要求等限制进行命名。二级行业命名是以一级行业名称为限制,作为一个完全嵌套的要求进行命名,三级行业是在二级行业基础上加罗马数字的编码。

测试是最关键的一步,从类间差异、类内相似性、投资组合构建三个检验维度来看,不管是一级、二级还是三级的人大-新华行业分类,在类间区分方面对所有财务指标的区分度是最好的,在同行业内财务指标解释力方面是最好或接近最好的。

“人大-新华行业分类标准已经在新华财经专业终端正式上线,用户可通过终端的‘沪深京股票浏览器’查询和使用该分类数据。该数据集的上线,将为投资者和研究人员提供新的行业分析工具,助力中国资本市场基础数据设施的完善。”钱宗鑫表示。

据了解,本届论坛由新华社品牌工作办公室、中国经济信息社、国家金融信息大厦、中国证券报社、上海证券报社、经济参考报社、中国财富传媒集团联合主办。汾酒集团为首席合作伙伴,中国农业银行为战略合作伙伴,极氪汽车提供指定用车。(康耕甫)