温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。作者连小白 (连享会)邮箱lianxhcn163.comSourceFang, H., Li, M., Lu, G. (2025). Decoding China’s Industrial Policies. National Bureau of Economic Research. Link, PDF, Google.分类AI 专题Title: 中国产业政策如何运行LLM 解码 300 万份政府文件的发现Keywords: 产业政策, 大语言模型, 政策文本分析, 央地关系, 政策工具, 政策扩散, 企业进入, 生产率提要本文介绍 Fang 等 (2025) 如何用 LLM 解码 300 万份政府文件构建中国产业政策图谱并分析政策工具、央地传导、地方扩散与企业后果。1. 从一个老问题说起做产业政策研究最常见的处理方式是把政策写成一个虚拟变量受到政策影响记为 1没有受到影响记为 0。若用 DID 设计就进一步写成Treat × Post。这不是批评。这样做简洁、清楚也便于和固定效应模型结合。问题在于当研究对象是产业政策时一个虚拟变量很难装下现实中政策设计的全部复杂性。同样是「支持新能源汽车产业」政策工具可能包括财政补贴、税收优惠、信贷支持、产业基金、政府采购、土地供给、研发资助、人才政策、充电基础设施、产业园区和供应链配套。不同地区使用不同工具同一地区在产业早期和成熟期也会使用不同工具中央、省级和城市政府在整个体系中扮演的角色各不相同。所以产业政策的关键不只是「有没有政策」而是支持什么产业、用什么工具、由哪级政府发布、有没有资格条件、有没有考核机制、上下级政府之间如何传导。Fang, Li and Lu (2025) 的《Decoding Chinas Industrial Policies》正是从这个问题出发。作者没有只研究某一个具体政策冲击也没有只盯着某类工具而是用大语言模型 (LLMs) 处理 2000-2022 年中国中央、省级和市级政府发布的约 300 万份政策文本试图回答一个更基本的问题中国的产业政策到底如何运行2. 测量产业政策难在哪里产业政策研究面临一个基础难题政策如何测量过去的做法大致有三类。第一类用结构化政策文件。例如用国家或省级五年规划中列出的「支柱产业」「鼓励产业」来识别政策支持对象。这种方法清楚但覆盖范围有限——五年规划只能反映部分政策目标难以捕捉市级政策、执行细节和具体工具。第二类用企业实际获得的政策支持。例如企业收到的政府补助、税收优惠或融资便利。这种方法贴近企业现实但容易把产业政策窄化为财政补贴。现实中很多产业政策并不表现为直接补贴而是土地、人才、政府采购、园区建设或供应链配套。第三类用关键词搜索。在政策标题或正文中找「促进」「发展」「支持」「鼓励」等词据此判断是否为产业政策。操作方便但容易出错。某份文件出现了「促进」和「发展」不一定是产业政策某份文件没有典型关键词也可能确实在支持某个特定产业。Fang, Li and Lu (2025) 从一个新的视角切入用 LLM 对大规模政策文本进行系统编码。原始数据覆盖 2000-2022 年约 300 万份政府文件来源包括北大法宝和各级政府官网。LLM 的任务不是简单判断文件主题而是把每份政策文本拆解为一张可以用于实证分析的「政策卡片」包括发布政府、目标产业、政策目标、政策语气、政策工具、政策强度、支持条件、政策引用、上下级政府关系、是否包含考核与监督机制、是否给予地方自主权、是否体现地方适配。这一步使研究者能从「政策有没有」进入到「政策如何设计、如何执行、如何扩散、如何影响企业」的层面。3. LLM 的作用生成政策卡片这篇论文中LLM 的角色不是写作助手也不是摘要工具而是一个文本测量工具——把政府文件中隐含的政策信息抽取出来转化为结构化变量。作者的处理原则有三个一是先定义再抽取。产业政策须满足几个条件政策主体是政府文件中包含具体政策措施政策直接偏向特定行业或特定经济活动政策目标是影响长期经济结构而非应对短期冲击。先把边界划清楚才能让 LLM 的分类结果有意义。二是区分「直接目标」和「泛泛提及」。一份新能源汽车政策可能提到电池、充电设施、软件、物流、金融服务等相关领域但并非所有被提到的行业都是政策的直接目标。不做这个区分产业分类就会大量串漏。三是先抽取证据再形成变量。不让 LLM 只输出一个标签而是要求它识别相关文本、给出判断依据和置信度并在关键任务上使用多阶段抽取和复核。这样做是为了尽量减少幻觉和误判。整个研究流程可以概括为文本输入 → LLM 抽取 → 结构化政策卡片 → 聚合到城市-行业-年份层面 → 与企业和官员数据合并 → 计量分析图 1政策文件先被识别为产业政策再被拆解为多个字段最后聚合到城市-行业-年份层面与企业、官员和城市数据合并。相对于传统做法——用 0/1 虚拟变量表示「有政策」或「没有政策」这个流程的独特之处在于它把产业政策从笼统的定性描述 (简单化)转化为一个包含多个维度的治理系统 (结构化变量)。每个维度都可以单独分析也可以组合起来研究政策设计、政策传导和政策效果。4. 300 万份文件告诉我们什么LLM 从约 300 万份政府文件中识别出约 76.8 万份产业政策文件进而基于这些文件构建了一个包含 10 个维度的政策卡片数据库。对这个数据库的描述性分析揭示了几个重要事实时间趋势2000-2022 年间政策文件数量总体持续上升近几年尤为明显。这说明产业政策不是偶尔出现的政策工具而是中国经济治理中的常规组成部分。政府层级中央政策只占全部产业政策的一部分省级和市级政策数量非常可观。如果研究者只看中央文件就会遗漏大量地方产业政策实践。政策语气作者将政策语气分为支持性、监管性和抑制性。支持性政策用于推动产业发展监管性政策用于规范行业行为、设置标准抑制性政策则用于限制落后产能或过度扩张产业。多数政策具有支持性语气但监管性政策也占有相当比例。需要说明的是产业政策不是「补贴」的同义词而是包括扶持、规范和约束在内的政策组合。目标产业制造业和生产性服务业是政策关注重点。在制造业内部高技能制造和新兴制造相关政策的比重上升与中国近年来强调技术升级的政策方向一致。政策目标促进战略性产业是最常见的目标但政策也经常涉及创新、技术采用、就业、城市化和社会福利说明产业政策往往是多目标的。由此我们可以看到中国产业政策的大致轮廓政策数量很多政策目标多元化地方层级很重要……。不过知道「有政策」还不够还要看政府用的是什么工具。因为同样是支持一个产业发补贴、给税收优惠、做政府采购、建产业园区、设产业基金背后的激励机制和经济后果并不相同。5. 中国产业政策的工具箱不只有补贴产业政策研究里用政府补贴衡量政策强度是常见做法。这当然有道理补贴直接、可观察也容易和企业数据合并。但这篇论文的一个重要发现是财政补贴是最常见的单项政策工具但它仍然只出现在约 41% 的产业政策文件中。换言之超过一半的产业政策并未使用财政补贴。作者将产业政策工具概括为五大类财政与金融工具补贴、税优、信贷、股权支持进入与监管工具产业基金、招商引资、市场准入要素投入工具劳动政策、土地供给、基础设施、研发支持需求侧工具消费补贴、政府采购、产业推广供应链工具产业集群、本地配套、产业链协同。图 2财政补贴最常见但超过一半的产业政策并未使用补贴。地方政府还会使用进入监管、要素投入、需求侧和供应链等多种工具。如果只用补贴数据度量产业政策强度就会系统性遗漏其他大量工具。这不只是一个测量问题也会直接影响政策评估的结论。某项政策可能没有给企业发很多补贴但通过土地供给、政府采购或供应链配套已经实质性地改变了企业行为。若研究者只盯着补贴就会误把这类政策当成「没有支持」。论文还发现政策工具随产业发展阶段而演变。产业早期政策更偏向进入促进、招商和创业支持发展到一定阶段后工具逐渐转向研发支持、供应链协同和集群建设。产业政策更像一套动态公共服务而不是一次性冲击。6. LLM 指标如何进入计量模型把政策工具拆开之后产业政策就不再是一个笼统的政策名称而是一组可以观测的变量。接下来的问题是这些变量如何进入计量模型作者分三步处理第一步把单份政策文件变成政策卡片编码为目标产业、政策工具、政策语气、资格条件、实施机制和央地关系等字段。第二步把政策卡片聚合到城市-行业-年份层面形成政策暴露变量。第三步把城市-行业-年份政策变量与企业注册数据、税务数据、融资数据、生产率数据和地方官员数据合并分析产业选择、工具配置、政策传导和企业后果。在研究地方政府为何选择某些产业时作者在城市-行业-年份层面估计如下设定TargetPolicyc,s,tβ1RCAc,s,t−1β2AAc,s,t−1μc,tλs,tεc,s,tTargetPolicyc,s,tβ1RCAc,s,t−1β2AAc,s,t−1μc,tλs,tεc,s,t其中 TargetPolicyc,s,tTargetPolicyc,s,t 表示城市 cc 在年份 tt 是否将行业 ss 列为目标产业RCAc,s,t−1RCAc,s,t−1 和 AAc,s,t−1AAc,s,t−1 分别为该城市在该行业的显性比较优势和绝对优势μc,tμc,t 与 λs,tλs,t 为不同层面的固定效应。简言之这个模型要回答的是地方政府倾向于支持已有基础的行业还是完全陌生、希望靠政策追赶的行业在分析政策的经济后果时基本设定是Yi,c,s,tβ⋅Policyc,s,tαiμc,tλs,tXi,t′θεi,c,s,tYi,c,s,tβ⋅Policyc,s,tαiμc,tλs,tXi,t′θεi,c,s,tYi,c,s,tYi,c,s,t 可以是企业获得补贴、长期融资、进入概率或生产率等结果变量Policyc,s,tPolicyc,s,t 则是从大规模政策文本中抽取、分类、聚合得到的政策暴露变量。LLM 与计量模型的分工因此很清晰LLM 负责把文本转化为变量解决测量问题计量模型负责分析变量与产业选择、企业行为和经济后果之间的关系处理机制与识别问题。两者不能互相替代。温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。