包含样本选择的双重差分法:DID with Sample Selection

📅 2026/6/18 16:34:46
包含样本选择的双重差分法:DID with Sample Selection
温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。作者甘梓萦 (中南财经政法大学)邮箱Ganzyii163.comTitle: 包含样本选择的双重差分法DID with Sample SelectionKeywords: 样本选择, Sample selection, Partial identification, Difference-in-differences, 双差分, 倍分法Source: Rathnayake, G., Negi, A., Bartalotti, O., Zhao, X. (2026). Difference-in-Differences with Sample Selection (Version 3). arXiv. Revise Resubmit,Journal of Econometrics. Link, PDF, Google.附件本文提供 Stata、Python 和 R 三个教学性示例用于演示正向单调样本选择下的 Lee-type trimming bounds。下载地址https://file-lianxh.oss-cn-shenzhen.aliyuncs.com/Blog_appendix/did-selection-bounds-demo.zip1. 问题背景在多数应用 DID 的实证研究中都默认不存在样本选择偏误即结果变量在处理前后、处理组和控制组中都能被稳定观测到。然而真实数据的生成过程可能并不满足这个假设。比如有些个体会退出劳动市场部分企业会停止披露数据失业者的工资无法观测……。此时我们看到的结果变量不是完整总体的结果而是某个被选择出来的子样本的结果。这不是一个简单的数据清洗问题而是一个识别问题。如果一个培训项目既影响工资也影响是否就业那么工资只在就业者中可见。此时处理组中能看到工资的人可能不仅是“工资发生变化的人”还包括“因为培训才进入就业状态的人”。若继续只在可观测工资样本中做 DiD比较对象就已经变了。Rathnayake et al. (2026) 讨论的正是这个问题当 DiD 遇到内生样本选择时传统 DiD 还能识别什么文章的的主要结论是即便样本选择机制与处理分配独立naive DiD 通常也不能识别有清晰因果含义的处理效应除非样本选择对结果变量也是外生的。换句话说“选择不依赖于处理”并不等于“选择不会破坏 DiD”。该文的贡献在于把样本选择纳入潜在结果框架并借助主分层 (principal stratification) 区分不同潜在可观测类型。在此基础上作者不再强求点识别而是构造 sharp bounds。这样做的目的不是回避问题而是承认数据本身只能支持某个区间而不是一个精确点估计。2. 基本设定结果变量不是总能看到考虑一个两期面板设定t0,1t0,1。处理只在后期发生因此所有个体在基期都未接受处理记后期处理状态为 DD。设 Yt∗(0)Yt∗​(0) 和 Yt∗(1)Yt∗​(1) 分别表示未处理和处理状态下的潜在结果。若没有样本选择问题研究者通常关心的是处理对后期结果的影响。现在引入一个更现实的设定结果变量不一定能被观测到。令 St(d)St​(d) 表示个体在处理状态 dd 下、时期 tt 的结果是否可观测St(d){1,outcome is observed, 0,outcome is missing.St​(d){1,​outcome is observed, 0,​outcome is missing.​实际观测到的选择状态为StSt(0)(1−D)St(1)D.St​St​(0)(1−D)St​(1)D.实际观测到的结果为YtStYt∗.Yt​St​Yt∗​.因此研究者手里的 YtYt​ 并不是所有个体的结果而只是那些满足 St1St​1 的个体的结果。只要 St(d)St​(d) 与潜在结果相关观测样本就不是随机留下来的。这会直接影响 DiD。传统 DiD 比较的是处理组和控制组在前后期的结果变化。但现在“前后两期都有结果”的样本本身可能已经受处理影响。于是DiD 比较的不再是同一类人的反事实变化而是不同潜在选择类型的混合变化。3. 主分层谁一直能被观测到为了描述样本选择结构文章使用主分层思想。主分层不是按照实际是否被观测来分组而是按照不同处理状态下的潜在可观测状态来分组。在无预期效应假设下处理不会影响基期的样本进入状态也不会影响基期结果。于是每个个体可以由三项潜在选择状态刻画(S0,S1(0),S1(1)).(S0​,S1​(0),S1​(1)).其中S0S0​ 表示基期是否可观测S1(0)S1​(0) 表示后期未处理状态下是否可观测S1(1)S1​(1) 表示后期处理状态下是否可观测。用O表示 observed用N表示 not observed可以得到八类潜在子群子群S0S0​S1(0)S1​(0)S1(1)S1​(1)含义OOO111始终可观测ONO101处理使其后期可观测OON110处理使其后期不可观测ONN100基期可观测后期不可观测NOO011基期不可观测后期始终可观测NNO001处理使其进入样本NON010只在未处理状态下后期可观测NNN000始终不可观测其中最重要的是OOO 组即 always-observed group。这类个体无论是否接受处理在基期和后期都能被观测到。文章首先关注的识别对象是 OOO 组中的 ATTτOOOE[Y1∗(1)−Y1∗(0)∣D1,OOO].τOOO​E[Y1∗​(1)−Y1∗​(0)∣D1,OOO].这个参数有两个优点。其一它的经济含义清楚它衡量的是那些本来就能被持续观测到的处理组个体的处理效应。其二它是总体 ATT 的一个重要组成部分在数据支持上也最稳定。需要说明的是OOO 身份本身不可直接观测。研究者能看到的是某些实际观测组合比如 D1,S01,S11D1,S0​1,S1​1。但这个实际观测组可能由 OOO 和 ONO 混合而成。因此识别问题变成了一个 mixture problem。温馨提示若页面不能正常显示数学公式和代码请阅读原文获得更好的阅读体验。