包含样本选择的双重差分法:DID with Sample Selection
2026/6/18 16:34:38 网站建设 项目流程

温馨提示:若页面不能正常显示数学公式和代码,请阅读原文获得更好的阅读体验。

作者:甘梓萦 (中南财经政法大学)
邮箱:Ganzyii@163.com

  • Title: 包含样本选择的双重差分法:DID with Sample Selection

  • Keywords: 样本选择, Sample selection, Partial identification, Difference-in-differences, 双差分, 倍分法

  • Source: Rathnayake, G., Negi, A., Bartalotti, O., & Zhao, X. (2026). Difference-in-Differences with Sample Selection (Version 3). arXiv. Revise & Resubmit,Journal of Econometrics. Link, PDF, Google.

附件:本文提供 Stata、Python 和 R 三个教学性示例,用于演示正向单调样本选择下的 Lee-type trimming bounds。

  • 下载地址:https://file-lianxh.oss-cn-shenzhen.aliyuncs.com/Blog_appendix/did-selection-bounds-demo.zip

1. 问题背景

在多数应用 DID 的实证研究中,都默认不存在样本选择偏误,即结果变量在处理前后、处理组和控制组中都能被稳定观测到。

然而,真实数据的生成过程可能并不满足这个假设。比如有些个体会退出劳动市场,部分企业会停止披露数据,失业者的工资无法观测,……。此时,我们看到的结果变量不是完整总体的结果,而是某个被选择出来的子样本的结果。

这不是一个简单的数据清洗问题,而是一个识别问题。

如果一个培训项目既影响工资,也影响是否就业,那么工资只在就业者中可见。此时,处理组中能看到工资的人,可能不仅是“工资发生变化的人”,还包括“因为培训才进入就业状态的人”。若继续只在可观测工资样本中做 DiD,比较对象就已经变了。

Rathnayake et al. (2026) 讨论的正是这个问题:当 DiD 遇到内生样本选择时,传统 DiD 还能识别什么?

文章的的主要结论是:即便样本选择机制与处理分配独立,naive DiD 通常也不能识别有清晰因果含义的处理效应,除非样本选择对结果变量也是外生的。换句话说,“选择不依赖于处理”并不等于“选择不会破坏 DiD”。

该文的贡献在于,把样本选择纳入潜在结果框架,并借助主分层 (principal stratification) 区分不同潜在可观测类型。在此基础上,作者不再强求点识别,而是构造 sharp bounds。这样做的目的不是回避问题,而是承认数据本身只能支持某个区间,而不是一个精确点估计。

2. 基本设定:结果变量不是总能看到

考虑一个两期面板设定,t=0,1t=0,1。处理只在后期发生,因此所有个体在基期都未接受处理,记后期处理状态为 DD。

设 Yt∗(0)Yt∗​(0) 和 Yt∗(1)Yt∗​(1) 分别表示未处理和处理状态下的潜在结果。若没有样本选择问题,研究者通常关心的是处理对后期结果的影响。

现在引入一个更现实的设定:结果变量不一定能被观测到。

令 St(d)St​(d) 表示个体在处理状态 dd 下、时期 tt 的结果是否可观测:

St(d)={1,outcome is observed, 0,outcome is missing.St​(d)={1,​outcome is observed, 0,​outcome is missing.​

实际观测到的选择状态为

St=St(0)(1−D)+St(1)D.St​=St​(0)(1−D)+St​(1)D.

实际观测到的结果为

Yt=StYt∗.Yt​=St​Yt∗​.

因此,研究者手里的 YtYt​ 并不是所有个体的结果,而只是那些满足 St=1St​=1 的个体的结果。只要 St(d)St​(d) 与潜在结果相关,观测样本就不是随机留下来的。

这会直接影响 DiD。传统 DiD 比较的是处理组和控制组在前后期的结果变化。但现在,“前后两期都有结果”的样本本身可能已经受处理影响。于是,DiD 比较的不再是同一类人的反事实变化,而是不同潜在选择类型的混合变化。

3. 主分层:谁一直能被观测到?

为了描述样本选择结构,文章使用主分层思想。主分层不是按照实际是否被观测来分组,而是按照不同处理状态下的潜在可观测状态来分组。

在无预期效应假设下,处理不会影响基期的样本进入状态,也不会影响基期结果。于是,每个个体可以由三项潜在选择状态刻画:

(S0,S1(0),S1(1)).(S0​,S1​(0),S1​(1)).

其中:

  • S0S0​ 表示基期是否可观测;
  • S1(0)S1​(0) 表示后期未处理状态下是否可观测;
  • S1(1)S1​(1) 表示后期处理状态下是否可观测。

O表示 observed,用N表示 not observed,可以得到八类潜在子群:

子群S0S0​S1(0)S1​(0)S1(1)S1​(1)含义
OOO111始终可观测
ONO101处理使其后期可观测
OON110处理使其后期不可观测
ONN100基期可观测,后期不可观测
NOO011基期不可观测,后期始终可观测
NNO001处理使其进入样本
NON010只在未处理状态下后期可观测
NNN000始终不可观测

其中最重要的是OOO 组,即 always-observed group。这类个体无论是否接受处理,在基期和后期都能被观测到。文章首先关注的识别对象是 OOO 组中的 ATT:

τOOO=E[Y1∗(1)−Y1∗(0)∣D=1,OOO].τOOO​=E[Y1∗​(1)−Y1∗​(0)∣D=1,OOO].

这个参数有两个优点。其一,它的经济含义清楚:它衡量的是那些本来就能被持续观测到的处理组个体的处理效应。其二,它是总体 ATT 的一个重要组成部分,在数据支持上也最稳定。

需要说明的是,OOO 身份本身不可直接观测。研究者能看到的是某些实际观测组合,比如 D=1,S0=1,S1=1D=1,S0​=1,S1​=1。但这个实际观测组可能由 OOO 和 ONO 混合而成。因此,识别问题变成了一个 mixture problem。

温馨提示:若页面不能正常显示数学公式和代码,请阅读原文获得更好的阅读体验。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询