包含样本选择的双重差分法：DID with Sample Selection-二趣网

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

作者：甘梓萦 (中南财经政法大学)
邮箱：Ganzyii@163.com

Title: 包含样本选择的双重差分法：DID with Sample Selection
Keywords: 样本选择, Sample selection, Partial identification, Difference-in-differences, 双差分, 倍分法
Source: Rathnayake, G., Negi, A., Bartalotti, O., & Zhao, X. (2026). Difference-in-Differences with Sample Selection (Version 3). arXiv. Revise & Resubmit,Journal of Econometrics. Link, PDF, Google.

附件：本文提供 Stata、Python 和 R 三个教学性示例，用于演示正向单调样本选择下的 Lee-type trimming bounds。
下载地址：https://file-lianxh.oss-cn-shenzhen.aliyuncs.com/Blog_appendix/did-selection-bounds-demo.zip

1. 问题背景

在多数应用 DID 的实证研究中，都默认不存在样本选择偏误，即结果变量在处理前后、处理组和控制组中都能被稳定观测到。

然而，真实数据的生成过程可能并不满足这个假设。比如有些个体会退出劳动市场，部分企业会停止披露数据，失业者的工资无法观测，……。此时，我们看到的结果变量不是完整总体的结果，而是某个被选择出来的子样本的结果。

这不是一个简单的数据清洗问题，而是一个识别问题。

如果一个培训项目既影响工资，也影响是否就业，那么工资只在就业者中可见。此时，处理组中能看到工资的人，可能不仅是“工资发生变化的人”，还包括“因为培训才进入就业状态的人”。若继续只在可观测工资样本中做 DiD，比较对象就已经变了。

Rathnayake et al. (2026) 讨论的正是这个问题：当 DiD 遇到内生样本选择时，传统 DiD 还能识别什么？

文章的的主要结论是：即便样本选择机制与处理分配独立，naive DiD 通常也不能识别有清晰因果含义的处理效应，除非样本选择对结果变量也是外生的。换句话说，“选择不依赖于处理”并不等于“选择不会破坏 DiD”。

该文的贡献在于，把样本选择纳入潜在结果框架，并借助主分层 (principal stratification) 区分不同潜在可观测类型。在此基础上，作者不再强求点识别，而是构造 sharp bounds。这样做的目的不是回避问题，而是承认数据本身只能支持某个区间，而不是一个精确点估计。

2. 基本设定：结果变量不是总能看到

考虑一个两期面板设定，t=0,1t=0,1。处理只在后期发生，因此所有个体在基期都未接受处理，记后期处理状态为 DD。

设 Yt∗(0)Yt∗(0) 和 Yt∗(1)Yt∗(1) 分别表示未处理和处理状态下的潜在结果。若没有样本选择问题，研究者通常关心的是处理对后期结果的影响。

现在引入一个更现实的设定：结果变量不一定能被观测到。

令 St(d)St(d) 表示个体在处理状态 dd 下、时期 tt 的结果是否可观测：

St(d)={1,outcome is observed, 0,outcome is missing.St(d)={1,outcome is observed, 0,outcome is missing.

实际观测到的选择状态为

St=St(0)(1−D)+St(1)D.St=St(0)(1−D)+St(1)D.

实际观测到的结果为

Yt=StYt∗.Yt=StYt∗.

因此，研究者手里的 YtYt 并不是所有个体的结果，而只是那些满足 St=1St=1 的个体的结果。只要 St(d)St(d) 与潜在结果相关，观测样本就不是随机留下来的。

这会直接影响 DiD。传统 DiD 比较的是处理组和控制组在前后期的结果变化。但现在，“前后两期都有结果”的样本本身可能已经受处理影响。于是，DiD 比较的不再是同一类人的反事实变化，而是不同潜在选择类型的混合变化。

3. 主分层：谁一直能被观测到？

为了描述样本选择结构，文章使用主分层思想。主分层不是按照实际是否被观测来分组，而是按照不同处理状态下的潜在可观测状态来分组。

在无预期效应假设下，处理不会影响基期的样本进入状态，也不会影响基期结果。于是，每个个体可以由三项潜在选择状态刻画：

(S0,S1(0),S1(1)).(S0,S1(0),S1(1)).

其中：

S0S0 表示基期是否可观测；
S1(0)S1(0) 表示后期未处理状态下是否可观测；
S1(1)S1(1) 表示后期处理状态下是否可观测。

用O表示 observed，用N表示 not observed，可以得到八类潜在子群：

子群	S0S0	S1(0)S1(0)	S1(1)S1(1)	含义
OOO	1	1	1	始终可观测
ONO	1	0	1	处理使其后期可观测
OON	1	1	0	处理使其后期不可观测
ONN	1	0	0	基期可观测，后期不可观测
NOO	0	1	1	基期不可观测，后期始终可观测
NNO	0	0	1	处理使其进入样本
NON	0	1	0	只在未处理状态下后期可观测
NNN	0	0	0	始终不可观测

其中最重要的是OOO 组，即 always-observed group。这类个体无论是否接受处理，在基期和后期都能被观测到。文章首先关注的识别对象是 OOO 组中的 ATT：

τOOO=E[Y1∗(1)−Y1∗(0)∣D=1,OOO].τOOO=E[Y1∗(1)−Y1∗(0)∣D=1,OOO].

这个参数有两个优点。其一，它的经济含义清楚：它衡量的是那些本来就能被持续观测到的处理组个体的处理效应。其二，它是总体 ATT 的一个重要组成部分，在数据支持上也最稳定。

需要说明的是，OOO 身份本身不可直接观测。研究者能看到的是某些实际观测组合，比如 D=1,S0=1,S1=1D=1,S0=1,S1=1。但这个实际观测组可能由 OOO 和 ONO 混合而成。因此，识别问题变成了一个 mixture problem。

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

企业官网建设流程全解析

1. 问题背景

2. 基本设定：结果变量不是总能看到

3. 主分层：谁一直能被观测到？

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1. 问题背景

2. 基本设定：结果变量不是总能看到

3. 主分层：谁一直能被观测到？

热门文章

文章分类

标签云

相关文章

汽车半导体功能安全：从合规成本到价值创造的工程实践

Python自动化测试实战：从框架选型到工程化落地

三维生态战略：elFinder开源文件管理器的模块化演进与定制化实践

需要专业的网站建设服务？