| 方法 | 优势 | 致命缺陷 | 在财政中的角色 |
|---|---|---|---|
| 纯理论分析 | 逻辑严密,结论精确 提供直觉框架 | 假设与现实脱节 人头税式悲剧随时可能发生 | 提供分析框架 和方向性判断 |
| 案例/举例分析 | 生动具体,易于理解 贴近现实 | 代表性不足 一个反例即可推翻结论 | 辅助说明 激发直觉 |
| 系统实证分析 (含大数据) | 覆盖面广,可量化 支持因果推断 | 数据获取难,技术门槛高 仍需理论指引 | 核心证据基础 政策评估主力 |
第3讲:实证分析的逻辑——我们怎么知道政策有没有用?
2026年03月18日
没有实证基础,政策方向可能全错
我们在上两讲建立了财政学的规范目标:
这些目标听起来无可厚非。但是——
⚠️ 关键问题
如果我们对"政策实际上会产生什么效果"判断错误,那么再崇高的规范目标也会导向错误的政策,甚至适得其反。
目标正确 ≠ 政策正确。规范分析告诉我们"想要什么",实证分析告诉我们"实际上会发生什么"。
案例一:租金管制
案例二:最低工资
案例三:计划生育政策的误判
三个案例的共同教训
规范目标(应该做什么)决定方向,实证分析(实际会发生什么)决定方案。缺少后者,前者可能南辕北辙。
两种替代方法的致命缺陷
理论模型很优美。经济学理论的魅力在于:用极少的假设,推导出精确的结论。
但理论分析有一个根本弱点:
💡 一次性总量税(Lump-sum Tax)的故事
我们在上讲学过:第二福利定理指出,一次性总量税(每人缴纳固定金额、与收入无关)是理论上最优的税种——
理论上完美无缺。
1990年英国撒切尔人头税:完美理论的现实崩溃
撒切尔政府实施了接近"一次性总量税"的人头税(社区税):
理论分析的致命缺陷
理论模型中的人是"代表性个体"——他们没有愤怒,没有公平感,不会上街。
真实的人不只优化效用函数,他们还有价值判断、公平直觉和政治行动能力。
→ 纯理论分析"听上去很完美,一实行就出问题"。
案例研究也是重要的研究方法,但它有一个软肋:
🎯 案例的代表性问题
你举一个例子,我就能举一个反例。
谁赢?谁的例子更"典型"?这个问题无法在案例层面回答。
真实争论:增加教育支出能提高学业表现吗?
支持者的例子:
芬兰在大幅提高教师待遇和教育投入后,PISA 成绩多年位居全球前列。
→ 结论:增加教育支出有效!
反对者的例子:
美国自1970年代以来,人均教育支出增加了3倍以上,但PISA成绩几乎没有改善。
→ 结论:教育支出无效!
注记
PISA(国际学生评估项目,OECD主办,每三年测试全球15岁学生的阅读、数学和科学素养)
两个例子都是真实的,结论却完全相反。
根本原因:芬兰和美国在文化背景、师资质量、教育制度上存在巨大差异。案例的"典型性"无法自证。
→ 需要系统性的实证研究,而非依赖个别案例。
传统实证研究的困境:数据稀缺,样本量小,统计功效不足。
大数据时代的三大突破:
行政数据(Administrative Data) 税务记录、医保报销、企业注册、学生学籍……这些数据覆盖全量人口,而非抽样,消除了抽样偏差。
Raj Chetty 的团队用美国全部纳税记录(数亿条)研究社会流动性——这在以前根本不可能。
准实验机会增多 政策试点制度(中国的"先行先试")、政策阈值(贫困县认定标准)、政策时间差,都是天然的准实验素材。大数据让研究者能够精确定位断点两侧的对比样本。
机器学习辅助控制 面对成百上千个混淆变量,传统回归力不从心;机器学习可以自动筛选最重要的控制变量,提升估计精度。
| 方法 | 优势 | 致命缺陷 | 在财政中的角色 |
|---|---|---|---|
| 纯理论分析 | 逻辑严密,结论精确 提供直觉框架 | 假设与现实脱节 人头税式悲剧随时可能发生 | 提供分析框架 和方向性判断 |
| 案例/举例分析 | 生动具体,易于理解 贴近现实 | 代表性不足 一个反例即可推翻结论 | 辅助说明 激发直觉 |
| 系统实证分析 (含大数据) | 覆盖面广,可量化 支持因果推断 | 数据获取难,技术门槛高 仍需理论指引 | 核心证据基础 政策评估主力 |
本课程的方法论立场:理论提供框架 → 案例激活直觉 → 实证分析是最终裁判。
建立警觉:六个有趣的例子
真正的原因:人均 GDP 高的富裕国家,既消费更多巧克力,又有更好的科研环境。这是遗漏变量(omitted variable)在作祟。
观察:每年夏季,冰淇淋销量和游泳溺亡人数同步上升。
荒谬结论:禁止销售冰淇淋可以减少溺亡事故?
真实原因:气温升高(第三变量)同时导致了两个结果——
\[\text{气温升高} \rightarrow \begin{cases} \text{冰淇淋需求} \uparrow \\ \text{游泳人数} \uparrow \rightarrow \text{溺亡风险} \uparrow \end{cases}\]
冰淇淋和溺亡之间没有任何因果关系,但相关系数可能高达 0.8 以上。
陷阱一:消防车悖论
陷阱二:教育支出与成绩
→ 核心问题:是钱的效果,还是"有钱人的孩子本来就学得好"?
陷阱三:转移支付与GDP增速(反向因果)
\[\text{经济落后} \rightarrow \text{获得更多转移支付}\] \[\text{不是:} \quad \text{转移支付} \rightarrow \text{经济落后}\]
Joshua Angrist(2021年诺贝尔经济学奖)
"相关不等于因果。这是现代社会科学最重要的一句话。"
这不是统计学的技术细节,而是思维方式的根本转变。
在你看到任何"A 导致 B"的政策主张时,第一反应应该是: "有没有可能,是 C 同时导致了 A 和 B?"
"如果没有这个政策,会怎样?"
你感冒了,吃了感冒药,三天后好了。
问题:是感冒药治好了你,还是你自己好的?
要回答这个问题,你需要知道:如果你没有吃药,三天后会不会也好了?
这就是反事实(Counterfactual)——一个你永远无法直接观测到的"平行世界"。
对应到政策评估
某省2022年实施了一项教育均衡政策,2024年该省农村学生入学率从72%升至81%。
问题:这9个百分点,是政策的功劳吗?
→ 你需要知道:如果没有实施这项政策,2024年该省的入学率会是多少?
→ 这个"没有政策的世界",就是反事实。它永远无法被直接观测。
对于每个个体 \(i\)(一个县、一家企业、一个学生),定义:
\[ \begin{aligned} Y_i(1) &= \text{接受政策时的结果(可观测)} \\ \\ Y_i(0) &= \text{未接受政策时的结果(反事实,不可观测)} \\ \end{aligned} \\ \] 个体处理效应:
\[\tau_i = Y_i(1) - Y_i(0)\]
根本困境:\(Y_i(1)\) 和 \(Y_i(0)\) 不能同时被观测——每个个体要么接受了政策,要么没有。
这被称为因果推断的根本问题(Fundamental Problem of Causal Inference)(Holland,1986)。
所有实证方法,都是在想办法重建那个不可观测的反事实。
既然同一个个体的反事实不可观测,我们能不能找另一群人来代替它?
粗暴方案:直接比较接受政策的人和没接受的人。
问题:接受政策的人和没接受的人,本来就不一样!
例:自愿参加职业培训的工人,本来就更有上进心;他们日后的高收入,到底是培训的功劳,还是他们本来就更优秀?
→ 这叫选择偏差(Selection Bias),是因果识别的头号敌人。
解决方向:找到一个足够"像"处理组的对照组,使得两者之间的差异只来自是否接受了政策,而不是来自其他系统性差异。
这就是所有准实验方法的共同目标。
随机对照实验(Randomized Controlled Trial,RCT)——因果推断的"黄金标准"。
问题:在财政政策中,随机实验几乎无法实施——
→ 经济学家需要另辟蹊径:准实验方法。
直觉优先,技术细节其次
准实验方法的共同思路:在现实中寻找接近随机的分配机制,用它来重建反事实。
flowchart LR
A["❓ 我们想要
随机实验"] -->|"现实中
无法实施"| B["寻找准实验机会"]
B --> C["双重差分 DiD
政策分批推进
产生时间差"]
B --> D["断点回归 RDD
政策有明确阈值
产生门槛效应"]
B --> E["工具变量 IV
找一个外生推力
间接识别因果"]
C --> F["✅ 重建反事实
估计因果效应"]
D --> F
E --> F
style A fill:#1a3a5c,color:#fff
style F fill:#375623,color:#fff
style C fill:#2e75b6,color:#fff
style D fill:#7030a0,color:#fff
style E fill:#843c0c,color:#fff
💬 用一句话解释 DiD
找一个"本来命运差不多"的对照组,看政策实施后,两组的命运是否开始分叉。
分叉的幅度,就是政策的效果。
生活类比:
核心假设:平行趋势(Parallel Trends)
如果没有政策,处理组和控制组的结果变量会以相同斜率随时间变化。
\[\hat{\tau}^{\,\text{DiD}} = \underbrace{\bigl(\bar{Y}_{\text{处理,后}} - \bar{Y}_{\text{处理,前}}\bigr)}_{\text{处理组:政策前后差}} - \underbrace{\bigl(\bar{Y}_{\text{控制,后}} - \bar{Y}_{\text{控制,前}}\bigr)}_{\text{控制组:同期自然变化}}\]
用回归方程表达:
\[Y_{it} = \alpha + \beta_1 \cdot \text{Treated}_i + \beta_2 \cdot \text{Post}_t + \underbrace{\delta \cdot \bigl(\text{Treated}_i \times \text{Post}_t\bigr)}_{\text{DiD核心系数,即政策效果}} + X_{it}'\gamma + \varepsilon_{it}\]
\(\delta\) 就是我们最关心的因果效应估计量。
🇨🇳 中国财政研究中的 DiD 机会
中国的"政策试点制度"天然适合 DiD:政策先在部分城市/县试点,其余地区稍后推广。这个时间差,就是 DiD 的识别来源。
💬 用一句话解释 RDD
政策有一道"门槛":分数差一分,人生可能截然不同。门槛两边的人几乎一样,却命运各异——这个差异,就是政策的效果。
生活类比:
关键洞见:在阈值(断点)两侧,个体除了是否跨过阈值之外,几乎完全可比。政策资格的分配在断点附近是近似随机的。
🇨🇳 国家级贫困县认定与转移支付
断点:人均 GDP 低于某阈值 → 认定为国家级贫困县 → 获得大量专项转移支付
研究设计:
RDD 的适用条件:
💬 用一句话解释 IV
如果政策的实施受到混淆因素的干扰,就找一个'外部推力'——它能推动政策的实施,但自身与结果没有直接关系。通过这个'外部推力',间接测量政策的因果效应。
经典案例:越战征兵抽签与退伍军人收入(Angrist,1990)
为什么抽签是好工具变量?
老天掷骰子,不看你爸是谁。随机性是工具变量外生性最强的保证。
这也正是 Angrist 获得2021年诺贝尔奖的核心贡献之一——他把"自然发生的随机事件"变成了识别因果效应的利器。
flowchart LR
Z["🎲 工具变量 Z
抽签号码
(纯随机,与个人
能力完全无关)"] -->|"第一阶段
抽到坏号→被迫参军
相关性强且可验证"| D["📋 政策干预 X
是否参军服役"]
D -->|"第二阶段
估计因果效应"| Y["📈 结果变量 Y
退伍后长期收入"]
C["⚠️ 混淆变量(不可观测)
个人能力、家庭背景
经济动机、爱国情怀"] -.->|"污染
自愿参军者
本来就不同"| D
C -.->|"污染"| Y
Z -.->|"❌ 排他性约束
抽签号码不直接
影响退伍后收入"| Y
style Z fill:#843c0c,color:#fff
style C fill:#c55a11,color:#fff
style D fill:#2e75b6,color:#fff
style Y fill:#375623,color:#fff
工具变量需满足两个条件:
| 方法 | 核心直觉 | 关键假设 | 适用情形 | 中国财政案例 | 因果可信度 |
|---|---|---|---|---|---|
| 随机实验 RCT | 硬币决定谁受政策 | 随机分配 | 可以人为设计政策分配 | 极少(部分社保试点) | ⭐⭐⭐⭐⭐ |
| 双重差分 DiD | 找命运本来差不多的对照组 | 平行趋势(政策前走势相同) | 政策分批次推进、有时间差 | 试点城市 vs 非试点城市 | ⭐⭐⭐⭐ |
| 断点回归 RDD | 利用政策门槛两边的比较 | 断点两侧个体可比 | 政策有明确数值阈值 | 贫困县认定、税收优惠阈值 | ⭐⭐⭐⭐ |
| 工具变量 IV | 找一个间接推力 | 工具外生且相关 | 政策受内生变量影响 | 地形/距离影响基础设施支出 | ⭐⭐⭐ |
五步走,缺一不可
flowchart LR
S1["Step 1
提出因果型
研究问题"] --> S2["Step 2
构建理论机制
(为什么会发生?)"]
S2 --> S3["Step 3
识别策略
(如何重建反事实?)"]
S3 --> S4["Step 4
数据收集与
计量估计"]
S4 --> S5["Step 5
稳健性检验
与政策解读"]
style S1 fill:#1a3a5c,color:#fff
style S2 fill:#2e5a88,color:#fff
style S3 fill:#843c0c,color:#fff
style S4 fill:#375623,color:#fff
style S5 fill:#7030a0,color:#fff
💡 Step 3 是核心,也是最难的一步
识别策略的质量,决定了整个研究的可信度。区分'相关分析'与'因果推断'的分水岭,正在于此。
| 类型 | 示例 | 能否指导政策? |
|---|---|---|
| 描述性问题 | 中国教育支出占GDP比重是多少? | ❌ 否(只描述现状) |
| 相关性问题 | 教育支出高的省份,学生成绩更高吗? | ⚠️ 不确定 |
| 因果型问题 | 增加教育支出,能否提高学生的长期收入? | ✅ 是 |
好的因果问题的格式:
"如果我们做了X(而不是不做X),Y会改变多少?"
练习:以下哪个是因果型问题?
flowchart TD
Q["你的研究问题"] --> A{"政策有没有
明确的数值阈值?"}
A -->|"有
(如分数线、收入阈值)"| RDD["✅ 优先考虑 RDD"]
A -->|"没有"| B{"政策是分批次
推进的吗?"}
B -->|"是
(有时间差)"| DiD["✅ 优先考虑 DiD"]
B -->|"不是"| C{"能找到外生的
工具变量吗?"}
C -->|"能"| IV["✅ 考虑 IV"]
C -->|"不能"| OLS["⚠️ 只能做OLS回归
(承认因果识别的局限性)"]
style Q fill:#1a3a5c,color:#fff
style RDD fill:#7030a0,color:#fff
style DiD fill:#2e75b6,color:#fff
style IV fill:#843c0c,color:#fff
style OLS fill:#666,color:#fff
一个可信的实证研究,必须主动回应以下质疑:
| 质疑 | 应对方法 |
|---|---|
| 核心假设(如平行趋势)不成立? | 检验政策前的历史趋势;安慰剂检验 |
| 样本选择不同,结论会变? | 换不同样本、不同时间段重复估计 |
| 还有其他同期政策干扰? | 安慰剂检验(把假断点、假时间设在无政策时期) |
| 个体是否在操纵政策分配? | McCrary 密度检验(RDD);检验协变量平衡 |
一篇好的实证论文,是这样的:
"我知道你们会有疑问,我已经替你们想到了,结论依然成立。"
而不是:"我发现了一个相关关系,希望你们相信它是因果的。"
实证研究速递:2024年减税降费效果评估
有利条件:
挑战:
研究问题:2023—2024年延续优化的小微企业增值税免税政策(月销售额10万元以下免征),是否促进了小微企业的存活率和营业收入?
研究设计
| 要素 | 内容 |
|---|---|
| 识别策略 | RDD(明确阈值:月销售额10万元) |
| 断点 | 10万元/月的销售额阈值 |
| 处理组 | 月销售额 8—10 万的企业(受政策覆盖) |
| 控制组 | 月销售额 10—12 万的企业(未受覆盖,但几乎同等规模) |
| 结果变量 | 企业存活率(12个月);月均营业收入 |
| 数据来源 | 国家税务总局小规模纳税人数据(通过财政部研究机构获取) |
最大的担忧:企业是否会故意把销售额压低到9.9万以获得免税?
若研究发现政策效果显著(处理组存活率更高):
局限性的诚实声明:
flowchart TD
A["规范分析
(应该做什么?)"] -->|"必须建立在"| B["实证分析
(实际上会发生什么?)"]
B --> C{"三种方法各有局限"}
C --> D["纯理论
→ 与现实脱节
人头税悲剧"]
C --> E["案例举例
→ 代表性不足
一个反例就推翻"]
C --> F["系统实证
→ 大数据时代
更强、更可信"]
F --> G["因果推断的核心
相关 ≠ 因果
反事实是灵魂"]
G --> H["三种准实验方法"]
H --> I["DiD
找平行对照组"]
H --> J["RDD
利用政策门槛"]
H --> K["IV
找外生推力"]
I & J & K --> L["可信的因果效应估计
支撑政策判断"]
style A fill:#1a3a5c,color:#fff
style L fill:#375623,color:#fff
style D fill:#843c0c,color:#fff
style E fill:#843c0c,color:#fff
style F fill:#2e75b6,color:#fff
规范分析的地基:有人说"我们知道租金管制的规范目标是帮助穷人,所以这是好政策"。请用本讲的框架,指出这句话的逻辑缺陷,并说明需要哪类实证证据才能评判这一政策。
相关 vs. 因果:某市报告"凡是获得政府创业补贴的企业,三年后存活率高达80%,远高于未获补贴企业的60%"。请识别:①这是相关关系还是因果关系?②存在哪种因果识别陷阱?③如何设计一个准实验来检验补贴的真实效果?
方法选择:以下三个研究问题,分别最适合用哪种准实验方法(DiD/RDD/IV)?请说明理由。
理论vs.实证:撒切尔人头税的故事告诉我们什么?如果中国要推行房产税,你认为哪些实证问题是政策设计者必须先回答的?
大数据的价值:为什么大数据(尤其是行政数据)让财政政策评估变得更可信?它解决了什么问题,又带来了哪些新挑战?
寻找你身边的"虚假相关"
请搜索或观察一个日常生活或新闻中出现的"A 与 B 正相关"的说法,然后:
提示:可以从以下领域寻找:医疗与健康、教育与收入、财政政策与经济增长、地方政府支出与民众满意度。
第4讲:公共选择理论
课前预习建议
2025年某市召开出租车调价听证会,到场的12位"消费者代表"中有8位实际上是出租车司机家属。
这是偶然,还是必然?带着你的判断来上第4讲。
第3讲:实证分析的逻辑——我们怎么知道政策有没有用?
"相关不等于因果。这是现代社会科学最重要的一句话。"
——Joshua Angrist,2021年诺贝尔经济学奖得主
朱 奇 | 锦城大学 • 财会学院
财政学 | 第3讲:实证分析的逻辑