《精通计量》是一本关于计量经济学的权威著作,系统地介绍了计量模型的原理和应用。通过深入浅出的讲解,读者可以全面了解计量经济学的基本概念和方法,掌握实践中常用的技巧和工具。这本书不仅适合经济学相关专业的学生,也对从业者具有很高的参考价值。
精通计量读后感第一篇
IV利用部分/不完整的随机匹配
3.1 特许学校之谜
特许学校:KIPP抽签项目
排他性约束(exclusion restriction):中签产生的唯一差别在于就读KIPP的概率
检查平衡性:基线标准化成绩
IV三方面要求:
(1) 第一阶段(First Stage)存在,即Z对X产生因果影响
(2) 独立性假设(Independence Assumption),IV需随机分配/和随机分配一样好
(3) 排他性约束(Exclusion Restriction):Z只能通过X对Y产生影响
检验三方面:
(1) 考察Z和X之间的相关性,可以检验第一阶段
(2) 考察Z = 0和1时协变量的平衡性,可以检验独立性假设
(3) 排他性约束不易检验,但意味着第一阶段估计值很小的一个样本只能产生一个较小的简约式估计值
该例中:Z:录取(抽中签),X:入学结果(就读KIPP),Y:考试成绩
因此,就读KIPP对成绩的因果效应
结果:就读KIPP提高了数学成绩半个标准差,效应显著
第一阶段(First Stage):
简约式(Reduced Form):
局部平均处理效应(LATE):
LATE为简约式与第一阶段估计值之比
四类人:always taker, never taker, complier, defier
在此总结一下四种平均处理效应(treatment effects averaged):
ToT (Treatment of the Treated): always taker + complier
ATE (Average Treatment Effect): always taker + never taker + complier
LATE (Local Average Treatment Effect): complier
ITT (Intention to Treat): never taker + complier
无defier假设:单调性(monotonicity),即IV只从一个方向改变受影响的申请人
因果链条:Z → X → Y
由于LATE为处理对complier所产生的平均因果效应,因而可写为:
除了LATE,还可以有ToT:
LATE和ToT往往不一致
3.2 家暴狂徒
MDVE家暴实验:柔性处理(警告、隔离)和非柔性处理(逮捕)
Z:随机分配柔性处理
D:执行柔性处理
Y:6个月内,是否会在同一地点再次发生家暴
第一阶段:
简约式:
上式亦为意向处理效应(ITT),即对Complier + Never Taker的平均处理效应
LATE:简约式(ITT)与第一阶段(遵守实验)的比值
LATE = 0.114 / 0.786 = 0.145,结果显著
该例中,不存在Always Taker,因此LATE = ToT,即:
3.3 人口爆炸
1. ALS研究
探究问题:家庭规模是否负面地影响教育水平(ALS研究),两个实验:
【双胞胎实验】
Z:第二胎为双胞胎
X:家庭规模
Y:头胎成年人的教育水平
结果:不显著
问题:生育多胞胎的母亲往往年纪较大,且某些种族和族裔群体的妇女更容易生育多胞胎,因而Z可能不满足独立性假设
【性别实验】
Z:前两个孩子性别相同时 = 1,性别相反时 = 0
X:家庭规模
Y:头胎成年人的教育水平
好处:受同性别子女影响的家庭数量远大于受双胞胎影响的家庭数量,且Z与包括生育年龄和种族在内的母亲特征无关
结果:不显著
无法直接检验排他性约束,但可以提供一些证据
要担心简约式显著不为零,但相应的第一阶段不存在的情况,因为:这意味着除了X(家庭规模)之外,还有另外一些作用渠道将Z和Y联系起来,从而违背排他性约束
2. 2SLS
使用2SLS的好处:(1)可以有效使用多个IV(2)可控制协变量,减轻因IV不完美而产生的OVB
2SLS通过两个阶段算出:
第一阶段:将X分解为两个部分。一个与u相关且引起问题;一个与u无关。
用Z去OLS回归X,其中截距 + 系数Z为与u无关的一项,并计算X的OLS预测值
第二阶段:用预测(拟合)值X去OLS回归Y,得到LATE估计量
例中,考虑工具变量Z(双胞胎)和控制变量A:
第一阶段拟合值:
因而第二阶段为:
考虑工具变量Z(双胞胎)和W(前两胎性别),以及控制变量A和B:
第一阶段为:
简约式为:
则第二阶段为:
从而找到需要的LATE估计值
汇总IV与单个IV所得到的估计值相差不大,但SE要小很多
附录
当仅有一个IV且不存在协变量时,可以用第一阶段和简约式的回归系数表示LATE:
即,LATE可表示为协方差之比(IV公式)
若用2SLS,则第二阶段为:
因而可以证明2SLS与IV公式等价(系数相等),即:
即使增加协变量,2SLS与IV公式同样等价,即:
2SLS的SE和bias详见附录(p. 98)
精通计量读后感第二篇
根据NHIS的调查:
结果:健康水平
处理:拥有医疗保险
由于有selection bias,不能直接比较
个体i健康水平Yi有两个潜在结果:Y1i和Y0i,则医保的因果(处理)效应为Y1i – Y0i
平均因果效应ATE = E[Y1i – Y0i] = E[Y1i] – E[Y0i]
虚拟变量表示处理/未处理:Di = 1, 0
有医保的平均健康水平 = E[Yi | Di = 1]
无医保的平均健康水平 = E[Yi | Di = 0]
组间期望之差 = E[Yi | Di = 1] – E[Yi | Di = 0] = E[Y1i | Di = 1] – E[Y0i | Di = 0]
令κ为平均因果效应(假设常数因果效应),即Y1i = Y0i + κ,则组间期望之差:
= E[Yi | Di = 1] – E[Yi | Di = 0]
= E[Y1i | Di = 1] – E[Y0i | Di = 0]
= E[Y0i + κ | Di = 1] – E[Y0i | Di = 0]
= κ + E[Y0i | Di = 1] – E[Y0i | Di = 0]
即组间期望之差 = 平均因果效应 + 选择偏误
根据大数定律,实验性随机分配可以消除选择偏误
当Di随机分配时,由于处理组和控制组来自同一个总体,它们每方面都相同,包括E[Y0i],因此E[Y0i | Di = 1] = E[Y0i | Di = 0],则组间均值之差 = κ
检查两个组是否相似:平衡性检查(checking for balance)
RAND一例中,医保计划并未提高健康水平
俄勒冈州:抽签Medicaid,30,000人处理组,45,000人控制组
结果:心理健康而非身体健康改善
附录:统计工具
平均值
期望E[Yi]与样本规模无关,为总体变量,即给定一个总体,只有一个E[Yi]
参数(parameters):特定总体的固定特征,e.g., E[Yi]
样本统计量(sample statistics):随样本不同而不同的量,e.g., 样本均值Ȳ
Ȳ为E[Yi]的估计量(estimator)
无偏估计量(unbiased estimator):样本统计量的期望 = 总体参数
样本均值无偏性:Ȳ为E[Yi]的无偏估计量:E[Ȳ] = E[Yi]
变异性
样本方差(sampling variance) vs. 总体方差(population variance)
样本方差:
总体方差:
修正后的样本方差为总体方差的无偏估计
总体方差为总体的一个固定特征,因此总体标准差:
根据样本均值无偏性,样本均值的总体方差:
它被称为抽样方差 (sampling variance):度量了重复抽样中样本统计量的变异性,而不是原始数据的离散性
抽样方差由样本规模决定:
随机抽样保证统计独立,因而一组统计独立的观察值之和的方差 = 这组统计独立的观察值的方差之和;由于从同一总体抽取,每次抽样都具有相同的方差
随着样本容量n趋于无穷,抽样方差趋于0,样本均值趋于总体均值
样本均值的标准误:
通常而言,用样本均值标准误的估计值:
t统计量与中心极限定理
构造样本均值的t统计量:
零假设为μ = 0时,t为样本均值和估计的标准误之比
CLT:只要样本规模足够大,t统计量的抽样分布就会趋近标准正态分布N (0, 1)
CLT意味着t统计量的(大样本)分布与计算这个统计量的数据的分布无关
置信区间:构造与数据相一致的所有可能的μ的取值:
应该在95%的时间里都能包含E[Yi]
成双结对
RCT中,假设检验:处理组和对照组的均值是否相同
计算均值差的方差:
第一个等号:两个统计独立的变量之差的方差 = 两个变量各自方差之和
第二个等号:参见抽样方差公式
因此,均值差的SE:
实际中,我们用估计的SE:
其中S(Yi)为混合样本标准差 (pooled sample standard deviation),将处理组和控制组中数据放在一起计算得到
零假设下,t统计量为:
精通计量读后感第三篇
本章重点在于附录部分,尤其是CEF条件期望函数、回归解构、OVB公式推导,正文部分废话较多,不过读一读也无妨
2.1 双校记
Ceteris paribus:其他条件不变,避免选择偏误
解决:控制协变量的匹配(matching)估计
关键的概括性指标:学生提交申请和获得录取的学校分别具有的特征
大学匹配矩阵:
分为ABCD四组,组内具有相似的职业抱负和能力,因而每组内部的比较更具可比性
组C和D不含信息量,因为他们都属于处理组/控制组,无法估计私立大学教育的处理效应
对组A和B进行平均收入之差(组A为–5000,组B为30,000),接着简单平均/构造加权平均值,即(3/5 * –5000) + (2/5 * 30,000) = 9000
2.2 跑回归
回归:一种自动配对器
回归估计值:简化的匹配矩阵中,针对各类构造出的组别进行多种匹配比较后,计算出的加权平均值
OLS:最小化残差平方和,且对每个观测值赋予相同权重
其中,GROUP为Barron匹配的组别
自我显示模型:只包含SAT和申请的学校数量,得到的回归结果类似Barron匹配
考虑协同效应:在自我显示模型中用SAT分数替换私立大学虚拟变量P
结果表明:进入私立大学影响未来收入的效果不显著
2.3 遗漏变量
假设遗漏变量为虚拟变量A
长回归:
短回归:
OVB formula:
则OVB = 段回归系数 – 长回归系数 = {A和P之间的关系}×{A在长回归中产生的影响}
OVB为数学结果,与回归的因果解释无关
譬如,在私立学校一例中,设遗漏变量为FS(家庭规模),则:
第一项为FS和P之间的关系,用FS辅助回归P:
长回归为:
则OVB:
结果“稳健”:当模型包含一组核心控制变量之后,无论模型加入或剔除其他特定变量,得到的处理效应对此都不敏感
附录:回归理论
1. 条件期望函数CEF
给定Xi时,Yi的条件期望,即E[Yi | Xi]
很多感兴趣的CEF不止一个条件变量,当具有K个条件变量时,CEF为:
E[Yi | X1i,…, XKi]
其中,E[Yi | X1i = x1,…, XKi = xK]表示当K个条件变量取固定值时,Yi的总体平均值
在公私立学校一例中,假设工资对数的CEF为其他变量(SAT分数、父母工资、申请和录取大学的选拔性水平既定等)的线性函数,即:
若该CEF为线性,则回归系数恰等于该CEF回归的系数:
CEF回归可以写出按照组别进行的比较差异:
即(1)根据其他变量的取值,针对协变量的每个可能组合(2)按照进入私立大学(P = 1)和公立大学(P = 0)比较匹配的学生的平均收入(3)对每个组别得到的比较差异进行平均,从而得到一个总的平均值
回归的两个特点:
(a) 若CEF线性,则回归就能找到这个CEF函数
(b) 若CEF非线性,则回归能够找到对CEF的最佳线性拟合(线性模型拟合值和CEF之差最小化),即回归能够找到这个CEF函数的一个好的近似,接近按照协变量进行匹配,对每个组别中处理组-控制组差异进行平均后得到的结果
【特例:虚拟变量】
则:
当仅有一个虚拟变量时,CEF为线性:
CEF线性,所以回归可以完美拟合CEF,因而回归斜率系数必然为β,即虚拟变量取1和0时期望值之差
2. 二元回归与协方差
协方差的定义:
Cov(Xi, Yi) = E[(Xi – E[Xi])(Yi – E[Yi])]
三个重要性质:
(a) 一个变量与其自身的协方差为其方差,即Cov(Xi, Xi) = Var(Xi) = σX2
(b) 若E[Xi] = 0或E[Yi] = 0,则Cov(Xi, Yi) = E[Xi Yi]
证明:Cov(Xi, Yi) = E[Xi Yi] – E[Xi] E[Yi]
根据上式,当Xi与Yi相互独立,则Cov(Xi, Yi) = 0
(c) Xi, Yi构成的线性方程,即Wi = a + bXi,Zi = c + dYi,则Cov(Wi, Zi) = bd Cov(Xi, Yi)
在二元回归中,我们找最小化残差平方和的a和b,其中
则最小化RSS的解为:
注意到,当两个变量Xi, Yi不相关时,Cov(Xi, Yi) = 0,其斜率系数b为0,反之亦然
3. 拟合与残差
回归将因变量拆分成两部分:拟合值 + 残差:
回归残差与回归元X无关,即若用残差回归X,系数均为0
回归残差与拟合值无关(由于拟合值为回归元X的线性组合)
考虑回归的拟合值:
则残差为:
残差满足两个性质:
(1) 残差的样本均值和期望值为0
(2) 在总体与样本中都与所有回归元不相关,与相应的拟合值也不相关
即:
这两个性质等价于最小化残差平方和的一阶条件
4. 回归解构与OVB
在多元回归中,若存在X1i和X2i,其中X2i为控制变量,则X1i的系数为:
其中残差与回归:
残差与产生它的回归元无关;即,控制了X2i后,X1i的系数为只包含未能被X2i解释的那部分 X1i的二元回归中得到的系数
回归解构可以推广至多元,譬如存在K个回归元时,第k个回归元的系数:
其中,残差由模型中其他K – 1个协变量对Xki进行回归后得到
OVB公式推导:
推导运用的协方差性质:(1)变量线性组合的协方差(2)常数与任何变量的协方差 = 0(3)变量与自己的协方差 = 该变量的方差(4)残差与产生这个残差的回归元不相关
同理,可以推广至多个遗漏的控制变量
5. 对数变形
考虑:
由于P为唯一的虚拟变量,CEF为线性,即回归完美拟合CEF:
考虑为个体i构造变化,即当P = 0和1时:
则:
变形后:
当△%Y很小时,二者非常近似,因而告知近似百分比
6. 回归的标准误SE和置信区间
在第一章附录中,样本均值标准误:
类似地,二元回归中,斜率系数的SE为:
其中,σe是回归残差的标准差,σX是回归元X的标准差
两个方面:
(1) 残差的方差很大,意味着回归曲线的拟合程度不高
(2) 回归元X变动越大,随着σX的增加,有助于确立斜率,估计值更加精确
类似地,在多元回归模型中,若同方差,则:
当同方差假设不满足时,用稳健标准误RSE: