工具变量模型随笔
2013-07-06
题记
IV,也就是工具变量模型,是研究如何利用工具变量来解决模型中出现的随机解释变量问题,其是西方计量经济学最近一个较为热门的研究领域。这是我在英国读研时在学习IV时的随笔,用来聊以自慰。该随笔的灵感很大一部分来自于伍德里奇的《计量经济学导论》。由于写得非常浅薄,我乐于接受专家学者们的拍砖。
————————————————————————————
一.IV研究的缘起:不可观测因素引起的随机解释变量问题
我们对于社会现象的理解,是一个从无到有的过程,这个无,在计量模型中就是误差项(error term), 在研究期初,这个error term 就是因变量本身。 如果我们想研究收入的决定因素,假如我们收集到了10000个人的样本,里面张二狗的收入是5000,王麻子的收入是7000,李富权的收入是250………,面对这些不同人的不同收入,我们很想知道,这些不同数字的背后,都有哪些因素在支配着,也就是说,我们很想知道为什么他们的收入会有这样的差别,哪些因素能够解释他们的收入差距。
方法之一就是做计量回归模型,首先是要确定自变量是什么,影响收入的因素可能分为两类,一类是可观察的因素,比如教育,职业,工作年限,年龄,婚姻状态,等等,这些因素客观存在,并且可以进行测量,(比如教育等级可以分为小学,初中,高中,大学,等,婚姻状态可以分为已婚和未婚),而另一类因素,如能力,(没有客观合适的指标进行度量)或者家庭政治背景(因为敏感,被访者也许不愿意回答),从而不能其对之进行有效测量,成为不可观测因素,我们在做回归分析的时候,只可以把可观测的因素作为自变量,而不可观测的因素都放在了误差项中,也就是这个“虚无”之中。在进行回归时,如果可观测的自变量与误差项中的不可观测因素不相关,那一切OK;否则,会出现很严重的问题。计量回归本质是在控制其他变量的基础之上,探究某一个自变量对因变量的独立作用。假如我们要研究收入与教育的问题,教育程度越高,收入也许越高;但是教育程度越高,代表这个人的能力越高,而能力越高,即使他教育程度不高,收入可能也会高,所以教育引起的收入的提高可能不完全是由教育本身引起的,而其中也混杂了个人本身能力的因素。如果需要了解教育对收入提高的“净影响”,我们就必须控制能力大小这个变量,也就是说找两个人,能力完全一样,一个人获得了教育,而另外一个人没有获得教育,观察他们收入的差距,这个差距才能体现出获得教育对于收入的贡献,当然要想获得教育对于收入的“净影响”,我们需要控制更多相关变量,比如家庭政治背景,(家庭政治背景越好,可能获得的教育程度越高,而家庭政治背景好,即使没有较高的教育程度,也可以通过父母的关系,找到好的工作,获得高收入),还有其他很多类似因素,我在这里也不一一赘述了(其实是想不起来了),总之,计量模型追寻的境界是把所有相关变量控制之后,两个人所有其他水平完全保持一致,你拥有了我的全部,我拥有了你的全部,唯一的区别是,我接受了教育,你却没有接受教育,这样形成的收入差距才会是接受教育的净影响。
总结起来,如果这类因素统一称为A,自变量称为X,因变量称为Y,那么这三者之间具有如下关系
X<<-------Y
A------->>X
A------->>Y
如果这个因素出现的话,我们必须把它从误差项中提取出来,作为自变量而加以控制。但是,回到影响收入因素的研究上来,像个人能力,家庭政治背景这样的因素,我们可能根本无法观测到,而如果观测不到,也就无法控制这些因素,在不能控制这些因素的前提下,我们最终得到的回归结果一定是不准确的,也就是有偏的(biased),比如我们通过最小二乘法得到教育程度对于收入的参数是1,也就是每提高一个教育等级,样本平均收入会提高1个单位,但如果家庭政治背景变量没有被观测,那么这个参数会包括三个成分:
一是教育等级对收入的净影响
二是家庭政治背景对于教育等级的影响
三是家庭政治背景对于收入的净影响
三个成分分别是多少?以一种怎样的方式构成?这些疑问使我想起了中国社会学当下流行的一个问题:在社会结构与分层理论中,收入背后代表的经济地位是韦伯所说的社会结构中的一级,中国社会的转型表现之一就是经济地位的获取由行政层级指令向市场等价交换过渡,通过家庭政治关系来进入好的单位从而获得高收入是行政层级指令的表征,而通过投资教育来获得收入提高和经济地位的提升是市场等价交换的重要手段。假如我们想研究中国经济地位获取是否走向市场化,即使我们收集到了足够多的具有代表性的样本,但在不控制家庭政治背景的情况下,我们也不能将估计出来的教育对于收入的参数当做事实定论, 对于这个参数,这里面有多少是教育本身对于收入的影响?又有多少是家庭政治背景影响的结果?这些我们都无从所知。
以上就是随机解释变量的表现,随机解释变量(Stochastic explanatory variables,也叫内生变量,Endogenous variable)是计量经济学理论重点探讨问题,它会造成参数估计结果有偏,使我们无法从研究中提取出来真正确定的社会事实,解释变量问题的来源就是上述所说的遗漏变量问题。除了上述不可观测的自变量导致的遗漏变量之外,自变量与因变量共同的测量误差(measurement error)、互为因果关系(Simultaneity,自变量与因变量互相影响)、方程设定形式问题(Functional form misspecification)都会引起解释变量问题。这些问题的根本特征是,关键自变量为内生变量,一些不可观察的因素会同时影响到这个自变量和因变量的变化,使得估计出来的回归参数不是该关键自变量本身对于因变量的独立作用。对于互为因果关系,我们可以再深挖一下,比如研究犯罪率与警察数量的关系,我们想知道:多增加警察数量会引起犯罪率的下降吗?如果以犯罪率作为因变量,警察数量作为自变量,很可能得到的参数结果为正,也就是警察数量增多反而增加了犯罪率。这是因为犯罪率的增加需要更多的警察来去治理,两者共同影响对方,而其实质就是一些不可观测的因素,比如当地的治安环境,法律对于犯罪的治理程度等因素共同影响了犯罪率与警察数量,导致了正的参数符号。
二.应对随机解释变量问题采取的方法:替代变量与工具变量,孰优孰劣?
关键的问题是,如果遇到随机解释变量问题,我们应当采取怎么的办法?
第一个方法是替代变量(proxy variable),也就是找到可以替代不可观测因素的可观测的变量,前提是这两个变量尽可能高度相关。比如在教育与收入的研究中,如果能力不可观测,我们可以用IQ来替代能力变量,作为控制变量之一。两个变量越相关,随机解释变量问题就会越减轻。但是替代变量在研究的使用并不常用,原因有几点: 一是替代变量不能解决遗漏变量问题,与遗漏变量相关度很高的替代变量基本不存在,如果两者相关程度不高,替代变量不仅不能解决关键自变量的随机解释变量问题,而且替代变量因为其自身与误差项的不可观测因素相关,也面临着解释变量问题。另外的一点也可以从调查各个环节本身所具有的特点分析。调查的流程包括先设计调查问卷,再收集数据,再进行分析。遗漏变量问题最有可能根源于最早期的调查问卷阶段,即使是再有经验,有智慧的学者在初期设计问卷时也不可能把所有问题都考虑清楚,一些新的问题在收集数据,后期处理阶段才有可能幡然醒悟,等到那时,如果再重新搜集替代变量将会耗费大量的人力物力。比如进行调查时,有哪个人会想起来问:“你IQ多少?”
值得说的是,现在很多学者做研究,一般很少自己收集资料,直接都从数据库中抽取一些历史数据,就像伍德里奇书中反复提到的上世纪70-80年代美国教育收入数据,在中国这样的现象就更为普遍了,中国营养健康调查数据,中国农村家庭入户调查数据已经做烂了。因为不能做重复的东西,学者们就绞尽脑汁,希望能挖掘一些新鲜东西,而这些历史数据,由于年代久远,可能一些重要变量在当时并没有被重视,也就没有收集到,学者们无法回到那个年代去重新收集数据,无法从数据本身去寻求突破,也只能去从挖掘数据的方法去找到更多的可能性。
三.工具变量的使用条件,作用和限制
工具变量也许就在这样的背景下产生并被广泛使用起来。当关键自变量x为随机解释变量时(cov(x,u) ≠ 0), 现有的数据中没有能代替不可观测因素的替代变量,得到的关键变量的参数会呈现出不一致(Inconsistency)的特点, 也就是即使我们收集到足够多的数据,样本足够大,但是通过计算得到的参数估计量仍然不能反映出关键自变量对于因变量的独立作用。而工具变量的作用就是在估计的过程中,来斩断关键自变量与不可观测因素的联系,从而获取相对一致的估计量,一个好的工具变量z,具备两个特征,一是与关键自变量相关(cov(z,x) ≠0),二是与不可观测因素不相关(cov(z,u)=0),两个条件缺一不可,而最好的工具变量就是与内生自变量x 100%相关,与不可观测因素u 100%不相关。在回归分析中,所有自变量也是它自身的工具变量,所以这两个条件也是对于回归方程中严格外生自变量(Exogenous variables)的定义。
对于内生变量来说,工具变量所具备的两个条件完全是技术性质的,工具变量的作用是在计算过程中体现出来的,也就是两个条件越充分,通过工具变量得到的参数估计量越可能具备一致性(consistency),而工具变量本身并不触动原本提出的经济理论,也就是说假设X 对于Y 有影响,我们利用工具变量Z来斩断,切除,隔离一些看不见,却又可能干扰到X与Y关系的隐性因素u的影响,从而得出X对于Y的相对精确影响。工具变量好像一个保护罩一样,罩住了X 和 Y这两个小朋友,让他们在里面尽情的玩耍,而坏蛋,恐怖分子都被隔离在了外面。李子奈老师对于工具变量的作用有一个更为精辟的比喻,内生变量好比一个不会喝酒的老板,他如果要陪客户就必须要喝酒,这时他就找个秘书,秘书不是老板,他不能自己去单独陪客户,但他可以协助老板来陪客户喝酒,在这里秘书就好比工具变量,而喝酒就好比计算。秘书喝酒能力越强,老板陪客户的效果就越好,类似的,工具变量越符合两个基本条件,得出的参数估计量越精确。当然,老板可以找更多的秘书来陪酒,相应的,一个内生变量也可以找到两个以上的工具变量来进行计算。
但是一个硬币总会有两个面,使用工具变量也是要付出代价的,使用工具变量会使参数估计值的方差(var(b))增大,从而影响该参数的显著性水平和置信区间。
四.对于工具变量使用的一些问题
在大致了解了工具变量的研究缘起、需满足的条件、作用、限制等因素后,我个人最为关心的问题是,我们通过什么信息能确定要使用工具变量?工具变量如何使用?如何评价一个工具变量?我们可以通过对工具变量在进行回归分析的使用流程进行梳理,从而进行分析。
1) 首先,建立回归模型,根据你要研究的理论,确定因变量Y,和你要研究的关系,比如Y与X1的关系,继而控制其他自变量X2,X3…,Xi,形成回归模型
Y = f( X1,X2,X3……Xi)+ U
当提取所有控制变量后,判断X1是否为内生变量,也就是在误差项中u中,哪些不可观测的因素会影响到X1与Y。(为方便分析,我们假定其余自变量(非X1)都是外生自变量,也就是cov(Xi,U)=0)。注意到,在估计模型之前判断X1是否为内生变量,没有现成的统计方法,完全靠的是研究者的推测和内省(introspection)
2) 如果通过经验的推测和内省判断X1为内生变量,则应需要选取的工具变量,这个工具变量可以是一个或一个以上,为简化分析,我们只选取一个工具变量Z,该工具变量需满足的特征是
a. 不存在于回归模型f中
b. cov(X,Z) ≠0
c. cov(U,Z)=0
a条件告诉我们需要从外在于回归模型的变量中去找工具变量,这点好办。接着,我们可以通过辅助回归的手段来确定b条件是否成立,建立因变量是X1,自变量是由所有外生变量(X2,X3……,还有工具变量Z)的辅助回归模型,通过统计方法判断Z对于X1的独立影响是否显著,若显著,则证明两者相关;而对于c条件的验证,也就是在判断工具变量与误差项是否相关的问题上,我们依然没有现成的统计手段,依然只能依靠研究者的推断和内省
如果工具变量符合上述这些条件,我们可以相对放心的使用IV,但从中我们可以发现,在判断X1是否为内生变量(cov(X1,U)),工具变量Z是否与误差项U相关(cov(Z,U))的两个关键问题上,在做回归前,研究者依靠的只是经验的推断,而非基于统计算法的推断,这就给IV使用的准确性,有效性增加了极大的不确定性。 尽管后来研究者发明了一些统计方法来验证这两个条件是否成立,但仍存在巨大的争议,比如教科书中出现的Hausman LM-test on exogeneity,让我们先回顾一下它的具体步骤:
1) 建立回归模型,regress Y on X1,X2……,(其中X1是可疑的内生变量),得到估计的回归残差Uhat,
2) 建立辅助回归1,regress X1 on Z(工具变量)得到残差Vhat,在这里,我们假设工具变量与Uhat 不相关(cov(Z,U)=0),
3) 建立辅助回归2,regress Uhat on X1(内生变量),X2……(外生变量),Vhat,利用LM test 测试关于 Vhat 的估计参数是否显著,如果显著,则证明X1是内生变量
注意到这个Hausman test的前提是假定cov(Z,U)=0,如果这个假定不成立,那么Hausman test也就无效。这就稍显牵强了,我们原本的目的是要判断两个条件是否成立,可现在却为了判断第一个条件是否成立而强制假定第二个条件一定成立,就好像判断一个人是否喜欢同性恋和是否喜欢看毛片一样,这本来是两个问题,可我们却为了判断他是否喜欢同性恋而假定他一定喜欢看毛片。不知这样的比喻是否恰当,但我只想说,Hausamn的test的确有点牵强附会。同样,对于第二个条件的判断,工具变量Z是否与误差项U相关(工具变量是否内生),教科书中也给出了一个统计检验的方法,sargan检验,它也面临着类似的问题,在这里我就不一一赘述了。