服务粉丝

我们一直在努力
当前位置:首页 > 情感 > 故事 >

准确认识回归分析中的内生性问题

日期: 来源:中国社会科学网收集编辑:中国社会科学网

  在回归分析中,解释变量的内生性可能会导致估计量的非一致性。很多文献都把内生性处理作为实证研究的重要内容。本文从来源、影响、处理等方面对内生性问题的基本思想进行梳理,希望能为经济实证分析提供些微的借鉴。

  有限样本偏误普遍存在

  回归分析中的内生性,通俗来讲,是指回归方程中解释变量与误差项相关。来自误差项的冲击会导致被解释变量发生变化,但我们无法直接观测误差项的冲击,只能看到解释变量和被解释变量的变化。因此,在估计参数时,估计量就可能把被解释变量的变化归因于与误差项相关的解释变量,尽管这一变化是由误差项而不是解释变量导致的。从而,解释变量的系数会被系统性地高估或低估,产生估计偏误。

  当解释变量内生,即与当期(或个体自身)的误差项相关时,普通最小二乘估计量(OLS)的概率极限不等于真值,从而导致真实参数不可识别,这就是非一致估计。当解释变量弱外生,即与当期(或个体自身)的误差项不相关,而是与其他时点(或其他个体)的误差项相关,OLS估计量虽然在有限样本下有偏误,但是其概率极限等于真值,这就是一致估计。

  那么,内生解释变量对模型中外生解释变量的系数估计有什么影响呢?此时,除非外生解释变量与内生解释变量都不相关,否则,其系数的OLS估计量也是非一致的。而且,实证分析中,解释变量严格外生(与任何时点任何个体的误差项都不相关)是很难满足的,所以,有限样本偏误是普遍存在的。

  内生性来源辨析

  内生性的来源主要是四种:变量的联立性、模型错误设定、样本截取、测量误差。

  第一,联立性。变量的联立性是指,多个变量之间是相互依赖、同时决定的。如价格与交易量、工资与就业水平、利率与货币流动性等。在一个回归方程中,如果其中一个变量是被解释变量,其他与之联立的变量就必然是解释变量,这些解释变量就一定是内生的。这里需要说明的是,联立和反馈是两个不同的机制。区别在于,联立变量是同时决定的,而反馈则不一定,其影响的很可能是受反馈变量在下一期而不是当期的取值。变量之间的反馈机制不一定会导致内生性,但联立变量则一定会导致内生性。

  第二,模型误设。模型误设导致的内生性主要源于遗漏变量,就是必要的解释变量被有意或无意忽略了。此时,遗漏变量对被解释变量的影响就只能由误差项来反映,误差项不再是纯粹的随机误差了。因为社会经济变量之间通常都具有一定的相关性,包含遗漏变量的误差项就可能与模型中的解释变量相关,从而导致其内生性。显然,因为同期变量之间通常会有一定的相关性,遗漏必要的解释变量通常会导致模型中所有的解释变量都是内生的。除了遗漏必要的解释变量,回归方程函数形式设定错误也会导致误差项含有遗漏的系统性信息,从而导致内生性。自回归模型中误差项的自相关,如动态模型的序列相关和空间自回归模型的截面相关,也必然会导致自回归项的内生性。

  第三,样本截取。样本截取是指被解释变量存在一个观测阈值,只有大于(或小于)该阈值时才能被观测。样本截取分为两种情形:一是被截去的个体或样本点是可知的,尽管该样本点的被解释变量不可观测,但解释变量是可观测的,这样的样本被称为Tobit样本。二是被截去的个体或样本点是未知的,样本中没有被截去的样本点的任何信息,这样的样本被称为Truncated样本。无论是Tobit样本还是Truncated样本,因为误差项的下尾部(或上尾部)被截掉了,如果基于具有完整信息的子样本进行均值回归,那么其误差项的均值就不为0,而会随着解释变量的变化而变化。此时,被解释变量的条件期望是两部分之和:一是解释变量与其系数的乘积,二是误差项的条件均值,该均值是解释变量的函数。显然,截取样本的后果与遗漏变量类似,这里被遗漏的是误差项的条件均值,它与解释变量相关。所以,直接基于具有完整信息的子样本进行均值回归,解释变量就具有内生性,会导致非一致估计。

  第四,解释变量有测量误差。当解释变量有测量误差时,测量误差就需要由模型的误差项来抵消,所以解释变量和误差项含有符号相反的测量误差,从而导致解释变量与误差项相关,其影响类似于遗漏了必要的解释变量。

  统筹解决内生性问题

  解决内生性问题,一个常用的手段就是使用工具变量(IV)。需要满足两个条件:一是外生性,至少是弱外生,也就是与模型当期或个体本身的随机冲击不相关。实际上,我们通常能够找到的工具变量都是弱外生的,严格外生的工具变量是很难找到的。二是与解释变量相关。在满足外生性的前提下,相关性越高越好。

  如果工具变量是弱外生的,比如,以内生解释变量的滞后项作为工具变量,尽管我们可以得到一致的估计结果,但是,在有限样本下,估计量仍然是有偏误的。而且,IV估计量是以增大方差为代价换取偏误的减小。也就是说,与OLS估计量相比,IV估计量具有更大的方差。工具变量与内生解释变量的相关性越弱,估计方差就越大,这就是所谓的弱工具变量问题。显然,IV估计量是在偏误和方差之间进行权衡。

  除了方差问题,在使用IV估计量测度处置效应时,还有局部识别的问题。在基于IV估计量测度处置效应时,所选的IV一般都是虚拟变量。在样本中,可能会有一些个体的选择行为不受这一虚拟变量的影响,也就是所谓的“不追随者”。对于这部分“不追随者”,我们无法识别其身份,更无法识别其处置效应。

  显然,工具变量不是处理内生性的“万能钥匙”。那么,除了工具变量,还能怎么办呢?

  其一,完备模型。显然,对于遗漏变量所导致的内生性,应该优先通过模型的完备设定来避免。因为遗漏变量通常会导致模型中所有解释变量都是内生的,从而为工具变量集的选择增加了难度。而模型的设定要有经济理论、传导机制或先验信息为基础,不能是单纯的数据实验,否则,模型设定的完备性就无从判定。在处置效应的测度中,如果处置变量是内生的,产出变量的条件期望不等于解释变量与其系数的乘积,二者之差是两个逆米尔斯(mills)比率。那么,基于正态性假定,通过Heckman两步法把两个逆mills比率作为解释变量加入模型中,就可以通过线性回归识别处置效应了。

  其二,偏误修正。动态面板模型存在固有的内生性,因为个体效应导致误差项存在序列相关,从而导致滞后被解释变量是内生的。不过,动态面板模型的LSDV估计量尽管是非一致的,但与IV估计量相比,却具有最小的方差。现有文献给出了LSDV估计量的极限偏误。那么,可以通过迭代算法,对LSDV估计量进行偏误修正,这样既保留了LSDV的方差优势,又减小了估计偏误。所以,对动态面板模型而言,IV估计量或广义矩方法(GMM)不是必然的选择。

  其三,ML估计。众所周知,对内生选择模型,除了Heckman两步法,我们还可以进行ML估计。而且,对于很多存在内生性的模型,如空间自回归模型,都可以进行ML估计,包括准极大似然估计(QMLE)、条件极大似然估计(CMLE)等。

  其四,DID如何避免内生性?在实证分析中,DID方法被广泛应用来测度处置效应。而之所以要选用DID,肯定是条件独立性假设不成立,无法通过处置个体和非处置个体在截面上的比较来识别处置效应。DID基于非处置个体控制不可观测的时间效应,进而通过处置个体在处置前后的对比来识别处置效应。显然,如果处置个体和非处置个体具有不同的时间效应,处置个体的部分时间效应就会被遗漏在误差项中,处置效应的估计就是非一致的,这类似于模型中遗漏了必要的解释变量。那么如何判断处置个体与非处置参照个体之间有相同的时间效应呢?在回归方程中,相同的时间效应意味着,处理组和参照组在处置之前所有时点的级差系数均为0。这是一个多约束的检验,F统计量、似然比(LR)统计量、瓦尔德(Wald)统计量、拉格朗日乘数(LM)统计量都是适用的。需要注意的是:“相同时变性”的检验结论来自“不拒绝原假设”,此时,显著性水平越低(α越大),检验结论越可信。

  最后要说明一点,即使解释变量内生,协整方程的OLS或FMOLS、DOLS估计量仍是超一致的,一般不需要工具变量。总之,内生性的处理要具体问题具体分析,没有也不会有通用的范式。

  (作者单位:华中科技大学经济学院)


  • 来源:中国社会科学网-中国社会科学报

  • 作者:杨继生

相关阅读

  • Polars 速度极快的数据处理第三方模块

  • Polars 是一个速度极快的 DataFrames 库。它拥有以下特性:1.多线程2.强大的表达式API3.查询优化下面给大家简单介绍一下这个模块的使用方式。1.准备请选择以下任一种方式输入
  • 线扫激光算法原理

  • 点击下方卡片,关注“新机器视觉”公众号重磅干货,第一时间送达一:线扫激光算法原理激光器发出的激光束经准直聚焦后垂直入射到物体表面上,表面的散射光由接收透镜成像于探测器的
  • 【Python教程】运算符

  • 运算符:以1 + 2为例,1和2被称为操作数,“+” 称为运算符。Python语言支持以下类型的运算符:算术运算符比较(关系)运算符赋值运算符逻辑运算符位运算符成员运算符身份运算符三目运
  • “双一流”博士生,一作发Nature!

  • 点击关注,化学科讯!虽然近年基于超导量子线路系统的量子信息处理领域研究发展迅猛,但由于量子计算机体系的错误率远高于经典数字计算机,想要构建具有实用价值的通用量子计算机,量
  • Cloudflare 如何大规模运行 Prometheus

  • 作者 | Lukasz Mierzwa 译者 | 平川
    策划 | 褚杏娟 我们使用 Prometheus 来监控构成我们全球网络的所有不同的硬件和软件。Prometheus 让我们可以随时度量其健康状况和性
  • 专家谈术语 | 对抗样本

  • 本期发布术语热词:对抗样本(Adversarial Sample/Example)对抗样本(Adversarial Sample/Example)作者:陈恺、赵月(中国科学院信息工程研究所)InfoBox:中文名:对抗样本英文名:Adversari
  • 贝多芬的DNA,透露了哪些信息?

  • 出生于德国波恩的路德维希·范·贝多芬(1770-1827),是历史上最伟大的音乐家之一。与他的音乐同样著名的,还有他坎坷多舛的命运。长期以来,肝硬化被认为是导致他在56岁时死亡的最

热门文章

  • 甘肃漳县:干部情撒麦田 助力夏粮归仓

  • 炎炎夏日,农事繁忙;麦穗飘香,颗粒归仓。近日,漳县马泉乡工会组织开展“干部情撒麦田,助力夏粮归仓”志愿服务行动,切实发挥广大干部职工的示范带动作用,扎实细

最新文章

  • 准确认识回归分析中的内生性问题

  •   在回归分析中,解释变量的内生性可能会导致估计量的非一致性。很多文献都把内生性处理作为实证研究的重要内容。本文从来源、影响、处理等方面对内生性问题的基本思想进行
  • 聊城:执“健康之笔”描绘城市“文明风景线”

  • 医疗服务持续优化,健康环境日益改善,志愿活动富有成效……在聊城市创建全国文明城市的大环境中,全市卫生健康系统坚持把人民满意作为评价标准,开展百日攻坚行动,打造一流服务窗口
  • 新宁县退役军人事务局召开清廉机关建设动员会

  • 本报讯(通讯员:尹硕 莫茜)3月28日下午,新宁县退役军人事务局召开清廉机关建设暨““明方向、立规矩、正风气、强免疫”干部队伍作风建设专项活动动员会。会议回顾总结了2022年党
  • 西北旺镇强化消费者合法权益保护优化营商环境

  • “您好!您的营业执照悬挂在哪里?”“我们接到投诉举报,请您配合调查。”连日来,西北旺镇市场监督管理所在辖区内持续开展高频高压执法检查,用心用情应对各类投诉举报案件,脚踏实地
  • “千乡万绿”志愿服务进大集

  •   为深入开展学雷锋志愿服务活动,日前,日照市“千乡万绿”环保志愿服务活动在东港区南湖镇上湖大集启动。  环保志愿者们现场讲解环保法律法规及相关政策,发放环保小礼品,鼓