bdiff 命令的 “美中不足”
在使用 bdiff
命令进行系数组间差异检验的操作过程中,大家可能会产生如下两点困惑。
两组变量对应相同的约束
困惑之一是两组变量对应相同的约束。我们需要保证参与系数比较的两组样本 (已婚组=1、单身组=0),在分组回归中的自变量是对应相同的。在某些情形下,两组样本中自变量对应相同的要求其实很难达到。特别是,当我们在分组回归中引入了大量虚拟变量 (如地区固定效应、年份固定效应、乃至地区与年份的交叉固定效应) 的时候,“已婚组” 和 “单身组” 这两组样本在某些虚拟变量中可能并不存在观测值。
具体来说,设想我们设置了区县固定效应,在回归方程中引入了 29 个区县虚拟变量 (假设全样本中有 30 个区县)。“已婚组” 样本中可能没有受访者居住在 “区县 2 和区县 3” (这意味着,对于已婚组样本而言,区县 2 和区县 3 这两个虚拟变量对应系数无法估计);而 “单身组” 样本中可能没有受访者居住在区县 4 和区县 5 (这意味着对于未婚组样本而言,区县 4 和区县 5 这两个虚拟变量对应系数无法估计)。
此时,我们就违反了 “两组变量对应相同” 的要求,无法直接运行 bdiff
命令来检验系数的组间差异。在上述的研究情形中,即使在每个区县中都有 “未婚组” 样本的受访者居住,也仍然无法直接运行 bdiff
命令。因为在这个时候,已婚组样本只有 27 个虚拟变量参与系数比较,而未婚组样本却有 29 个虚拟变量参与系数比较,我们仍会遭遇 “两组自变量个数不相同” 的问题。
非线性模型的系数比较问题
根据标准的计量理论,非线性模型 (如 Logit、Probit) 的分组回归系数不能直接比较,因为存在 “误差项的方差设定不同、系数测度标准不同、遗漏无关变量对系数测度的干扰” 等问题 (Mize, 2019;Wooldridge, 2010;洪岩璧, 2015),并且非线性模型的回归系数一般也不能直接度量某个解释变量对结果变量的边际影响 (Marginal Effect)。学者一般建议将非线性模型的回归系数转化为平均边际效应 (Average Marginal Effect, AME)。平均边际效应又称为 平均偏效应 (Average Partial Effect, APE)。
与非线性模型的回归系数不同,平均边际效应系数在不同组别间、或在不同模型设定下均具有较好的可比性。因此,如果想要比较分组回归系数的组间差异,学者往往建议比较不同组的平均边际效应 (而非回归系数) 是否存在组间差异。然而,从 bdiff
的说明性文件来看,针对非线性模型,bdiff
命令主要检验的是 probit 或 logit 回归系数的组间差异,不能直接用来检验平均边际效应系数的组间差异。
本文出自:https://www.lianxh.cn/news/67d472fe60f62.html