面板数据变系数模型
前言
在这一篇文章中,我们将某些影响因素的作用范围扩大,这些因素不仅影响截距项的变动,而且也能影响到斜率项。因素的作用范围就可能有一下几种组合,单独影响截距,单独影响斜率,既影响截距又影响斜率,既不影响截距也不影响斜率(随机效应)。因素又区分为两类,时间因素与个体特质因素。推荐先阅读数据分析-面板数据变截距模型 再阅读本文。
为了方便理解,我们将包含个体特质与时间因素的面板回归方程拆写为:
\(Y_{it}=\alpha_0 +\alpha_i + \lambda_0 +\lambda_t + X_{it}' \beta_i+ X_{it}' \beta_t+ X_{it}' \beta_c + \varepsilon_{it}\)
\(\beta= \beta_i+ \beta_t + \beta_c\)
\(,i = 1,2,3,...,N;t=1,2,3,...,T\)
当然这里的\(\beta_t与\beta_i\)也可以像拆分 \(\alpha和\lambda\)一样,拆分出均值和差异项
项目 | 含义 |
---|---|
\(i\) | 个体标志序数 |
\(t\) | 时间序数 |
\(X_{it}\) | 观测变量,\(K*1\)向量,\((X_{1it,},X_{2it},..,X_{kit})'\) |
\(\beta_i\) | 随个体特质而变动的参数,\(K*1\)向量, \((0,0,...,\beta_i,..0)'\) |
\(\beta_t\) | 随时间而变动的参数,\(K*1\)向量, \((0,0,...,\beta_t,..0)'\) |
\(\beta_c\) | 不变动的参数,\(K*1\)向量, \((\beta_{1},\beta_{2},..0...,\beta_{k})'\) |
\(\beta\) | 总参数向量,\(K*1\)向量, \((\beta_{1},\beta_{2},...,\beta_i,...,\beta_t,...,\beta_{k})'\) |
\(\alpha_0\) | 个体效应在个体维度上的平均值 |
\(\alpha_i\) | 个体效应在个体维度上差异 |
\(\alpha_0+\alpha_i\) | 个体效应引起的截距项 |
\(\lambda_0\) | 时间效应在时间维度上的平均值 |
\(\lambda_t\) | 时间效应在时间维度上差异 |
\(\lambda_0 +\lambda_t\) | 时间效应引起的截距项 |
\(\varepsilon_{it}\) | 随机扰动项 |
固定系数模型
模型
以截距项为个体固定效应,系数为个体固定效应:
\(Y_{it}=\alpha_0 +\alpha_i +X_{it}' \beta_i + X_{it}' \beta_c + \varepsilon_{it}\)
以截距项为个体固定效应,系数为时间固定效应:
\(Y_{it}=\alpha_0 +\alpha_i +X_{it}' \beta_t + X_{it}' \beta_c + \varepsilon_{it}\)
-
以截距项为个体固定效应,系数为个体固定效应,仅考虑第3个参数随个体变化,举例理解:
\(Y_{it}=\alpha_0 +\alpha_i + \beta_1 x_{1it}+\beta_2x_{2it}+ \beta_{3i}x_{3it} + \varepsilon_{it}\)
其中\(x_{1it} 表示第i个个体在t时刻的第1个变量值, \beta_1表示第1个变量前的参数\)
其中\(x_{2it} 表示第i个个体在t时刻的第2个变量值, \beta_2表示第2个变量前的参数\)
其中\(x_{3it} 表示第i个个体在t时刻的第3个变量值, \beta_{3i}表示依赖于第i个个体特质(第i个个体特质是个体分类的类别,表示个体差异影响x_3的斜率)、第3个变量前的参数\) -
以截距项为个体固定效应,系数为时间固定效应,仅考虑第3个参数随时间变化,举例理解:
\(Y_{it}=\alpha_0 +\alpha_i + \beta_1 x_{1it}+\beta_2x_{2it}+ \beta_{3t}x_{3it} + \varepsilon_{it}\)
其中\(x_{1it} 表示第i个个体在t时刻的第1个变量值, \beta_1表示第1个变量前的参数\)
其中\(x_{2it} 表示第i个个体在t时刻的第2个变量值, \beta_2表示第2个变量前的参数\)
其中\(x_{3it} 表示第i个个体在t时刻的第3个变量值, \beta_{3t}表示依赖于第t个时段特质(第t个时段是依据时间段分类的类别,表示时间段变动影响x_3的斜率)、第3个变量前的参数\)
估计方法
- 最小二乘虚拟变量法(LSDV)
引入虚拟变量进行回归
举例,以截距项为个体固定效应,系数为个体固定效应:
考虑\(\beta_2 与 \beta_3\)受到性别的影响
\(Y_{it}=\alpha_0 +\alpha_i + \beta_1 x_{1it}+\beta_{2i}x_{2it}+ \beta_{3i}x_{3it} + \varepsilon_{it}\)
\(=\alpha_0 +\alpha_i +\beta_1 x_{1it}+(\beta_{2}x_{2it}+ \gamma_1 x_{2it}*D_1+ \gamma_2 x_{2it}*D_2)+( \beta_{3}x_{3it} + \eta_1 x_{3it}*D_1+\eta_2 x_{3it}*D_2)+ \varepsilon_{it}\)
\(=\alpha_0 +\alpha_i +\beta_1 x_{1it}+( \gamma_{3}x_{2it}*D_3+ \gamma_1 x_{2it}*D_1+ \gamma_2 x_{2it}*D_2)+ (\eta_{3}x_{3it}*D_3 + \eta_1 x_{3it}*D_1+\eta_2 x_{3it}*D_2)+ \varepsilon_{it}\)
设置虚拟变量:
\(D_1=\begin{cases} 1 &\text{if } 第i个个体性别为男性 \\ 0 &\text{if } 第i个个体性别为其他 \end{cases}\)
\(D_2=\begin{cases} 1 &\text{if } 第i个个体性别为女性 \\ 0 &\text{if } 第i个个体性别为其他 \end{cases}\)
\(D_3=\begin{cases} 1 &\text{if } 第i个个体性别为中性 \\ 0 &\text{if } 第i个个体性别为其他 \end{cases}\)
注意:这里引入m-1个虚拟变量与m个虚拟变量的两种方式等价。
随机系数模型
这个模型是有局限性的:模型多多少少会忽略一些解释变量,因此会导致截距项与解释变量相关。所以说模型设置为个体固定效应的模型很正常。随机变系数效应模型的截距项也应该是随机的,截距项如果不是随机的最好不要用随机变系数效应模型。
模型举例:
Swamy随机模型:
\(Y_i=X_i\tilde{\beta_i}+\varepsilon_i,i=1,2,...,N\)
\(\tilde{\beta_i}=\beta_0+\beta_i\)
\(E(\beta_i)=0_{k *1},\)
\(E(\beta_i\beta_j')=\begin{cases} \Delta_i &\text{ }i=j \\ 0 &\text{ } i \neq j \end{cases}\);
\(E(X_{it}'\beta_i)=0\);
\(E(\varepsilon_i\varepsilon_j')=\begin{cases} \sigma_i &\text{ }i=j \\ 0 &\text{ } i \neq j \end{cases}\);
模型设定检验
由于我们不知道模型中哪些变量的系数是变动的,所以需要依据检验是否某个变量的系数是变动的
- 数据量很大,可以考虑全部变量系数变化
- 依次从全部变量系数不同,m-1个系数不同,m-2个系数不同,...,1个系数不同逐个检验(此方法用于变量个数很多或者虚拟变量个数很多的情形)
LR检验
\(Y_{it}=\alpha_0 +\alpha_i +\beta_1 x_{1it}+(\beta_{2}x_{2it}+ \gamma_1 x_{2it}*D_1+ \gamma_2 x_{2it}*D_2)+( \beta_{3}x_{3it} + \eta_1 x_{3it}*D_1+\eta_2 x_{3it}*D_2)+ \varepsilon_{it}\)
原假设:\(\gamma_1=\gamma_2=\eta_1=\eta_2=0\);(变量的系数不变动)
备择假设:\(\gamma_1,\gamma_2,\eta_1,\eta_2\)不全为0;(变系数模型)
LR检验的无约束回归方程(备择假设成立):
\(Y_{it}=\alpha_0 +\alpha_i +\beta_1 x_{1it}+(\beta_{2}x_{2it}+ \gamma_1 x_{2it}*D_1+ \gamma_2 x_{2it}*D_2)+( \beta_{3}x_{3it} + \eta_1 x_{3it}*D_1+\eta_2 x_{3it}*D_2)+ \varepsilon_{it}\)
计算\(lnL_u\)
LR检验的约束回归方程(原假设成立):
\(Y_{it}=\alpha_0 +\alpha_i + \beta_1 x_{1it}+\beta_{2}x_{2it}+ \beta_{3}x_{3it} + \varepsilon_{it}\)
计算\(lnL_r\)
Swamy检验
\(Y_i=X_i\tilde{\beta_i}+\varepsilon_i,i=1,2,...,N\)
\(\tilde{\beta_i}=\beta_0+\beta_i\)
\(E(\beta_i)=0_{k *1},\)
原假设:\(\beta_0=\beta_1=\beta_2=\beta_3=...=\beta_N\) (不变系数)
备择假设:\(\beta_0,\beta_1,\beta_2,\beta_3,...,\beta_N\)不全相等(变系数)
- 同方差\(var(\varepsilon_i)=\sigma_\varepsilon^2\)
服从F分布 - 异方差\(var(\varepsilon_i)=\sigma_i^2\)
检验统计量为 \(Sw=\displaystyle\sum_{i=1}^N\frac{(\hat\beta_i-\hat\beta_0^*)'X_i'X_i(\hat\beta_i-\hat\beta_0^*)}{\hat\sigma_i^2}\xrightarrow[]{d}\chi^2((N-1)k)(给定N;T\xrightarrow{} \infty时 )\)
\(\hat\beta_0^*=(\displaystyle\sum_{i=1}^N\hat\sigma_i^2X_i'X_i)^{-1}(\displaystyle\sum_{i=1}^N\hat\sigma_i^2X_i'Y_i)\)
模型检验步骤
固定效应
LR逐次检验:
-
原假设:混合回归模型(截距与斜率都不变)
备择假设:截距项与斜率项(k个变量)发生变化
此时:不拒绝原假设,建立混合回归模型,检验结束;拒绝原假设,截距项与斜率项之中至少有一项在变化,因此进入下一步检验。 -
引入截距项的约束函数,验证是否成立
原假设:变量的斜率变化 (约束条件成立)
备择假设:截距项、变量的斜率变化(约束条件不成立)
此时:不拒绝原假设,认为截距项不变。接下来要检验哪些变量的斜率发生变化;拒绝原假设,认为截距项变化,接下来需要检验截距项随时点变化、个体变化、个体时点变化,以及哪些变量的斜率发生变化。 -
在上一步原假设的基础上在引入任意k-1个关于变量系数的约束条件,有1个变量系数自由另外的k-1个约束条件的,认为这1个变量系数为模型唯一变动的变量系数,否则认为至少有2个变量系数变动。
原假设:个体FX变截距,考察其中一个变量变化,另外k-1个变量不发生变化。
备择假设:个体FX变截距,至少有两个变量系数变化。
此时:不拒绝原假设,我们认为个体FE变截距,且只有一个变量斜率发生变动。检验结束。
拒绝原假设,认为截距项发生变动,并且k-1个变量的斜率中至少有一个会变。继续检验。 -
减少1个约束条件个数,重复第三步检验。
随机效应原假设:混合模型
备择假设:截距项、所有变量(k个变量)的斜率都是随机效应。
此时:若不拒绝原假设,表明建立混合(pool)模型,检验到此结束。
若拒绝原假设,建立随机系数模型。
注意:随机系数模型的截距项也应该是随机效应。