在简单回归模型(5.16)中,我们在前4个高斯-马尔可夫假定下证明了形如式(5.17)的估计量是斜率β的
一致估计量。给定这样一个估计量,定义β0的一个估计量为
证明。
一致估计量。给定这样一个估计量,定义β0的一个估计量为
证明。
在简单回归模型教材(5.16)中,我们在前4个高斯-马尔科夫假定下证明了,形如教材(5.17)的估计量是斜率β1的一致估计量。给定这样一个估计量,定义β1,的一个估计量为。
证明plimβ0=β0
(x)=x2或g(x)=log(1+x2) 。定义zi=g(xi)定义一个斜率估计量为
(i)使用RETURN.RAW中的数据,估计了如下方程:
检验这些解释变量在5%的显著性水平上是否联合显著。存在个别显著的解释变量吗?
(ii)现在使用netinc和salary的对数形式重新估计这个模型
第(i)部分的结论有没有什么变化?
(iii)在第(ii)部分中,我们为什么不用dks和eps的对数?
(iv)总的看来,股票回报可预测性的证据是强还是弱?
考虑简单回归模型
y=β0+β1x+u
令z为x的二值工具变量。运用教材(15.0),证明Ⅳ估计量β1可以写成:的那部分样本中yi和xi的样本平均值,而的样本平均值。该估计量称为群组估计量,它是由沃德(Wald,1940)最先提出。
假设决定y的总体模型是,而这个模型满足假定MLR.1~MLR.4。但我们估计了漏掉x3的模型。回归的OLS估计量。(给定样本中自变量的值)证明的期望值是
在教材例10.6中,我们估计了费尔预测美国总统选举结果的一个模型的变型。
(i)对于这个方程中的误差项序列无关,你有何论据?(提示:总统选举多长时间进行一次?)
(i)在将教材(1023)的OLS残差对滞后残差进行回归时,得到p=-0068和sep)=0.40。你对ut中的序列相关有何结论?
(iii)在检验序列相关时,这个应用中的小样本容量会令你不放心吗?
利用FERTIL3.RAW中的数据。
(i)以时间为横轴,画出gfr的曲线。在整个样本期间,它包含了明显的向上或向下的趋势吗?
(ii)利用直至1979年的数据,估计gfr的立方时间趋势模型(即将gfr对r,t2,t3和截距项进行回归)。评论这个回归的R²。
(ii)用第(ii)部分中的模型,计算从1980年到1984年的提前一期预测误差的MAE。
(iv)利用到1979年为止的数据,做Agfr1对一个常数的回归。这个常数统计显著异于0吗?如果我们假定gfr1服从一个随机游走,同时也假定漂移项为0,这样做合理吗?
(v)用随机游走模型预测从1980年到1984年的gfr:gfrn+1的预测值无非就是gfn。求出MAE。它与第(ii)部分中得到的MAE有何区别?你更喜欢哪一种预测方法?
(vi)用直至1979年的数据,估计gfr的AR(2)模型。第二个滞后项显著吗?
(vii)用AR(2)模型求出1980~1984年的MAE。这个更一般的模型比随机游走模型的样本外预测效果更好吗?
利用BARIUM.RAW中的数据。
(i)用前119次观测(即不包含1988年的最后12个月观测),估计线性趋势模型。这个回归的标准误是什么?
(ii)同样用除了最后12个月以外的所有数据,估计chnimp的一个AR(1)模型。把这个回归的标准误与第(i)部分中的标准误相比较。哪一个模型提供了更好的样本内拟合?
(iii)用第(i)和第(ii)部分中的模型计算1988年12个月的提前一期预测误差。(每个方法都应该得到12个预测误差。)计算并比较这两种方法的RMSE和MAE。就样本外提前一期预测而言,哪种方法效果更好?
(iv)在第(i)部分的回归中添加月度虚拟变量。它们是联合显著的吗?(当我们检验联合显著性时,不必担心误差中轻度的序列相关。)
利用401KSUBS.RAW中的数据。
(i)计算样本中netta的平均值、标准差、最小值和最大值。
(ii)检验假设:平均netta不会因为401(k)资格状况而有所不同,使用双侧备择假设。估计差异的美元数量是多少?
(iii)根据第7章的计算机练习C7的第(ii)部分,e401k在一个简单回归模型中显然不是外生的,起码它随着收入和年龄而变化。以收入、年龄和e401k作为解释变量估计nettfa的一个多元线性回归模型。收入和年龄应该以二次函数形式出现。现在,估计401(k)资格的美元效应是多少?
(iv)在第(ii)部分估计的模型中,增加交互项e401k(age-41)和e401k-(age-41)2。注意样本中的平均年龄约为41岁,所以在新模型中,e401k的系数是401(k)资格在平均年龄处的估计效应。哪个交互项显著?
(v)比较第(iii)和(iv)部分的估计值,401(k)资格在41岁处的估计效应差别大吗?请解释。
(vi)现在,从模型中去掉交互项,但定义5个家庭规模虚拟变量:fsizel,fsize2,fsize3,fsize4和fsize5。对有5个或5个以上成员的家庭,fsize5等于1。在第(ii)部分估计的模型中,增加家庭规模虚拟变量,记得选择一个基组。这些家庭虚拟变量在1%的显著性水平上显著吗?
(vii)现在,针对模型
在容许截距不同的情况下,做5个家庭规模类别的邹至庄检验。约束残差平方和SSR,从第(iv)部分得到,因为那里回归假定了相同斜率。无约束残差平方和其中SSRf是从仅用家庭规模f估计的方程中得到的残差平方和。你应该明白,无约束模型中有30个参数(5个截距和25个斜率),而约束模型中有10个参数(5个截距和5个斜率)。因此,带检验的约束个数是q=20,而且无约束模型的df为9275-30=9245。
其中,因为滞后支出变量,第一个可用年份(基年)是1993年。
(i)用混合OLS估计模型,并报告通常的标准误。为使得ai的期望值可以非零,你应该与年度虚拟变量一起包含一个截距项。支出变量的估计效应是什么?求OLS残差。
(ii)lunchit系数的符号在意料之中吗?解释系数的大小。你认为学区的贫穷率对考试通过率有很大的影响吗?
(iii)利用的回归计算AR(1)序列相关的一个检验。你应该在回归中使用1994-1998年的数据。验证存在很强的正序列相关,并讨论为什么。
(iv)现在用固定效应法估计方程。滞后的支出变量仍显著吗?
(v)你为什么认为在固定效应估计中,注册学生人数和午餐项目变量不是联合显著的?
(vi)定义支出的总(或长期)效应为的标准误。