第四章多元线性回归模型

阅读：评论：0

2024年2月3日发(作者：)

第四章多元线性回归模型

在一元线性回归模型中，解释变量只有一个。但在实际问题中，影响因变量的变量可能不止一个，比如根据经济学理论，人们对某种商品的需求不仅受该商品市场价格的影响，而且受其它商品价格以及人们可支配收入水平的制约；影响劳动力劳动供给意愿（用劳动参与率度量）的因素不仅包括经济形势（用失业率度量），而且包括劳动实际工资；根据凯恩斯的流动性偏好理论，影响人们货币需求的因素不仅包括人们的收入水平，而且包括利率水平等。当解释变量的个数由一个扩展到两个或两个以上时，一元线性回归模型就扩展为多元线性回归模型。本章在理论分析中以二元线性回归模型为例进行。

一、预备知识

（一）相关概念

对于一个三变量总体，若由基础理论，变量x1,x2和变量y之间存在因果关系，或x1,x2的变异可用来解释y的变异。为检验变量x1,x2和变量y之间因果关系是否存在、度量变量x1,x2对变量y影响的强弱与显著性、以及利用解释变量x1,x2去预测因变量y，引入多元回归分析这一工具。

将给定x1i,x2i条件下yi的均值

E(yi|x1i,x2i)01x1i2x2i （4.1）

定义为总体回归函数（Population Regression Function,PRF）。定义yiE(yi|x1i,x2i)为误差项（error term）,记为i，即iyiE(yi|x1i,x2i)，这样yiE(yi|x1i,x2i)i，或

yi01x1i2x2ii （4.2）

（4.2）式称为总体回归模型或者随机总体回归函数。其中，x1,x2称为解释变量（explanatory variable）或自变量（independent variable）；y称为被解释变量（explained variable）或因变量（dependent variable）；误差项解释了因变量的变动中不能完全被自变量所解释的部分。

在总体回归模型（4.2）中参数0,1,2是未知的，i是不可观察的，统计计量分析的目标之一就是估计模型的未知参数。给定一组随机样本(yi,x1i,x2i),i1,2,,n，对（4.1）式进行估计，若E(yi|x1i,x2i),0,1,2的估^^^^计量分别记为yi,0,1,2，则定义（4.3）式为样本回归函数

yi01x1i2x2i （i1,2,,n）（4.3）

注意，样本回归函数随着样本的不同而不同，也就是说0,1,2是随机变量，它们的随机性是由于yi的随机性（同一组(x1i,x2i)可能对应不同的yi）、x1,x2各

^^^^^^^

自的变异、以及x1,x2之间的相关性共同引起的。定义yiyi为残差项（residual

term）,记为ei，即eiyiyi，这样yiyiei，或

yi01x1i2x2iei （i1,2,,n）（4.4）

（4.4）式称为样本回归模型或者随机样本回归函数。样本回归模型中残差项ei可视为总体回归模型中误差项i的估计量。

（二）多元线性回归模型的矩阵表示

多元线性回归模型的参数估计比一元线性回归模型要复杂得多，为了便于计算和分析，便于将结果由三变量总体推广到一般的多变量总体，引入矩阵这一工具简化计算和分析。

设(yi,x1i,x2i),i1,2,,n是取自总体的一组随机样本。在该组样本下，总体回归模型（4.2）式可以写成方程组的形式

y101x112x211

y201x122x222

^^^^^^^

yn01x1n2x2nn

利用矩阵运算，可表示为

y11x11y1x12

2yn1x1ny11x11y1x212记y，Xyn1x1nx21x22x2n102 （4.5）

12nx2110x22,1,2

3x2nn则在该组样本下，总体回归模型的矩阵表示为

yX （4.6）

^^0^记1,e^2e1e2

en^则样本回归模型的矩阵表示为

yXe （4.7）

（三）模型假定

假定1 回归模型是参数线性的，并且是设定正确的。

假定2 随机误差项与解释变量不相关。即

cov(xji,i)0，j1,2。

如果解释变量是非随机的，则该假设自动满足。

假定3 零均值假定。即

E(i)0，i1,2,,n

假定4 同方差假定。即

var(i)2，i1,2,,n

假定5 无自相关假定。即两个误差项之间不相关

cov(i,j)0

ij，i1,2,,n，j1,2,,n

假定6 解释变量x1与x2之间不存在完全共线性，即两个解释变量之间无确切的的线性关系。

假定7 正态性假定。即

i～N(0,2)，i1,2,,n

（四）参数估计与估计量的分布

系数向量的OLS估计为

(XTX)1XTy （4.8）

其中，XT为X的转置矩阵。在随机误差项服从正态分布的假定下，系数向量的估计量也服从正态分布，即

～N(,2(XTX)1) （4.9）

记C(XTX)1的第j个主对角元素为cjj，则

j～N(j,2cjj) （4.10）

有了系数估计量的分布，就可以对总体参数做假设检验。与双变量总体相同，总体误差i是不可观察的，因而其方差是未知的。若用的无偏估计量2代22^^^^替2，则OLS估计量服从自由度为n3的t分布，而不是正态分布，即

jjse(j)^^～t(n3) （4.11）

其中，se(j)2cjj，2（五）预测原理

^^^e2in3。

回归分析的目的之一是利用回归模型预测因变量。假设三变量总体的回归模型为（4.2），即

yi01x1i2x2ii （4.2）

在一组随机样本(yi,x1i,x2i),i1,2,,n下，利用OLS求得样本回归函数为（4.3）

yi01x1i2ix2i （i1,2,,n）（4.3）

给定样本外一点xf(1,x1f,x2f)T，则因变量yf的点预测为

yf01x1f2x2f （4.12）

点预测yf的标准误为

se(yf)^^T11xT

f(XX)xf

（4.13）^^^^^^^^^因变量yf的置信度为1的区间预测为

[yft2(n3)se(yf),

yft2(n3)se(yf)]

（4.14）

^^^^二、案例

[案例1] Woody餐馆的选址分析

Woody餐馆是一家价位适中、24小时营业的家庭连锁店，公司邀请你决策下一家连锁店的选址问题。你决定建立一个回归模型来解释每一家连锁餐馆的毛销售额Y（the gross sales volume）,通过文献的阅读，你认为以下变量对毛销售额的影响较大，

N =竞争变量：餐馆位置半径2里以内市场直接竞争者的数量；

P=人口：餐馆位置半径3里以内人口的数量；

I=收入：餐馆位置半径3里以内家庭平均收入。

并且通过调研，你获得了33家Woody餐馆连锁店的数据。

[案例2] 经济形势和实际工资对人们工作意愿的影响

在第三章，我们根据劳动经济学理论，分析了经济形势对人们工作意愿的影响存在两种效应：受挫工人效应和增加工人效应；并且利用1980-2002年的数据实证了受挫工人效应占主导地位。

但根据劳动经济学理论，影响人们工作意愿的因素，除了经济形势以外，还有实际的工资水平。从理论上说，实际工资增加对劳动供给具有两种效应：替代效应与收入效应。替代效应趋于使劳动供给增加，而收入效应则趋于使劳动供给降低，两种效应的相对影响取决于家庭的偏好（参考文献[4]，p49）。

本案例考察实际工资对人们工作意愿是否有影响，以及在有影响的情况下，那种效应占优。数据见表3.1。

三、实验目的

[案例1] Woody餐馆的选址分析

1、绘制Y对N、P、I的散点图，并在散点图中附加回归线。

2、建立Y对N、P、I的线性回归模型，并定性分析解释变量N、P、I对Y的影响。

3、利用样本数据及OLS法对回归模型进行估计，并报告回归结果。

4、观察回归系数的显著性和方程的显著性，并解释回归系数的含义。

[案例2] 经济形势和实际工资对人们工作意愿的影响

1、绘制clfpr对ahe82的散点图，并附回归线，观察城市劳动参与率与实际工资之间的线性关系。

2、建立clfpr对ahe82的一元线性回归模型，利用1980-2002年的数据估计模型，并观察回归系数的显著性和方程的显著性。

3、同时考虑经济形势与实际工资对人们工作意愿的影响，建立二元线性回归模型，利用1980-2002年的数据估计模型，观察回归系数的显著性和方程的显著性，并解释回归系数的经济含义。

4、对上面（2）与（3）中估计结果的差别进行解释。

5、模型的选择问题，在以下三个模型之间，哪个模型更好呢？

clfprt01cunrtt （Ⅰ）

clfprt01ahe82tt （Ⅱ）

clfprt01ahe82t2cunrtt （Ⅲ）

四、实验原理

五、实验步骤

[案例1] Woody餐馆的选址分析

180,000160,000140,000180,000160,000140,000180,000160,000140,000YY120,000100,00080,000024N6810120,000100,00080,0000100,000P200,000300,000Y120,000100,00080,00010,00020,000I30,00040,000

图4-1 Y对N、P、I的散点图

1、打开Eviews工作文件，按住Ctrl键，点击工作文件目录中的序列Y、N、P、I图标，点击鼠标右键，点击Open/as Group，出现包含序列Y、N、P、I的组对象窗口。

点击组对象窗口工具栏的View按钮，选择Graph，在Specifi选项中选择

Scatter，在Fit lines中选择Regression Line，在Multiple中选择Multiple

graphs-First ,设定完毕后点击确定按钮，则出现Y对N、P、I的三张散点图，点击鼠标右键，选择Copy，将散点图复制到Word文档中，如图4-1所示。

2、Y对N、P、I的线性回归模型为

Yi01Ni2P（4.15）

i3Iii

一般来说，人口越多，餐馆的毛销售额越大；人们的收入水平越高，餐馆的毛销售额越大；竞争者的数量越多，餐馆的毛销售额越低。即P和I对Y有正的影响，N对Y有负的影响，从而2,3的预期符号为正，1的预期符号为负。图4-1散点图中回归线的斜率与理论的预期是一致的。

3、在文件窗口点击object/new object,在出现的对象类型中选择equation,在对象名中填写eq1,点击OK，出现对话框图4.2

图4.2 回归方程的设定

在估计方法中选择最小二乘法，样本范围填写1到30。设定完毕后点击确定。出现图4.3

图4.3 方程估计的输出

根据图4.3，报告估计结果如下

Y = 102192.4 - 9074.67*N + 0.35*P + 1.29*I

（2052.67）（0.073）（0.54）

-4.42 4.87 2.37

R=0.58

4、从估计输出结果可知，回归系数的符号方向（正、负）和大小均与理论分析一致，t统计量的值显示也在0.05的显著性水平下显著（这一点也可以从边际概率值观察到），F统计量的值为15.64（相应的概率值为0.000003），表明三个解释变量对被解释变量联合显著。

多元回归系数的含义为，当其他变量（控制变量）不变时，该变量对因变量的边际影响。对于本例各系数的含义为，收入增加一个单位会使餐馆的销售收入增加1.29个单位；人口增加一个单位会使餐馆的销售收入增加0.35个单位；竞争者的数量增加一个单位将使餐馆的销售数量减少9074.67个单位。

[案例2] 经济形势和实际工资对人们工作意愿的影响

在以下操作中，假设包含clfpr、 ahe82和cunr三个序列的Eviews工作文件已经存在。

1、打开Eviews工作文件，建立包括序列ahe82和clfpr的组对象，点击组对象窗口工具栏的View按钮，选择Graph，在Specifi选项中选择Scatter，在Fit lines中选择Regression Line，设定完毕后点击确定按钮，出现图4.4。

图4.4 clfpr对ahe82的散点图

由散点图可见，clfpr与ahe82之间存在非常弱的线性关系，回归线斜率为负，且接近于水平线。

2、建立一元线性回归模型如下：

clfprt01ahe82tt （4.16）

用1980-2002年的数据估计上述模型，估计结果如图4.5所示

图4.5 clfpr对ahe82回归的估计结果

从图4.5的t统计量和概率值均可知，实际工资对劳动参与率没有显著影响，拟合优度（0.024118）很低，调整的拟合优度更是为负值，F统计量和概率值也显示方程常数项和解释变量（ahe82）对因变量（clfpr）的联合影响不显著。回归的结果与理论分析相悖。

3、同时考虑经济形势与实际工资对人们工作意愿的影响，建立二元线性回归模型如下

clfprt01ahe82t2cunrtt （4.17）

利用1980-2002年的数据估计模型，估计结果如图4.6所示

图4.6 clfpr对ahe82和cunr回归的估计结果

由图4.6中间部分的t统计量和概率值可知，解释变量ahe82和cunr均在0.05的水平上对clfpr有显著影响；调整的拟合优度为0.750205，拟合度较高；

F统计量的值为34.03611，相应的概率值为0.000000，表明ahe82和cunr对clfpr的联合影响显著。

解释变量ahe82和cunr的回归系数分别为-1.41和-0.67，它们的经济含义为，在cunr保持不变的条件下，实际小时工资增加1美元，劳动参与率降低1.41个百分点，表明实际工资对劳动供给影响的收入效应占优，即收入效应大于替代效应；在ahe82保持不变的条件下，失业率上升1个百分点，劳动参与率降低0.67个百分点，表明在剔除了实际工资对劳动供给的影响之后，失业率对劳动供给的影响依然是受挫效应占优。

4、在（2）的一元回归模型中，估计的结果表明，ahe82对劳动参与率没有显著的影响，但在引入的解释变量cunr后，即在（3）中的二元回归模型中，ahe82对劳动参与率的影响在0.05的水平下却是显著的，为什么会出现这种差别呢？

为了解释一元回归估计结果与多元回归结果的差别，现来观察clfpr、ahe82与cunr的相关系数矩阵(显示组对象相关系数矩阵的Eviews操作见第二章)，如图4.7所示。

图4.7 clfpr、ahe82与cunr的相关系数矩阵

由图4.7可知，cunr和ahe82与clfpr的相关系数分别为-0.155299和-0.843967，均为负相关。在（2）中的一元回归模型中，ahe82的回归系数-0.884518中包含了cunr通过ahe82对clfpr的间接影响，这种间接的影响是正方向的，使得ahe82对clfpr的影响被高估；而在（3）中的多元回归模型中，因为剔除了这种正方向的间接影响，使得ahe82对clfpr的直接影响增加为-1.41，并且影响由不显著到显著。

另外，也可注意到在（3）中的多元回归模型中，cunr的回归系数-0.671631与clfpr对cunr的一元回归系数（见第三章案例[1]）-0.646948的变化，同样是因为clfpr对cunr的一元回归系数-0.646948中包含了ahe82通过cunr对clfpr的间接影响，同样间接的影响也是正方向的，（3）中的多元回归模型中，cunr的回归系数-0.671631是剔除了这种间接影响之后，cunr对clfpr的直接影响。

5、显然，模型（Ⅲ）最好。首先，模型（Ⅲ）包含了模型（Ⅰ）和模型（Ⅱ）；其次，也是最重要的，模型（Ⅲ）更符合经济学的相关理论，计量分析必须建立

在相关的理论基础之上；最后，模型（Ⅲ）的一些统计指标最好，比如，模型（Ⅲ）调整的拟合优度为0.75，是最高的。

六、作业

身高、性别对体重的影响

分析：因变量是体重，自变量是身高、性别。一般来说，身高越高体重越大，男生比女生的体重重。

模型1

weight01height

模型2

weight01gender

模型3

weight01gender2height

模型1

Variable

HEIGHT

R-squared

Adjusted R-squared

S.E. of regression

Sum squared resid

Log likelihood

F-statistic

Prob(F-statistic)

Coefficient

-70.64247

0.753300

Std. Error

15.85933

0.095412

t-Statistic

-4.454317

7.895229

Prob.

0.0000

54.45556

8.378894

6.587053

6.642604

6.609455

1.890423

0.414639 Mean dependent var

0.407987 S.D. dependent var

6.446918 Akaike info criterion

3657.523 Schwarz criterion

-294.4174 Hannan-Quinn criter.

62.33465 Durbin-Watson stat

0.000000

模型2

Variable

GENDER

R-squared

Adjusted R-squared

S.E. of regression

Sum squared resid

Log likelihood

F-statistic

Prob(F-statistic)

Coefficient

50.36364

10.52208

Std. Error

0.895382

1.435805

t-Statistic

56.24822

7.328346

Prob.

0.0000

54.45556

8.378894

6.646172

6.701723

6.668573

2.041313

0.378990 Mean dependent var

0.371933 S.D. dependent var

6.640330 Akaike info criterion

3880.270 Schwarz criterion

-297.0777 Hannan-Quinn criter.

53.70466 Durbin-Watson stat

0.000000

模型3

Variable

HEIGHT

GENDER

R-squared

Coefficient

-29.61103

0.495394

4.623668

Std. Error

26.17719

0.162065

2.367796

t-Statistic

-1.131177

3.056761

1.952730

Prob.

0.2611

0.0030

0.0541

54.45556

0.439218 Mean dependent var

Adjusted R-squared

S.E. of regression

Sum squared resid

Log likelihood

F-statistic

Prob(F-statistic)

0.426326

6.346278

3503.947

-292.4871

34.07025

0.000000

8.378894

6.566379

6.649706

6.599982

2.004144

S.D. dependent var

Akaike info criterion

Schwarz criterion

Hannan-Quinn criter.

Durbin-Watson stat

本文发布于:2024-02-03 19:03:06，感谢您对本站的认可！

本文链接：https://www.4u4v.net/it/170695820750990.html

上一篇：SPSS基本操作步骤详解

下一篇：windowscmake使用方法

标签：回归模型影响变量解释

留言与评论（共有 0 条评论）

第四章 多元线性回归模型

第四章多元线性回归模型