第五章 相关分析和回归分析
复习要点
一、相关关系
变量之间存在着密切的联系但又不是严格的、确定的关系称为相关关系。相关分析的主要内容包括以下几个方面:
(一)确定现象之间有无关系,这是相关分析的起点;
(二)确定相关关系的表现形式;
(三)测定相关关系的密切程度。
二、相关表和散点图
对于两个变量戈和Y,通过观察或实验,我们可以得到若干组数据,记为(xi,Yi)(i=1,2,…,n),将这些数据按x值由大到小(或由小到大)以序列表表示,即构成相关表。
将一一对应的(xi,Yi)描点于坐标系上,即构成散点图,又称为相关图。通过散点图所反映出的坐标点的分布状况可以直观地判断变量之间是否存在相关关系,以及相关的形态、方向。
三、相关的形态(线性相关和非线性相关)
若变量Y与变量x的相关关系表现为线性组合,或绘制的散点图近似地表现为一条直线或直线带,则称之为线性相关。
若变量Y与变量x是非线性组合,或绘制的散点图近似地表现为一条曲线,则称之为非线性相关或曲线相关。
四、相关的方向(正相关和负相关)
当两个变量的变动方向总体上相同,即一个变量增加,另一个变量也相应地增加,或一个变量减少,另一个变量也相应地减少时,两个变量之间的关系属于正相关。
若两个变量变动的方向总体上相反,即一个变量增加的同时,另一个变量随之减少时,两个变量之间的关系属于负相关。
五、Pearson相关系数
相关系数是测定变量之间关系密切程度的量,它能够以数字准确地描述变量之间的相关程度。要反映不同类型变量数据的相关程度,有不同的相关系数。重点介绍Pear—son相关系数。
1.定义:Pearson相关系数是用来度量两个定量变量x和Y之间的线性相关程度,如人均可支配收入与消费支出的相关程度、身高与体重之间的相关程度等等。
2.公式:

3.性质:(1)r的取值范围在一1~1,即一1≤r≤1。r>0表明x与Y之间存在正线性相关关系;r<0表明x与Y之间存在负线性相关关系;r值越接近l(或一l)就越正(或负)相关,越接近0,就越不相关。r=1或r=一1表明2与Y之间为完全相关关系(实际上就是函数关系)。
(2)r具有对称性。x与Y之间的相关系数rxy和y与x之间的相关系数ryx相等,即rxy=ryx。
(3)r数值大小与x和Y的数据原点及计量尺度无关。改变x和Y的数据原点或计量尺度,并不改变r数值大小。
(4)r仅仅是X与Y之间线性关系的一个度量,它不能用于描述非线性关系。这意味着,r=0只表示两个变量之间不存在线性关系,并不表明变量之间没有任何关系,比如他们之间可能存在非线性关系。
(5)r虽然是两个变量之间线性关系的一个度量,却不一定意味着X与Y一定有因果关系。
检验:相关系数的检验可以用t分布检验进行。检验的具体步骤如下:
首先确定原假设
编:两变量之间不存在线性关系(H0:ρ=0)瑟。:两变量之间存在线性关系(H。:ρ≠0)
其次,计算统计量t值

最后,利用其对应的概率值进行判断,如果概率值小于或等于指定的显著性水平(一般α=0.05),则我们可以拒绝原假设,接受备择假设,即两变量之间存在线性相关关系。否则不能拒绝原假设,可以认为两变量之间不存在显著的相关关系。
六、一元线性回归分析
1.相关分析和回归分析的区别:
相关分析旨在测度变量之间关系的密切程度,它所实用的测定工具就是相关系数。而回归分析则是考察若干自变量X与因变量Y之间的数量变化规律的统计方法和技术。
2.回归分析的主要内容:
(1)从样本数据出发,确定变量之间的数学关系式;
(2)估计回归模型参数;
(3)对所确定的关系式进行各种统计检验,并从影响某一特定变量的诸多变量中找出影响显著的变量。
3.一元线性回归模型
理论回归模型:Y=βo+β1x+ε
估计的回归方程:ý=b0+b1x
4.参数的最小二乘估计
用普通最小二乘法得到参数估计值的具体计算公式为:

5.回归系数的含义:Y=b0+b1x中的b0是直线的结局,表示当解释变量为零时Y的平均值。回归系数b1是直线的斜率,表示解释变量x每增加一个单位,被解释变量将相应地平均变化b1个单位。
6.回归系数的检验和评价
(1)经济意义检验 利用相关的经济学原理及我们所积累的丰富的经验,对所估计的回归方程的回归系数进行分析与判断,看其能否得到合理的解释。
(2)同归方程的统计检验
包括回归方程的显著性检验(F检验)和对同归系数的检验(t检验)。一冗线性回归分析时,由于只有一个解释变量,因此t检验与F检验的结果是一致的。
(3)回归方程的评价(拟合程度分析)
判定系数R
2的公式为:

判定系数R2的取值范围是[0,1],R2越接近于l,表明回归平方和占总变差平方和的比重越大,回归直线于个观测点越接近,回归直线的拟合程度就越好。反之,R2越接近于0,回归直线的拟合程度越差。

估计标准误差是残差平方和的均方根,用S
e来表示,其计算公式为: 估计标准误差是度量各观测点在直线周围分散程度的一个统计量,反映了实际观测值Y
i与回归估计值ý
i之间的差异程度。若各观测点全部落在直线上,则S
e=0,此时用自变量来预测因变量是没有误差的。
七、多元线性回归分析
1.回归模型与回归方程
多元线性回归模型:Y=βo+β1x1+… +βkxk+ε
估计的线性经验回归方程:ý=bo+b1x1+…+bk#xk#
2.参数的最小二乘估计,使残差的平方和最小,即

求解b0,b1,…bk的标准程组,即可得到b0,b1,…bk。
3.评价与检验 多元线性回国方程的评价可以根据多重判定系数、估计标准误差等统计量来完成。判定系数的公式为:

R
2越接近于l,回归直线的拟合程度越好,反之,R
2越接近于0,回归直线的拟合程廑越差。
多元线性回归中的估计标准误差是对多元回归模型中误差项ε方差的一个估计,公式为:

式中,k是自变量的个数。其判定情况同一元线性回归模型。
多元回归中,t检验和F检验不再等价。线性回归方程的显著性检验主要是检验因变量同多个自变量的整体线性关系是否显著。回归系数的检验则是对每个回归系数分别进行单独的检验,以判断每个自变量对因变量的影响是杏显著。