第 7 章 岭回归

Post on 05-Jan-2016

175 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

第 7 章 岭回归. 7.1 岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析 7.4 岭参数 k 的选择 7.5 用岭回归选择变量 7.6 本章小结与评注. 一、普通最小二乘估计带来的问题. §7.1 岭回归估计的定义. 当自变量间存在复共线性时,回归系数估计的方差就很大, 估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。. 例 7.1 假设已知 x 1 , x 2 与 y 的关系服从线性回归模型 y =10+2 x 1 +3 x 2 +ε. §7.1 岭回归估计的定义. - PowerPoint PPT Presentation

TRANSCRIPT

第 7 章 岭回归

7.1 岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析7.4 岭参数 k 的选择7.5 用岭回归选择变量7.6 本章小结与评注

§7.1 岭回归估计的定义一、普通最小二乘估计带来的问题

当自变量间存在复共线性时,回归系数估计的方差就很大, 估计值就很不稳定,下面进一步用一个模拟的例子来说明这一点。

例 7.1 假设已知 x1 , x2 与 y 的关系服从线性回归模型

y=10+2x1+3x2+ε

§7.1岭回归估计的定义

§7.1岭回归估计的定义

§7.1岭回归估计的定义二、岭回归的定义

岭回归 (Ridge Regression, 简记为 RR) 提出的想法是很自然的。 当自变量间存在复共线性时,| X′X|≈ 0 ,我们设想给 X′X加上一个正常数矩阵 kI,( k > 0) ,那么 X′X+kI接近奇异的程度就会比 X′X接近奇异的程度小得多。 考虑到变量的量纲问题,我们先对数据做标准化,为了记号方便,标准化后的设计阵仍然用 X表示

§7.1岭回归估计的定义我们称 yXIXXβ -1)k((k)ˆ

为 β 的岭回归估计,其中 k 称为岭参数。

由于假设 X已经标准化,所以 X′X就是自变量样本相关阵,( 7.2 )式计算的实际是标准化岭回归估计。 ( 7.2 )式中因变量观测向量 y可以经过标准化也可以未经标准化。显然,岭回归做为 β的估计应比最小二乘估计稳定,当 k=0 时的岭回归估计就是普通的最小二乘估计。

( 7.2 )

§7.1岭回归估计的定义

k 0 0.1 0.15 0.2 0.3 0.4 0.5 1.0 1.5 2 3

(k)β 1ˆ 11.31 3.48 2.99 2.71 2.39 2.20 2.06 1.66 1.43 1.27 1.03

(k)β 2ˆ -6.59 0.63 1.02 1.21 1.39 1.46 1.49 1.41 1.28 1.17 0.98

表 7.2

§7.1岭回归估计的定义

§7.2 岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定( 7.2 )式中因变量观测向量 y 未经标准化。

显然只有当k=0时,E[ (0)β ]=β ;当k≠0时, (k)β 是β的有偏估计。

要特别强调的是 (k)β 不再是β的无偏估计了,

有偏性是岭回归估计的一个重要特性。

§7.2 岭回归估计的性质 性质2 在认为岭参数k是与y无关的常数时, yXIXXβ -1)k((k)ˆ

是最小二乘估计β的一个线性变换,也是y的线性函数。

因为 yXIXXβ -1)k((k)ˆ = yXXXXXIXX -1-1 )()k(

= βXXIXX ˆ -1)k(

因此,岭估计 (k)β 是最小二乘估计β的一个线性变换,

根据定义式 yXIXXβ -1)k((k)ˆ 知 (k)β 也是y的线性函数。

这里需要注意的是,在实际应用中,由于岭参数k总是要通过数据来

确定,因而k也依赖于y,因此从本质上说 (k)β 并非β的线性变换,也不是

y的线性函数。

§7.2 岭回归估计的性质 性质3 对任意k>0 ‖, β ‖ ≠0,总有

‖ (k)β ‖ ‖< β ‖

‖这里 ‖ 是向量的模,等于向量各分量的平方和。

这个性质表明 (k)β 可看成由β进行某种向原点的压缩,

从 (k)β 的表达式可以看到,当k→∞时, (k)β →0,

即 (k)β 化为零向量。

§7.2 岭回归估计的性质

§7.3 岭迹分析

§7.3

岭迹分析

§7.4 岭参数 k 的选择 一、岭迹法

岭迹法选择 k 值的一般原则是:

( 1 )各回归系数的岭估计基本稳定;( 2 )用最小二乘估计时符号不合理的回归系数,其岭

估计的符号变得合理;( 3 )回归系数没有不合乎经济意义的绝对值;( 4 )残差平方和增大不太多。

§7.4 岭参数 k 的选择

§7.4 岭参数 k 的选择 二、方差扩大因子法

方差扩大因子cj j度量了多重共线性的严重程度,计算岭估计

(k)β 的协方差阵,得

D( (k)β )=cov( (k)β , (k)β )

=cov((X′ X+kI )-1X′ y,(X′ X+kI )-1X′ y)

=(X′ X+kI )-1X′ cov(y,y)X(X′ X+kI )-1

=σ 2(X′ X+kI )-1X′ X(X′ X+kI )-1

=σ 2(ci j(k))

式中矩阵Cij(k)的对角元 cjj(k)就是岭估计的方差扩大因子。

不难看出,cjj(k)随着k的增大而减少。

选择k使所有方差扩大因子 cjj(k)≤10。

§7.4 岭参数 k 的选择 三、由残差平方和来确定 k值

岭估计在减小均方误差的同时增大了残差平方和,我们希望岭回归的残差平方和 SSE ( k )的增加幅度控制在一定的限度以内,可以给定一个大于 1 的 c 值,要求:

SSE ( k )< cSSE ( 7.3 )

寻找使( 7.3 )式成立的最大的 k 值。在后边的例子中我们将会看到对该方法的应用。

§7.5 用岭回归选择变量岭回归选择变量的原则:

( 1 )在岭回归中设计矩阵 X已经中心化和标准化了,这样可以直接比较标准化岭回归系数的大小。可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量。

( 2 )随着 k 的增加,回归系数不稳定,震动趋于零的自变量也可以剔除。 ( 3 )如果依照上述去掉变量的原则,有若干个回归

系数不稳定,究竟去掉几个,去掉哪几个,这并无一般原则可循,这需根据去掉某个变量后重新进行岭回归分析的效果来确定。

§7.5 用岭回归选择变量例 7.2 空气污染问题。 Mcdonald 和 Schwing 在参考文献[ 18

]中曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系。考虑了 15 个解释变量,收集了 60组样本数据。

x1—Average annual precipitation in inches 平均年降雨量x2—Average January temperature in degrees F 1月份平均气温x3—Same for July 7月份平均气温x4—Percent of 1960 SMSA population aged 65 or older 年龄 65岁以上的人口占总人口的百分比x5—Average household size 每家人口数x6—Median school years completed by those over 22 年龄在 22岁以上的人受教育年限的中位数

§7.5 用岭回归选择变量x7—Percent of housing units which are sound & with all facilities 住房符合标准的家庭比例数x8—Population per sq. mile in urbanized areas, 1960 每平方公里人口

数x9—Percent non-white population in urbanized areas, 1960 非白种人占总人口的比例x10—Percent employed in white collar occupations 白领阶层人口比

例x11—Percent of families with income < $3000 收入在 3000美元以下的家庭比例x12—Relative hydrocarbon pollution potential 碳氢化合物的相对污

染势x13— Same for nitric oxides 氮氧化合物的相对污染势x14—Same for sulphur dioxide 二氧化硫的相对污染势x15—Annual average % relative humidity at 1pm 年平均相对湿度y—Total age-adjusted mortality rate per 100,000 每十万人中的死亡人数

§7.5 用岭回归选择变量计算 X′X 的 15个特征为:

4.5272 , 2.7547, 2.0545, 1.3487, 1.2227

0.9605, 0.6124, 0.4729, 0.3708, 0.2163

0.1665, 0.1275, 0.1142 , 0.0460, 0.0049

条件数

396.30918.9230049.0/5275.4/ 151 k

注:以上特征根是按照原文献的计算方式,自变量观测阵未包含代表常数项的第一列 1 ,与用 SPSS 计算结果有所不同

§7.5 用岭回归选择变量

§7.5 用岭回归选择变量进行岭迹分析 把 15 个回归系数的岭迹画到图 7.4 中,我们可看到,当 k=0.20 时岭迹大体上达到稳定。按照岭迹法,应取 k=0.

2 。 若用方差扩大因子法,因 k=0.18 时,方差扩大因子接近于 1 ,当 k 在 0.02~ 0.08 时,方差扩大因子小于 10 ,故应建议在此范围选取 k 。 由此也看到不同的方法选取 k 值是不同的。

§7.5 用岭回归选择变量

在用岭回归进行变量选择时,因为从岭迹看到自变量x4,x7,x10,x11 和 x15 有较稳定且绝对值比较小的岭回归系数,根据变量选择的第一条原则,这些自变量可以去掉。 又因为自变量 x12 和 x13 的岭回归系数很不稳定,且随着 k 的增加很快趋于零,根据上面的第二条原则这些自变量也应该去掉。 再根据第三条原则去掉变量 x3 和 x5 。 这个问题最后剩的变量是 x1 , x2 , x6 , x8 , x9 , x1

4 。

§7.5 用岭回归选择变量

例 7.3 Gorman-Torman 例子 (见参考文献[ 2 ] ) 。本例共有 10 个自变量, X 已经中心化和标准化了,X′X 的特征根为: 3.692 , 1.542 , 1.293 , 1.046 , 0.972 , 0.659 , 0.357 , 0.220 , 0.152 , 0.068

最后一个特征根 λ10=0.068 ,较接近于零。

§7.5 用岭回归选择变量

368.7294.54068.0/692.3/ 101 k

条件数 k=7.368 < 10 。从条件数的角度看,似乎设计矩阵 X没有复共线性。但下面的研究表明,作岭回归还是必要的。 关于条件数,这里附带说明它的一个缺陷,就是当X′X所有特征根都比较小时,虽然条件数不大,但多重共线性却存在。

§7.5 用岭回归选择变量

§7.5 用岭回归选择变量

当k从 0上升到0.1 ‖时, (k)β ‖ 2 ‖下降到 (0)β ‖ 2的59%,

而在正交设计的情形只下降17%。这些现象在直观上就使人怀疑

最小二乘估计β是否反映了β的真实情况。

§7.5 用岭回归选择变量

§7.5 用岭回归选择变量

§7.5 用岭回归选择变量

从整体上看,当k达到0.2~0.3的范围时,各个 j (k)已大体上

趋于稳定,因此,在这区间上取一个k值作岭回归可能得到较好的效果。

本例中 5 (k)和 7 (k)当 k从0略增加时,很快趋于0,于是它们很

自然是应该剔除的。去掉它们之后,重作岭回归分析,岭迹基本稳定。

因此去掉x5和x7是合理的。

§7.5 用岭回归选择变量

§7.5 用岭回归选择变量

例 7.4 用岭回归方法处理民航客运数据的多重共线性问题。

SPSS软件的岭回归功能要用语法命令实现,菜单对话框中没有此功能。运行岭回归程序的步骤如下:

§7.5 用岭回归选择变量

1.进入 SPSS软件,录入变量数据或调入已有的数据文件。

2.进入 Syntax语法窗口。方法是依次点选File-New-Syntax 。

3.录入如下的语法命令:INCLUDE 'c:\Program Files\SPSS\Ridge regression.sps'.RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5 .

4.运行。依次点选主菜单的 Run-All.

§7.5 用岭回归选择变量

K RSQ X1 X2 X3 X4 X5

.00000 .99823 2.447386 -2.48510 -.083140 .530538 .563537

.05000 .99037 .223417 .179160 -.083524 .370635 .250365

.10000 .98873 .239543 .214116 -.073407 .324407 .227824

.15000 .98729 .243335 .224695 -.065966 .303476 .218969

.20000 .98571 .243539 .228490 -.059635 .290298 .213730

.25000 .98393 .242291 .229504 -.054040 .280606 .209925

.30000 .98195 .240355 .229147 -.049021 .272829 .206823

.35000 .97978 .238068 .228038 -.044482 .266245 .204118

.40000 .97743 .235599 .226490 -.040356 .260473 .201660

.45000 .97493 .233041 .224676 -.036590 .255291 .199367

.50000 .97228 .230447 .222700 -.033141 .250558 .197194

.55000 .96949 .227850 .220626 -.029975 .246181 .195112

.60000 .96659 .225269 .218497 -.027060 .242095 .193102

.65000 .96359 .222719 .216340 -.024372 .238253 .191151

.70000 .96048 .220206 .214174 -.021887 .234619 .189253

.75000 .95729 .217735 .212012 -.019587 .231166 .187400

.80000 .95402 .215309 .209865 -.017453 .227873 .185588

.85000 .95067 .212930 .207737 -.015471 .224721 .183814

.90000 .94726 .210599 .205634 -.013627 .221696 .182075

.95000 .94380 .208316 .203560 -.011910 .218788 .180369

1.0000 .94028 .206080 .201515 -.010308 .215985 .178695

§7.5 用岭回归选择变量RIDGE TRACE

K

1.00.75.50.250.00

RR

Coe

ffic

ient

s

3.0000

2.0000

1.0000

0.0000

-1.0000

-2.0000

-3.0000

X5 with K

X4 with K

X3 with K

X2 with K

X1 with K

图 7.6 (a)

§7.5 用岭回归选择变量通过上面的分析,我们决定剔除 x1 ,用 y 与其余 4 个自变量做岭回归。把岭参数步长改为 0.02 ,范围减小到 0.2 。这需要增加一句语法程序,点选主菜单的 Window-Syntax Editor返回语法窗口,语法命令如下:INCLUDE 'c:\Program Files\SPSS\Ridge regression.sps'. RIDGEREG DEP=y /ENTER x2 x3 x4 x5

/START=0.0/STOP=0.2/INC=0.02.

§7.5 用岭回归选择变量 K RSQ X2 X3 X4 X5

.00000 .99518 -.232694 -.134119 .787697 .516538

.02000 .99273 .191301 -.104683 .518190 .333153

.04000 .99161 .260930 -.097765 .464546 .305788

.06000 .99084 .287851 -.093137 .438607 .295463

.08000 .99012 .301168 -.089162 .422128 .289970

.10000 .98938 .308468 -.085489 .410136 .286374

.12000 .98859 .312599 -.082010 .400676 .283666

.14000 .98773 .314871 -.078687 .392810 .281425

.16000 .98680 .315969 -.075501 .386027 .279453

.18000 .98580 .316284 -.072442 .380023 .277644

.20000 .98474 .316058 -.069503 .374602 .275942

§7.5 用岭回归选择变量

RIDGE TRACE

K

.20.15.10.050.00

RR

Co

effi

cie

nts

1.0000

0.0000

-1.0000

X5 with K

X4 with K

X3 with K

X2 with K

图 7.6 (b)

§7.5 用岭回归选择变量

选取岭参数 k=0.08 。然后给定 k=0.08 ,重新做岭回归,语法命令如下:INCLUDE 'c:\Program Files\SPSS\Ridge regression.sps'.

RIDGEREG DEP=y /ENTER x2 x3 x4 x5

/k=0.08.

§7.5 用岭回归选择变量表7. 4 k=0.08的岭回归

Mul t R .9950480 RSquare .9901205 Adj RSqu .9865280 SE 111.5042453

ANOVA table df SS MS F val ue Sig F Regress 4 13706607 3426651. 6 275.6050375 . 0000000 Resi dual 11 136765. 16 12433.197

B SEB Beta T Sig T X2 .0680451 .0061320 .3011683 11.0967696 . 0000003 X3 - .0077794 .0026574 - .0891621 -2.9274825 . 0137522 X4 17.1686519 1.5487144 .4221279 11.0857441 . 0000003 X5 .2239279 .0322228 .2899703 6.9493613 . 0000243 Constant 424.7925673 262.7290140 .0000000 1.6168468 . 1342035

§7.5 用岭回归选择变量

§7.5 用岭回归选择变量在第6章中用主成分回归得到含有全部5个自变量的主成分回归方程,现在

计算出含有全部 5个自变量的岭回归做一个比较。根据表 7.2的数据,取岭参数

k=0.10,得岭回归的回归方程

1 2 3 4 5ˆ 323.3 0.034 64 0.048 38 0.006 405 13.19 0.175 9y x x x x x

主成分回归方程为:

1 2 3 4 5ˆ 416.8 0.039 76 0.060 82 0.007 652 11.37 0.162 8y x x x x x

普通最小二乘回归方程为

1 2 3 4 5ˆ 450.9 0.354 0.561 0.0073 21.578 0.435y x x x x x

§7.5 用岭回归选择变量【例7.5】 回顾第3章习题 11的问题,建立GDP对第一产业

增加值 x1和第二产业增加值 x2的二元线性回归,得到二元

回归方程 y =2 914.6+0.607 x1+1.709 x2。

合理的 1 的数值应该大于 1。

实际上,x3的年增长幅度大于 x1的年增长幅度,因此合理的 1 的

数值不仅是大于 1,而是要大于2。

§7.5 用岭回归选择变量

这个问题产生的原因仍然是存在共线性,在此省略掉计算过程,

得岭参数 k=0.03时岭回归方程为 y = -2 250.6+2.270 x1+1.271 x2,

与普通最小二乘回归方程相差很大。

岭回归系数 1 =2.270与前面的分析是吻合的,其解释是当第二产

业增加值 x2保持不变时,第一产业增加值 x1每增加1亿元GDP增加

2.270亿元,这个解释是合理的。

top related