第九章 回归分析和方差分析
DESCRIPTION
第九章 回归分析和方差分析. 关键词: 单因素试验 一元线性回归 回归诊断. 方差分析 (Analysis of variance, 简称 :ANOVA), 是由英国统计学家费歇尔 (Fisher) 在 20 世纪 20 年代提出的 , 可用于推断两个或两个以上总体均值是否有差异的显著性检验. §9.1 单因素方差分析. - PowerPoint PPT PresentationTRANSCRIPT
第九章 回归分析和方差分析
关键词:
单因素试验
一元线性回归
回归诊断
方差分析 (Analysis of variance, 简称 :A
NOVA), 是由英国统计学家费歇尔 (Fishe
r) 在 20 世纪 20 年代提出的 , 可用于推断两个或两个以上总体均值是否有差异的显著性检验 .
§9.1 单因素方差分析例:为了比较三种不同类型日光灯管的寿命
( 小时 ), 现将从每种类型日光灯管中抽取 8 个 , 总共 24 个日光灯管进行老化试验 ,
根据下面经老化试验后测算得出的各个日光灯管的寿命 ( 小时 ) ,试判断三种不同类
型日光灯管的寿命是不是有存在差异 .
日光灯管的寿命 ( 小时 )类型 寿命 ( 小时 )
类型 I 5290 6210 5740 5000 5930 6120 6080 5310
类型 II 5840 5500 5980 6250 6470 5990 5470 5840
类型 .III 7130 6660 6340 6470 7580 6560 7290 6730
引起日光灯管寿命不同的原因有二个方面 : 其一 , 由于日光灯类型不同 , 而引起寿命不
同 . 其二 , 同一种类型日光灯管 , 由于其它随机
因素的影响 , 也使其寿命不同 .
在方差分析中 , 通常把研究对象的特征值 , 即所考察的试验结果 ( 例如日光灯管的寿命 ) 称为 试验指标 .
对试验指标产生影响的原因称为 因素 , “ 日光灯管类型” 即为因素 .
因素中各个不同状态称为 水平 , 如日光灯管三个不同的类型 , 即为三个水平 .
单因素方差分析 仅考虑有一个因素 A 对试验指标的影响 . 假如因素 A 有 r 个水平 , 分别在第 i 水平下进行了 多次独立观测 , 所得到的试验指标的数据
1 2
2 2 21 1 2 2
11 21 1
12 22 2
1 2
: , : , : ,
r
r r
r
r
n n rn
A N A N A N
X X X
X X X
X X X
2~ (0, ),
1, 2, , 1, 2, ,
ij i ij
ij ij
i
X
N
i r j n
各 独立,
每个总体相互独立 . 因此 , 可写成如下的 数学模型 :
方差分析的目的就是要比较因素A 的 r 个水平下试验指标理论均值的差异 , 问题可归结为比较这 r
个总体的均值差异 .
0 1 2
1 1 2
: ...
: , ,...,r
r
H
H
不全相等。检验假设
1 1
1— —
r r
j j ji i
n n nn
记 总平均,其中
, 1, 2,...,i i iA i r ——水平 的效应
1 1 2 2 ... 0r rn n n 此时有
2
1 1 2 2
(0, ),
1, 2, , 1, 2, ,
... 0
ij i ij
ij ij
i
r r
X
i r j n
n n n
模型为:各 独立
,
假设等价于 0 1 2
1 1 2
: 0
: , , ,r
r
H
H
不全为零。
为给出上面的检验,主要采用的方法是平方和分解。即
假设数据总的差异用总离差平方和 分解为二个部分 : 一部分是由于因素 A 引起的差异 ,
即效应平方和 ,另一部分则由随机误差所引
起的差异, 即误差平方和 。
TS
AS
ES
2
1 1
inr
E ij ii j
S X X
误差平方和
1 T A ES S S 性质:
2 2
1 1 1 1
i in nr r
T ij ij i ii j i j
S X X X X X X
证明:
2 2
1 1 1 1 1 1
2i i in n nr r r
ij i i ij i ii j i j i j
X X X X X X X X
A ES S
1 1 1 1
0i in nr r
ij i i i ij ii j i j
X X X X X X X X
2 2
1
2 1r
T i ii
E S n n
性质 :
2 2
1
1r
A i ii
E S n r
2EE S n r
2 2
1 1
( ) ( )inr
iji j
E X nE X
1 1
1
1( ) ( )
1( )
inr
iji j
r
i ii
E X E Xn
nn
22 2 2
1 1
[ ( ) ] [ ]inr
ii j
nn
2 2 2 2 2
1 1
2r r
i i i ii i
n n n n n
2 2
1
1r
i ii
n n
2
1 1
( )inr
E ij ii j
E S E X X
2 2
1
( 1) ( )r
ii
n n r
2 2
1
( ) ( ) 1r
A T E i ii
E S E S S n r
20 2
(3) ~ ( 1)ASH r
当 为真时, 。
定理 9.1.1
AS1
AASS s A
E
S
SES E
ESS n s
TS
方差来源 平方和 自由度 均方 F 比因素 A r-1
误差 n-r
总和 n-1
单因素试验方差分析表
, ,T A ES S S计算 的简便公式:
1 1 1
, 1, 2, , ,i in nr
i ij ijj i j
T X i r T X
记
22 2 2
1 1 1 1
i in nr r
T ij iji j i j
TS X nX X
n
2 2
2 2
1 1
r ri
A i ii i i
T TS n X nX
n n
E T AS S S
例 1 设有 5 种治疗荨麻疹的药,要比较它们的疗效。假设将 30 个病人分成 5 组,每组 6 人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录: (=0.05)
药物 x 治愈所需天数 y1 5 , 8 , 7 , 7 , 10
, 82 4 , 6 , 6 , 3 , 5, 63 6 , 4 , 4 , 5 , 4, 34 7 , 4 , 6 , 6 , 3, 55 9 , 3 , 5 , 7 , 7, 6
这里药物是因子,共有 5 个水平,这是一个单因素方差分析问题,要检验的假设是“所有药物的效果都没有差别”。
0 1 2 3 4 5
1 1 2 5
:
: , ,...,
H
H
解:检验假设
不全相等。
0.05
0
(4,25) 2.76F
H
。
拒绝 ,认为疗效
有显著差异。
方差来源 平方和 自由度 均方 F 比因素 A 36.467 4 9.117 3.90
误差 58.500 25 2.334
总和 94.967 29
未知参数的估计
2 2ˆ ˆ1 ; (2)
ˆˆ(3) (4)
E
j i i i i i
SX
n r
X X X
() 的估计 的估计 ;
的估计 ; 的估计 。
容易证明,以上估计均为相应参数的无偏估计。
2 20 ( , ) ( , )
( )
j k
j k j k
H N N
j k
当拒绝 时,进一步比较 和 的差异,
可以作 的区间估计。
2 1 1( ) , ( )j k j k j k
j k
E X X D X Xn n
因为
2ˆ ( )j k EX X S n r 且 与 相互独立。
2
( ) ( ) ( ) ( )( ) ~ ( )
(1 1 )(1 1 )
j k j k j k j k E
j kE j k
X X X X Sn r t n r
n nS n n
故
( )
1
j k
得 的水平
为 的置信区间
2 ( ) (1 1 )j k E j kX X t n r S n n
2
1 3 1 2 5 3
2 1 , , ( 1, 2,3, 4,5)
0.95
j j j
例 求例中未知参数 的点估计,
并求 , , 的置信度为 的置信区间。
2 2ˆ ˆ2.3334 5.6333
7.5, 5, 4.3333, 5.1667, 6.1667
1.8667, 0.6333, 1.3, 0.4666, 0.5334
E
j
j
SX
n r
解: 的估计 ; 的估计 ;
的估计分布为: ;
的估计分布为:
0.025 (25) 2.0595, (1 1 ) 0.8819E j kt S n n 查表得
1 3 1 2 3 5 0.95
(1.3504, 4.983) (0.6837, 4.3163) ( 3.6497, 0.0171)
, , 的置信度为 的置信区间分别为:, ,
1 3 1 2 3 5 说明 与 , 与 , 与 的差异都显著。
在 Excel 上实现方差分析 先加载 '' 数据分析 " 这个模块 , 方法如下 :
在 excel 工作表中点击主菜单中 “工具” 点击下拉式菜单中“加载宏” 就会出现一个“加载宏” 的框 .
在 “分析工具库” 前的框内打勾点击“确定” .
这时候再点击下拉式菜单会新出现 “数据分析” .
然后就可以进行统计分析了 .
以下面的例子来说明用 Excel 进行方差分析的方法 :
保险公司某一险种在四个不同地区一年的索赔额情况记录如表所示 . 试判断在四个不同地区索赔额有无显著的差异 ?
保险索赔记录地区 索赔额 ( 万元 )
A1 1.60 1.61 1.65 1.68 1.70 1.70 1.78
A2 1.50 1.64 1.40 1.70 1.75
A3 1.64 1.55 1.60 1.62 1.64 1.60 1.74 1.80
A4 1.51 1.52 1.53 1.57 1.64 1.60
在 Excel 工作表中输入上面的数据点击主菜单中 “工具”点击下拉式菜单中“数据分析” 就会出现一个“数据分析” 的框 .
点击菜单中“方差分析 : 单因素方差分析”点击“确定” , 出现“方差分析 : 单因素方差分析” 框 .
在“输入区域”中标定你已经输入的数据的位置根据你输入数据分组情况 ( 是按行分或按列分 ) 确定分组 .
选定方差分析中 F 检验的显著水平选定输出结果的位置点击“确定” .
在你指定的区域中出现如下方差分析表 :
方差来源
平方和 自由度
均方 F 比 P-value
F crit
组间 0.0492 3 0.0164 2.1658 0.1208 3.0491
组内 0.1666 22 0.0076
总计 0.2158 25
方差分析表
根据 Excel 给出的方差分析表 , 假设 H0 的判别有二种方法 : 根据前面所讲的 F 检验查出 ),1( rnrF 的
值, 给出拒绝域 ),1( rnrFFW , 然
后根据由观测值计算得出的 F 的值, 判断 F 的值是不是落在拒绝域内,给出拒绝或接受假设
0H 的结论. Excel计算结果的方差分析表中在 F
crit 这列下面给出了 ),1( rnrF 这个值。
在这个例子中, 0.05 (3,22) 3.0491F , 因此拒
绝域为 3.0491W F . 由观测值计算得
1658.2F ,所以没有落在拒绝域内, 因此接
受假设 0H , 即各地区索赔额无显著差异.
方差分析的前提
进行方差分析必须具备三个基本的条件:
(1) 独立性. 数据是来自 r个独立总体的简单随机样本.
(2) 正态性. r个独立总体均为正态总体.
(3) 方差齐性. r个正态总体的方差是相同的, 即满足假设
不全相等222
211
222
210 ,,:: rr HH
方差分析和其它统计推断一样 , 样本的独立性对方差分析是非常重要的 , 在实际应用中会经常遇到非随机样本的情况 ,
这时使用方差分析得出的结论不可靠 . 因此 , 在安排试验或采集数据的过程中 , 一定要注意样本的独立性问题 .
在实际中 , 没有一个总体真正服从正态分布的 ,
但方差分析却依赖于正态性的假设 . 但经验可知 ,
方差分析 F.
检验对正态性的假设并不是非常敏感 , 也就是说 , 实际所得到的数据 , 如果没有异常值和偏性 ,
或者说 , 数据显示的分布比较对称的话 , 即使样本容量比较小 ( 如每个水平下的样本容量仅为5左右 ), 方差分析的结果仍是值得依赖的 .
方差齐性对于方差分析是非常重要的 , 因此在方差分析之前往往要进行方差齐性的诊断 , 即检验假设通常可采用 Barlett 检验 .
方差齐性检验也可采用如下的经验准则 :当最大样本标准差不超过最小样本标准差的两倍时 , 方差分析 F 检验结果近似正确 .
§3 一元线性回归分析
一、确定性关系: 当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高度 h与下落时间 t 之间有函数关系: 21
h= gt2
变量与变量之间的关系
确定性关系相关性关系
二、相关性关系: 变量之间的关系并不确定,而是表现为具有随机性的一种“趋势”。即对自变量 x 的同一值,在不同的观测中,因变量 Y 可以取不同的值,而且取值是随机的,但对应 x 在一定范围的不同值,对 Y 进行观测时,可以观察到 Y
随 x 的变化而呈现有一定趋势的变化。
如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,身高者,体也重。
如:父亲的身高与儿子的身高之间也有一定联系 , 通常父亲高,儿子也高。
我们以一个例子来建立回归模型
某户人家打算安装太阳能热水器 . 为了了解室外温度与燃气消耗的关系 ,
记录了 16 个月燃气的消耗量 , 数据见下表 .
月份 平均温度 燃气用量 月份 平均温度 燃气用量
Nov. 24 6.3 Jul. 0 1.2
Dec. 51 10.9 Aug. 1 1.2
Jan. 43 8.9 Sep. 6 2.1
Feb. 33 7.5 Oct. 12 3.1
Mar. 26 5.3 Nov. 30 6.4
Apr. 13 4 Dec. 32 7.2
May. 4 1.7 Jan. 52 11
Jun. 0 1.2 Feb. 30 6.9
在回归分析时 , 我们称“燃气消耗量”为响应变量记为 Y,“室外温度”为解释变量记为 X, 由所得数据计算相关系数得 r=0.995,
表明室外温度与燃气消耗之间有非常好的线性相关性 .
如果以室外温度作为横轴 , 以消耗燃气量作为纵轴 , 得到散点图的形状大致呈线形 .
室外温度 X 的变化是引起燃气消耗量Y 变化的主要因素,还有其他一些因素对燃气消耗量Y 也起着影响, 但这些因素是次要的.
从数学形式来考虑, 由于室外温度 X 的变化而引起燃气消耗量 Y 变化的主要部分记为a+bX,其中 a,b是未知参数,
另一部分是由其他随机因素引起的记为 ,
即 bXaY .
2~ 0 .N 正态假设: ,
2
2
( ) 0, ( ) ,
, ( ,
Y a bx
E D
a b
是随机误差,不可控制,基本假设:
回归系数) 未知.
1 1 2 2, ( , ), ( , ),..., ( , )n nx x Y x Y x Y对 的一组不全相同的值 得到样本
2~ 0 , 1,2,..., .i N i n 正态假设: , 相互独立,
通常我们假定随机误差 i 是相互独立的, 服从正态分
布 ),0( 2N .显然, 在这样的假定下 iy 也是相互独立,
服从正态分布 ),( 2ibxaN . 由所得样本可给出未
知参数 a,b 的点估计, 分别记为 , b , 称 xbaY ˆˆˆ
为 x关于 y的一元线性回归方程.
(1) ,a b的估计;2(2) 的估计;
(3)线性假设的显著性检验;
(4) b回归系数 的置信区间;
(5) ( )x a bx 回归函数 的点估计和置信区间;
(6) Y的观察值的点预测和区间预测。
一元线性回归要解决的问题:
2
1
,n
i ii
Q a b y a bx
1
2 ( ) 0,n
i ii
Qy a bx
a
1
2 ( ) 0.n
i i ii
Qy a bx x
b
参数估计
1x 2x 3x ix nx
ˆˆy a bx
1 1
2
1 1 1
( ) ,
( ) ( ) .
n n
i ii i
n n n
i i i ii i i
na x b y
x a x b x y
整理得正规方程系数行列式
2
2
1 1, , ,
, .
i i xx ii i i
xy i i yy ii i
y y x x S x xn n
S x x y y S y y
记号:
ˆ ˆˆ, , / .xy xxa b a y xb b S S 的最小二乘估计:
ˆ ˆˆ , .xx xya xb y S b S 将正规方程整理得:
为了给出另一个参数 的估计,
定义残差。记 iii yye ˆ , 称 ie 为残差。残差可以看
成是不可观测的误差 i 的估计。
采用残差平方和
n
iii yy
1
2ˆ 作为 2 的估计。
n
iii yy
ns
1
22 ˆ2
1,可以证明 2s 为 2 的无偏估计。
在误差为正态分布假定下,最小二乘估计等价于极大似然估计。
2
212 2
1 1, exp
22
n
i ini
L a b y a bx
2
1
,n
i ii
L a b y a bx
对 最大化等价于对
最小化,即最小二乘估计。
采用最大似然估计给出参数 a ,b 的估计与最小二乘法给出的估计完全一致。
采用最大似然估计给出误差 的估计与最小二乘法给出的估计不一致。此时给出的估计不是无偏估计。
2
n
iii yy
n 1
22 ˆ1
例 1 K.Pearson 收集了大量父亲身高与儿子
身高的资料。其中十对如下:
父亲身高x (吋)
60 62 64 65 66 67 68 70 72 74
儿子身高y (吋)
63.6 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70
求 Y 关于 x 的线性回归方程。
2
67.01, 66.8,
44794, 44842.4,
171.6, 79.72.
i i ii i
xx xy
y x
x x y
S S
计算得:
ˆˆ, 35.9768, 0.4646a b a b 的最小二乘估计:
ˆ 35.9768 0.4646 .
ˆ 67.01 0.4646( 66.8).
y x
y x
回归方程:或写成:
参数性质定理 9.4.1 在模型的假设下,
(1) xxSbNb 2,~ˆ
(2)
2
21,~ˆ
xxS
x
naNa
1 1ˆ( ) ( ) ( )xx i i xx i ii i
E b S x x E Y S x x a bx
21 1xx i i xx i
i i
bS x x x bS x x b
即为正态随机变量的线性组合,所以服从正态分布。
证明( 1)
xxxx
n
ii
SS
xxbD
22
21
2)(]ˆ[
( 2)类似可得。
回归方程显著性检验
采用最小二乘法估计参数 a 和 b ,并不
需要事先知道 Y 与 x 之间一定具有相关关系。
因此 μ(x) 是否为 x 的线性函数:一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。
0 1: 0, : 0,H b H b 即要检验假设
(1)影响 Y取值的,除了 x,还有其他不可忽略的因素;(2) E(Y) 与 x的关系不是线性关系,而是其他关系;(3) Y与 x不存在关系。
若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明 Y 与 x不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:
假设的检验统计量
与方差分析方法类似,仍采用平方和分解。
可以证明:
可以证明, )2(~ 22
nSSE
2)ˆ( yySSR i 22 )(ˆ xxb i = xxSb
2ˆ
由参数估计的性质可知,当 b=0 时,
)(1~ˆ
22
2
2
xxSbSSR
)2,1(~ˆ
2/
1/2
2
nFs
Sb
nSSExxSSR
F
方差分析表
来源 平方和 自由度 均方和 F比
回归
xx
xy
ll
SSR2
1Rf 1
SSR
残差 SST-SSR=SSE 2nf E 2nSSE
2
1
nSSE
SSRF
总的 yyl 1nf t
当 0H 为真时,即 0b ,
)2,1(~ˆ
2
2
nFs
SbF xx ,
对于给定的显著水平 ,
F检验的拒绝域为 )}2,1({ nFFW .
当 0H 为真时,即 0b ,
)2(~ˆ
nts
Sbt xx ,
对于给定的显著水平 ,
t检验的拒绝域为 )}2(|{| 2/ nttW ;
也可采用 t 检验
例 3 检验例 1 中回归效果是否显著,取 α=0.05 。
2 0.0252 8 2.306.t n t 查表得:
0
0.4646171.6 14.1 2.306.
0.186
: 0
t
H b
计算得,
故拒绝 ,认为回归效果是显著的。
假设 0H : 0b 的检验拒绝域为 306.2ˆ
s
Sbt
xx
186.02 s
回归系数 的置信区间
)2(~ˆ
nts
Sbb xx
即 b的置信水平 1 的置信区间:
xxS
sntb )2(ˆ
2/
由于
0.95
0.1860.4646 2.306 0.389, 0.541 .
171.6
b
例如例1中 的置信水平为 的置信区间为:
回归参数估计和显著性检验的 Excel 实现 例 1(续 ) 前面我们已经分析了室外温度与燃气消耗量之间的关系 , 认为两者具有较好的线性关系 , 下面我们进一步建立燃气消耗量 ( 响应变量 )与室外温度( 解释变量 )之间的回归方程 . 采用 Excel 中的“数据分析” 模块 .
在 Excel 工作表中输入上面的数据 点击主菜单中“工具” 点击下拉式菜单中“数据分析” 就会出现一个“数据分析” 的框,点击菜单中“回归” ,点击“确定” , 出现“回归” 框 .
在“ Y 值输入区域”中标定你已经输入的响应变量数据的位置 ,
在“ X 值输入区域”中标定你已经输入的解释变量数据的位置 ( 注意 : 数据安“列”输入 )“ 置信度”中输入你已经确定置信度的值选定输出结果的位置点击“确定” .
在指定位置输出相应的方差分析表和回归系数输出结果 , 例 1 的输出结果如下所示 ,
df SS MS F Significance F
回归 1 168.581 168.581
1467.551
1.415E-15
误差 14 1.608 0.115
总的 15 170.189
方差分析表
Coef. 标准误差 t Stat P value Lower 95% Upper 95%
Intercept 1.089 0.139 7.841 1.729E- 06 0.791 1.387
X 0.189 0.005 38.309 1.415E-15 0.178 0.200
方差分析中 , 给出了假设检验 H0: b=0 的 F 检验 . 方差分析表中各项也前一节方差分析表中的意义类似 .
值得注意的是 , 方差分析表中 ``MS“ 列中 , 相应于 `
` 误差”行的值即为模型误码差方差的估计 , 即 =0.115.2s
这里``Coef."列中, 对应于``Intercept"行给出参数 a的估计, 即 a =1.089, 对应于 X 行的值为 b 的估计, 即
b =0.189. ``t Stat"列中, 对应于``X"行的值为假设检
验 H0: b=0 的 t 统计量的值, 即 309.38ˆ
s
Sb xx ,
查表可得, 510.2)14(025.0 t , 因此, 拒绝假设 H0
认为``室外温度" 对``燃料消耗量" 有显著影响.
“Lower 95%” 和“Upper 95%”中, 对应于“Intercept”行
的值 0.791 和 1.387分别是由 t分布所构造的参数 a区
间估计的下限和上限, 对应于“X”行所的值 0.178 和
0.200分别是由 t分布所构造的参数 b区间估计的下限
和上限.
预测 预测一般有两种意义 .
当给定 0xX 时, 求相应响应变量平均值即 ][ 0yE
的点估计和区间估计, 在例 1 中的意义是: 求某个室外温度下, 燃气消耗量的平均值, 如室外平均温度为$10$度这种月份燃气消耗量的平均值;
当给定 0xX 时, 求 0y 的预测值和预测区间, 在例
1 中的意义是: 求指定某个月的燃气消耗量, 如假设某个月的室外平均温度为 10 度, 预测这个月的燃气消耗量.
在此模型下:
220( )1ˆˆ ~ ,
xx
x xa bx N a bx
n S
0Ey 的点估计及置信区间
xy 100ˆˆˆ 也是 0100 xEy 的无
偏估计,故 0y 可作为 0Ey 的估计值。 0Ey 估计的
置信水平为 1 的置信区间为:
2
00 /2
( )1ˆ ( 2)
xx
x xy t n s
n S
0 0y a bx 预测和预测区间
所谓预测的精度是希望求出一个 的值,使,
1)|ˆ(| 00 yyP
其中是预先给定的一个小的正数。 越小表示预
测的精度越高,并称: )ˆ,ˆ( 00 yy
为 0y 的概率是 1 的预测区间。
由于 0y 与 0y 独立,故知:
))/)(/11(,0(~ˆ 22000 xxSxxnNyy
并且 2s 作为 2 的无偏估计,与 00 yy 独立,
所以有
)2(~)(1
1
ˆ2
0
00
nt
sSxx
n
yy
xx
对给定的
20
/2
( )1( 2) 1
xx
x xt n s
n S
从上式可看出,为了提高预测精度, n应该足
够大,并且 nxxx ,, 21 不能太集中。
例 1(续)由前面的 Excel 的输出结果, 计算
设 50 x 时, ][ 0yE 的区间估计和 0y 的预
测区间.
由前面的 Excel的输出结果,
034.25189.0089.1ˆ0 y ; 313.22x ;
723.29920 xx ; 510.2)14(025.0 t
438.4719xxS ; 115.0s
计算得出:
][ 0yE 的区间估计为[1.931, 1.137];
0y 的预测区间为[1.726, 2.341].
例 合金钢的强度 y与钢材中碳的含量 x 有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解 y与 x之间的关系。其中 x :碳含量(%) y :钢的强度( kg/mm2)数据见下:
x 0.03 0.04 0.05 0.07 0.09 0.10 0.12 0.15 0.17 0.20
y 40.5 39.5 41.0 41.5 43.0 42.0 45.0 47.5 53.0 56.0
( 1)画出散点图;( 2)设 μ(x)=a+bx, 求 a,b的估计;(3)求误差方差的估计,画出残差图;(4)检验回归系数 b是否为零(取 α=0.05) ;( 5)求回归系数 b的 95%置信区间;(6)求在 x=0.06点,回归函数的点估计和 95%置信区间;(7)求在 x=0.06点, Y的点预测和 95%区间预测。
0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19
56
54
52
50
48
46
4
4 4
2 4
0 3
8
( 1)合金钢的强度 y与钢材中碳的含量 x 的散点图
2
449, 1.02,
0.1338, 48.555,
0.02976, 2.757.
i ii i
i i ii i
xx xy
y x
x x y
S S
(2)计算得:
ˆˆ ,
ˆ / .xy xx
a y xb
b S S
ˆˆ, 35.4506, 92.6411a b a b 的最小二乘估计:
ˆ 35.4506 92.6411 .
ˆ 44.9 92.6411( 0.102).
y x
y x
回归方程:或写成:
2449, 20443, 282.9.i i yyi i
y y S (3)计算得:
ˆ2.757, 92.6411.xyS b 又已知
4884.27SSE
所以, 2 的无偏估计 436.32 s
0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19 x
0
e
0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19
56
54
52
50
48
46
44
42
40
38
合金钢的强度 y 与钢材中碳的含量 x 的回归直线图
拒绝原假设,认为合金钢强度与炭含量的回归效果显著。
显著水平为 0.05
0 0 0ˆˆ ˆ6 0.06 41.0091x y a bx ()当 时,
(0.06) 39.303,42.715 .所以, 的0. 95的置信区间为: