第十一章 两变量关联性分析
DESCRIPTION
第十一章 两变量关联性分析. 本章内容. 第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析. 第一节 线性相关. 一 线性相关的概念 线性相关 (linear correlation) 又称 简单相关 (simple correlation) ,用于 双变量正态分布 (bivariate normal distribution) 资料。其性质可由 图 11-2 散点图直观的说明。. 目的 : 研究 两个变量 X,Y 数量上的依存(或相关) 关系。 特点: 统计关系. 二、相关系数的意义与计算. - PowerPoint PPT PresentationTRANSCRIPT
第十一章 两变量关联性分析
本章内容
第一节 线性相关 第二节 秩相关 第三节 分类变量的关联性分析
第一节 线性相关
一 线性相关的概念
线性相关 (linear correlation) 又称简单相关 (si
mple correlation) ,用于双变量正态分布 (biva
riate normal distribution) 资料。其性质可由图
11-2 散点图直观的说明。
• 目的:研究 两个变量 X,Y 数量上的依存(或相关) 关系。
• 特点:统计关系
二、相关系数的意义与计算
1. 意义:相关( correlation coefficient )又称 Pearson 积差相关系数,用来说明具有直线关系的两变量间相关的密切程度与相关方向。以符号r表示样本相关系数,符号表示其总体相关系数。
2. 计算:样本相关系数的计算公式为
2 2
( )( )
( ) ( )XY
XX YY
X X Y Y lr
l lX X Y Y
( 11-3 )
• 例 11-2 计算例 11-1 中凝血酶浓度 X 与凝血酶时间 Y 之间样本相关系数。
由例 11-1 得 , , 由公式 11-3 得
15
1
14.7ii
x
15
2
1
14.81ii
x
15n
15
1
224ii
y
15
2
1
3368ii
y
15
1
216.7i ii
x y
2 2
216.7 (14.7)(224) /150.926
14.81 (14.7) /15 3368 (224) /15
相关系数的特点
1. 相关系数 r 是一个无量纲的数值 , 且 -1<r<1;
2.r>0 为正相关 ,r<0 为负相关 ;
3./r/ 越接近于 1, 说明相关性越好 ./r/ 越接近于 0, 说明相关性越差 .
相关系数的统计推断 (一)相关系数的假设检验
(11-5)
(11-6)
0r
r
rt
s
21
2r
rs
n
例 11-3 继例 11-2 中算得 r=-0926 后 , 试检验相关是否具有统计学意义
检验步骤
0H: 0,1H: 0,=0.05 本例 n=15 , r=-0.926 ,由公式( 11-4 )和公式( 11-5 )得
2
0.9268.874
1 ( 0.926)15 2
rt
13 t 0.001p 0H
1H 本例 ,查 界值表得 ,故拒绝 接
受 ,认为凝血酶浓度与凝血酶时间之间存在负相关。此结果与查表的结果是一致的。
线性相关中应注意的问题• 1. 样本的相关系数接近零并不意味着两变
量间一定无相关性 .
• 2. 一个变量的数值人为选定时莫作相关 .
• 3. 出现异常值时甚用相关 .
• 4. 相关未必真有内在联系 .
• 5. 分层资料盲目合并易出假象 .
第二节 秩相关
适用条件 :
① 资料不服从双变量正态分布而不宜作积差
相关分析;
② 总体分布型未知,一端或两端是不确定数
值(如< 10 岁,≥ 65 岁)的资料;
③ 原始数据用等级表示的资料。
一、 Spearman 秩相关1. 意义:等级相关系数 rs 用来说明两个变量间直线
相关关系的密切程度与相关方向。
2. 计算公式
)1(
61
2
2
nn
drs
3. 确定 P值---查表 当 50n£ 时,查附表 14的 rs界值表; 当 50n> 时,计算检验统计量 u,查 t界值表。
• 例 11-4 某地研究 2~7 岁急性白血病患儿的血小板数与出血症状程度之间的相关性 ,结果见表 11-2, 试用秩相关进行分析
表 11-2 急性白血病患儿的血小板 (109/L) 和出血症状
病人编号 血小板数 秩次 p2 出血症状 秩次 q2 pq
X p Y q
(1) (2) (3) (4) (5) (6) (7) (8)=(3).(6)
1 121 1 1 +++ 11.5 132.25 11.5
2 138 2 4 ++ 9.0 81 18
3 165 3 9 + 7.0 49 21
4 310 4 16 - 3.5 12.25 14
5 426 5 25 ++ 9.0 81 45
6 540 6 36 ++ 9.0 81 54
7 740 7 49 - 3.5 2.25 24.5
8 1060 8 64 - 3.5 12.25 28
9 1260 9 81 - 3.5 12.25 31.5
10 1290 10 100 - 3.5 12.25 35
11 1438 11 121 +++ 11.5 132.25 126.25
12 2004 12 144 - 3.5 12.25 42
合计 — 78 650 - 78 630 451
• 利用表 11-2 中的数据容易算得
秩相关系数为负,说明两变量间有负相关关系,同样由样本算得的秩相关系数是否有统计学意义,也应做检验
143ppl
123qql
56pql 56
0.422143 123
pqs
pp qq
lr
l l
贰 秩相关系数的统计推断
• 检验步骤 假设检验
统计推断 当 时,可查书后的 临界值表,若秩相关系
数超过临界值,则拒绝 ;当 时,也可采用公式( 11-5 )或( 11-6 )式做 检验
1 : 0sH 0 : 0,sH
0.05
0H50n sr
50n t
例 11-5 对例 1-4 的秩相关系数作假设检验
• 例 11-4 中算得 查 临界值表, ,按 的水准,不能拒绝 ,
可以认为急性白血病患儿的出血症状与血小板数之间无相关关系
0.442sr sr12,0.1 0.503sr r 0.05
0H
第三节 分类变量的关联性分析
• 适用条件对定性变量之间的联系通用的方法是根据两
个定性变量交叉分类基数所得的频数资料(列联表)作关联性分析,即关于两种属性独立性的卡方检验
计算公式2
2 ( )A T
T
交叉分类 2×2 表的关联分析• 例 11-6 为观察婴儿腹泻是否与喂养方式
有关,某医院儿科随机收集了消化不良的婴儿 82 例,对每个个体分别观察腹泻与否和喂养方式两种属性, 2×2 种结果分类记述如表 11-3 所示,试分析两种属性的关联性。
表 11-3 婴儿腹泻与喂养方式的关系
喂养方式 腹泻 合计 有 无
人工 30 10 40
母乳 17 25 42
合计 47 35 82
• 假设检验 : 喂养方式与婴儿腹泻之间相互独立 : 喂养方式与婴儿腹泻之间有关联
将表中各数据代入公式 (7-7) 得
, 拒绝原假设 , 说明婴儿腹泻与喂养方式之间存在关联性 .
0H
1H
0.05
2 9.98
2 20.005,1 7.78, 0.005p
表 11-3 婴儿腹泻与喂养方式的关系
喂养方式
腹泻
合计
有 无
人工 30 10 40
母乳 17 25 42
合计 47 35 82
二 2×2 配对资料的关联性分析• 例 11-7 有 56 份咽喉涂抹标本,把每份标
本一分为二,依同样的条件分别接种于甲乙两种白喉杆菌培养基上,观察白喉菌生长的情况,结果如表 11-5 ,问两种培养基的结果有无关联?
表 11-5 两种白喉杆菌培养结果甲培养基 乙培养基 合计
+ -
+ 22 18 40
- 2 14 16
合计 24 32 56
• 假设检验 : 两种培养基的结果之间互相独立 : 两种培养基的结果之间有关联
将本例数据代入公式 (7-7) 得
有理由拒绝零假设 , 可以认为甲、乙两种培养基之间存在关联性
0H
1H
0.05
2 9.98 3.84, 0.05p
三 R×C 表分类资料的关联性分析
• 例 11-8 某地居民主要有三种祖籍,均流行甲状腺肿。为探索甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表 11-6 的资料。问甲状腺肿类型与祖籍见有否关联?
表 11-6 某地居民按甲状腺肿类型与祖籍两种属性的交叉分类表
祖籍 甲状腺肿类型 合计
弥漫型 结节型 混合型
甲 486 2 4 492
乙 133 260 51 444
丙 100 315 85 500
合计 719 577 140 1436
• 假设检验 : 甲状腺类型与祖籍无关 : 甲状腺类型与祖籍有关联
同样作检验得
由 查 界值表 , , 拒绝零假设 , 说明甲状腺肿类型与祖籍之间有关联性
计算列联系数
0H
1H0.05
2 9.98 (3 1)(3 1) 4, 2 2 2
0.005,4 18.55, 0.005p
2
2
723.7830.579
723.783 1436r
n