第三章 变异程度的统计描述 ( measures of dispersion )
DESCRIPTION
第三章 变异程度的统计描述 ( Measures of Dispersion ). 要求: 掌握: 标准差的含义及计算方法;变异系数的计算方法和应用。 熟悉: 其他描述离散趋势的常用指标。. 离散趋势 (dispersion tendency) 指标 三组同年龄、同性别儿童的体重( kg ) 甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34. 30 30 30. 全距 (range). - PowerPoint PPT PresentationTRANSCRIPT
第三章 变异程度的统计描述
( Measures of Dispersion )要求: 掌握:标准差的含义及计算方法;变异系数的计算方法和应用。
熟悉:其他描述离散趋势的常用指 标。
离散趋势 (dispersion tendency)指标
三组同年龄、同性别儿童的体重( kg)
甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34
x30 30 30
全距表示一群变量值的最大值与最小值之差,反映个体差异的范围,用 R表示。全距大,说明变异度大;反之,说明变异度小。 甲组 26 28 30 32 34
乙组 24 27 30 33 36
R=8 R=12
全距 (range)
1.不能全面反映资料的离散程度;2.不稳定,易受极端值的影响,抽样 误差大。
优点
缺点
1.表示变异范围,简单明了、容易使用,如用于说明传染病、食物中毒等的最短、最长潜伏期等;2.各种分布类型的资料均可用。
全距 (range)
四分位数间距(quartile interval)
四分位数间距是上四分位数(QU=P75) 和下四分位数 (QL=P25) 之差,用 Q表示 (QU-QL)。该数值越大,说明变异度越大;反之,说明变异度越
小。
某地 630名正常女性血清甘油三脂含量 (mg/dl)
甘油三脂 频数 累计频数 累计频率 (%)
0.10~ 27 27 4.3
0.40~ 169 196 31.1
0.70~ 167 363 57.6
1.00~ 94 457 72.5
1.30~ 81 538 85.4
1.60~ 42 580 92.1
1.90~ 28 608 96.5
2.20~ 14 622 98.7
2.50~ 4 626 99.4
2.80~ 3 629 99.8
3.10~ 1 630 100.0
合计 630 - -
L: 组段的下限; iM: 组距; fx: 频数;
fL: Px所在组段之前的累积频数。
xx
Lx i
f
fxnLP
%
)mmol/L(632.030.0169
2725.063040.025
P
)mmol/L(357.130.081
45775.063030.175
P
)/(725.0632.0357.1 LmmolQQQ LU
1.与中位数配套,用于偏态分布资料及分布的一端或两端无确切数值的资料;2.比全距稳定。
未考虑到每个观察值的变异度。
优点
缺点
四分位数间距(quartile interval)
方差 (variance)
1
)(
)(
22
22
n
xxS
N
x
i
i =
自由度= n-限制条件的个数,用 ν表示。( n- 1 ):当 选定时, n个变量值 中能自由变动的变量值的个数。
x
二、平均差距指标
(一)平均偏差 (Mean Difference)
如对于例 3.1:
甲患者:
乙患者:
特点 : 直观 , 易理解;但由于用了绝对值,不便于数学处理,实际中很少使用。
n
XX 平均偏差
)15.52(mmHg5
6.1621866.1621456.162162
平均偏差
2.32(mmHg)5
4.1621664.1621604.162164
平均偏差
(二)离均差平方和( Sum of Square, SS)
为了克服平均偏差的缺点,可以不通过取绝对值,而是通过取平方来避免正负抵消,即使用离均差平方和,其计算公式为
SS 通常作为一个中间统计量使用。
n
XXXXSS
222 )(
)(
(三)方差 (Variance)
方差是将离均差平方和再取平均,即
注意:对于样本资料,分母用的是 n-
1,称为自由度 (degree of freedom, df
)。
方差的特点:便于数学上的处理,但由于有 平方,度量衡发生变化,不便于实际应用。
1
)(2
2
n
XXS
(1) 方差越大,资料的离散程度越 大 (全面考虑了每个观察值 );(2) 不受观察值个数的影响。
优点
缺点
一些资料不适用于以平方表示。
方差(variance)
(四)标准差 (Standard Deviation)
将方差取平方根,还原成与原始观察值单位相同的变异量度即为标准差:
例如对于例 3.1 经计算有
甲患者:
同理乙患者 :
1
)(
1
)( 222
n
nXX
n
XXS
813 X 1337132 X 5n
(mmHg)49.1915
5/813133713 2
S
(mmHg)88.2S
例 三组同年龄、同性别儿童的体重( kg)
甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34
直接法直接法
1
)(
1
)(
22
2
n
n
xx
n
xxS
ii
i
加权法
1
)( 22
i
i
iiii
f
f
xfxf
S
14岁女孩身高平均值与标准差 (cm)加权法计算用表
身高 (cm) 频数 (fi)组中值( X)
f i Xi f i Xi2
124~ 2 126 252 31752
128~ 3 130 390 50700
132~ 11 134 1474 197516
136~ 22 138 3036 418968
140~ 39 142 5538 786396
144~ 27 146 3942 575532
148~ 16 150 2400 360000
152~ 5 154 770 118580
156~ 3 158 474 74892
160~164 2 162 324 52488
合计 130(Σ fi)18600(Σf i Xi)
2666824( Σf i Xi
2)
)(58.61130
130
)18600(2666824
2
cm
S
标准差应用1.表示观察值分布的离散程度。均数相近、度量单位相同的条件下, S越大,观察值的变异程度越大,均数的代表性越差。
2. 结合均数计算 CV。3.结合均数描述正态分布资料的分布特征和估计医学参考值范围
4. 结合样本含量计算标准误。
(五)变异系数 (Coefficient of Variation )
主要用于对均数相差较大或单位不同的几组观察值的变异程度进行比较。
例 3.3 测得某地成年人舒张压均数为77.5mmHg,标准差为 10.7mmHg;收缩压均数为 122.9mmHg,标准差为 17.1mmHg。试比较舒张压和收缩压的变异程度。
%100X
SCV
%8.13%1005.77
7.10舒张压CV
%9.13%1009.122
1.17收缩压CV
变异系数 Coefficient of variation
(CV)
应用
1.表示数据分布的相对离散程度2.比较均数相差悬殊的两组或多组资料的离散程度3.比较度量衡单位不同的两组或多组资料的变异程度
%100X
SCV
某地 20 岁男子 160 人,身高均数为166.06cm ,标准差为 4.95cm ;体重均数为 53.72kg ,标准差为 4.96kg 。比较身高与体重的变异程度。
20岁男子体重的变异程度比身高的变异程度大。
%98.2%10006.166
95.4 CV身高
%23.9%10072.53
96.4 CV体重
某地不同年龄女童的身高( cm)资料 如下表所示 。试比较不同年龄身高的变异
程度。 某地不同年龄女童身高的变异程度
年龄组 人数 均数 标准差 CV(% )1~ 2 月 100 56.3 2.1 3.75~ 6 月 120 66.5 2.2 3.33~ 3.5 岁 300 96.1 3.1 3.25~ 5.5 岁 400 107.8 3.3 3.1
小结全距与四分位数间距:后者较稳定,但均不能综合反映各观察值的变异程度。标准差:最为常用,对正态分布尤为重要变异系数:可用于多组资料间度量衡单位不同或均数相差悬殊时作变异度的比较。 以上指标都是数值越小,说明观察值的变异度越小,均数的代表性越好。平均指标和变异指标常配套使用 如 正态分布:均数、标准差; 偏态分布:中位数、四分位间距
• 练习: 某市 1974年为了解该地居民发汞的基础水平 , 为汞污染的环境监测积累资料 ,调查了留住该市一年以上 , 无明显肝、肾疾病,无汞作业接触史的居民 238人的发汞含量 (μmol/kg)如下 :
用何种指标说明本资料的集中位置和变异程度较好?并计算之。
发汞值
1.5~ 3.5~ 5.5~ 7.5~ 9.5~ 11.5~
13.5~
15.5~
17.5~
19.5~
人数
20 66 60 48 18 16 6 1 0 3
某检验师测定了 10名正常成年钢铁工人的血红蛋白值 (g/dl)和红细胞数 (万 /mm3)如下 ,试比较这两个检测项目的结果哪个变异性大 ? 血红蛋白 (g/dL) 13.0 13.6 14.0 14.5 14.6 14.7 15.2 15.5 15.8 16.0血细胞数 (万 /mm3) 510 515 517 518 520 522 524 525 528 530
238名正常人发汞值 (μg/g)的频数表
发汞值 频数 累计频数 累计频率(%)
0.3~ 20 20 8.40.7~ 66 86 36.11.1~ 60 146 61.31.5~ 48 194 81.51.9~ 18 212 89.12.3~ 16 228 95.82.7~ 6 234 98.33.1~ 1 235 98.73.5~ 0 235 98.73.9~4.3 3 238 100.0
正态分布和医学参考值范围
要求: 掌握:正态分布及其特征,正态曲线下面积分布的规律。 熟悉:医学参考值范围,参考值范围估计的步骤,参考值范围估计的正态分布法和百分位数法。标准正态分布。 了解:参考值范围估计的对数正态分布法。
0
0. 2
0. 4
0. 6
0. 8
1
1. 2
3. 8 4. 2 4. 6 5. 0 5. 4 5. 8
)(Xf
X0
0. 2
0. 4
0. 6
0. 8
1
1. 2
3. 8 4. 2 4. 6 5 5. 4 5. 8
)(Xf
X0
0. 2
0. 4
0. 6
0. 8
1
1. 2
3. 6 4 4. 4 4. 8 5. 2 5. 6 6
f (X )
X
图 3-1 某地成年男子红细胞数的分布逐渐接近正态分布示意图
一、正态分布 (Normal Distribution)
正态分布曲线: 高峰位于中央,两侧逐渐下降、低平,左右完全对称、两端不与横轴相交的钟型曲线。正态分布: 以均数为中心,中间多,两侧呈对称性逐渐减少的钟型分布。
正态分布的密度函数 f(x)为:
由上式可见,正态分布的图形由 和 所决定, X~N ( , 2)
2
2
2
)(
2
1)(
X
eXf X
- 4 - 3 - 2 - 1 0 1 2 3 4 5 6 71 23
321 - 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5
1
2
3
321
- 5 - 4 - 3 - 2 - 1 0 1 2 3 4 5 96.1 96.1 58.2 58.2
%0.99%0.95%3.68
主要特征:
1. 以 为中心的对称分布
2.钟型曲线
3.曲线下面积分布有规律
4.两个参数决定位置和变异
图 3-2 正态分布曲线下的面积
图 3-3 三种不同均值的正态分 布
图 3-4 三种不同标准差的正态分布
正态曲线下的面积 F(x)的计算:
xeXf X ,])[/( 221
2
1
标准正态变换( u变换)
σ
μXu
-=
u为标准正态变量或标准正态离差
u变换的特点:若 X服从正态分布,则 u服从 标准正态分布标准正态分布:指均数为 0、标准差为 1的正态分布,记为 N( 0, 1)
二、标准正态分布 (Standard Normal Distribution)
表中曲线下面积为 - ~ u 的面积;即P ( u)
可以利用标准正态分布表求出与原始变量 X 有关的概率值。
1. 标准正态分布:求曲线下 (u1, u2)范围内的面积。(1) u ≤0 ①: 查表,分别求从 -∞到 u2与 从 -∞到 u1的面积; ② 两者之差为所求面积。
u2u1
u1 u2
例: u1= - 1.50, u2= - 0.31
1Φ( ) 0.0668u = 2Φ( ) 0.3783u =
则 (-1.50, - 0.31)范围内的面积
2 1Φ( ) Φ( ) 0.3115D u u= - =
(2) u >0 :利用正态分布的对称性求曲线 下从 -∞到 u范围的面积。
例:从 -∞ 到 u=1.76范围内的面积。
1.76- 1.76
0.0392
1-0.0392=0.9608
0.0392
2. 非标准正态分布:求曲线下任意(x1,x2)范围内的面积。
(1)先作标准正态变换;(2)再查标准正态分布表求得面积。
例:已知 110名 7岁男童身高 。现欲估计该地身高界于 116.5cm到 119.0cm范围内 7岁男童比
例及 110名 7岁男童中身高界于此值范
围内的人数。
121.95cx m=4.72cs m=
(1) 标准正态分布变换:
1
116.5 121.951.15
4.72u
-= =-
2
119.0 121.950.63
4.72u
-= =-
(2) 查表得:
1Φ( ) Φ( 1.15) 0.1251u = - =
2Φ( ) Φ( 0.63) 0.2643u = - =
(3) 求 D:2 1Φ( ) Φ( ) 0.2643 0.1251 0.1392D u u= - = - =
估计该地身高界于 116.5~119.0cm范围内的 7岁男童比例为13.92%;
估计 110名 7岁男童中有 15名男童的身高界于 116.5~ 119.0cm范围内。
110×13.92%= 15
•思考题:
该地 80%的男孩身高集中的范围?
三、正态分布的应用
1. 估计频数分布 例:出生体重低于 2500g为低体重儿。若由某项研究得某地婴儿出生体重均数为3200g,标准差为 350g,估计该地当年低体重儿所占的比例。
2-350
3200-2500u
查表 ,即从 -∞到2500的比例为 2.28%,故估计该地当年低体重儿所占的比例为
2.28%。
Φ( 2) 0.0228- =
2. 制定医学参考值范围 ( Reference Value
Range)3. 质量控制 为了控制实验中的误
差,实验室的质量控制中,常以 作为上、下警戒限;以 作为上、下控制限。
(2s和 3s是 1.96s与 2.58s的近似值 )。
4. 统计处理方法的基础
sx 3±sx 2±
μ +3 σμ +2 σμ + σμ
μ - σ
μ -2 σ
μ -3 σ
一、基本概念 通常指正常人(排除了对所研究指标有影响的疾病和有关因素的特定人群)的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主要目的:用于临床疾病诊断。最常用的是95%参考值范围。
第三节 医学参考值范围
(Reference Value Range)
确定 95%参考值范围示意图
二、医学参考值范围的制定方法
(一)选择足够数量的正常人作为参照样本
选择参照样本必须要考虑可能影响所要制定参考值范围指标的各种疾病及干扰因素,将这些人排除在外。例如在制定血清谷-丙转氨酶活性正常值时,选取正常人的条件为肝、肾、心、脑、肌肉等无器质性疾患,近期无特殊用药史等。同时可能需要考虑性别、年龄、民族、地理位置等因素。样本含量一般要较大,如 n>120。
(二)对选定的参照样本进行准确的测定
为保证原始数据可靠,要严格控制检测误差,包括分析仪器的灵敏度、试剂的纯度、操作技术及标准的掌握等,同时必须对测量条件做出统一的规定和说明,如临床化验参考值范围的制定,应对收集样本时的环境和生理条件(温度、季节、体育活动强度、饮食、妊娠等),收集、转运和储藏样品的方法及时间有明确的规定。
(三)决定取单侧范围还是双侧范围值
有些指标如白细胞数过高或过低均属异常(a) ,故其参考值范围需要分别确定下限和上限,称作双侧。有些指标如 24小时尿糖含量仅在过高(b)、肺活量仅在过低时为异常 (c),只需确定其上限或下限,称作单侧参考值范围。
( a)白细胞数参考值范围
(b)24小时尿糖参考值范围
(c)肺活量参考值范围
(四)选择适当的百分范围 参考值的百分范围应根据资料的性质和研究目的选择,它与诊断阈值有确定的关系。百分范围的不同将导致不同的假阳性率和假阴性率。
→若主要目的为减少假阳性(如确诊病人) 大 →减少假阴性(如初筛病人) 小
图 3-6 正常人和病人数据分布重叠
(五)估计参考值范围的界限
参考值范围估计主要有百分位数法和正态分布
法。 百分范围
(%) 单 侧 双 侧 下限 上限 下限 上限
95 P5 P95 P2.5 P97.5
99 P1 P99 P0.5 P99.5
百分范围
(%) 单 侧 双 侧 下限 上限 下限 上限
95
99
表 3-2 参考值范围所对应的百分位数
表 3-3 参考值范围所对应的正态分布区间
SX 65.1 SX 65.1
SX 33.2 SX 33.2
SX 96.1 SX 96.1
SX 58.2 SX 58.2
例 3.4 若已算得某地正常成年男子红细胞数的均数为
4.78×1012/L,标准差为 0.38×1012/L,试估计该地成年男子红细胞数的 95%参考值范围。
例 3.5 见第二章表 2-4资料。为该地区 50岁~ 60
岁女性高血脂诊断与治疗提供参考依据,试估计血清甘油三脂含量的 95%单侧参考值范围。
(mmol/L)098.230.028
)58095.0630(90.195
P
)L/10(04.438.096.178.496.1 12 SX
)L/10(52.538.096.178.496.1 12 SX
下限:
上限:
即 95%单侧参考值范围为小于 2.098mmol/L。
对数正态分布法 适用于对数正态分布资料
双侧上界
双侧下界
单侧上界
单侧下界
)96.1+(lg lglg1
XX SX
)645.1-(lg lglg1
XX SX
)645.1+(lg lglg1
XX SX
)96.1-(lg lglg1
XX SX
例:某市调查了 200例正常成人血铅含量,估计该市成人血铅含量 95%医学参考值范围。
单侧上界
ggμS
ggμx
X
X
100/27.0=
100/15.1=
lg
lg
gg
SX XX
100/29
)27.0645.115.1(lg)645.1(lg 1-lglg
1-
小 结 1.描述一组观察值,除需要表示其平均水平外,还要说明它的离散或变异的情况。
2.衡量变异程度大小的指标有多种 : 极差、四分位数间距、方差、标准差和变异系数。其中应用最多的是标准差和变异系数。
3.标准差与均数结合能够完整地描述一个正态分布。对任何参数的正态分布,都可以通过一个简单的变量变换化成标准正态分布。利用正态分布可以很容
易地确定其数值出现在任意指定范围内的概率。
4. “ ”医学参考值范围指 正常参照人群 的解剖、生理、生化、免疫及组织代谢产物的含量等各种数据的波动范围。主
要用作划分正常人与异常人的界线。
5.医学参考值范围的制定需要按照一定步骤进行。实际中最好结合正常人和病人的数据分布特点,权衡假阳性和假阴性的比例,选择一个适当的百分范围,最常用的百分界限是 95% 。
6.参考值范围估计的方法有多种,其中最基本的有百分位数法和正态分布法。正态法的优点是结果较稳定,但对资料要求严格;百分位数法适合于任何分布类型的资料,但要
求大样本。