Download - 现场调查 问卷的数据管理 Survey Data Management
现场调查问卷的数据管理 Survey Data Management
流行病与卫生统计学教研室流行病与卫生统计学教研室流行病学教研组流行病学教研组
主要内容
问卷录入前的核查
数据编码
常用数据管理软件介绍
数据的录入与管理
研究设计 设计“问卷”
实施调查 收集数据
分析资料
结果解释
撰写论文
分析数据
数据录入
数据管理
……
一、问卷录入前的核查
核查的内容 真实性:无伪造和失真,无乱答 准确性:有无前后矛盾、相关问题逻辑一致 完整性:整体完整性和单份完整性。 标准性:调查结果中数据的计量单位要统一
数据编码的概念 数据编码的原则 数据编码
二、数据的编码与赋值
数据编码的概念 数据编码是指把资料信息转换成计算机能识别的
某些特定的符号和数码的过程,它直接关系到数据处理和分析的繁复程度和真实性。
大规模的流行病学调查需要编制一份编码手册(也称编码簿)发给编码员,每个编码员则按编码手册的要求,统一进行编码。将调查数据转换成代码数据,代码数据应尽可能保留原始调查数据的形态及包含的信息。
数据编码的原则
唯一性原则: 每一编码与所代表的信息呈一一对应关系;
简单性原则: 编码的位数要尽可能少,编码的符号要尽可能简单,一般
编码都使用阿拉伯数字;
概括性原则: 对信息进行分门别类,然后用少数几个符号代表不同的类。
数据编码 定量变量的编码:
定量变量的编码最为简单,一般只需把变量数值直接写成代码数据,而不需要任何转变。
有时为了降低录入难度,避免录入错误,人们常把定量资料认为的转变为等级编码,如先对年龄进行分组,即 1 ~ 19=1 , 20 ~ 39=2 ,……,>80=5 ,然后再将这些分组的年龄代码数据 1 ,2 , 3 , 4 , 5 输入到计算机数据文件。
数据编码 定性变量的编码:
二分类变量的编码:常用 0 和 1 来编码,因此也可以称为 0-1 变量。
由于对阳性事物设立高次代码有助于调查者在分析时获得正的参数估计值,所以一般情况下常用“ 1” 代表“有 、正或阳性”;用“ 0” 代表“无、负或阴性”。
定性变量的编码:多分类变量的编码:季节一般分为春、夏、秋、冬。通常的
做法是用英语字母(如 A、 B、 C、 D)或阿拉伯数字( 1 , 2 , 3 , 4 )依次对其进行编码。
值得注意的是,这里季节是个名义变量,其取值 1 、 2 、 3 、 4只是为了数据记录的便利而设定的代码,不能由其平均数作为该分类变量的平均水平对资料进行描述,也不能直接参与回归分析等计算。因为“ 1” 不能理解为“较低水平”,“ 4” 也不能理解为“较高水平”,它们之间不存在自然的等级变化,如果直接参与回归分析只能会造成结果无法解释。
数据编码
定性变量的编码:多分类变量的编码:季节一般分为春、夏、秋、冬。通常的
做法是用英语字母(如 A、 B、 C、 D)或阿拉伯数字( 1 , 2 , 3 , 4 )依次对其进行编码。
数据编码
定性变量的编码:有序变量的编码:临床体检或实验室检验常用−、±、+和++等来表示测量结果,属于有序变量。
有序变量的取值称为水平,如果有理由认为各水平之间是等距离或近似等距离,则可把各水平取值依次记作 1 、 2 、3 、 4 。例如,患者术后出血量分为少、一般、偏多、过多,分别按这个顺序编码为 1 、 2 、 3 、 4 。如果把“ 1” 理解为“较低水平”,代表较少出血量,把“ 4” 理解为“较高水平”,代表较多出血量,完全可以和医学实际意义相吻合。
数据编码
问卷中多复选题的编码: 所谓复选题,也称多项选择题, 即题目的答案不止一个,
答案的选项可以根据研究需要多重选择。 复选题主要包括两种情况:
一种是被调查人员从选项集中任意选择符合自身情况的选项,没有其他附加要求;
另一种是被调查人员从选项集中选择最重要的 3 项(或 5项),并按照程度大小排序。
数据编码
问卷中多复选题的编码:1.多重二分法:将复选题的多个选项分别当作独立
的变量来看待,根据选项的个数分别定义为若干个子变 量 。 对 于 每 一选项的 赋 值 ,选定义为“ 1” ,不选为“ 0” 。
如例 1 按照多重二分法进行编码时,就会产生 5 个新的且相互独立的变量,分别用 A1 、 A2 、 A3 、 A4 、 A5 表示,假设某位调查对象选择了“ 1 、 2 、 5” ,编码的结果便为 A1=1 、 A2=1 、 A3=0 、 A4=0 、 A5=1 。
数据编码
问卷中多复选题的编码:2. 随机编码法:当变量选项比较多,而题目只要求从多
个选项中选择最重要的 3 或 5项时,仍然使用多重二分法录入显然不方便。为了减少录入“ 0” 的次数,常选用另一种编码方法-随机编码法。
如例 2 ,这时候只要定义 3 个子变量即可(如 B1 , B2 ,B3 ),每个子变量的备选项可以分别定义为 1-10 ,也可以理解为每个子变量为被访者的一次选择。假设某位调查对象选择了“ 1 、 2 、 5” ,编码的结果便为 B1=1 、 B2=2 、 B3=5 。
数据编码
问卷中多复选题的编码: 3.组合编码法 : 运用了排列组合的方法,把所有符合例 3条件的组合
定义为一种类型,并分别用阿拉伯数据对其进行编码。然后在数据录入时,只需要把某一类型的代码录入一个变量( C)即可。
由于这种方法只需定义一个变量,因此可以有效减少了数据容量, 提高录入速度,便于数据的检查。而且用单选题的编码方式用于复选题的数据编码,也必然增加了可选择的统计分析手段。
存在着因备选项增加而造成的组合类型多样化、类型识别困难的弊端。
数据编码
漏失数据的编码 : 失访数据(又称漏失数据 ):是指应该调查而未被
调查到的数据,例如调查对象回答不准确、调查员记录不清、项目遗漏或随访过程中调查对象失访等原因,都会导致漏失数据的产生。
空白数据 :是在调查对象不具有某些项目的情况时产生,它属于不必调查的数据,例如男性中学生月经初潮的调查项目一定呈空白状态。
数据编码
漏失数据的编码 : 虽然这两种类型的缺损数据在客观上都造成了调查表项目的空白,但
它们的性质及其在分析时的处理方法不同。有些调查者将漏失数据和空白数据都视作同一代码例如“ 99” 或“ 0” 处理,这对统计分析特别是多元分析极为不利。如果某项目漏失数据较少,仍可用适当方法加以处理并使其参与分析,但真正的空白数据则完全没有必要这样来做。
一般来说,可用适当位数的“ 99” 或“ X” 代码来表示漏失数据;用“ 0” 或“ -” 代码表示空白数据。
数据编码
数据录入和管理
Epi Info
EpiData 3.0
Microsoft Excel
Microsoft Access
Visual FoxPro
Other: SPSS, SAS, STATA…
数据管理与分析
Epi Info 6.04d
http://www.cdc.gov/epiinfo/downloads.htm
EpiData 3.0
Microsoft Excel
Microsoft Access
Microsoft Visual FoxPro
SAS
STATA
SPSS
Epi Info v3.3
http://www.cdc.gov/epiinfo/downloads.htm
数据录入和管理
• EpiData 3.0
• Microsoft Excel
• Microsoft Access
• Visual FoxPro
• Epi Info
• SPSS, SAS, STATA, NCSS-PASS…
• EpiCalc 2000
数据分析
EpiData
免费的数据录入和数据管理软件
开发者:丹麦欧登塞( Odense, Denmark )的一个非盈利组织,即 The EpiData Association (http://www.epidata.dk)
程序设计者: Jens M. Lauritsen, Michael Bruus 和 Mark Myatt
EpiData 直观方便
简单易学
实用性强
对计算机硬件要求不高
数据录入功能强
EpiData 当前最高版本: 3.1
语言:丹麦语、挪威语、荷兰语、意大利语、中文、法语、西班牙语、俄语、斯洛文尼亚语、塞尔维亚语、波兰语、葡萄牙语、阿拉伯语、英语
记录数最好不要超过 20 万 ~30 万条
整个录入界面不要超过 999 行
下载: http://www.epidata.dk/
1. 建立调查表文件
2. 创建数据库
3. 建立核查文件
4. 录入数据
5. 数据库管理
6. 输出数据
数据录入和管理流程
0. 设计问卷
1. 建立调查表文件
*.QES
新建文件
打开已有调查表文件
格式:变量标 { 变量名 } 变量编码
日期型变量
数值型变量
字符型变量
定义变量名的规则:变量名第一个字符一定为字母( A-Z )之后可含字母( A-Z )和数字( 0-9 )变量名最多 10 个字符变量名不能是中文
1. 建立调查表文件
*.QES变量类型的选择
格式:变量标 { 变量名 } 变量编码
日期型变量
数值型变量
字符型变量
2. 创建数据库
*.REC
*.QES
建议:数据库文件应该和调查表文件同名, 仅仅后缀不同
3. 建立核查文件
目的:方便录入,质量控制注意: 核查文件的文件名( *.chk )必须与数据库的文件名( *.rec )一致,唯一不同的就是扩展名。
3. 建立核查文件
*.REC
*.QES
*.CHK
questionnaire
record
check
3. 建立核查文件
定义允许录入的范围,如 1-3
定义允许录入的数值,如 1,2,9
设置跳转,如 2>occup1
必须录入
重复录入在新的记录中,程序会自动复制前一条记录的内容到当前记录。
对于分类数据,它定义了数值的具体含义
4. 录入数据
4. 录入数据
*.QES
*.CHK
*.REC*.REC
5. 数据库管理
追加 / 合并数据库 逻辑一致性核查 平行双录入核查 生成报表 ……
生成报表 (1): 文件结构
生成报表 (2): 全部或部分记录的录入报表
生成报表 (3): 简单统计报表
6. 输出数据库
6. 输出数据库
*.QES
*.REC
*.CHK
*.txt
*.dbf*.sas
*.sps
*.xls*.dta
统计分析软件
1. 建立调查表文件
2. 创建数据库
3. 建立核查文件
4. 录入数据
5. 数据库管理
6. 输出数据
数据录入和管理流程
第一步:打开或建立调查表文件
运行 Epidata 点击
选择课件文件夹内的
第二步:生成数据库文件
点击
选择
第三步:建立核查文件
第三步:建立核查文件
第四步:录入数据
第四步:录入数据
追加 / 合并数据库
逻辑一致性核查
平行双录入核查
生成报表
……
第五步:数据库的管理
第六步:数据导出
实习一下!
数据库在(课件文件夹)
EpiData
下课了!