charls - pku.edu.cn
TRANSCRIPT
中国健康与养老追踪调查(CHARLS)
陈欣欣
2018.11.21
北京大学中国社会科学调查中心
第二届全国高校数据驱动创新研究大赛培训会
概要
2
CHARLS概况
注册下载数据
抽样方法
CHARLS常规调查总体数据结构
CHARLS专项调查简介
数据发布和服务
中国正在经历快速的老龄化
老龄化速度国际比较
中国已成为老龄化速度最快的国家之一
人口抚养比的急剧变化
老龄化的主要挑战是劳动力比例的降低
当前关于退休年龄的制度将不可持续
国际老龄系列调查发达国家较早进入老龄化社会,数据基础设施建设也较早
• 美国:HRS, 1992
• 英国:ELSA,2002
• 欧洲:SHARE, 2004
亚洲:
• 日本:JSTAR,2007
• 韩国:KLOSA, 2008
• 印度:LASI, 2014
其他:墨西哥、巴西、爱尔兰和澳大利亚
CHARLS是该系列调查之一,便于进行国际比较研究
Gateway to Global Aging Data (www.g2aging.org) 提供了深度整合的可比性数据集
7
中国健康与养老追踪调查(China Health and Retirement Longitudinal Study, CHARLS)
对中国45岁及以上居民的全国代表性样本
隔年追踪
CHARLS 大事记
8
全国追踪
全国
基线调查
甘浙两省
预调查
全国追踪
两省追踪
2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018
生命历程全国调查
共和国初期基层经济历史调查
京津新样本
认知评估工具验证研究
全国追踪
• MMIC系统• CHARLS问卷系统
问卷设计
• 访员招聘管理系统
• 访员管理系统• 样本管理系统
质量控制
• 核查系统
财务管理
• 访员财务管理
数据分析
抽样阶段
调查执行
• CHARLS-GIS绘图系统
数据收集技术
9
质量控制
多手段、多视角的质量监控
监控访问数据真实性、有效性、准确性
第一时间诊断访员不规范行为并进行纠正
10
应答样本量和应答率
CHARLS数据用户数量
5482
8341
13378
18450
23046
28179
0
5000
10000
15000
20000
25000
30000
2013 2014 2015 2016 2017 2018
用户
数(
人)
CHARLS
12
对全国学术界的贡献序号 机构 用户数 占比(%)
1 北京大学 2979 10.6
2 中国人民大学 1212 4.3
3 中央财经大学 877 3.1
4 西南财经大学 765 2.7
5 中南财经政法大学 534 1.9
6 清华大学 440 1.6
7 中山大学 404 1.4
8 北京师范大学 398 1.4
9 厦门大学 392 1.4
10 武汉大学 382 1.4
学术出版成果
190
339
466
672
908
1100
0
200
400
600
800
1000
1200
Before 2014 2014 2015 2016 2017 Sep-18
CHARLS历年成果累积增长图
共计 中文期刊 英文期刊 其他论文
学科交叉性
多学科的数据用户 多学科的研究成果
《柳叶刀》 (Lancet)
《美国科学院院刊》(Proceedings of the
National Academy of Sciences)
《人口学》(Demography)
《发展经济学》(Journal of Development
Economics)
《人力资源》(Journal of Human Resources)
《健康经济学》(Health Economics)
《社会学》(Journal of Sociology)
CHARLS用户专业分布用户数(人)
比例(%)
1.经济学 15,019 53.4
2.医学和公共卫生 2,865 10.2
3.社会学 2,651 9.4
4.管理学 2,428 8.6
5.自然科学 1,198 4.3
6.统计学 1,058 3.8
7.人口学 451 1.6
8.政治学 273 1.0
注册及下载数据
用户注册
网址1:北大开放研究数据平台http://opendata.pku.edu.cn/dataverse/CHARLS
用户注册
网址2:http://charls.pku.edu.cn
用户条款
用户信息
下载文档和数据
抽样方法
抽样方法
基线:多阶段PPS抽样
县:150
村居:450
家户:45岁+
个人:随机抽取一个45岁+的个人(主要受访者),其配偶自动进入访问的样本;39-44 的作为备访样本
合计:28个省(自治区、直辖市)、1万多户的1万七千余人
追踪:
补充新增的45岁+样本
对于基线的无应答样本和错误样本,继续尝试访问
CHARLS 创新点
家户抽样:计算机绘图抽样技术 (Charls-GIS v1.0, v2.0)
Google Earth (v1.0), 百度地图(v2.0)
确定村居边界,绘制村居内的所有建筑物
确定建筑物内的所有居住单元
记录GPS
拍照(建筑物,居住单元的门等)
CHARLS-GIS v2.0
Charls-GIS的优点
减轻绘图工作量
方便查找抽中住户
方便质量监控
样本的代表性0
24
6
Perc
enta
ge
46 50 55 60 65 70 75 80 85 90+
Age
Age Distribution
CHARLS Census
CHARLS常规调查总体数据结构
访问层级
家户调查
社区调查
政策调查
问卷主要内容
30
个人:教育、迁移、婚姻、健康、医疗、就业、社会保障、收入
家户:成员基本信息、家庭经营活动、收入、支出、财产、金融
家庭:子女、父母、兄弟姐妹,家庭养老资源;与子女、父母之间经济往来和交往
社区:社会经济情况、政策执行情况、环境、养老健康设施、历史等
县(市):养老、医疗、贫困救助政策
社区、政策为CHARLS创新
CHARLS常规调查总体数据结构
个人层面的数据:主要受访者及配偶
家户(家庭)层面的数据:家户成员,家庭成员(父母,子女(媳婿),孙子女)
问题大多是循环形式,一套问题询问所有的成员,通过限制条件跳过特定问题
社区层面的数据:社区信息
个人层面的数据
32
B Demographic_Background.dta 基本人口学信息
D Health_Status_and_Functioning.dta 健康状况与功能
E Health_Care_and_Insurance.dta 医疗保健和保险
F Work_Retirement_and_Pension.dta 工作退休和养老金
HB Individual_Income.dta 个人收入和资产
Q Biomarker.dta 体检信息
Blood.dta 血检信息
J Interviewer_Observation.dta 访问员观察
EX Exit_Interview.dta 退出调查(去世受访者)
VA Verbal_Autopsy 死因(去世受访者)
体检
33
体格测量:
身高、体重、腰围、小腿长度、上臂长度
肺功能、握力、起坐能力、行走速度、平衡能力
血压
血样检查
34
血样分析
血常规(白细胞、红细胞、血红蛋白、平均红细胞体积、血小板)
血糖
血脂(总胆固醇、高密度脂蛋白胆固醇、 低密度脂蛋白胆固醇、甘油三酯)
肾功能(血尿素氮、肌酐、尿酸、胱抑素C)
超敏C反应蛋白
糖化血红蛋白
认知、抑郁
35
基本认知:
Telephone Interview of Cognition Status (TICS)
day, day of week, season
sequential subtraction of 7s from 100;
记忆:回忆10个词
模仿:copying a picture
抑郁:CESD-10
死因推断(2013-)
家户层面的数据
A Household_Roster.dta 家户成员信息(从Wave 2 开始合并到C1)
C1 Family_Information.dta 家庭信息
从中构建了Parent.dta, Child.dta, Other_HHmember.dta
C2 Family_Transfer.dta 家庭经济交往
G, HA Household_Income.dta 家户收入,支出及资产
I housing_Characteristics.dta 住房信息
社区层面的数据
37
社区信息
基本信息
基础设施
社保,医保等覆盖
政策的变化(计划生育,保险等等)
......
PSU 编码
省市名
城镇/农村 Urban or Rural according to NBS
村居类别Area type according to NBS
各层级数据的匹配:ID
ID 规则
IDCHARLS 数据是分模块存储和发布的
个人数据:ID, householdID and communityID
家户数据:householdID and communityID
子女数据:childID, ID, householdID and communityID
父母数据:parentID, ID, householdID and communityID
家庭成员数据:hhmemberID, ID, householdID and
communityID
上述ID(除了 hhmemberID以外)在不同年度的问卷中都完全一致
Stata 命令:merge
CHARLS 专项调查
2014中国中老年人生命历程调查意义:
– 有助于深入理解其当前的健康、就业和收入的决定因素
– 有助于采取科学的干预措施,改善个人的成长环境。
组织方式:问卷访问
最终成果:中国第一个具有全国代表性的关于中老年人生命历程的量化数据库
2016共和国初期基层经济史调查
对共和国初期农村的生产生活情况进行抢救性的记录
组织方式:
口述史:8-15位80+老人/村
座谈会:3-5位80+老人/村
最终成果:中国第一份具有全国代表性的量化记录建国初期生产和生活信息的数据库
2017京津居民生命历程调查
目的
摸清北京和天津两市常住居民的养老需求,得到具备两市代表性的微观数据库,为科学指导养老产业投资,避免养老资源的浪费提供决策依据
为其他省市开展区域性养老需求调查积累经验
为2021年全国代表性样本中新增样本的抽样工作积累经验
2017京津居民生命历程调查
访问时间:2017.6-8
访问目标: 京津两市110个村居、5000户家庭中的所有家户成员
组织方式:绘图员绘图抽样+访员入户访问
实地执行流程:绘制地图——抽样——问卷访问
2017认知评估工具验证研究调查
目的:为探索适用于中国全国性调查的认知评估工具提供依据
访问时间:2017.7-8
访问目标:65岁及以上老人
– 6省17个县区中的50个村居
– 6省省市级医院精神科门诊病人
组织方式:精神科医生和访员独立入户
数据发布和服务
数据的清理和发布
数据名称 发布时间
2008甘浙两省预调查数据 2010.11
2011年全国基线样本调查数据 2013.3
2012年甘浙两省追踪调查数据 2014.2
2013全国基线样本第一次追踪访问数据 2015.1
2014年中国中老年人生命历程调查 2016.6
2015年全国基线样本第二次追踪访问数据 2017.5
数据服务
数据申请审核
数据用户论坛
用户培训
用户专场研讨会
51
谢谢!