论文部分内容阅读
受预期寿命延长、出生率下降,以及中国20世纪50、60年代婴儿潮出生的人口步入老龄化的共同影响,中国已成为世界上老龄化速度最快的国家之一。根据中国老龄化工作委员会的预测,2021年至2030年间,我国老龄人口的增长速度将明显加快,到2030年,老年人口占比将达到25%左右。老年与身体机能的下降直接相关。老年人口在总人口中的占比的上升导致社会的主要疾病负担由急性、传染性疾病向老年人口多发的慢性非传染性疾病倾斜。由于身体机能的相互影响,慢性病如若得不到良好的控制,往往引起多种并发症,严重时将导致失能。伴随人口老龄化,我国的慢性病患者规模和失能人口数量持续攀升,以糖尿病为例,中国糖尿病患者患在2013年底已达9600人,约占全球糖尿病人数的25%。截至2015年底,中国的失能老年人口已达4060千万,占老年总人口数的20%,预计其在未来几十年里还将加速增长,于2050年达到9800万人。慢性病风险和失能风险已成为人口老龄化背景下中国最显著的健康风险。本文根据风险分析的框架,以人口老龄化社会中凸显的健康风险——慢性病和失能为着手点,对中国人口老龄化进程下的健康风险进行评估、测算和刻画,主要包括以下6个方面的研究:一、慢性病(以心脏病和糖尿病为例)和失能风险的关键风险因子的识别本文挑选了来自基因、当前生活方式、早期生活方式、经济状况、自我效能感、社会隔离度、压力事件、营养、医疗照护可得性以及疾病10个大类的120余项个人特征指标作为备选风险因子指标纳入到基于机器学习算法——极限导数提升法(Extreme Gradient Boosting(XGBoost))的慢性病发病率和失能发生率的测算模型中。通过基于L1范数的惩罚回归,识别出对慢性病发病率和失能发生率的预测贡献最为显著的风险因子。此外,在失能风险因子识别中,本文还进一步应用了聚类算法,通过先降维再回归的模型设计,得到能够凸显风险因子类别的更加简约的模型,以对各风险因子类别的相对重要性做出进一步判断。二、健康风险发生可能性的测算本文构建了两类模型来测算慢性病和失能风险的发生率。第一类为用于风险因子识别的机器学习模型,分别以二项分布Logistic回归和泊松分布模型为基础,构建了健康状态转移(健康→发病,健康→失能)的瞬时转移力与个人特征指标/聚类指标之间的两状态回归模型。模型的拟合引入机器学习算法中的XGBoost方法,使用极大似然估计准则来选择最优模型。为得到兼顾稳定性与预测准确性的模型,本文在数据处理和模型估计中应用了一系列机器学习算法的调试技巧,例如,针对大数据中的数据缺失问题以及健康风险事件的数据不平衡问题,本文在建模前采取了缺失数据补充、稀有数据扩大抽样等方法来保证建模数据的可靠性。为了获得全局最优估计值,本文根据不同模型的需求,设计了定制化的XGBoost超参数调试流程,将超参数搜索覆盖到有序格点搜索、随机搜索和贝叶斯搜索以获取全局最优超参数值,并在模型训练和模型测试中分别运用交叉检验来保证最优拟合模型的稳定性。为防止出现机器学习模型常见的数据驱动和过度拟合问题,本文使用了基于L1范数的正则化方法来将不重要的风险指标排除出模型。第二类为引入不确定性的健康状态转移模型,模型的解释变量中仅纳入本文感兴趣的风险分类指标——年龄、性别和时期作为基础变量,通过引入一个引入不确定性因子来代表没有被模型覆盖的其他因素的影响和模型的预测误差,构建了一个兼具形式的简洁性和对现实的代表性的集约模型。本文使用Kalman过滤和平滑技术来估计不确定性因子的贝叶斯后验值。第二类模型的可解析性使它能够作为第一类模型的补充,提供各个基础因子对风险发生率的影响程度信息,以及应用于对不同风险分类下的风险发生率绝对量的测算中。三、测算健康风险发生率的变化对预期寿命等的影响本文测算了健康风险发生率的变化在预期寿命、健康预期寿命、失能分布、生存曲线和失能人口新增速度上的体现。由于失能是慢性病恶化的结果表现,且其判定可以根据世界卫生组织的标准,通过对数据集样本进行指标观测实现,而无需医学上的诊断,是从可获得的数据中能够得到的较为稳定的健康测度,因此这部分的测算选择以失能为中心进行。四、对中美健康风险特征的比较本文将多状态转移模型应用于同一观测时期的美国人口数据,比较了中美健康风险影响因子作用的差别和发生率的趋势性差异,并以此为基础,测算了这些差异对于两国的预期寿命的影响。五、对中国的城乡健康风险差异以及相应的在预期寿命上的表现进行了比较最后,本文以我国的健康风险特征为基础,就新环境下健康风险的风险预防和管理提出了应对建议。本文对中国人口的相关测算使用中国老年人健康长寿影响因素调查(Chinese Longitudinal HealthyLongevity Survey,CLHLS),对美国的相关测算使用健康和养老调查(Health and Retirement Study,HRS),数据的观测期为1998年至2014年。本文的实证结果显示,社会经济地位类因素——经济状况、医疗资源的可得性以及生活方式,对慢性病和失能风险均有较强的预测能力,同时该类因素的重要性在10余年的考察期内有所上升,表明社会经济地位不同的人群间健康风险差距在扩大。受教育年限作为社会经济地位因子中的代表性因子,与更为严重的失能程度呈现更强的相关性。在常用于健康风险发生率建模中的年龄、性别、时间三个因子中,年龄和时间是对慢性病发病率和失能发生率的强有力的预测指标,而性别的影响在加入其他大类因子时被削弱。中国人口的失能率在考察时期(1998年至2014年间)呈现出较为明显的下降趋势,但由于失能康复率的恶化(下降)以及失能人口死亡率的改善(下降),中国人口的总预期寿命中,失能生存年限的绝对量和占比均有上升,表明中国仍处于失能风险扩张的阶段。本文对未来新增失能人口的预测也显示,中国在未来一段时期仍面临失能人口的加速增长。同时,中国的健康风险还表现出明显的城乡差异,城镇居民的失能率高于农村居民,但健康人口和失能人口死亡率均低于农村居民,且在考察期,城镇居民的生存曲线发生了更为明显的正则化,表明城乡居民的健康风险差距还在进一步拉大。中国和美国均呈现出死亡率和预期寿命的改善,但改善的来源有所差异,中国的健康人口死亡率和失能人口死亡率均有下降,而美国人口的死亡率改善仅局限在健康人口中。相对应地,中国人口的总预期寿命中,健康预期寿命和失能生存年限均有增长,而美国的预期寿命增长由健康预期寿命所贡献,失能生存年限有所下降,表明中国仍处于由医疗护理服务不断改善而带来的失能人口死亡率快速下降的阶段,而美国由于护理体系已经成熟,失能人口死亡率改善的空间较小,老年人口预期寿命的提高伴随的是健康预期寿命的提高——活得更久且活得更健康。本文研究中的创新体现在以下几个方面:第一,本文首次将大数据分析应用到健康风险发生率/健康状态转移率的风险因子识别中,提供了在较为全面的个人特征维度下的风险因子筛选,改善了前人在健康风险影响因子识别中存在的指标的片面性和计算标的的滞后性问题。在具体方法上,本文使用了基于L1范数的正则化方法和交叉检验来防止模型的过度拟合和数据驱动问题。在搭建常规模型之外,本文还将无监督算法中的聚类分析结合到有监督算法的XGBoost中,通过先降维后回归,构建了以降维后的聚类因子为解释变量的、形式更为简约的模型。在机器学习模型的训练中,本文以现有的R软件包为基础,根据各个模型的不同需求,设计了机器学习算法中最为关键的超参数调试方法,将超参数的搜索范围覆盖到有序格点搜索、随机搜索和贝叶斯搜索,训练出在独立测试集中预测准确度达到85%以上的模型。根据前期对不同机器学习算法的尝试,本文最终构建的模型的预测准确度较常规的Lasso广义线性回归提高了近30%。第二,本文首次将不确定性直接引入到对中国老年人口的健康状态转移的建模中来,构建了一个兼具形式的简洁性和对现实的代表性的集约模型,提供了健康风险发生率以及预期寿命、失能分布预测中的不确定性的概率分布,改善了前人在对中国的研究中,对预测误差来源考虑不全面的问题。第三,本文首次将失能的康复过程纳入到对中国老年人口的健康状态转移的动态建模中,校正了前人研究中由于没有考虑失能到健康的康复过程而造成的对中国人口预期寿命等指标的低估。第四,本文提供了对中美健康风险特征的定量比较。本文就健康风险发生率及其对预期寿命、失能分布的影响与美国进行了横向比较,以增加对我国当前健康风险的发展阶段的认识。