论文部分内容阅读
随着科学技术的提高,人们除了追求物质需求外,也越来越关心自身的健康。在诸多疾病中,心脏病严重威胁着人类的生命。本文以充血性心力衰竭(CHF,Congestive Heart Failure)为研究对象,其目的是基于短时(500个连续心跳间隔)RR序列,采用人工智能分类算法构建一个可供临床应用的充血性心力衰竭诊断模型。本研究的主要工作如下:(1)构建了充血性心力衰竭和正常RR序列数据集。从公共数据库Physionet中下载记录时长为24小时的116个RR序列,包括72名健康被试和44名充血性心力衰竭患者。去除每个长期RR序列中的异常搏动间隔,并且以500个连续心跳间隔截取多个短时RR序列片段构成两类数据集,即非平衡数据集和平衡数据集。(2)提取了反映充血性心力衰竭自主神经活动的生理特征集合,并选出其中的关键特征子集。本研究提取了10个时域特征、8个频域特征、10个时-频域特征以及7个非线性复杂度特征,构成35维的特征空间。为了提高模型的泛化性能且降低运算时长,本研究采用序列前向选择算法来降低特征空间的维度。(3)探索了数据集平衡度和验证方式对充血性心力衰竭诊断模型稳定性和泛化性的影响。本研究基于两对影响因素,即非平衡数据集和平衡数据集、十折交叉验证和交叉被试验证,两两交叉组合分析四种情况下的分类结果。(4)根据充血性心力衰竭诊断模型的特征子集,分析了心衰疾病对自主神经的破坏性影响。本研究得到以下结果和结论:由于较少的特征数目不会导致模型过度拟合而泛化性能降低,基于序列前向选择算法,从35维特征空间中选取出6个最佳的特征,即RMSSD、INDEX、RATIO1、SD1、?2和SampEn,构建充血性心力衰竭诊断模型。分析四种情况下的模型性能,发现使用平衡数据集和十折交叉验证,模型性能指标ACC(识别率)和AUC(受试者工作特征曲线的下方面积)均得到很大改善。基于平衡数据集获得的模型在识别任务中因不偏向任何类别而具有很强的稳定性。然而,模型通过十折交叉验证虽获得很高的识别率,但常因泛化性能较差导致模型在临床应用场景下效果不佳。为了最大程度地改善模型的泛化性,本研究基于交叉被试验证,采用6个特征和KNN分类算法(K=1)构建充血性心力衰竭疾病诊断模型,其识别率为94.31%,AUC达到0.94。从生理学角度分析,由于充血性心力衰竭患者的自主神经失衡导致由其支配的心脏系统随之发生功能性障碍,因而在时域、频域、时-频域以及非线性复杂度指标上分析均与正常人群有很大的差异性。综上所述,本研究的主要优势是基于短期RR间隔时间序列,在保证识别率的情况下,采用最少的特征使得充血性心力衰竭诊断模型具有最佳的稳定性和泛化性。该模型可以为临床提供一种更加实效性的充血性心力衰竭疾病辅助诊断作用。