论文部分内容阅读
糖尿病是一种常见的代谢性疾病。近年来,糖尿病发病特征出现了年轻化、患病人数逐年增多、并发症发病患者也随之增多的变化,从而加大了内分泌临床医生对于糖尿病病情及其并发症诊断的压力。目前,各级医疗机构在为糖尿病患者提供医疗服务的同时,积累了大量的糖尿病现实世界数据,包括糖尿病患者信息、就诊信息、诊断信息、医嘱信息、检查检验信息等。如何借助新一代人工智能技术特别是深度学习技术,在糖尿病现实世界数据的基础上,实现糖尿病生化指标和并发症预测,对于糖尿病病情掌控和糖尿病并发症预防有着重要的意义。
现有的糖尿病生化指标和并发症预测模型大多建立在公开数据集上,通过神经网络的模型进行预测和分类。公开数据集数据完整,可以直接使用神经网络进行学习,利用公开数据集实现的模型多偏向于单一血糖预测或者单一并发症预测。而实际应用中,糖尿病患者存在血检时间不规律、同时患有多个并发症的现象,并且糖尿病生化指标存在多样性,因此多数现有模型在应用中存在局限性。
为了解决上述问题,本文提出了基于稀疏编码LSTM的糖尿病生化指标预测模型。该模型可以用于对实际医院中的糖尿病生化指标预测,整合了序列化稀疏自编码和LSTM。在已有糖尿病生化指标特征抽取模块的基础上,本文提出了基于双向LSTM多任务学习的糖尿病并发症预测模型,该模型利用五种并发症的相关性,进行多任务学习,完成多并发症预测工作。除此之外,本文设计并实现了基于的糖尿病医疗辅助诊断系统。本文研究内容包括以下三个部分:
1)提出基于稀疏编码LSTM的糖尿病生化指标预测模型。该模型利用某三甲医院提供的糖尿病生化指标作为数据集,实现了对患者进行糖化血红蛋白、空腹胰岛素和餐后2小时血糖三个糖尿病生化指标进行预测的功能。首先,该模型进行数据整理以及数据预处理,利用医疗卡号(患者身份唯一标识)将患者所有检测指标整合到一起,提取出模型中要使用的三个指标和它们对应的检测时间。其次,该模型对数据进行特征提取,因为医院提供的数据中存在较多的数据缺失,而患者糖尿病生化指标又有重要的时间关联性,所以数据需要进行特征提取,特征提取方法使用本文提出的序列化稀疏自编码模块。最后利用长短期记忆神经网络(LSTM)对特征向量进行回归计算,得到目标预测值。实验结果证明了该模型的可行性和有效性。
2)提出了基于双向LSTM多任务学习的糖尿病并发症预测模型。该模型以患者生化指标的特征向量、患者基本信息(包括性别和年龄)作为输入数据,利用多任务双向LSTM构建了一个可以预测五种并发症的模型,五种并发症为:糖尿病视网膜病变、糖尿病肾病、糖尿病周边神经病变、糖尿病足病和糖尿病心血管疾病。该模型首先进行数据预处理,利用医疗卡号将需要输入的患者数据整合到一个矩阵中,然后多任务模块将患者的所有信息进行参数共享分给五个任务,每一个任务代表了一个并发症。最后每个任务利用双向LSTM进行二分类运算,得到的结果能够表示患者是否患有当前任务代表的并发症。通过实验结果的分析,证明了模型的有效性和可行性。
3)设计并实现了糖尿病辅助诊断系统。该系统以基于稀疏编码LSTM的糖尿病生化指标预测模型和基于双向LSTM多任务学习的糖尿病并发症预测模型为核心,实现了糖尿病患者生化指标预测和糖尿病患者并发症预测的系统功能。将实验得到的模型应用到了系统之中,让医生通过系统界面直接使用模型进行诊断,为医生提供糖尿病辅助诊断上的支持。
现有的糖尿病生化指标和并发症预测模型大多建立在公开数据集上,通过神经网络的模型进行预测和分类。公开数据集数据完整,可以直接使用神经网络进行学习,利用公开数据集实现的模型多偏向于单一血糖预测或者单一并发症预测。而实际应用中,糖尿病患者存在血检时间不规律、同时患有多个并发症的现象,并且糖尿病生化指标存在多样性,因此多数现有模型在应用中存在局限性。
为了解决上述问题,本文提出了基于稀疏编码LSTM的糖尿病生化指标预测模型。该模型可以用于对实际医院中的糖尿病生化指标预测,整合了序列化稀疏自编码和LSTM。在已有糖尿病生化指标特征抽取模块的基础上,本文提出了基于双向LSTM多任务学习的糖尿病并发症预测模型,该模型利用五种并发症的相关性,进行多任务学习,完成多并发症预测工作。除此之外,本文设计并实现了基于的糖尿病医疗辅助诊断系统。本文研究内容包括以下三个部分:
1)提出基于稀疏编码LSTM的糖尿病生化指标预测模型。该模型利用某三甲医院提供的糖尿病生化指标作为数据集,实现了对患者进行糖化血红蛋白、空腹胰岛素和餐后2小时血糖三个糖尿病生化指标进行预测的功能。首先,该模型进行数据整理以及数据预处理,利用医疗卡号(患者身份唯一标识)将患者所有检测指标整合到一起,提取出模型中要使用的三个指标和它们对应的检测时间。其次,该模型对数据进行特征提取,因为医院提供的数据中存在较多的数据缺失,而患者糖尿病生化指标又有重要的时间关联性,所以数据需要进行特征提取,特征提取方法使用本文提出的序列化稀疏自编码模块。最后利用长短期记忆神经网络(LSTM)对特征向量进行回归计算,得到目标预测值。实验结果证明了该模型的可行性和有效性。
2)提出了基于双向LSTM多任务学习的糖尿病并发症预测模型。该模型以患者生化指标的特征向量、患者基本信息(包括性别和年龄)作为输入数据,利用多任务双向LSTM构建了一个可以预测五种并发症的模型,五种并发症为:糖尿病视网膜病变、糖尿病肾病、糖尿病周边神经病变、糖尿病足病和糖尿病心血管疾病。该模型首先进行数据预处理,利用医疗卡号将需要输入的患者数据整合到一个矩阵中,然后多任务模块将患者的所有信息进行参数共享分给五个任务,每一个任务代表了一个并发症。最后每个任务利用双向LSTM进行二分类运算,得到的结果能够表示患者是否患有当前任务代表的并发症。通过实验结果的分析,证明了模型的有效性和可行性。
3)设计并实现了糖尿病辅助诊断系统。该系统以基于稀疏编码LSTM的糖尿病生化指标预测模型和基于双向LSTM多任务学习的糖尿病并发症预测模型为核心,实现了糖尿病患者生化指标预测和糖尿病患者并发症预测的系统功能。将实验得到的模型应用到了系统之中,让医生通过系统界面直接使用模型进行诊断,为医生提供糖尿病辅助诊断上的支持。