论文部分内容阅读
电子病历中蕴含着海量的有价值信息,对电子病历的挖掘可以极大的提高医疗诊断效率,提高临床诊断的及时性、准确性,还可以降低医疗成本,为互联网医疗提供便利。本文利用深度学习方法,通过建立深度神经网络来搭建预测模型,同时结合传统的机器学习方法,在电子病历匿名化、胎儿体重预测和疾病分类预测等方面进行了预测模型构建的尝试。本文的主要工作有:(1)提出了基于文本骨架的循环神经网络匿名化模型,为电子病历难以被研究者使用的难题提供了新的解决方案。文本骨架是抽取出的电子病历的文本结构,它可以帮助循环神经网络更好的识别出隐私实体。本文在两个英文数据集和一个中文数据集上对基于文本骨架的循环神经网络匿名化模型进行了实验,结果表明文本骨架方法可以有效的提升神经网络的识别准确率。与现有的性能最优的模型对比也证明文本骨架方法在匿名化任务中有优异的表现。在中文数据集中文本骨架模型达到了近99%的识别准确率,在英文数据集中也达到了高于98%的识别准确率。(2)针对胎儿体重预测任务,提出了基于深度神经网络的胎儿体重预测模型。传统的公式计算方法严重依赖于医疗领域知识和医疗经验,本文提出的基于深度神经网络的方法无需对参数进行人工选择,只需大量训练数据即可训练出准确的预测模型。除此之外,本文还介绍了从电子病历中提取参数的方法,以及针对数据缺失值补全的策略。实验表明,基于深度神经网络的胎儿体重预测模型优于公式预测方法与基于传统人工神经网络的模型,降低了8.9%的预测误差。进一步的分析还表明本文提出的缺失值补全方法能够有效的加强对深度神经网络的训练。(3)本文提出了基于w-KNN的疾病预测模型。预测模型首先需要对于半结构化的病历进行处理,将其自顶向下的处理为结构化病历,对于参数中的自由文本短语,将其进一步的映射为词典中的症状。w-KNN的另一个优势在于,算法不仅可以进行疾病的预测,还可以找出与新样本最相似的历史样本。实验表明基于w-KNN的疾病预测模型可以有效的基于患者病历对疾病进行分类预测。