论文部分内容阅读
随着医疗信息系统中数据量的急剧增长,医疗数据密集型科学与精准医学研究的不断深入,利用数据挖掘技术从电子病历数据库中发现潜在的有价值的诊疗信息和知识越来越受到关注。然而,在电子病历数据挖掘的背景下,患者表示、相似性度量、聚类算法与聚类结果的抽取是疾病诊断模式与治疗模式挖掘任务中最为基础和关键的工作,其质量的好坏直接影响到挖掘结果的评估与推荐。患者表示的目的是针对临床数据的多样性、时序性与动态性特点,从电子病历数据中提取有效的特征,提高数据挖掘任务的效率。相似性度量是针对患者表示,定量化分析特征间的距离,快速有效地度量患者的相似性,提高聚类效果的准确性。聚类与聚类结果的抽取是在相似性度量的基础上,将患者自动划分为不同的簇,并定义簇的核心区域,抽取最具代表性的诊断与治疗结果,称为典型模式,与传统采用簇的代表点或聚类中心相比,典型模式更能体现临床数据的复杂性特点,增强挖掘结果的可解释性。因此,本文从电子病历数据本身出发,一方面针对患者入院信息,研究典型诊断模式挖掘方法,另一方面针对患者医嘱信息,研究典型用药序列、典型用药时间与融合多视角信息的典型治疗模式挖掘方法,促进临床诊疗业务流程的标准化。本文的主要研究工作如下:(1)基于患者入院信息的典型诊断模式挖掘方法。为了解决现有疾病诊断模式挖掘研究中未考虑疾病编码间语义关系、患者症状信息表达能力不足等问题,提出了一种结合相似性度量、无监督聚类与有监督分类思想的典型诊断模式挖掘方法。该方法通过考虑疾病编码间语义关系,构建疾病编码本体结构,采用编码信息量度量、编码间相似性度量与编码集间相似性度量方法三个层次度量患者诊断信息相似性,并运用聚类算法抽取典型疾病共现模式,讨论了疾病间的主次关系及在本体结构中的位置。以患者人口统计学、症状与实验室检查等多类型入院信息为属性集,典型疾病共现模式为类别集,运用两种决策树分类算法,多角度挖掘典型诊断模式。基于真实患者电子病历数据的实验结果表明,本文提出的方法能够抽取高稳定性的疾病共现关系与高准确度的疾病诊断规则,为临床诊断方案库的构建提供了一种数据驱动的研究思路。(2)基于患者医嘱信息的典型用药序列挖掘方法。为了解决当前医嘱时序模式挖掘研究中挖掘结果频繁复杂与可解释性差等问题,考虑医嘱时序性问题中药物的重复性、时间不一致性与联合性等特征,提出了典型用药序列挖掘方法。该方法利用过程挖掘思想与马尔科夫链理论将患者治疗记录表示为药物集合序列,设计了一种新的相似性度量方法,理论证明该方法满足距离度量的非负性、对称性与三角不等式性。采用聚类算法抽取稳定数量的典型用药序列,并从治疗效果与治疗效率两个视角评估抽取的结果。基于真实患者电子病历数据的实验结果表明,本文设计的相似性度量方法在聚类效果上优于现有的研究方法,从药物名称与药物功效视角抽取的多层次典型用药序列既能为新入院患者根据其入院病情推荐有效的时序性治疗方案,也为辅助构建与完善现有的临床路径提供参考。(3)基于医嘱信息的典型用药时间挖掘方法。为了从大量患者治疗记录中发现潜在的核心药物及其使用时间规律,考虑医嘱持续性问题中药物的开始用药时间、用药间隔与结束用药时间特征,提出了典型用药时间挖掘方法。该方法借鉴描述样本数据分布形状特征的统计量思想定义药物使用时间分布特征与患者治疗记录,并设计相似性度量方法。采用聚类算法抽取典型药物及其有效使用时间,并使用患者入院信息与治疗结局信息对抽取的结果进行评估与疾病编码标注。基于真实患者电子病历数据的实验结果表明,本文方法能够抽取最具代表性的典型用药时间模式,经评估证明治疗结果有效的典型用药时间模式有助于患者治疗过程中用药时间的预测与推荐。(4)基于医嘱多视角信息融合的典型治疗模式挖掘方法。为了得到可解释性强、涵盖信息量全并且满足合理用药要求的治疗方案,在当前医嘱单视角研究基础上,提出了多视角信息融合的典型治疗模式挖掘方法。该方法针对医嘱的药物名称、药物功效、给药途径、每次剂量、每日频次、起始-终止时间六类属性,分析了医嘱信息的内容性、时序性与持续性差异,分别设计患者治疗记录表示方法与相似性度量方法。多视角相似度网络融合方法能够在尽可能减少信息损失的情况下集成三个视角的相似度,形成一个统一的患者相似度网络,并采用谱聚类算法抽取典型治疗模式。基于真实患者电子病历数据的实验结果表明,本文提出的多视角相似性度量方法在聚类效果上优于单视角、线性组合与现有的研究方法,从医嘱的三个视角抽取的核心药物、给药途径、每日剂量、用药次数与用药时间等信息,有助于促进合理用药“五个正确”目标的实现,即正确的药物、正确的剂量、正确的给药时间、正确的给药途径、给予正确的患者。本研究在理论方面,针对电子病历数据的多样性、时序性、动态性等诸多特性,提出了涉及电子病历数据预处理、患者表示、相似性度量,聚类算法,聚类结果的抽取与评估的典型诊疗模式挖掘方法。在应用方面,将提出的方法应用于电子病历数据中,可以挖掘最具代表性的疾病诊疗方案,辅助制定标准化的临床诊疗业务流程。