基于电子病历的典型诊疗模式挖掘方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhengwwwchao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着医疗信息系统中数据量的急剧增长,医疗数据密集型科学与精准医学研究的不断深入,利用数据挖掘技术从电子病历数据库中发现潜在的有价值的诊疗信息和知识越来越受到关注。然而,在电子病历数据挖掘的背景下,患者表示、相似性度量、聚类算法与聚类结果的抽取是疾病诊断模式与治疗模式挖掘任务中最为基础和关键的工作,其质量的好坏直接影响到挖掘结果的评估与推荐。患者表示的目的是针对临床数据的多样性、时序性与动态性特点,从电子病历数据中提取有效的特征,提高数据挖掘任务的效率。相似性度量是针对患者表示,定量化分析特征间的距离,快速有效地度量患者的相似性,提高聚类效果的准确性。聚类与聚类结果的抽取是在相似性度量的基础上,将患者自动划分为不同的簇,并定义簇的核心区域,抽取最具代表性的诊断与治疗结果,称为典型模式,与传统采用簇的代表点或聚类中心相比,典型模式更能体现临床数据的复杂性特点,增强挖掘结果的可解释性。因此,本文从电子病历数据本身出发,一方面针对患者入院信息,研究典型诊断模式挖掘方法,另一方面针对患者医嘱信息,研究典型用药序列、典型用药时间与融合多视角信息的典型治疗模式挖掘方法,促进临床诊疗业务流程的标准化。本文的主要研究工作如下:(1)基于患者入院信息的典型诊断模式挖掘方法。为了解决现有疾病诊断模式挖掘研究中未考虑疾病编码间语义关系、患者症状信息表达能力不足等问题,提出了一种结合相似性度量、无监督聚类与有监督分类思想的典型诊断模式挖掘方法。该方法通过考虑疾病编码间语义关系,构建疾病编码本体结构,采用编码信息量度量、编码间相似性度量与编码集间相似性度量方法三个层次度量患者诊断信息相似性,并运用聚类算法抽取典型疾病共现模式,讨论了疾病间的主次关系及在本体结构中的位置。以患者人口统计学、症状与实验室检查等多类型入院信息为属性集,典型疾病共现模式为类别集,运用两种决策树分类算法,多角度挖掘典型诊断模式。基于真实患者电子病历数据的实验结果表明,本文提出的方法能够抽取高稳定性的疾病共现关系与高准确度的疾病诊断规则,为临床诊断方案库的构建提供了一种数据驱动的研究思路。(2)基于患者医嘱信息的典型用药序列挖掘方法。为了解决当前医嘱时序模式挖掘研究中挖掘结果频繁复杂与可解释性差等问题,考虑医嘱时序性问题中药物的重复性、时间不一致性与联合性等特征,提出了典型用药序列挖掘方法。该方法利用过程挖掘思想与马尔科夫链理论将患者治疗记录表示为药物集合序列,设计了一种新的相似性度量方法,理论证明该方法满足距离度量的非负性、对称性与三角不等式性。采用聚类算法抽取稳定数量的典型用药序列,并从治疗效果与治疗效率两个视角评估抽取的结果。基于真实患者电子病历数据的实验结果表明,本文设计的相似性度量方法在聚类效果上优于现有的研究方法,从药物名称与药物功效视角抽取的多层次典型用药序列既能为新入院患者根据其入院病情推荐有效的时序性治疗方案,也为辅助构建与完善现有的临床路径提供参考。(3)基于医嘱信息的典型用药时间挖掘方法。为了从大量患者治疗记录中发现潜在的核心药物及其使用时间规律,考虑医嘱持续性问题中药物的开始用药时间、用药间隔与结束用药时间特征,提出了典型用药时间挖掘方法。该方法借鉴描述样本数据分布形状特征的统计量思想定义药物使用时间分布特征与患者治疗记录,并设计相似性度量方法。采用聚类算法抽取典型药物及其有效使用时间,并使用患者入院信息与治疗结局信息对抽取的结果进行评估与疾病编码标注。基于真实患者电子病历数据的实验结果表明,本文方法能够抽取最具代表性的典型用药时间模式,经评估证明治疗结果有效的典型用药时间模式有助于患者治疗过程中用药时间的预测与推荐。(4)基于医嘱多视角信息融合的典型治疗模式挖掘方法。为了得到可解释性强、涵盖信息量全并且满足合理用药要求的治疗方案,在当前医嘱单视角研究基础上,提出了多视角信息融合的典型治疗模式挖掘方法。该方法针对医嘱的药物名称、药物功效、给药途径、每次剂量、每日频次、起始-终止时间六类属性,分析了医嘱信息的内容性、时序性与持续性差异,分别设计患者治疗记录表示方法与相似性度量方法。多视角相似度网络融合方法能够在尽可能减少信息损失的情况下集成三个视角的相似度,形成一个统一的患者相似度网络,并采用谱聚类算法抽取典型治疗模式。基于真实患者电子病历数据的实验结果表明,本文提出的多视角相似性度量方法在聚类效果上优于单视角、线性组合与现有的研究方法,从医嘱的三个视角抽取的核心药物、给药途径、每日剂量、用药次数与用药时间等信息,有助于促进合理用药“五个正确”目标的实现,即正确的药物、正确的剂量、正确的给药时间、正确的给药途径、给予正确的患者。本研究在理论方面,针对电子病历数据的多样性、时序性、动态性等诸多特性,提出了涉及电子病历数据预处理、患者表示、相似性度量,聚类算法,聚类结果的抽取与评估的典型诊疗模式挖掘方法。在应用方面,将提出的方法应用于电子病历数据中,可以挖掘最具代表性的疾病诊疗方案,辅助制定标准化的临床诊疗业务流程。
其他文献
安徽省枞阳县将军庙镇马口地区位于庐枞火山岩盆中东部盆地东南缘,黄梅尖石英正长岩体西段。区内发育海相及海陆交互相沉积,经历了四个火山喷发旋回和相应的岩浆侵入活动,外
数形结合的题型在近几年的高考与竞赛题中频繁出现,若能掌握好其解决问题的要旨,可以事半功倍.本文中,我们主要研究数形结合在线性规划、数列和对称问题中的应用。
研究知识获取与感知适应能力、知识整合与动态学习能力、知识创造与持续创新能力相互作用关系,构建知识流动与企业动态能力的交互作用模型。通过苹果公司案例,证明知识获取是
随着750 k V输变电工程在新疆电网的建设,越来越多750 k V输电线路跨越天山山区。天山山区是新疆地区雷电活跃地带,对跨越天山山区750 k V伊苏线的反击耐雷水平、应用规程法
社会的机动化发展在方便人们出行的同时也带来了交通拥堵、安全事故频发等问题,而行人正是这些问题的关键因素之一。目前常用的一些关键场景人流量统计方法虽然在实际应用中发挥了一定效果,但还是存在不足,如识别统计精准较低、人力成本过高、系统可靠性较差等等。随着人工智能等新兴技术的不断发展和应用,新的行人检测、跟踪和统计方法不断出现,并在实际工程中得到了应用。本文以顶视角下红外监控为应用背景,以监控区域中的行
随着知识经济时代的到来,信息技术取得了较好的发展,且在全球化市场环境下,市场环境的竞争越加激烈,传统的管理模式已经无法适应新时期的市场需求,而公司的竞争逐渐向着供应
金朝士人通过词赋、经义、策论最高级别考试或特恩赐第获得进士身份,形成进士群体,参与国家政治运作,对金朝社会产生重要影响。本文在金朝民族融合背景下,辩正和完善进士相关
<正> 枞阳、庐江两县地处江淮地区南部,濒临长江。1981年秋我所在两县文物干部刘兴汉、刘润泉、吕定一等同志的配合下,从9月上旬至10月底对这一地区的古文化遗址进行了初查。
以2001—2015年我国A股上市公司为样本,考察企业公司战略定位对财务欺诈行为的影响,研究发现:公司战略对财务欺诈行为有显著影响,公司战略定位越激进,越可能导致财务欺诈行为
目的探讨实验性糖尿病小鼠中,小胶质细胞在视网膜的分布及其对视网膜光感受器细胞活性的影响。方法选取6周龄的SPF级雄性C57BL/6J小鼠作为实验动物,A组为未经处理的5只作为空