论文部分内容阅读
随着临床医学的发展和医疗信息技术的广泛应用,通过对正确的诊断和治疗过程的分析来帮助临床医学中对病情的预判变得愈加的重要。同时,电子病历的大规模应用和推广为后续的分析提供了重要的数据基础。作为针对大规模信息领域的关键技术,信息检索在互联网的应用已经非常成熟。但是由于医疗领域信息表述的特殊性以及内容关系的复杂性,面向医疗领域的信息检索技术研究还在初级阶段。针对以上问题,本文在对中文电子病历的处理基础之上,实现对用户查询意图的理解以及通过图检索的方式进行数据检索,进而对查询的结果进行多样化排序,最终达到有效利用电子病历中存储的大量数据来辅助医生进行分析研究与诊断的目的,提高医生患者和医疗服务人员的医疗服务水平和效率。本文详细的分析了中文电子病历的结构特点,对电子病历进行语义分析,抽取医疗实体以及实体关系,奠定了后续研究的基础。在分析用户查询意图方面,针对查询的宽泛性和歧义性本文使用基于密度的聚类算法来对用户查询的历史数据进行子意图的聚类分析。针对查询中的医疗专业词汇则提出一种基于信息熵计算概念特征相似度和概念相关度的方法,从而得出概念语义相似度的计算模型来识别医疗专业概念中的意图。主要利用朴素贝叶斯分类对医疗概念分类。根据概念分类概率与分类质量评估函数得到概念的信息熵。通过熵值求得概念特征相似度,通过分析概念特征信息求得概念相关度。利用加权的方法将前两者的值综合为最终的概念语义相似度。实验表明,该算法较传统算法更加接近医疗领域专家评估的经验值,可以提高相似度计算精度,进而能够更好的匹配用户查询意图。为使用户在电子病历中的检索效果更好效率更高,提出用图结构来表示电子病历数据的研究方法。根据电子病历所具有的实体和属性联系与图的拓扑结构类似的特性,首先将电子病历数据和检索图结构化,然后将EMRSearch算法与EMR-Tree索引结合,并引入新的Upper bound模型进行裁剪,然后进行匹配,最后将匹配得到的结果集通过SortDiversity算法进行多样性重排序。实验结果表明,该方法不仅可以提高用户检索效率,还可以提高用户搜索满意度。