基于用户意图分析的电子病历检索技术研究

来源 :中北大学 | 被引量 : 0次 | 上传用户:jinlong230
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着临床医学的发展和医疗信息技术的广泛应用,通过对正确的诊断和治疗过程的分析来帮助临床医学中对病情的预判变得愈加的重要。同时,电子病历的大规模应用和推广为后续的分析提供了重要的数据基础。作为针对大规模信息领域的关键技术,信息检索在互联网的应用已经非常成熟。但是由于医疗领域信息表述的特殊性以及内容关系的复杂性,面向医疗领域的信息检索技术研究还在初级阶段。针对以上问题,本文在对中文电子病历的处理基础之上,实现对用户查询意图的理解以及通过图检索的方式进行数据检索,进而对查询的结果进行多样化排序,最终达到有效利用电子病历中存储的大量数据来辅助医生进行分析研究与诊断的目的,提高医生患者和医疗服务人员的医疗服务水平和效率。本文详细的分析了中文电子病历的结构特点,对电子病历进行语义分析,抽取医疗实体以及实体关系,奠定了后续研究的基础。在分析用户查询意图方面,针对查询的宽泛性和歧义性本文使用基于密度的聚类算法来对用户查询的历史数据进行子意图的聚类分析。针对查询中的医疗专业词汇则提出一种基于信息熵计算概念特征相似度和概念相关度的方法,从而得出概念语义相似度的计算模型来识别医疗专业概念中的意图。主要利用朴素贝叶斯分类对医疗概念分类。根据概念分类概率与分类质量评估函数得到概念的信息熵。通过熵值求得概念特征相似度,通过分析概念特征信息求得概念相关度。利用加权的方法将前两者的值综合为最终的概念语义相似度。实验表明,该算法较传统算法更加接近医疗领域专家评估的经验值,可以提高相似度计算精度,进而能够更好的匹配用户查询意图。为使用户在电子病历中的检索效果更好效率更高,提出用图结构来表示电子病历数据的研究方法。根据电子病历所具有的实体和属性联系与图的拓扑结构类似的特性,首先将电子病历数据和检索图结构化,然后将EMRSearch算法与EMR-Tree索引结合,并引入新的Upper bound模型进行裁剪,然后进行匹配,最后将匹配得到的结果集通过SortDiversity算法进行多样性重排序。实验结果表明,该方法不仅可以提高用户检索效率,还可以提高用户搜索满意度。
其他文献
三网融合推动着接入网向大容量方向发展。本文以低成本、全业务、宽带化的下一代接入网为研究对象,旨在研究光接入网与有线电视同轴电缆网的融合。对基于PON+EOC的三网融合接
“芭蕾”一词为法文Ballet的译音,源于意文Balare,即跳舞的意思。是一种以舞蹈为主要表现手段,并综合戏剧、音乐、美术等因素来揭示主题内容,塑造人物形象的艺术形式。它起