论文部分内容阅读
随着现代医学水平的不断提高,医学文献的数量也快速增长,如何在海量医学文献中寻找到与患者症状信息最为相关的目标医学文献也变得越来越困难,主要困难之处在于患者症状信息的不完备和不同疾病的症状雷同。本文研究方向是面向临床决策支持服务的医学文献检索研究,主要探究的内容是如何从给定的医学文献集合中找出与患者症状信息最为相关的目标医学文献,从而帮助临床医生给出疾病诊断,最终达到临床决策支持的目的。因而本文的主要研究就集中在以下几个方面:第一,在对患者症状信息的处理上,本文提出了一种关键词共现的方法来处理患者症状信息。首先提取文献集合中每一篇文献的关键词构建文献关键词集合,然后提取MeSH标准词库中的医学术语构建医学术语集合,继而再对医学文献集合中每一篇文献中的缩略词进行提取和规范化处理,从而构建出缩略词集合。根据文献关键词集合,MeSH医学术语集合和缩略词集合,最终本文构成一个标准关键词集合。基于得到的标准关键词集合,并利用关键词共现的方法扫描患者症状信息提取出价值较为高的关键词,从而完成患者症状信息的优化处理,完成查询优化。第二,在对检索结果的排名优化上,本文利用了随机森林算法建立了查询与文献的相关度等级的预测模型。根据选取的特征,对查询与文献的相关度等级进行预测。患者症状信息与文献的相关度等级分为三个等级,分别为“完全相关”、“潜在相关”和“完全不相关”,对应的相关度数值分别为2、1和0。实验表明,与基本的模型相比,由随机森林算法模型得到的重新排序结果各个评价指标都得到了一定的提升。第三,在提取查询和文献的特征上,本文不仅提取了四个基本的相似度特征。还通过找出文献集合中的文献引用关系,构建了引文网络。根据该引文网络,本文利用了PageRank算法计算出文献集合中文献的PageRank值。除此之外,还应用了HITS算法,计算出文献集合中文献的Authority值。最后,本文把根据引文网络计算得来的PageRank值和Authority值也作为特征加入到随机森林模型。实验表明,加入这两个特征之后,医学文献的检索性能得到了一定的提高,各个评价指标也有不同程度的提升。最后,本文对相关实验方法和实验结果都给出了详细和必要的说明。