论文部分内容阅读
近年来随着医疗办公无纸化的推广,电子病历(Electronic Medical Record,EMR)的使用也越来越普及。电子病历中不但记录病人病情,还记录了医生对病人的治疗方案以及治疗效果。当医生在临床诊断的时候可以利用这些信息来进行辅助决策。然而面对日益增长的电子病历数据,如何能够快速地在海量的电子病历中找到需要的信息是当前的一个挑战。现在的电子病历检索系统存在着一定的缺陷,特别是针对电子病历中半结构化的部分,还不能做到有效的识别和检索,而医疗领域又是一个对信息准确度有着高要求的领域,因此如何提高电子病历的检索性能就显得尤为重要。另一方面,信息检索中的数据融合技术能够将多个检索系统的结果通过一定的方法重新组合成一个新的结果。以往的研究表明,使用数据融合方法能够提升最终检索结果性能,而在电子病例检索领域中,并未对数据融合方法的应用进行深入的探索。因此,对于电子病历的检索,本文考虑从数据融合的角度出发,来对其进行研究。论文主要工作如下:(1)对已有的数据融合算法进行分析,探索其在电子病历检索中的适用性。首先分析了两种经典的数据融合算法CombSUM和CombMNZ,这两种算法同等对待所有的检索系统和结果。但在数据融合中,参与融合的系统性能可能各不相同,如果不加区分,同等对待所有的系统不能取得较好的结果。因此本文重点考虑了数据融合中一类算法——线性组合法。该类算法能够根据具体的情况对参与融合的成员系统赋予不同的权重,比较灵活。对成员系统进行合适的权重分配是决定线性组合法成功与否的关键。特别地,本文分析了基于多元线性回归的权重分配策略和基于遗传算法的权重分配策略。选择前者,主要是利用最小二乘法可以很准确地估计文档的相关性得分从而提高电子病历检索的最终融合效果;选择后者,则是希望利用遗传算法良好的全局探索能力,以便获取到一组能够提升最终融合效果的系统权重。除此之外,本文中首次将粒子群算法引入到数据融合中,利用粒子群算法中粒子之间能够相互通信、逐渐趋向于最优解的特点,优化权重分配策略,提高融合结果的性能。最后将这五种数据融合算法应用到电子病历检索中。(2)实验采用权威性的TREC检索评价会议中的两项有关的数据集。在参与融合的成员系统个数不同的情况下,测试了五种融合算法结果在多种评价指标下的有效性,同时也比较了它们所消耗的时间。实验结果表明,使用基于粒子群算法的权重分配策略对电子病历检索的融合效果提升最好;在同等情况下,五种融合算法中CombSUM消耗的时间最少;而如果兼顾考虑融合的时间和效果的话,基于多元线性回归的权重分配策略是一个不错的选择。最后,本文的实验结果表明,使用数据融合算法来提升电子病历检索的性能是可行的。