论文部分内容阅读
医学成像技术的发展促进了临床医学的进步,数字医学图像在辅助诊断、教学和生物医学研究领域发挥了日益增大的作用。与此同时,数字医学图像的数量也与日剧增,如何从这些海量的医学图像中找到需要的图像成为一个日益迫切的问题。但是,传统的基于关键字的图像检索方式和近年来兴起的基于内容的图像检索方式都不能很好地满足医学图像检索的需要,因此探索新的高效的医学图像检索方法非常必要。本文采用根据医学图像对应的文本信息来检索图像的方式,探索基于知识的医学图像检索方法。医学图像对应的文本有DICOM头部信息、医学报告、图像标注等,在这些文本中包含了对医学图像的描述。由于这些描述是自然语言形式的文字,比图像的低层特征更符合人的思维习惯、更贴近人对图像的理解,因此,使用医学图像对应的文本信息检索图像往往比使用低层特征检索图像更加有效。考虑到传统的基于关键字的文本检索方式存在着诸多问题,例如,同义词现象会降低检索的查全率,而一词多义现象导致低的查准度等等。本文采用基于知识的医学图像检索方法:根据医学本体从医学图像对应的文本中提取医学概念,然后用这些概念对医学图像进行元数据标注,这样就赋予了医学图像语义内涵,使检索从目前广泛采用的基于语法层面的关键字匹配上升到基于知识层面的概念匹配,从而很好地解决了同义词和一词多义等问题,并可以利用概念的上下位关系实现查询扩展,结合多语言词典实现跨语言检索。由于在一般的医学报告和文章中,对医学概念的描述通常形式多样,采用传统的概念提取方法往往不能准确、全面地提取出文本中的概念。针对这一问题,本文提出了一种新的医学概念提取方法,并基于该概念提取方法对医学图像的索引与检索以及整个检索框架的设计进行了探索性的研究工作。本文的主要贡献为:1.针对医学图像对应文本中存在的概念描述形式多样性的问题,提出了一个混合的医学概念提取方法。从知识理解的角度提出了医学概念提取的最大匹配模式;根据对医学词条构成特点的分析提出了医学概念提取的最小匹配模式,并详细探讨这两种模式各自的优点和缺陷,以及改善缺陷的方法和途径。指出将两种模式进行融合可以实现优势互补,提升医学图像检索的效果。2.在建立索引和进行检索时,将经典的基于词条的向量空间模型改造为基于概念的概念向量空间模型,使用TF-IDF策略对概念进行加权,使用余弦相似度来度量医学图像和查询之间的相似性。3.为了验证本文提出的方法,在ImageCLEFMed2009国际竞赛的基于图像的查询主题上进行了实验。实验结果表明融合两种概念提取模式以及在此基础上进行查询扩展是提高医学图像检索精度的有效方法。4.提出了一个集成上述方法的基于知识的医学图像检索通用框架,并基于该框架实现了一个基于知识的医学图像检索原型系统。这个系统采用组件化技术开发;具有高内聚和低耦合性、可扩展性强等特点,便于多种检索模式的融合,便于与其他检索系统集成;还可以将多个实例系统组成一个分布式检索体系;系统中各组件可以通过配置文件进行配置,而且配置参数可以在运行时进行调整。