论文部分内容阅读
生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了大量的研究论文,已经达到年平均几十万篇以上。如何在如此规模庞大的研究文献中有效地获取相关知识,是该领域研究者所面临的巨大挑战。作为生物信息学分支之一的生物医学文本挖掘技术就是一项高效自动地获取相关知识的新探索,近年来取得了较大进展。如何才能有效地利用这些文本中所蕴含的生物医学知识无疑对分析海量的生物医学数据是非常重要的。常用方法是通过关键词在MEDLINE中或者互联网上进行检索,但是这只能从大量文档集合中找到与用户需求相关的文件列表,而不能从文本中直接获取用户感兴趣的有用信息。因此,提供从大规模生物医学文献中自动获取相关知识的有效工具是一项紧迫的任务。本文以生物医学文本为主要研究对象,提出了基于聚类融合的方法并且应用于生物医学文本的聚类研究。同时针对医学文本的特性,提出了基于距离学习的生物医学文本聚类方法,实验表明该方法改进了生物医学文本的聚类效果。本文的具体内容包括:1)介绍了生物医学文本挖掘当前的研究进展,回顾了各种聚类算法的概念、具体思想及其在生物医学文本方面的研究进展。此外,从算法稳定性,参数设置等方面描述了现有的聚类分析算法存在的不足,随后提出了解决的方法:聚类融合算法。2)在深入了解聚类融合算法的基础上,提出了一种改进算法以提高聚类融合的精确度。首先,根据聚类成员之间存在差异度的思想,定义了差异度计算公式;其次,通过实验考察了基础类的选择对融合结果的影响,提出了寻找具有差异度的基础类作为最后的基础类。实验结果证明,改进算法在结果方面优于一般算法。3)利用基于生物医学文本本体的方法来改进聚类算法。生物医学主题词表(Medical Subject Headings,简称MeSH)是美国国家医学图书馆用以分析生物医学期刊文献等资源的主题内容的语汇表,也是美国国家医学图书馆出版的MEDLINE数据库主题检索的索引词典,而且它的层次结构蕴涵着丰富的生物知识。因此本文提出了基于的MeSH的距离学习聚类算法,通过与一般聚类算法进行比较,阐述了该方法在生物医学文献的聚类中取得较好的聚类结果。