生物医学文本聚类算法研究与应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:jealy0717
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学研究是二十一世纪最受关注的研究领域之一,该领域发表了大量的研究论文,已经达到年平均几十万篇以上。如何在如此规模庞大的研究文献中有效地获取相关知识,是该领域研究者所面临的巨大挑战。作为生物信息学分支之一的生物医学文本挖掘技术就是一项高效自动地获取相关知识的新探索,近年来取得了较大进展。如何才能有效地利用这些文本中所蕴含的生物医学知识无疑对分析海量的生物医学数据是非常重要的。常用方法是通过关键词在MEDLINE中或者互联网上进行检索,但是这只能从大量文档集合中找到与用户需求相关的文件列表,而不能从文本中直接获取用户感兴趣的有用信息。因此,提供从大规模生物医学文献中自动获取相关知识的有效工具是一项紧迫的任务。本文以生物医学文本为主要研究对象,提出了基于聚类融合的方法并且应用于生物医学文本的聚类研究。同时针对医学文本的特性,提出了基于距离学习的生物医学文本聚类方法,实验表明该方法改进了生物医学文本的聚类效果。本文的具体内容包括:1)介绍了生物医学文本挖掘当前的研究进展,回顾了各种聚类算法的概念、具体思想及其在生物医学文本方面的研究进展。此外,从算法稳定性,参数设置等方面描述了现有的聚类分析算法存在的不足,随后提出了解决的方法:聚类融合算法。2)在深入了解聚类融合算法的基础上,提出了一种改进算法以提高聚类融合的精确度。首先,根据聚类成员之间存在差异度的思想,定义了差异度计算公式;其次,通过实验考察了基础类的选择对融合结果的影响,提出了寻找具有差异度的基础类作为最后的基础类。实验结果证明,改进算法在结果方面优于一般算法。3)利用基于生物医学文本本体的方法来改进聚类算法。生物医学主题词表(Medical Subject Headings,简称MeSH)是美国国家医学图书馆用以分析生物医学期刊文献等资源的主题内容的语汇表,也是美国国家医学图书馆出版的MEDLINE数据库主题检索的索引词典,而且它的层次结构蕴涵着丰富的生物知识。因此本文提出了基于的MeSH的距离学习聚类算法,通过与一般聚类算法进行比较,阐述了该方法在生物医学文献的聚类中取得较好的聚类结果。
其他文献
电子商务的兴起使得Internet上的服务模式从传统的数据通讯和信息浏览向电子交易和服务模式转变。这种转变使得Web服务的应用范围越来越广泛。电子商务应用要求对Web服务进行
自20世纪下半叶起,随着信息技术的飞速发展和广泛应用,数字化网络越来越深刻地影响和改变着我们的现实世界,逐渐形成一种崭新的社会结构——网络社会。网络信息社会和知识经
随着国家电力体制改革的不断深入、电力市场的不断成熟,客观要求加快电厂信息化建设,充分应用生产过程实时信息资源。因此,生产实时监测系统(SIS)在近几年得到了迅猛发展。本文针
随着云存储技术的迅猛发展,越来越多的用户选择将数据交由云存储平台管理,以节约数据的管理成本。出于保护隐私的必要,需要将数据以密文形式上传到云存储平台,这使得用户很难
随着高速网络和计算机系统中各种元器件性能的不断提高,传统的定制、专门设计制造的大型计算机已经逐步被由CTOS(商品化易购设备)构建的集群系统所取代。在性能上集群系统不
无线抄表是指采用无线网络技术和通信技术自动读取和处理仪表数据的一种手段,是提高自动化水平的需要,也是网络技术和通信技术迅速发展的必然。它不仅可以缓解抄表人员的劳动强度,降低人为因素造成的抄表差错,而且具有抄收速度快,抄表实时性好等优点。ZigBee是一种新兴的近距离、复杂度低、低功耗、低速率、低成本的无线网络技术。它依据IEEE802.15.4标准,在数千个微小的ZigBee节点之间相互协调实现通
长安大学是由原西安公路交通大学、西安工程学院、西北建筑工程学院三所院校于2000年合并组建而成的,现有本部、小寨、雁塔、渭水、太白五个校区。地理位置上分布在西安市及
长安大学是由原西安公路交通大学、西安工程学院、西北建筑工程学院三所院校于2000年合并组建而成的,现有本部、雁塔、小寨、渭水、太白五个校区。由于校区众多,给刚进校的新
多媒体数据的数字化为多媒体信息的存储与传输提供了极大的便利,也极大地提高了信息表达的效率和准确性。计算机网络的普及使得各种数据可以自由地发布到网上,但是盗版问题也
面向构件的软件开发方法已成为软件工程领域的热点。目前70%的软件都是基于构件开发的,它秉诚“购买而不创建,组装即成”的开发哲学,从根本上改变了软件开发方式,提高了软件