生物医学文本中指代消解的研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:THE_BOSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,生物医学文献正呈指数级别增长,其中存储着丰富的知识,对生物医学的科研、教学和实践,疾病的诊断、预防和治疗,新药的研制都起着至关重要的作用。因此,从这些海量的文献中高效地获取真正有价值的信息,成为人们日益关注的问题。而指代消解任务正是实现获取有价值信息的基础,很大程度上,影响了信息抽取的性能。本文针对生物医学文本中的指代现象进行研究,根据系统框架,分为两个步骤。第一步抽取出开发集语料中的候选照应语和先行词。抽取性能的好坏直接影响到下一步消解的效果。针对代词照应语和名词短语照应语,分别采用不同的规则进行抽取。对于代词照应语,构建代词列表,抽取出代词列表中的所有代词;针对代词‘’that"和“it,分别根据Enju解析器的结果和规则进行过滤,极大地提高了代词照应语识别的精确率。同样地,对于名词短语照应语,使用规则进行抽取和过滤。第二步对照应语进行消解,采用两种方法:单纯的机器学习方法和融合的方法。在第一种方法中,并没有直接使用通用领域指代消解机器学习方法中使用的特征,而是根据生物医学领域指代消解的特点,针对代词和名词短语照应语分别进行特征选择。最终对所有照应语消解的结果为49.36%F值,比现有的采用单纯机器学习方法的F值提高了10.06%。实验结果说明,针对不同照应语类型,分别进行特征选择的机器学习方法是有效的。为了进一步提高系统的性能,本文又采用融合的方法进行实验,针对不同的照应语类型(关系代词、非关系代词和名词短语)采用不同的消解方法。对关系代词的消解,采用机器学习与规则相结合的方法。对非关系代词的消解,为了克服将非关系代词划分过细,导致对指示与不定代词采用机器学习方法中数据的稀疏问题,以及对人称代词消解采用基于树核的机器学习方法中,未考虑词法信息的缺陷,本文将人称代词和指示与不定代词合并起来采用基于规则的方法进行消解。对名词短语的消解,采用基于规则的方法。在BioNLP2011开发集语料上进行实验,对非关系代词的消解结果比目前最好的消解结果有了明显的提高,总体消解的F值比目前最好的结果提高了1.21%。说明本文基于融合方法的指代消解系统是有效的。本文的两种方法,融合的方法可以获得更高的系统性能,而单纯的机器学习方法则具有更好的鲁棒性和推广性。总体上,本文构建的两种生物医学指代消解系统都是有效的,性能都获得一定程度的提高。
其他文献
随着互联网信息的爆炸式增长,信息超载导致人们很难在短时间内从海量信息中获取自己感兴趣的信息,个性化推荐系统作为信息过滤的一利一重要手段应运而生。协同过滤推荐算法是
嵌入式系统具有悠久历史,从上世纪60年代发展至今已取得长足的进展。特别是随着近些年移动互联网和物联网的兴起,嵌入式系统更是发展的如火如荼。aCoral正是由电子科技大学嵌
依存句法分析是相对与传统短语结构句法分析更有优势的工具。它的优势主要在于简单性和普遍性:它可以让有很少语法背景知识的人快速地了解一个句子的结构并且对于各种语言都用
背景建模是运动目标检测方法中应用比较多的一种方法,是图像处理领域的一项关键技术并且有着广泛的用途。由于图像处理本身需要大规模的运算,所以利用并行计算对图像处理进行
片上多核处理器体系结构因其低设计复杂度、高性能、低功耗等特性成为当今主流的处理器架构。但片上高度集成给各内核的高速并发访问带来了巨大的压力,而多核处理器结构设计
现代处理器架构的关注重点已经从增加时钟速度转移到增加处理器核的数量,多核处理器已逐渐取代单核处理器,成为提高处理器性能的主要途径。从处理器核的结构来看,多核处理器
磷酸化模式代表了位于磷酸化位点周围具有位置特殊性的氨基酸序列。鉴于磷酸化模式可以用于研究磷酸化相关的基本调解机制以及磷酸化位点预测等相关问题,因而有很重要的研究
现有的关于数据发布的工作集中于如何在数据发布时隐藏个体信息,已提出的方法大部分都是“正发布”方法,即直接对原始数据进行处理后发布,但其实这些方法发布的依然是“正”
与现在的无线传感网不同,物联网被认为是未来互联网的一个组成部分。这就意味着物联网将不得不与互联网中的其他部分分享网络资源,甚至在网络资源紧张时物联网还需要与它们竞争
随着汽车工业的发展,车载设备正朝着网络化和智能化的方向快速推进,汽车电子软硬件系统变得越来越复杂,它的实时性、正确性、安全性和扩展性越来越难以得到保证。为解决这些