论文部分内容阅读
目前,生物医学文献正呈指数级别增长,其中存储着丰富的知识,对生物医学的科研、教学和实践,疾病的诊断、预防和治疗,新药的研制都起着至关重要的作用。因此,从这些海量的文献中高效地获取真正有价值的信息,成为人们日益关注的问题。而指代消解任务正是实现获取有价值信息的基础,很大程度上,影响了信息抽取的性能。本文针对生物医学文本中的指代现象进行研究,根据系统框架,分为两个步骤。第一步抽取出开发集语料中的候选照应语和先行词。抽取性能的好坏直接影响到下一步消解的效果。针对代词照应语和名词短语照应语,分别采用不同的规则进行抽取。对于代词照应语,构建代词列表,抽取出代词列表中的所有代词;针对代词‘’that"和“it,分别根据Enju解析器的结果和规则进行过滤,极大地提高了代词照应语识别的精确率。同样地,对于名词短语照应语,使用规则进行抽取和过滤。第二步对照应语进行消解,采用两种方法:单纯的机器学习方法和融合的方法。在第一种方法中,并没有直接使用通用领域指代消解机器学习方法中使用的特征,而是根据生物医学领域指代消解的特点,针对代词和名词短语照应语分别进行特征选择。最终对所有照应语消解的结果为49.36%F值,比现有的采用单纯机器学习方法的F值提高了10.06%。实验结果说明,针对不同照应语类型,分别进行特征选择的机器学习方法是有效的。为了进一步提高系统的性能,本文又采用融合的方法进行实验,针对不同的照应语类型(关系代词、非关系代词和名词短语)采用不同的消解方法。对关系代词的消解,采用机器学习与规则相结合的方法。对非关系代词的消解,为了克服将非关系代词划分过细,导致对指示与不定代词采用机器学习方法中数据的稀疏问题,以及对人称代词消解采用基于树核的机器学习方法中,未考虑词法信息的缺陷,本文将人称代词和指示与不定代词合并起来采用基于规则的方法进行消解。对名词短语的消解,采用基于规则的方法。在BioNLP2011开发集语料上进行实验,对非关系代词的消解结果比目前最好的消解结果有了明显的提高,总体消解的F值比目前最好的结果提高了1.21%。说明本文基于融合方法的指代消解系统是有效的。本文的两种方法,融合的方法可以获得更高的系统性能,而单纯的机器学习方法则具有更好的鲁棒性和推广性。总体上,本文构建的两种生物医学指代消解系统都是有效的,性能都获得一定程度的提高。