论文部分内容阅读
在当前互联网时代,各种信息和资料的数量每天都在剧烈增长,文本数据作为其中一个重要部分,也是日益增多,怎样从庞大的文本数据里快速获取知识,是一个研究热点。生物文本信息提取是文本挖掘技术在生物医学领域的重要应用,通过生物实体识别、生物关系提取、生物事件提取、生物实体指代消解等一系列的基础工作构建出生物网络,帮助生物医学相关工作者进行各种学习和研究。本文针对其中的生物事件提取和生物实体指代消解,做了以下三个工作:(1)提出了一种基于SVM和生物文本规则融合的事件提取方法。在复杂生物事件中,不同类型的事件具有不同的句法、语义特性,因此很难只用一种单独的模型来对所有类型的事件进行识别提取,此方法在一个多分类SVM的基础上,针对不同类型事件提出了不同的句法、语义规则进行后处理,并用实验证明了各种特征和各种规则的有效性,取得了很好的事件提取结果,在Bio NLP See Dev任务上获得了最好的成绩。(2)提出了一种基于句法分析树和生物领域特性的蛋白质指代消解方法。针对不同类型指代关系的特点,本方法用三种不同方案分别对关系代词、人称代词和限定性名词短语类型的指代关系进行消解处理,其中关系代词和人称代词类型使用了句法分析规则,限定性名词短语类型使用了生物领域特性规则,并在Bio NLP蛋白质指代消解数据集上进行了实验,结果相比于当前最好成绩有所提升。(3)提出了一种基于LSTM的蛋白质指代消解方法。本方法在词向量的训练过程中,直接生成了照应语和候选先行语提及的整体表示特征――提及向量,然后对包含照应语和候选先行语的一个词序列,使用提及向量、词向量和其他少量特征,通过LSTM学习到序列的整体表示特征,并且输出类似于概率的输出值,以此对候选先行语进行排序,为照应语挑选最优的先行语。本方法在只需要很简单的特征输入情况下,自动化的从数据集中学习到所有指代类型的全局判别特征,相比于基于规则的方法避免了繁琐的手工规则挖掘过程。