面向生物文本的实体关系自动抽取问题研究

被引量 : 0次 | 上传用户:dashaomai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物实体之间的关系是当前生物学家尤为关注的知识之一。然而,大量的实体关系蕴藏在海量的生物文本中,并且随着生物文本的快速增长而持续累积。如何从生物文本中自动地抽取实体关系已经成为生物信息学领域的一个重要挑战。本文以面向生物文本的实体关系自动抽取为主要研究对象,围绕实体关系自动抽取过程中面临的特征构造、数据集不平衡、标注数据集规模较小、跨领域标注数据集复用等关键问题展开研究。论文工作包括:(1)针对特征构造问题,提出了一种紧凑的特征向量。该特征向量具有两大优点:一是融合了多种特征,包括词、词性、句法以及词模板等在内的多类特征,信息丰富并能对复杂的生物文本进行有效表达;二是具有紧凑的特征表示方式,较好的缓解了因融合丰富特征导致的特征稀疏问题。(2)针对数据集不平衡问题,提出了基于自适应的欠采样方法和基于动态联合学习的随机欠采样方法。基于自适应的欠采样方法在欠采样过程中能对分类器进行自适应的调整,而基于动态联合学习的随机欠采样方法融合了过采样和欠采样的思想,实现了在扩大的样本空间上进行欠采样。它们均有效降低了利用欠采样思想解决数据集不平衡问题所致的删除有益样本的风险。(3)针对标注数据集规模较小的问题,提出了统一的主动学习框架。它是一种更适用于实体关系抽取任务的主动学习框架。除样本选择模块外,它进一步融入了多样性样本选择模块、主动特征获取模块以及相关特征选择模块。实验结果表明,该框架有效降低了抽取方法对标注数据集规模的依赖程度。(4)针对跨领域标注数据集复用问题,建立了基于迁移学习的复用框架,具体包括基于样本迁移学习的复用方法、基于特征组迁移学习的复用方法以及基于主动学习和迁移学习融合的复用方法。其中,基于样本迁移学习的复用方法和基于特征组迁移学习的复用方法分别从样本和特征两个粒度进行迁移学习,实现了跨领域标注数据集的复用;而基于主动学习和迁移学习融合的复用方法则融合了主动学习和迁移学习的优点,为解决更实际的问题奠定了基础。
其他文献
<正>我不想画得彻底抽象了,还是想从抽象和具象中间把我对油画的认识、把油画的这种东方精神结合起来,所以也吸收了一些中国传统水墨画的因素。悠远的故乡张荣东:我特别喜爱
随着杂环化学的不断发展,寻求有效地构建具有生物活性和特殊材料性质的杂环骨架的方法越来越迫切。而串联反应正是集诸多优点于一身。串联反应是当今有机合成领域的研究热点和
本文主要采用观察、比较、访谈、逻辑分析等方式,对说课与模拟课的关系问题进行研究,在重点分析说课与模拟课混淆若干现象的基础上,进一步阐明说课与模拟课的关联点与不同点,
通过对选择性催化还原法脱硝工艺系统的论述,从自动控制的角度出发,针对脱硝系统控制水平、控制方式及控制功能进行详细分析,并对脱硝系统采用分散控制系统与可编程控制器在
随着网络的日益复杂,安全威胁也趋于多元化,面对大量格式不一、形式各异的日志和警报,传统的处理方法早已不堪重负,从而衍生出网络安全态势感知,对来自监管设施的多源安全信息进行
<正>多发性硬化(multiple sclerosis,MS)是中枢神经系统(central nervous system,CNS)炎症性脱髓鞘病,持续炎症反应导致脱髓鞘、轴索损伤及代偿能力丧失是临床复发和残疾进展的原
本实验调查了流沙湾海区养殖的华贵栉孔扇贝群体的体色多态性,利用AFLP技术对四种壳色和两种闭壳肌颜色的的华贵栉孔扇贝进行了遗传多样性分析,并试图找出与华贵栉孔扇贝闭壳肌
近年来,数值模拟仿真技术以其高效率、低成本的优势在钢铁工业中得到了广泛的应用。国内外许多学者开展了棒线材轧制过程的数值模拟研究工作。受计算机计算速度的影响,应用三维
光子晶体光纤具有很强的非线性特性,高非线性光子晶体光纤在超短激光脉冲的作用下,能够产生很好的超连续谱现象。超连续谱产生可以通过减小光子晶体光纤的纤芯面积、提高空气填
利用灰色关联分析,可挑选出与需水量关系较为紧密的影响因子,而利用前期的影响因子进行计算,可以使物元分析具有预测功能。讨论了物元分析的方法步骤及应用。结果表明:根据物