基于半监督和主动学习的蛋白质关系抽取研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:XHR
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学文献数量的急剧增长,海量的生物医学信息出现在生物医学研究者面前。一方面,这使生物医学研究者很难快速地从这些文献中找到需要的信息;另一方面,他们常常需要标注大量的样本进行研究或者实际工作,可是由于数据海量,标注的成本是很高的。因此,为了提高工作效率,迫切地需要一些自动化的手段帮助他们在海量生物医学文献中迅速地找到需要的信息,而且人们更加希望使用尽可能少的已标注样本就能够有效地满足研究与实际需求。使用半监督学习及主动学习方法进行生物医学文献中蛋白质关系抽取正是在这种背景下产生的。此外,从生物医学文献中抽取蛋白质关系具有很高的应用价值,对蛋白质知识网络的建立、蛋白质关系的预测、新药的研制等均具有重要的意义。 本文首先介绍了蛋白质关系抽取的相关知识和研究概况,然后介绍了半监督学习方法中的自训练、协同训练以及主动学习方法,最后研究与实现了基于半监督学习与主动学习方法的生物医学文献中的蛋白质关系抽取。该研究使用机器学习方法从两个不同的角度进行蛋白质关系抽取,着眼与如何尽可能的减轻用户的标注负担。首先,使用了半监督学习中的自训练(Self-training)、协同训练(Co-training)两种方法进行蛋白质关系抽取,探讨如何利用少量已标样本集、大量未标样本集进行蛋白质关系抽取,达到一个不错的效果;其次,使用主动学习(Activelearning)方法进行蛋白质关系抽取,选择更有价值的样本进行标注,探讨如何在保持效果的前提下,减少用户的标注负担。最后尝试将半监督学习与主动学习方法结合在一起,寻求蛋白质关系抽取的效果与用户标注的平衡点,使用户不但可以尽可能少的标注样本,又可以使蛋白质关系抽取的精度保持在较高水平。本文在不同的数据集上进行了实验,最后根据实验结果做出了详细的讨论,并给出了研究与实现的结论。
其他文献
本文通过设计一种用于教学工作的激光笔轨迹识别系统,为授课者提供更方便的教学手段,为提高学习质量和效率提供有力的帮助。本课题是E-Learning实验室的Standard Natural Cla
剩余油分布的预测有很高的收益,因此引起世界各国对剩余油分布进行研究的重视。经过多年的开发,目前地下油水关系变得日趋复杂,有必要进行剩余油分布规律的研究。   本文分析
时间是信息的重要属性。随着数据库与信息技术的迅猛发展,时态信息的应用和处理已在各行各业成为必不可少的一部分,特别是在电子政务、电子商务、数据仓库、决策支持系统等信息
本文对信息检索原理和Agent技术进行了研究,对三种信息检索模型和四种信息检索方法进行了探讨。针对勘探与生产分公司对门户信息检索需求,在分析勘探生产门户的体系结构、组成
学位
数据挖掘就是从大量的数据中抽取以前未知并具有潜在可用的模式。而关联规则挖掘是近年来发展十分迅速而且非常活跃的研究领域,是数据挖掘的一个重要研究内容。它主要应用于
针对石油钻井企业钻具管理中因钻具库存量大、种类多、价值高而导致的管理难度大、成本高的现状,指出石油钻井企业实施钻具需求计划系统的必要性。通过制造业物料需求计划理论
随着社会的不断进步,在人口中占有相当比例的残疾群体的权益保障越来越得到各国政府的重视,“平等地获取信息”作为基本人权越来越得到政府的保护,信息无障碍及其国际化进程
生物特征识别是基于个人独特的生理或行为特征进行身份鉴别的技术,将生物特征引入到密码体系中已成为增强密码体系安全性的一种有效手段。在众多生物特征中,人脸特征是目前非
本文设计并实现了一个灵活、可配置、具有良好可扩展性且效率较高的校园网FTP搜索引擎系统。 本文在研究Web搜索引擎的基本原理、核心技术和处理流程的基础上,结合校园网搜