论文部分内容阅读
随着生物医学文献数量的急剧增长,海量的生物医学信息出现在生物医学研究者面前。一方面,这使生物医学研究者很难快速地从这些文献中找到需要的信息;另一方面,他们常常需要标注大量的样本进行研究或者实际工作,可是由于数据海量,标注的成本是很高的。因此,为了提高工作效率,迫切地需要一些自动化的手段帮助他们在海量生物医学文献中迅速地找到需要的信息,而且人们更加希望使用尽可能少的已标注样本就能够有效地满足研究与实际需求。使用半监督学习及主动学习方法进行生物医学文献中蛋白质关系抽取正是在这种背景下产生的。此外,从生物医学文献中抽取蛋白质关系具有很高的应用价值,对蛋白质知识网络的建立、蛋白质关系的预测、新药的研制等均具有重要的意义。
本文首先介绍了蛋白质关系抽取的相关知识和研究概况,然后介绍了半监督学习方法中的自训练、协同训练以及主动学习方法,最后研究与实现了基于半监督学习与主动学习方法的生物医学文献中的蛋白质关系抽取。该研究使用机器学习方法从两个不同的角度进行蛋白质关系抽取,着眼与如何尽可能的减轻用户的标注负担。首先,使用了半监督学习中的自训练(Self-training)、协同训练(Co-training)两种方法进行蛋白质关系抽取,探讨如何利用少量已标样本集、大量未标样本集进行蛋白质关系抽取,达到一个不错的效果;其次,使用主动学习(Activelearning)方法进行蛋白质关系抽取,选择更有价值的样本进行标注,探讨如何在保持效果的前提下,减少用户的标注负担。最后尝试将半监督学习与主动学习方法结合在一起,寻求蛋白质关系抽取的效果与用户标注的平衡点,使用户不但可以尽可能少的标注样本,又可以使蛋白质关系抽取的精度保持在较高水平。本文在不同的数据集上进行了实验,最后根据实验结果做出了详细的讨论,并给出了研究与实现的结论。