论文部分内容阅读
近年来,由于人类基因组计划(HumanGenomeProject)的实施以及分子生物学、信息科学的发展,DNA、RNA以及蛋白质等生物数据量空前增长,同时功能基因组和蛋白质组的大量数据已开始涌现。生物医学文献的数量也是在迅速的膨胀,数据不等同于知识,但却是信息和知识的源泉。激增的数据背后隐藏着许多重要的信息,如何从海量的医学数据中抽取知识成为当前一个研究的热点,要从生物医学文献中抽取知识,首先要做的就是正确识别文献中出现的大量的生物实体名。实体识别准确率的高低直接影响着数据挖掘系统的好坏与否,因此实体识别在生物医学文献的挖掘中成为关键性的一步。
目前对于实体识别采用的方法主要有以下几种,基于人工组织规则的方法,基于词典的方法和基于机器学习的方法,比较常用的就是基于词典的方法和基于机器学习的方法。词典法可以提供实体名的ID信息,机器学习法可以在训练中逐步提高自己的识别能力,但是由于生物实体名的特殊性,比如没有统一的命名规则,同一实体,可能会有不同的命名,两种方法还都没有达到理想的效果,第一个问题就是由于蛋白质名拼写的多样性造成了大量的错误的识别。另一个问题就是很多的蛋白质名是由两个或两个以上的单词组成,多个单词组成实体名就出现词序问题,词典中只有一种最常用的排列,而常用的搭配算法很难把文献中出现的其他的顺序的实体名全部找到,因而造成很多变形写法不能识别。因此不能简单的通过查找在词典中出现的词作为目标词。机器学习方法经实验证明是一个非常有效的方法,只是它不能提供关于被识别词条的验证信息。另外机器学习的方法需要大规模的训练文本来提高识别能力,但是目前这样的训练文本还不够多。
本文就生物实体识别进行了研究,结合了词典法和机器学习法的优点,提高了识别的准确率和查全率,识别过程包含两个步骤:一是识别阶段,即通过蛋白质名词典和近似匹配算法确定蛋白质名候选词,解决了拼写的多样化的问题,提高了查全率;二是过滤阶段,即通过机器学习方法训练一个分类器,把利用近似匹配算法错误识别出来的假蛋白质名过滤掉,以提高识别的准确率。但是仍然有些问题没有解决,例如词序颠倒的问题,本文做了一些改进,引入了DICE系数和首词计算法,提高了查全率,同时解决了词序颠倒的问题,并且降低了计算量。试验结果表明改进是有效的。