论文部分内容阅读
从生物医学文献中抽取蛋白质交互作用关系是二十一世纪生物医学领域研究的热点内容之一,研究并实现有效的蛋白质交互作用关系抽取方法是本文的主要研究内容。本文在深入研究现有蛋白质交互作用关系抽取方法的基础上,建立了一种基于支持向量机(SVM)的蛋白质交互关系抽取模型,并针对SVM模型在分类超平面分类精度不高和实验语料中正负例数据不平衡的问题,提出了三种不同的改进模型:(1) SVM与互信息(Mutual Information,MI)组合模型。通过对SVM模型的分类结果进行分析后发现,SVM和其它统计分类模型一样,出错样本点多数集中在分类超平面附近。在SVM和互信息组合算法中,对于分类超平面附近的样本点通过计算样本点的互信息,然后根据互信息的值进行分类,对于距离分类超平面较远的样本仍然使用SVM模型分类。(2)修正的SVM-KNN(K Nearest Neighbor,KNN)组合模型。在特征空间中计算测试样本到SVM最优分类超平面的距离,当该距离大于给定的阈值时,使用SVM模型的分类结果作为样本的最终分类结果,否则使用修正KNN方法对样本进行分类,这时,特征空间中所有的点都作为参考点,计算待分类样板到所有参考点的欧式距离,然后将得到的距离排序,找到距离待分类样本点最近的K个参考点,看这K个参考点的多数点属于哪一类,就将该样本分为哪一类。根据样本在特征空间中的不同分布使用不同的方法对SVM模型的分类性能进行优化。(3)修正SVM-KNN与互信息组合模型。SVM与互信息组合模型、修正的SVM-KNN模型都取得了不错的效果,因此本文也尝试将修正的SVM-KNN模型与互信息相结合。结合的方法是通过将得到的互信息值作为SVM模型的一个特征进行训练,然后结合SVM和修正的KNN算法来构造新的二值分类器。对于分类超平面附近的样本采用修正KNN算法进行分类,对距分类超平面较远的样本点仍然使用SVM模型进行分类。本文先对语料进行预处理,抽取特征,并将抽取的特征转换为二进制特征向量,并在此基础上建立训练集和测试集,然后分别建立基于以上三种算法的关系抽取模型。实验结果表明,SVM与互信息组合模型、修正的SVM-KNN组合模型、修正SVM-KNN与互信息组合模型比传统的SVM模型更有优越性,在BC-PPI语料上,F值分别提高了0.98%、1.08%和2.83%,在IEPA语料上,F值分别提高了0.12%、0.44%和0.54%。