基于SVMs蛋白质交互作用关系抽取

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:wai123414
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从生物医学文献中抽取蛋白质交互作用关系是二十一世纪生物医学领域研究的热点内容之一,研究并实现有效的蛋白质交互作用关系抽取方法是本文的主要研究内容。本文在深入研究现有蛋白质交互作用关系抽取方法的基础上,建立了一种基于支持向量机(SVM)的蛋白质交互关系抽取模型,并针对SVM模型在分类超平面分类精度不高和实验语料中正负例数据不平衡的问题,提出了三种不同的改进模型:(1) SVM与互信息(Mutual Information,MI)组合模型。通过对SVM模型的分类结果进行分析后发现,SVM和其它统计分类模型一样,出错样本点多数集中在分类超平面附近。在SVM和互信息组合算法中,对于分类超平面附近的样本点通过计算样本点的互信息,然后根据互信息的值进行分类,对于距离分类超平面较远的样本仍然使用SVM模型分类。(2)修正的SVM-KNN(K Nearest Neighbor,KNN)组合模型。在特征空间中计算测试样本到SVM最优分类超平面的距离,当该距离大于给定的阈值时,使用SVM模型的分类结果作为样本的最终分类结果,否则使用修正KNN方法对样本进行分类,这时,特征空间中所有的点都作为参考点,计算待分类样板到所有参考点的欧式距离,然后将得到的距离排序,找到距离待分类样本点最近的K个参考点,看这K个参考点的多数点属于哪一类,就将该样本分为哪一类。根据样本在特征空间中的不同分布使用不同的方法对SVM模型的分类性能进行优化。(3)修正SVM-KNN与互信息组合模型。SVM与互信息组合模型、修正的SVM-KNN模型都取得了不错的效果,因此本文也尝试将修正的SVM-KNN模型与互信息相结合。结合的方法是通过将得到的互信息值作为SVM模型的一个特征进行训练,然后结合SVM和修正的KNN算法来构造新的二值分类器。对于分类超平面附近的样本采用修正KNN算法进行分类,对距分类超平面较远的样本点仍然使用SVM模型进行分类。本文先对语料进行预处理,抽取特征,并将抽取的特征转换为二进制特征向量,并在此基础上建立训练集和测试集,然后分别建立基于以上三种算法的关系抽取模型。实验结果表明,SVM与互信息组合模型、修正的SVM-KNN组合模型、修正SVM-KNN与互信息组合模型比传统的SVM模型更有优越性,在BC-PPI语料上,F值分别提高了0.98%、1.08%和2.83%,在IEPA语料上,F值分别提高了0.12%、0.44%和0.54%。
其他文献
基于以太网的智能传输接口研究是为了把RS232串口通信和RS485/422总线通信统一到以太网中,即完成串口-网络协议转换。由于RS232和RS485/422的传输距离有很大的局限性,而且串
植物是一种重要的自然环境元素,对植物进行虚拟仿真和真实感渲染一直是计算机图形学的研究热点之一,本文在前人工作的基础上,在三维植物网格并行生成及渲染领域进行了一定的
随着信息技术的发展,嵌入式设备已经无时无刻的不影响着人们的生活,例如智能手机、平板电脑以及智能手表等。这些设备可以很方便的连接到网络,给予人们各种各样的方便,例如网
对等网络(Peer-to-Peer Network,简称P2P)发展至今,主要经历了三代的变革。其中,结构化对等网络(Structured Peer-to-Peer Network)以其在分布式查找方面的高性能和准确性成
服务器的计算能力大大加强促使了虚拟化技术的复苏。虚拟化技术实现了多个服务器的整合,提升了资源的利用率,但是整合在一起的多个服务器会争用主机的各种资源。如何评测虚拟
近年来,基于智能Agent的软件开发和建模技术在软件工程领域的地位越来越重要,本文在对电力企业智能Agent抽象体系结构研究的基础上引入非正规模态算子,给出了一种新的智能Age
随着Internet技术和企业信息化建设的发展,构建Web应用系统的需求日益复杂,开发周期也越来越短。面对复杂多变的市场环境,如何快速开发扩展性好、重用性高、安全性强的Web应
成熟的应用软件系统已经被运行在单个UE(Unit of Execution)的硬件环境中来帮助人们解决数据和业务逻辑问题。但是随着计算机的广泛应用,软件系统被应用到越来越复杂的问题当
煤矿安全生产是煤炭经济可持续发展的基础和保证。随着煤矿事故的频繁发生,如何提高煤矿机械设备的安全性和可靠性成为人们普遍关注的问题。采煤机作为煤矿生产中的关键设备,
随着人们对高清晰图像需求的提高,图像采集系统硬件的性能越来越满足不了这种需求。一种软件实现方法逐渐受到研究人员的关注,它不但弥补了硬件系统的限制,而且只在重复使用现有