基于潜在语义分析的蛋白质家族分类技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lcc00060
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究了以下两方面的内容:在向量化蛋白质序列过程中所使用的生物学单词,以及用来解决单词多义性问题的潜在语义分析技术.为了克服其他方法中向量化蛋白质时计算代价昂贵的缺点,本文采用语言学的观点,分别使用三种生物学单词表示蛋白质序列.各种生物学单词在表示蛋白质序列时都可能存在多义性和同义性现象,本文使用潜在语义分析技术来解决这个问题.潜在语义分析通过挖掘大的数据集中各词语之间的潜在联系而建立一个潜在语义空间,在该语义空间内表示蛋白质序列能够消除单词的同义性和多义性的影响.本文使用支持向量机实现蛋白质序列的家族分类和远的同源性检测.我们比较三种生物学单词的差别,以及各单词使用潜在语义分析后的性能变化.在SCOP数据库上进行的实验表明,潜在语义分析技术有效提高了蛋白质家族分类和远的同源性检测的性能.
其他文献
20世纪末,信息技术的飞速发展,极大改变着人们工作、生活的方式及质量。在保险业中,由于信息技术的采用,信息传递己从传统的纸质文件向电子文件转变,在企业的日常业务中,已基
随着Internet的迅猛发展和普及,远程教育、视频点播、视频会议等流媒体服务系统越来越受到人们的青睐,而由于用户量的剧增与Internet网络传输的突发性和尽力服务,迫切需要高吞吐
随着软件产业的迅速发展,软件系统的规模、数量以及复杂性与日俱增,使得软件系统的开发、测试和维护的重要性和难度也越来越大。将可视化技术应用到程序理解中将大大提高软件相
本文的研究内容如下:(1)确定的聚类结果.(2)低的时间复杂度.本文的一个研究方向就是把大的数据集化整为零,尽可能地在小数据集上进行运算.其中,如何把不相关或相关性小的各数
本文提出了基于端口机制的三重服务方案。在LAN和WAN之间,基于端口机制适用于路由和桥接模式,指定的PVC可以被配置为路由或者桥接模式。根据基于端口的PVC映射机制,ADSL宽带
随着网格技术的迅速兴起与发展,对网格数据管理的研究也越来越广泛和深入。网格数据管理作为网格系统最基础和核心的功能部件之一,它主要是与远程数据传输、远程文件I/O 相关
近几年来,不确定性数据广泛出现在传感器网络,Web应用等领域中,对不确定性数据挖掘算法的研究已经成为了数据挖掘领域的新热点。不确定性数据挖掘主要包括聚类、分类、频繁项
在软件技术越来越发达的今天,基于构件的软件工程从根本上改变了软件开发方式,成为现代软件工程进步中的一个里程碑。软件复用技术的出现,提高了软件开发速度和质量,降低了开
  视觉是人类接收信息的主要渠道。空间信息可视化,能让人更直观、更形象地认识和理解真实的地理空间。近年来,研究利用GIS、虚拟现实、计算机三维图形等技术构建虚拟环境,实
本文对H.264标准进行了深入研究,分析了其使用的关键技术,包括帧内预测,可变大小的图像分块,1/4和1/8像素精度的运动估计,残差图像的4×4整数变换编码,熵编码(CAVLC和CABAC)