基于潜在语义分析的蛋白质家族分类技术的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：lcc00060

【摘要】

：

本文主要研究了以下两方面的内容:在向量化蛋白质序列过程中所使用的生物学单词,以及用来解决单词多义性问题的潜在语义分析技术.为了克服其他方法中向量化蛋白质时计算代价

【作者】

：

苑永生

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2005年期

【关键词】

：

蛋白质家族语义分析同源性检测分类技术生物学单词蛋白质序列支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

本文主要研究了以下两方面的内容:在向量化蛋白质序列过程中所使用的生物学单词,以及用来解决单词多义性问题的潜在语义分析技术.为了克服其他方法中向量化蛋白质时计算代价昂贵的缺点,本文采用语言学的观点,分别使用三种生物学单词表示蛋白质序列.各种生物学单词在表示蛋白质序列时都可能存在多义性和同义性现象,本文使用潜在语义分析技术来解决这个问题.潜在语义分析通过挖掘大的数据集中各词语之间的潜在联系而建立一个潜在语义空间,在该语义空间内表示蛋白质序列能够消除单词的同义性和多义性的影响.本文使用支持向量机实现蛋白质序列的家族分类和远的同源性检测.我们比较三种生物学单词的差别,以及各单词使用潜在语义分析后的性能变化.在SCOP数据库上进行的实验表明,潜在语义分析技术有效提高了蛋白质家族分类和远的同源性检测的性能.

其他文献

组建安全可靠的保险公司网络

20世纪末,信息技术的飞速发展,极大改变着人们工作、生活的方式及质量。在保险业中,由于信息技术的采用,信息传递己从传统的纸质文件向电子文件转变,在企业的日常业务中,已基

学位

网络企业园区网企业边缘

动态集群流媒体服务器的媒体数据管理系统

随着Internet的迅猛发展和普及，远程教育、视频点播、视频会议等流媒体服务系统越来越受到人们的青睐，而由于用户量的剧增与Internet网络传输的突发性和尽力服务，迫切需要高吞吐

学位

流媒体流媒体服务器系统媒体数据管理数据重组

大规模程序关联可视化算法及工具研究

随着软件产业的迅速发展，软件系统的规模、数量以及复杂性与日俱增，使得软件系统的开发、测试和维护的重要性和难度也越来越大。将可视化技术应用到程序理解中将大大提高软件相

学位

软件开发可视化算法程序理解层次图模型布局算法广义张量平衡

微阵列基因表达数据处理中自生长树算法的设计与研究

本文的研究内容如下:(1)确定的聚类结果.(2)低的时间复杂度.本文的一个研究方向就是把大的数据集化整为零,尽可能地在小数据集上进行运算.其中,如何把不相关或相关性小的各数

学位

基因表达数据等级聚类K-means聚类自生长树算法数据库数据处理生物信息学

基于AR7的三重服务研究与实现

本文提出了基于端口机制的三重服务方案。在LAN和WAN之间，基于端口机制适用于路由和桥接模式，指定的PVC可以被配置为路由或者桥接模式。根据基于端口的PVC映射机制，ADSL宽带

学位

三重服务虚拟局域网端口机制宽带接入路由器非对称数字用户

校园网格环境下远程数据复制二级缓存机制

随着网格技术的迅速兴起与发展,对网格数据管理的研究也越来越广泛和深入。网格数据管理作为网格系统最基础和核心的功能部件之一,它主要是与远程数据传输、远程文件I/O 相关

学位

网格数据管理复制管理网格安全

基于不确定数据的频繁项集挖掘算法的研究

近几年来,不确定性数据广泛出现在传感器网络,Web应用等领域中,对不确定性数据挖掘算法的研究已经成为了数据挖掘领域的新热点。不确定性数据挖掘主要包括聚类、分类、频繁项

学位

不确定性数据频繁项集UF-growth算法最大频繁项集

非成熟领域迭代开发过程模型中构件组装方法研究

在软件技术越来越发达的今天,基于构件的软件工程从根本上改变了软件开发方式,成为现代软件工程进步中的一个里程碑。软件复用技术的出现,提高了软件开发速度和质量,降低了开

学位

构件组装软件体系结构软件重用非成熟领域过程模型

基于Web的地表空间信息远程三维可视化系统的研究与实现

　　视觉是人类接收信息的主要渠道。空间信息可视化，能让人更直观、更形象地认识和理解真实的地理空间。近年来，研究利用GIS、虚拟现实、计算机三维图形等技术构建虚拟环境，实

学位

空间信息三维可视化语义对象模型

H.264视频编码算法研究及在DSP上的实现

本文对H.264标准进行了深入研究,分析了其使用的关键技术,包括帧内预测,可变大小的图像分块,1/4和1/8像素精度的运动估计,残差图像的4×4整数变换编码,熵编码(CAVLC和CABAC)

学位

视频编码视频压缩标准运动估计帧间编码图像压缩数字信号处理

基于潜在语义分析的蛋白质家族分类技术的研究

与本文相关的学术论文