一个有保障的马氏相似性学习框架及其在生物序列分析中的应用

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:wanjjsaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物序列分析是生物信息学的重要组成部分,其中生物序列比对更是分析和预测序列结构、功能和遗传信息的重要技术手段。生物序列分析技术主要分为比对方法和非比对方法。比对方法虽然有不错的比对效果,但是其算法复杂度高,使得其效率一直为人们所诟病。非比对方法一般指的是采用统计方法对生物序列进行数据统计分析,包括著名的k-word类方法。非比对方法一般分为两步进行:构建生物序列数字特征向量和选择相似度量(距离)。传统的非比对方法大多从序列的数字特征出发,通过改进其数字特征对序列的表示能力,以求达到更好的生物序列比对效果,而没有给予相似性度量(距离)以足够的重视。这类非比对方法大多采用传统的距离作为相似性度量,如欧式距离、马氏距离、信息熵、相对熵、K-L散度等。这些距离尺度都具有相似性度量的性质,然而其本身不具备数据挖掘的能力,并不能对每一个数据集进行“量身定制”。然而,随着机器学习出现,使得对数据进行深度挖掘和“量身定制”成为可能。本研究包括两部分:首先通过对密码子的坐标定位,由密码子与氨基酸的关系,实现对蛋白质序列的数值化,构建了蛋白质的三维图形表示,并通过提取和综合组成蛋白质序列的20种氨基酸的位置、数量、分布等信息构成一个新的40维蛋白质序列数字特征向量,并通过对9个物种ND5的相似性分析发现本文提出的方法得出的相似性结果与事实相符,并且与Clustal W的结果具有很好的一致性。其次,我们从相似度量这一角度出发,以求克服传统相似度量的不足之处,引进机器学习技术,以“好”相似函数学习理论为基础,通过结合支持向量机,提出一个新的有保障的相似性学习算法。在第一部分构建的数字特征的基础上,结合该数字特征和相式性学习框架应用于生物序列相似性分析中。并将这一算法进行推广和一般化,使之能应用于更多领域。通过选择各种具有代表性的数据集和算法对我们提出的蛋白质序列数字特征和相似性学习算法进行横向和纵向多方面实例分析,总结得出以下几点:1.本文提出的数字特征简单易懂、效率快。2.较之于一般的k-word数值特征,本文提出的数字特征对蛋白质序列的表达更加准确有效;3.本文提出的相似性学习算法同时提高了生物序列比对的精确度和稳定性;4.即使是给定一个非常粗糙的数字特征表示,通过GMSL也能得到一个理想的分类结果;5.在其它同类型算法基本失效的情况下,本文提出的数字特征和相似性学习算法的结合也能得到一个较理想的比对效果;6.GMSL较之于其它算法更优,主要归功于其建立在一个坚实的数学基础上,它保证了尽可能小的误差。
其他文献
社会对学校教育质量高要求的这个大背景下,从事教育教学工作的教师心理承受了巨大的压力,学生亦如此。在日常的教学中常常接触到一些学生由于沉重的业负担、复杂的家庭背景、自
目的:研究初中生认知风格与考试焦虑之间的关系。方法:随机抽样对吉安五中学生进行问卷调查。结果:考试焦虑普遍存在,女生比男生焦虑程度高,成绩较差的学生焦虑程度更严重;重
Three polysaccharides TAA,TAB and TAC were purified from the pollen of Typha An-gustifilia L..TAA is mainly composed of α-L-arabinofuranose,β—D—galactose an
8月的中国汽车,又起了不少波澜。上海大众难得的大规模降价,一汽一大众“决不跟进”表态之后的迅速降价,龙永图“中国汽车不是非要自主品牌不可”的言论遭到何光远的当面质疑
游戏能发展小学生的思维能力、能开发学生的智力、能激发学生的学习兴趣,还可以消除学生的大脑疲劳。游戏是儿童喜闻乐见的活动形式。我国著名的教育家陈鹤琴先生也说“:小学
教书育人,离不开关爱学生,尤其是问题学生,尤其是这样转变问题学生是个难题。从教语文二十多年以来,遇到过形形色色的学生。我个人认为在品德、学习习惯、学习态度、学习能力、卫
随着时代的不断发展,信息化已经成为各行各业发展的趋势.教育系统也在不断改革,由原来的传统教学向新教学模式发展,其中不仅包括教学内容的、方式、模式的改变,也包括教学手
<正>数学新课程标准明确提出,要"关注"学生的"表达与交流的意识",并出现了"自己查阅"、"通过网络搜集资料"、"就某个专题查找、阅读、收集资料文献"等字眼,表达出数学阅
陆风在欧洲遭遇“碰撞门”,让好多自主品牌的支持者颇为伤心,当局者更是有点出离愤怒。尹家绪先生指责人家“三不公”,李书福先生也抱打不平说:“这是一个阴谋。”其实尹家绪
8月18日,云南省总工会第十二届委员会第七次全体会议在昆明召开,审议通过了有关人事事项,总结六次全会以来的工作情况并安排部署下半年重点工作任务。省人大常委会副主任、省