机器学习方法在生物信息学中的应用

来源 :渤海大学 | 被引量 : 8次 | 上传用户:lv_yj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当人类基因组计划(Human Genome Project, HGP)呈上之际,人类开始进入了后基因组时代。在这一时代里,生物序列数据成指数增长,如何把有价值的生物信息从海量的生物序列数据中挖掘出来,已成为迫切需要解决的问题。本文研究机器学习方法在生物信息学若干问题中的应用,主要内容如下:第二章,我们提出一类新的DNA序列3-D图形表示并且证明它具有两种性质:(1)这是一个非退化图形;(2)每一个DNA序列与其对应图形成一一对应关系。基于这个图形表示,我们将DNA序列转化为12维特征向量,它的分量为相应L/L矩阵的ALE指标。对3个数据集构建了系统发生树,结果证明了我们方法的有效性。第三章,借助特征序列,我们提出了DNA序列的32k维完全字向量表示。然后基于粗糙集理论提出一种特征选择方法来提取包含信息最丰富的k字并用这些选择的特征来表示DNA序列。为了评价我们的方法的性能,对5个数据集进行了系统发生分析实验。其中第1个数据集用作训练集,从32116144个k字中按重要程度,共有869个字被选择出来构成最终的特征向量。另外的4个数据集作为测试集。结果表明,我们所提出的方法能抓住最重要的信息并且对于分子系统发生分析是非常有效的。第四章,借鉴第三章的工作,我们从DNA模板出发,结合k字频率之间的关系和k字频率本身,构造了模板DNA序列的24维特征向量,并以支持向量机为分类器,利用夹克刀检验,对模板DNA序列进行PCR扩增难易预测。我们的准确度达到了92.59%。第五章,借鉴第三章和第四章中的频率位置信息与频率本身相结合的思想,并结合氨基酸的分类模型、理化性质和替换矩阵构造了蛋白质序列的特征向量,以最近邻方法作为分类器,利用ZW225和CL317数据集对我们的方法进行了检验,所得结果同其它亚细胞定位预测方法做了比较。结果证明了我们的方法是非常有效的。
其他文献
<正>中国邮轮游艇协会组织考察欧洲邮轮码头的发展,笔者有幸实地考察了意大利的萨沃纳(SAVONA)、那不勒斯(NAPLES)、帕拉莫(PALERMO)以及西班牙的帕尔马(PALMA)、巴
丛枝菌根(arbuscular mycorrhiza,AM)真菌是生态系统中生物多样性的重要组分之一,具有十分丰富的物种多样性、遗传多样性和功能多样性.该真菌分类地位不断提高已上升至门,下
一直以来,犯罪类美剧都受到广泛关注和热切追捧。究其缘由,这主要依靠犯罪类美剧的精良制作团队与独特叙事策略。我国的电视剧研究领域也开始关注和探索犯罪类美剧叙事成功的
水环境容量即水体所能容纳的污染物的量,是水环境规划与管理工作的重要依据,同时也是是解决水污染问题和优化水质管理的重要方式。随着国内经济的发展和点源污染逐步得到控制
<正>由于每家班轮公司和港口的情况不尽相同,特别是在现代物流业快速发展的今天,如何进行有效合作、整合业务、降低风险、实现共赢,是港口和航运企业面临的共同课题随着经济
提问在教师话语中占了很大的比例,是教学中使用频率最高的策略之一。多年以来,教师提问一直受到了国外语言教学研究者的关注,而国内直到90年代末才有了对教师提问的研究。为了研
警务战术三段七步实战化课程体系,是按公安民警执法实践的进程,依据警务战术的接近性特点,综合性特点和连续性特点,采取空间浓缩、战场位移、以少代多等模拟训练手段,进行课
近年来,随着北京到上海、石家庄,武汉到广州,及郑州到西安西等高速铁路线和客运专线的相继开通运营,我国的高速铁路的总长居世界第一位,达7531km。铁路隧道衬砌质量的好坏直
本文通过对高单酯含量的三乙醇胺月桂酸酯的合成工艺研究,确定了合适的工艺条件,采用红外、核磁等测试手段对其进行了表征。通过水溶液聚合法合成了丙烯酸-甲基丙烯酸羟乙酯(
进入21世纪以来,信息与传播技术(Information Communication Technology, ICT)的迅速发展对出版产业的影响日益显著,如何利用新技术实现产业的转型升级已成为国内外出版业关