支持向量机在生物信息学中的应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:billcde
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着后基因组时代的到来,使用机器学习方法对生物数据进行数据挖掘已经成为生物学研究的一种新方法,本课题主要利用新近提出的支持向量机算法,结合生物序列的特征提取(如经典的密码子使用偏性分析理论,理化性质等),解决生物信息学中一些有关的功能序列识别和分类的问题。G蛋白偶联受体属于跨膜蛋白的大家族,在药物设计中起着很重要的作用。本文通过提取序列的单氨基酸频率、双联氨基酸频率以及蛋白序列对应的mRNA序列的密码子使用偏性序列特征,结合支持向量机方法,对G蛋白偶联受体类别进行识别,并进一步对GPCR蛋白家族类别进行分类预测。我们首次利用核酸序列的信息(前人主要利用氨基酸序列信息),提取了密码子使用偏性的序列特征,并取得了很好的预测效果。研究基因组重组冷热点有助于了解减数分裂重组机制。结合支持向量机方法,本论文通过提取序列二联碱基特征以及密码子使用偏性的序列特征,独创性地对酵母基因组减数分裂重组冷热点区的ORF序列进行了分类,结果表明密码子使用偏性是很好的区分重组冷热点的统计量。水平转移基因在物种进化中起着很重要的作用。本论文中,我们人工模拟水平转移基因的数据,通过提取基因密码子使用偏性的序列特征,提取了序列密码子使用偏性以及二联碱基频率的特征,使用支持向量机的方法,来识别包氏螺旋体菌(Borrelia burgdorferi)、大肠杆菌(Escherichia coli)、蜡状芽孢杆菌(Bacillus cereus)三种物种基因组中的水平转移基因。结果表明,密码子使用偏性的序列特征能够很好的识别水平转移基因,我们提出,如果将前导链和滞后链上的基因区别对待,会取得更好的预测结果。利用已有文献报道的实验数据信息,我们对siRNA的抑制效率进行了预测。通过提取序列的二联碱基特征,结合支持向量机技术,我们取得的预测结果超过以往一些基于序列特征的打分算法。
其他文献
松潘-甘孜地块南部位于青藏高原东缘,四川盆地的西侧,区域构造复杂,地震频发,为了探究该地区各板块和各断裂带的岩石圈构造,本论文使用大地电磁测深方法(MT)对区域进行分析研究。本文所用数据主要来源于中国地质大学(北京)承担的“青藏高原地壳物性结构和变形带成像”下属专题“藏东—川西地区三维岩石圈电性结构研究”。通过对野外采集大地电磁数据的处理、分析和反演,最终获得了3条测线的二维电性结构模型和研究区的
Redfield比率是在浮游生物和海水中存在较为一致的碳(C)、氮(N)、磷(P)元素的比率关系。陆地森林生态系统中的生物体与土壤环境之间也可能存在类似的比率关系,这种比率关系可能影响
为了了解学生学习现状,提高学生学习效率,文章通过问卷调查,对英语专业低年级学生词汇学习现状进行了分析,然后论述了认知图式理论视角下的英语专业低年级学生词汇学习对策,
针对中庭大跨度采光顶的施工,采用了空间桁架钢平台施工技术,解决了中庭采光顶安装与底部精装施工、扶梯安装、玻璃栏板及饰面板安装、防火卷帘安装及首层精装地面铺装等之间
词块是集词汇和语法于一体的语言单位,从心理学角度来说,它也是记忆、存储、输出的最小语言单位。作为语言半成品,词块可以整体储存于大脑,并在使用时直接提取,省去语法生成
<正>在我国,卒中是目前致残率最高的疾病[1],二级预防工作的开展广泛,血压控制、抗血小板治疗及抗动脉粥样硬化等都颁布了指南或共识。卒中可以导致多种功能障碍,现已针对卒
会议
z银行是以经营商业银行业务为主的大型商业银行,在中国,有着最高的国际化和多元化程度,成立有百年之久,是中国历史最为悠久的银行之一。近年来,随着我国金融体制改革的不断深
目的探讨C臂引导下射频靶点热凝联合臭氧治疗颈椎间盘突出症及CT引导下射频靶点热凝联合臭氧治疗腰椎间盘突出症的方法和疗效。研究对象及方法回顾分析本院2012年1月至2014年
最近几年一项新兴的GPS定位技术发展了起来,即精密单点定位技术(Precise Point Positioning, PPP)。它主要利用GPS精密卫星星历及卫星钟差和比较完整的物理改正模型,改正定位
为更好地了解高速铁路混凝土拱桥长期变形性能,以便做出更精确的预测,以沪昆铁路北盘江大桥收缩徐变模型和模型试验为基础,建立北盘江大桥混凝土收缩徐变模型和结构长期变形