生物信息学中多标签分类问题探索

来源 :上海大学 | 被引量 : 0次 | 上传用户:gu999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
检测基因表达或基因的亚细胞定位是研究基因功能的有效途径。许多先进的技术,如RNAi技术都曾尝试对基因表型加以研究。然而,这种通过生物实验手段的研究方法不仅费时费力而且由于某些敲除基因的存在使得通过实验手段对基因表型的研究存在着极大的困难。因此,有必要设计一些计算方法来帮助我们研究此类问题。考虑到此类问题属于多标签性分类问题,传统解决多标签问题的计算方法,如BR (Binary Relevance), RPC (Ranking By Pairwise Comparison)等,往往是将数据进行分解,进而将多标签问题化为单标签问题。这种处理多标签问题的计算方法有一定的价值,然而实践证明另外一种新颖的数据和标签整体处理的改进算法无论在时间成本上还是预测精度上都有着良好的性能。本文基于这种数据和标签整体处理的思想,提出了一种改进的kNNA(kNearest Neighbor Algorithm)算法,并将此算法运用到酵母基因的表型以及亚细胞定位的预测,取得了较好的效果。第一预测精度分别达到62.38%和66%。且与传统的基于RPC处理多标签的三种算法(SMO、RandomForest、Bagging)从预测精度和效率上做了对比,进一步验证了我们方法的优越性。贯穿整篇论文的研究方法步骤首先是通过GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分构建基因蛋白的特征信息。再通过特征选取,包括最大相关最小冗余以及增量特征选择方法,对特征做了深入的处理和分析。最后运用机器学习方法对训练集进行训练,运用留一法对测试集检验预测结果。最终研究表明我们提出的基于kNNA的改进算法在处理此类多标签问题上有着不可比拟的优势,而且此算法的泛化能力也很强,可以代表性地运用到其它此类的多标签问题上。
其他文献
动力系统是描述系统状态变量随时间变化的数学模型。由于动力系统重要的理论价值与广泛的应用性,受到了众多国内外学者的关注。在理论研究与实际应用中,稳定性是作为主要的控制
在过去的几十年里,T-S模糊系统受到了越来越多的关注。最主要是因为它的简洁、方便和容易掌握。还有就是它可以有效地把复杂的非线性系统表示为线性模型。在这之中,关于T-S模糊
近年来,基于数据的控制方法已吸引了广大学者的注意力,使其成为了控制领域的研究热点之一。由于工业技术的迅猛发展,现代工业过程变得越来越复杂,规模也变得越来越庞大。例如,化学
本文以微生物(克雷伯氏杆菌)在厌氧条件下歧化甘油生产1.3-丙二醇(1.3-PD)的间歇发酵过程为背景,针对胞外甘油和胞内1.3-PD的跨膜运输方式机理不清和3-羟基丙醛(3-HPA)对微生物、底
随着太赫兹(THz, terahertz)技术在无损生物检测、环境监测和宽带移动通信等应用领域的研究,THz技术以其具有的广阔应用前景越来越受研究者的欢迎。目前由于低损耗、低色散波导
控制集理论是图论的一个重要分支,而临界性问题是控制集理论的基础问题.图的控制集理论可广泛的应用于通信网络监视系统,编码理论,社会网络,计算机科学等理论与实践中.图的控
长鞘露尾甲亚科Epuraeinae昆虫体型普遍偏小,生境较为复杂,属级单元之间食性差异很大,分布十分广泛。部分类群被称为传粉昆虫、棉花害虫。有些种类可传播病菌,在一定程度上造成危
近年来,由于计算机技术的发展,使得数据易于存储和处理,这使运用基于数据驱动建模的方法成为可能。基于数据驱动建模方法既不需要掌握实际系统的先验知识以及基本规律,也无需分析
在上世纪六七十年代,图论作为数学的一个分支,获得了空前的发展.图论在化学,物理学,生物学,网络设计,信息科学以及计算机科学等领域有着极其广泛的应用.关于分子拓扑指数问题
我们可以用图G来表示一个通讯网络的模型,所以在设计通讯网络时,为了避免或者减少由于网络通讯中断而带来的损失,网络的设计者不得不考虑网络的脆弱性.我们可以用图的一些脆