论文部分内容阅读
检测基因表达或基因的亚细胞定位是研究基因功能的有效途径。许多先进的技术,如RNAi技术都曾尝试对基因表型加以研究。然而,这种通过生物实验手段的研究方法不仅费时费力而且由于某些敲除基因的存在使得通过实验手段对基因表型的研究存在着极大的困难。因此,有必要设计一些计算方法来帮助我们研究此类问题。考虑到此类问题属于多标签性分类问题,传统解决多标签问题的计算方法,如BR (Binary Relevance), RPC (Ranking By Pairwise Comparison)等,往往是将数据进行分解,进而将多标签问题化为单标签问题。这种处理多标签问题的计算方法有一定的价值,然而实践证明另外一种新颖的数据和标签整体处理的改进算法无论在时间成本上还是预测精度上都有着良好的性能。本文基于这种数据和标签整体处理的思想,提出了一种改进的kNNA(kNearest Neighbor Algorithm)算法,并将此算法运用到酵母基因的表型以及亚细胞定位的预测,取得了较好的效果。第一预测精度分别达到62.38%和66%。且与传统的基于RPC处理多标签的三种算法(SMO、RandomForest、Bagging)从预测精度和效率上做了对比,进一步验证了我们方法的优越性。贯穿整篇论文的研究方法步骤首先是通过GO(Gene Ontology)和KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分构建基因蛋白的特征信息。再通过特征选取,包括最大相关最小冗余以及增量特征选择方法,对特征做了深入的处理和分析。最后运用机器学习方法对训练集进行训练,运用留一法对测试集检验预测结果。最终研究表明我们提出的基于kNNA的改进算法在处理此类多标签问题上有着不可比拟的优势,而且此算法的泛化能力也很强,可以代表性地运用到其它此类的多标签问题上。