论文部分内容阅读
支持向量机(SVM)是上世纪90年代发展起来的数据挖掘新方法,在很多实际应用的领域上,它表现出很好的效果。本文的主要工作是SVM的两个比较成功的应用。一个是乳腺癌诊断上的应用,其支持向量机的分类器有着很好的泛化性。我们用非对称惩罚的C-SVM解决正负类样本数量不对称的问题;一个基于泛化界被用在快速的参数搜索方法里,此方法比单纯地k折交叉验证搜索参数更快速。在使用了cross-entry filter进行特征选择后,我们得到了更好的预测准确率。SVM另一方面的应用是对植物microRNA前体的预测。microRNAs(miRNAs)是一类非蛋白编码的、约22个碱基长度的小分子RNA,在多细胞生物生长发育等各方面起到了非常重要的调控作用。在本研究工作中,我们开发了一个全新的SVM分类器,用于搜索植物中的miNRA前体。这一分类模型用到了代表前体的12个全局和亚结构特征,对790个正类样本和7900个负类样本进行训练,模型得到五折的准确率为96.43%。对最新发现的53个植物miRNA前体(正类)和另外的62,883个负类进行测试,SVM分类器得到了99.85%的准确率,其中79.25%敏感性和99.87%的特异性。非常好的特异性使得该方法应用到基因组水平预测植物miRNA基因成为可能,并且这种方法可以只利用单一基因组的序列信息进行预测,这将为发现物种特异性的miRNA基因提供非常有效的工具。