基于特征选择融合和代价敏感学习的蛋白质亚细胞定位研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:xamalong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质分类预测通常包括如下四个步骤:(1)构建合理的蛋白质数据集;(2)特征描述方法把蛋白质信息转化为特征向量;(3)若数据集维度较高,需要进行降维处理;(4)建立分类模型对蛋白质分类预测;(5)用检验方法和评价指标衡量分类效果。如何提高蛋白质分类的精度和降低对内存的需求,一直都是研究者重点关注的问题。特征工程和分类算法是蛋白质分类预测研究问题中最关键的两项技术,直接决定着分类效果的好坏。特征工程决定分类效果的上限,而模型和算法只是尽可能达到该上限。因此本文以蛋白质亚细胞位置定位预测为主题,针对蛋白质亚细胞定位的特征表达、分类算法展开了相关的研究,主要工作和创新点如下:一、提出特征选择加权融合的方法对数据进行特征筛选,从而得到最优特征集合并降低数据维度。因为生物数据具有数据量大、维度高、计算复杂、耗时等特点,所以首先就要对获取的生物数据进行降维处理。本文提出SVM-Logistic-RFE算法,引入特征选择的方法,它不改变原始特征值,只消除冗余和不相关特征,选择最有用的那一部分特征,并将递归特征消除法(Recursive feature elimination method,RFE)和支持向量机(SVM)及Logistic回归相结合,分别对原始特征进行筛选,得到各自的最优子特征集合,并加权融合得到新的最优特征集合,最后利用K最近邻算法分类。实验表明:(1)采用特征选择后,分类效果明显增强了;(2)特征选择融合的分类效果和稳定性都比单一的特征选择好。二、针对蛋白质数据类别不平衡问题,本文提出基于代价敏感学习的贝叶斯决策树算法(NBDT-cs算法)。传统的蛋白质分类问题很少考虑到数据类别的不平衡性。在本文中,我们引入代价敏感学习概念,把代价增益作为决策树的属性选择,在决策树的叶子结点采用含代价期望的贝叶斯算法,提出基于代价敏感学习的贝叶斯决策树算法,该方法有有效解决蛋白质数据类别不平衡问题。实验表明:(1)该方法的分类效果比单一的贝叶斯算法、决策树算法都要好,略好于K近邻分类器;(2)在不降低总体分类精度的情况下,可以提高少数类别的分类精度。
其他文献
在险价值(Value at Risk,简称VaR)可以用简单确切的数字表示证券组合在未来一段时间内收益率的变化。在计算证券组合的收益率时,由于收益率等金融时间序列大都具有重尾特征,这类问题一般不适用于正态分布,此时可以选择次指数分布,次指数分布是一类重要的重尾分布,可以有效解决这类问题。本文研究了上证指数日收盘价的在险价值。首先,介绍在险价值的定义以及计算方法,通过比较历史模拟法、蒙特卡罗模拟法和
本研究选择福建省三明市陈大镇和格氏栲保护区立地条件基本一致、土地利用史清晰且典型的亚热带不同更新方式序列:米槠天然更新林、米槠人促更新林、米槠人工林和马尾松人工
羊毛作为一种天然纤维原料,具有良好的保暖性和手感,被广泛应用于中高端服装,但由于羊毛纤维的鳞片结构,织物洗后易出现收缩、起毛起球等现象,因而羊毛织物的护理问题一直是
全球环境污染和能源危机问题日益严峻,利用光催化剂将太阳能转化为氢能这一举措成为具有广阔发展前景的应对危机的方法之一。相较于贵金属(铂、金、银等)而言,铜纳米粒子因其具有表面等离子体共振效应,在光催化反应中表现出与贵金属相当的光催化活性而逐渐受到学者关注。但铜纳米粒子对太阳光的利用率不高,本身不稳定,当其与空气接触时易被氧化且容易发生团聚,进而降低铜纳米粒子的光催化活性及稳定性,这些问题都限制了铜纳
本论文用4.0代端氨基聚酰胺-胺(PAMAM)为核,通过外接HOOC-PEG-NH2(分子量2000 Da)、HOOC-PEG-NH2和1-萘乙酸(NAA)分别合成了PAMAM-PEG、PAMAM-PEG-NAA树状化合物。并通过红外光谱仪
本研究采用焦作香椿、黑油椿、临朐香椿、巴山红香椿以及青油椿五种香椿,通过顶空固相微萃取技术结合气质联用以及气相色谱-嗅闻联用探究香椿特征性风味与有机硫化物之间的关
过氧化氢是一种用于食品漂白、消毒、杀菌的食品添加剂,在食品生产加工过程中被广泛使用。微量的过氧化氢自身可以缓慢的分解,对人体健康影响很小,但添加过量,甚至使用工业级
本文利用中亚热带三种森林土壤(常绿阔叶天然林、杉木人工林和锥栗人工林),通过室内培养试验,探讨了不同培养温度(20和30℃)下添加标记杉木叶(LC)、未标记(C)杉木叶和对照(CT
带有测量误差的空间数据普遍存在于现实生活中.虽然可以通过各种技术来尽量减少测量误差,但是有时候测量误差达到了无法忽略的程度.另一方面,空间数据因为空间相依性的存在,
关于少数民族地区的道教研究现已成为道教史、宗教学研究的热点问题,目前学界关注点主要集中在西南少数民族地区,而对西北少数民族地区道教的研究则显不足。河洮岷地区地处青