肿瘤基因表达数据的特征选择方法研究

来源 :兰州交通大学 | 被引量 : 3次 | 上传用户:longeLRTT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着DNA测序技术的迅速发展,研究人员可以获取各种组织样本中的海量基因表达数据,这为从分子水平研究肿瘤发病机制提供了技术支持。医疗数据挖掘作为数据挖掘技术的主要研究方向之一,同时也是生物信息学的研究热点,基于基因表达数据的挖掘技术对发现致病基因、预测蛋白质功能以及疾病诊断与治疗等意义重大。由于基因固有的特点和DNA测序技术的局限性,所获取的数据往往表现出高维、小样本和高噪声等特点,因此传统的统计方法和模式识别方法难以直接应用于基因表达数据挖掘任务中。本文针对基因表达数据的特点,以特征基因的选择方法为主要研究方向,开展了以下几个方面的工作:(1)为了解决蚁群优化算法在搜索过程中收敛速度慢,易于陷入局部最优的问题,分别提出了改进的信息素更新策略和状态转移规则。在信息素更新策略中加入正反馈系数和蒸发因子,若蚂蚁在若干代内所得到的特征子集质量没有提高,则信息素蒸发因子将被自适应调节,从而加速信息素的蒸发;另一方面,信息素的蒸发反馈系数也自适应调整,减少蚁群的正反馈效应,从而提高蚁群算法的全局搜索能力。将随机策略和贪心策略相结合作为蚂蚁的状态转移规则,提高了蚁群的搜索性能,避免陷入局部最优的情况。(2)对不同算法在数据挖掘中的结合,提升分类算法的准确度进行研究,提出了一种基于随机森林与蚁群算法的特征选择方法,用于在较高维度的数据集中选取分辨能力强的特征子集。算法通过代价较小的特征评估方式计算启发式信息,采用自适应的信息素更新策略加速候选特征子集的搜索,并使用前向顺序选择策略从候选子集中构造出全局最优。实验结果表明,所提出的算法可以有效剔除冗余和无关特征,提升分类器的效率。(3)针对基因表达数据中存在大量无关基因,冗余基因和噪声基因的问题,提出了一种结合过滤式方法和蚁群算法的特征选择方法。算法首先通过ReliefF算法过滤掉含有较少分类信息的基因,然后把候选基因子集输入蚁群算法,在迭代改进的过程中选择最优基因子集。在肿瘤基因表达数据上的分类预测实验表明,本文提出的算法可以在基因较少的情况下得到较好的分类效果。
其他文献
针对传统双侧向仪器分辨率已经不能满足油田开发后期对薄层评价的需求,开发设计了一种新型的双侧向测井仪.在仪器电极设计中,利用有限元仿真模拟软件精确模拟了多种电极系在
一、问题的提出1.教师主动发展意识与学校工作规划如何实现统一学生的成长,需要教师的引领,学校的发展,需要教师的支撑。但在现实中,部分教师缺少主动发展意识,在各种培训尤
<正>阅读在英语学习中占据着重要的地位,是培养学生语言组织和运用能力的有效途径,同时也是学生获取信息的重要手段。在高中英语阅读教学中,学生通过阅读能够逐渐的感受和掌
目的了解广东省托幼机构消毒质量状况,找出存在的问题,提出改进措施。方法通过回顾性调查方法,收集2007-2009年广东省21个地级市托幼机构监测数据,对托幼机构消毒质量进行统
选用镉-碘化钾-罗丹明B多元络合物显色体系,分光光度法测定污水中镉的含量.研究结果表明:向待测镉标准溶液中加入1.0 mol/L硫酸溶液3.0 m L,碘化钾-抗坏血酸溶液4.0 m L和10
良好的财会控制工作是保证铁路企业正常发展的基础,是创建铁路企业标准、增强企业市场竞争能力的前提与保障。铁路企业要想确保企业在市场激烈的竞争中不断发展,就必须提升财
由于全球化和信息化的浪潮,各国尤其是主要大国的外交事务总量急剧增长,传统的外交决策方法面临越来越多的挑战。当前世界正在步入信息化的高级阶段,大数据时代隐然出现。那
本文从叙事学理论出发,分析了阿加莎·克里斯蒂《罗杰疑案》中的叙述手法,意图揭示叙事手段的巧妙运用如何造就了作品惊世之作的声名。这一分析有助于读者进一步理解该著作的
目的通过对各主要影响因素的研究,建立适于何首乌扩增长度多态性(AFLP)反应体系及银染体系。方法采用改进的CTAB提取方法从何首乌的嫩叶中提取获得总DNA;从酶切DNA的量、时间等考
市场与宏观调控是对资源进行配置的两种手段。现在一般认为政府宏观调控应该是市场的一种辅助手段。但在我国的经济活动中,政府所扮演的角色绝对不是一个配角,更像是主角,更