基因表达数据的并行聚类及其集成分类研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:shtour
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学的研究处在一个数据爆炸的时代,近年来在基因组学、代谢组学、转录组和蛋白质组学等领域技术的进步,使得生物学家可以有更多的数据从不同方面对生命体进行分析。基因表达的异常往往意味着非正常的生命活动,这种表达值的变化可以通过微阵列技术以基因表达数据的形成呈现出来。通过对基因表达数据进行分析,可以用来对人类和动物进行疾病诊断,研究植物生长过程中的异常现象。将不同类型的生物数据融合在一起用于分析的方法已成为近年来生物信息学领域的一种趋势,这种称为生物数据融合的方法可以帮助研究者发现数据之间存在的潜在关联,同时更好地理解某些生物现象的本质。聚类是对基因表达数据进行降维的有效方法,通过对数以万计的基因进行分簇,每个聚簇的基因个数降到了几百甚至几十个。本文在聚类过程中融合生物知识,提高结果的生物学可解释性。同时针对聚类产生的基因子集之间具有较大差异性的特点,使用集成学习的思想构建分类模型,处理基因表达数据的分类问题。基因本体数据库提供了丰富的基因功能注释信息。基于聚类之后基因聚簇生物信息不足的问题,可以使用基因本体知识计算出基因之间的生物功能相似度,并将其与基因表达数据相结合。采用近邻传播聚类算法对融合后的数据进行分簇,得到更加具有生物意义的基因子集,并分析生物知识融合对于结果的影响。基于聚类结果,使用邻域粗糙集的方法从每一簇中选出具有代表性的基因用于训练分类器,并建立更加稳定的集成分类模型。通过在植物胁迫响应基因表达数据集上的实验结果表明了融合基因本体知识的有效性。简单的基因初选过程可能会损失一些潜在的有分类价值的基因,本文使用并行计算技术,实现近邻传播聚类算法的并行化,直接对原始的基因进行聚类。针对聚类之后可能会产生较多基因子集的问题,采用随机爬山搜索算法对训练得到的分类器进行筛选,选出一组合适的分类器用于最终的集成分类。由植物胁迫响应数据集上的实验结果可知该方法可以选择出分类能力更强的基因集合。
其他文献
现代互联网技术在不断的发展,网络的规模也日益扩大,它为人们的生活带来许多方便。但与此同时,网络的安全也成为了人们所面临的问题。入侵检测技术可以用来防止网络中的入侵
随着我国交通事业迅猛发展,人工收费这种收费方式已不能满足高速公路管理现代化的需求。开发先进的高速公路联网收费系统具有重大的现实意义。车道收费软件是整个高速公路收
大数据时代下可公开获得的生物文献数据迅速增长,系统生物学家对于构建复杂生物关系网络的需求也越来越迫切,从海量的生物文献中挖掘满足系统生物学家研究需求的知识变得越来
应急指挥系统是应急管理保障体系的核心和中枢。应急资源的合理配置、布局、调度是应急指挥系统高效发挥作用的基础。本文根据目前应急资源运输调度中存在的问题,运用线性规
资料处理与解释集成软件(LEAD软件)已经由中国石油测井有限公司研发成功,并在青海油田研究院、冀东油田研究院、华北油田研究院、长城钻探工程公司等单位推广应用。LEAD软件
Napster的问世,创下了半年内注册用户超过5000万的网络奇迹。这一杀手级的P2P应用,向世人展示了P2P技术独特的优越性及蕴藏的巨大潜力。由于在工作模式上具有的优势和对现代网
内容分发网络(Content Distribution Network或Content Delivery Network,简称CDN)是一种基于现有网络的重叠网络系统,它包括若干个分布在网络不同位置的缓存服务器,所有用户
空域管理辅助系统是监视空域范围内的航空器飞行情况的主要工具与航空管制人员制订空域内飞行调配方案的依据。研究基于CBR的空域管理辅助系统,可以为航空管制人员提供辅助存
日常生活和工作中,我们常常需要改变图像的尺寸以满足不同领域及应用的需求。数字图像缩放已成为数字图像处理领域中一个很重要的话题,而图像插值技术则是实现图像缩放的一个
遥感是以航空摄影技术为基础,从20世纪60年代发展起来的一门新兴技术,被广泛应用于气象、测绘、地球资源与环境科学以及农业、林业、地质科学等重大领域。遥感影像解译是将遥感影像数据转化为目标地物信息的过程,可分为人工目视解译、计算机自动解译及人机交互解译三种方式。遥感图像只有经过解译才能应用到不同领域。目前传统的人工目视解译已经无法满足日趋庞大的遥感数据量,利用计算机进行交互解译或者自动解译成为一个必