基因表达数据加权模糊聚类算法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:shaonvshashou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因芯片技术的广泛应用,基因表达数据呈爆炸式增长,如何从该海量数据中获取有生物学意义的信息已成为生物信息学研究的热点。功能相近的基因通常具有相似的表达模式,因此,可以通过相似表达模式的发掘来预测基因的功能。聚类算法在处理基因表达数据时,可以将具有相似表达模式的基因聚为一类,据此推测基因的功能和发现基因间的相互关系。但是,基因间的相互关系非常复杂:基因往往具有多种功能、参与多个过程,从而基因表达数据是“高度关联的”,类簇也是高度交叉的,一个类簇可以嵌入另一个类簇中。硬聚类的单一划分忽略了这一多样性,所以常采用模糊聚类分析来进行基因表达数据研究。   传统的模糊聚类算法本身是一种主观性非常强的算法,且不考虑基因表达数据各维属性对聚类的不同贡献。选择不同的聚类算法,或者对一种聚类算法设定不同的起始点或簇数,都会导致不同的聚类结果。由于数据集可能来自不同的观测角度和观测人员,以及不同样本存在的关键性基因、关键性条件和噪音的差异,使得基因表达数据各维属性对聚类的贡献是不同的,若不考虑这种差异将会影响到聚类的精度。另外,传统的模糊聚类算法不考虑基因之间的相互关联性,使得聚类结果不具备很好的生物学意义。因此,需要进一步对算法进行改进。   针对目前基因表达数据模糊聚类分析中存在的问题,本文主要做了如下两部分工作:第一部分,首先引入一种数据集预处理方法,主要目的是解决FCM算法应用于基因表达数据分析时存在的初始值敏感性和参数依赖性问题。预处理算法基于类间熵寻找数据集的实际分类数目和代表点,并将其作为后续FCM算法的输入参数。然后基于信息熵求得基因表达数据各维属性的特征权重向量,最后将权重向量引入FCM算法。实验表明,新算法提高了聚类结果的稳定性和精度。第二部分,基于互信息求各维属性的特征权重,以此来解决FCM算法的聚类结果不具备很好的生物学意义这个问题。重点阐述了基于互信息获取基因表达数据特征权重的详细步骤,并通过实验验证了基于互信息特征加权的FCM算法使聚类结果具有很好的生物学意义且提高了聚类精度。  
其他文献
“数字人”又名“数字化虚拟人”,是国内外医学界与信息科学界共同关注的热点问题之一。“数字人”基于真实人体的物理信息、生物信息,运用各种先进技术,通过大量计算处理而得到
智能规划是一门前沿交叉学科,其发展对计算机科学、人工智能、认知科学等产生了重要影响。上世纪90年代,图规划理论和启发式规划方法取得了巨大进展,大部分规划器都采用了规划图
无线传感器网络由大量随机散落在监测区域的低功耗的传感器节点组成,作为一种新兴技术,无线传感器网络有着很广范围的潜在应用前景,如环境监测、国防安全、数字战争等。由于传感
信息技术的发展推动了一个新的概念的产生——物联网。以此为契机,无线传感器网络渐渐进入人们的视野中。加之近几年来自然灾害的频发使得无线传感器网络越来越受到大家的关注
在科技突飞猛进的今天,公安执法部门为了加大对违法犯罪行为的打击力度,已经建立起一套专用基础网络——公安通信专网,并加大了数据信息的收集整理力度——车辆管理、驾驶员管理
土地覆盖是指土地表面的植被和人工建筑,土地利用则反映了人类对土地自然属性的改造。它们的分布和变化对于了解土地利用变化情况和后续土地资源利用政策制定具有重要的指导意
复杂、多变的运行环境以及内部缺陷经常会导致软件的运行时行为偏离对应的需求规约,从而导致严重的系统失效或需求不满足。特别是对Internet环境下具有自主性、协同性、反应
随着新一代无线通信技术和智能移动终端技术的发展,移动终端表现能力差,用户交互能力低的弊端已经得到改善,并逐步取代传统PC机,成为互联网业务的承载主体。然而,移动终端计算存储
随着信息化时代的到来,科技的发展与互联网的普及,物联网(Internet Of Things,IOT)作为信息技术的重要组成部分逐渐成为社会关注的焦点。物联网,顾名思义,就是通过互联网将物
随着电子取证领域的不断发展,手机取证逐渐成为重点关注和研究的方向。在取证调查过程中,取证调查人员常常因急于获取手机证据而忽视手机数据的完整性,从而影响手机中的电子证据