基于遗传算法的双向聚类分析研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:mars1998
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微阵列技术是实验分子生物学最新的重大突破之一,作为一个强有力的工具,它可以同时得到上千个基因的表达水平,产生大规模基因表达数据。由于在基因表达分析中有巨大的潜力,有助于病情诊断、新药开发和生命科学研究,自双向聚类算法被提出开始,它便被广泛应用于基因表达数据研究中,但现有的算法都还存在一些不足,因此研究双向聚类算法非常必要。本论文应用遗传算法来解决双向聚类问题,提出了一种改进SGBI (Sequential Genetic Biclustering)算法,它采用连续覆盖策略来搜索双向聚类,通过避免重叠策略来尽可能避免结果双向聚类间的重复,将种群分为两部分进化以平衡种群的选择压力和种群多样性,主要包括以下几个方面:1.算法使用了基于遗传算法的连续覆盖策略。连续覆盖策略连续执行最优搜索模块,它将基因表达矩阵和某个给定阈值δ作为输入,随机产生初始群体,并通过适应度函数的引导,按照适者生存的原理,重复执行选择、交叉、变异等遗传操作来进化,获得平均平方残差低于给定阈值δ的双向聚类作为结果。2.利用避免重叠策略来改善双向聚类算法的迭代过程。没有使用随机数来覆盖已发现双向聚类,而是在每次获得结果后调整基因表达矩阵的惩罚值权重来尽可能避免结果间的重复,避免了其他算法中存在的随机数干扰问题,有效控制了结果双向聚类间的重叠率。3.根据种群内个体到当前最优个体的距离,把种群分成两部分,分别按照不同的进化策略执行进化操作,然后重组,有效地地平衡了种群的选择压力和种群多样性。改进SGBI算法被应用于酵母菌基因表达谱数据集、人类细胞表达谱数据集、肿瘤基因表达谱数据集上,成功地获得了在条件子集下表现出明显相似变动趋势的基因子集,表明改进SGBI算法能够获得规模较大并且平均平方残差低于给定阈值δ、行变动相对较高、相互间重叠率较低的双向聚类,说明了算法的有效性。
其他文献
在常规的客户服务器结构中,服务器主机内存为数据传输的必经通道.即使存储子系统有潜在的大带宽,由于主机内存为系统的瓶颈,客户机不能获得存储子系统的所提供的所有带宽.网
当今社会,信息技术高速发展,人们正逐步进入一个崭新的信息时代,计算机和网络逐渐成为人们学习、生活和娱乐必不可少的工具。 同步多媒体合成语言SMIL是万维网联盟(W3C)推荐的
该文根据西南交通大学CAD工程中心提出的"协同设计系统整体框架",分析了协同设计系统与通信服务模块的关系,提出了协同设计系统中的通信模块的体系结构.详细研究了IP多播传输
本文首先简要介绍了可扩展标记语言(Extensible Markup Language,简称XML),说明创建科技论文XML文档的意义与使用价值,并提出一个利用科技论文解析转换器将网上科技论文从HTML格式
该文主要为了描述电力系统,首先提出了一种非自主T时延Petri网来描述电力系统常用的延时开关.其次提出受控变速的连续Petri网(CVCPN)来描述电力系统常变频控制,负反馈控制等.
审计跟踪是系统活动的记录,这些记录足以重构、评估、审查环境和活动的次序,它是记录用户注册时间、从何处注册、要做什么的文件,这些文件也记录管理员为以后分析保存的任何其它
作者开发了计算机到计算机结的IP电话软件,比较深入地探讨了IP电话中的一些关键技术.在该文第一章简要叙述了课题背景和开发过程.第二章较为详尽地讨论了IP电话的发展、实现
该系统主要由压缩编码模块、纠错编码模块和舆流分析校验模块组成.论文主要研究内容包括MPEG-2视频压缩编码的设计,舆流在信道传输时的纠错编码方案—RS(204,188)编码器和卷
该文的主要想法是想将形式化语义方法引入工业界应用极为广泛的VerilogHDL中,为Verilog的形式化验证以及自动求精提供严格的语义基础,其主要内容包括三方面:1.该文首次给出了
随着Internet的发展,计算机软件系统的信息处理规模也呈持续增长的趋势。然而,由于传统分布计算技术的固有缺陷,软件系统却变得更庞大、缓慢和脆弱。在这种情况下,分布对象计算应