基于多目标的基因表达数据双聚类算法的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:wtxsing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因表达数据分析是生物信息学领域中的一个非常重要的研究方向。基因表达数据不仅包含了非常多基因活跃性的信息,还反映了细胞目前生理状态。寻找基因表达之间的关联关系可以发掘基因间的共同功能、交互关系和协同调控模式等。目前已有许多双聚类算法被提出并应用于挖掘基因表达数据的关联信息。然而还存在不足的地方。第一,它们中很少有重视负关联信息的算法。而负关联信息非常重要,它含有许多隐藏的基因信息。基因表达数据中两个正相关的基因的生物学意义有,两个基因在特定条件下功能相同。而两个负相关的基因的生物学意义有,两个基因在特定条件下两者其中一个起促进作用,而另一个在同一条件下起抑制作用。正关联信息与负关联信息都对生物信息的研究富有意义。第二,领域中缺乏可以对解的质量进行约束,挖掘满足具有一定尺寸的,包含负关联信息的,且具有较强关联性的要求的双聚类解的算法。第三,随着生物信息大数据时代的到来,对双聚类算法的复杂度要求越来越高,而现有算法优化不足。本文针对这些不足的地方提出了用于挖掘基因表达数据的基于多目标的双聚类算法(Multi-objective-based Bi-clustering Algorithm, MOBA),并且将MOBA进行多线程优化。主要研究工作如下:(1)本文提出了MOBA,其设计思想如下:第一步,为了消除数据间的偏差,需要将数据进行预处理,具体做法是将数据进行定性处理并划分为上调、无作用和下调三类;第二步,在计算各个基因的最近邻域之后,将各基因及其最近邻域根据种子(用种子称呼解)结构的设计合并构建初始种子,在构建种子时需根据两个基因的条件的吻合数判定两个基因是负相关还是正相关,初始种子构成初始解集;第三步,计算各种子的最近邻域,将其与其最近邻域合并用以增加双聚类的尺寸(种子扩展),迭代循环第三步直到没有种子需要扩展为止;第四步,通过计算得到的种子的多目标评价函数值筛选最终解。多目标评价函数包含三个子目标:第一个子目标用于最大化双聚类的尺寸;第二个是基于峰谷差的平均平方残基,用以增加负关联信息;第三个是皮尔森相关性系数,用以加强关联性。(2) MOBA算法结构设计的最基本的框架为各个解尺寸的扩展,即种子扩展。该框架非常适合改造为多线程模式。可以通过利用该框架的这种特性,将种子分布到各线程独立运行对MOBA进行多线程化设计。这大大降低了时间复杂度。通过对酵母菌细胞周期数据集的实验可以证明MOBA运行较为稳定可靠,条件聚类较好。MOBA可以发现基因表达数据中显著性较强的基因关联信息,并且同时包含正、负关联信息。
其他文献
在目前的研究中,有关人体动作的识别已经取得了很大的进步,但是在处理像weizmann数据库这样的多动作周期的视频数据时,采用一般的方法,识别率偏低。本文提出了一种新的基于整
优化技术是一种以数学为基础,用于求解各种组合优化问题的应用技术。最优化问题是人们在工程技术、科学研究、和经济管理等诸多领域中经常碰到的问题,它是指在满足一定的约束
数据挖掘是一种从大量复杂数据中,寻找、提取有用规律,形成有用模式,得到价值的过程。随着现代科技水平的发展,尤其是近年大数据概念的提出,我们正进入一个数据资源开发的时代,数据
Leader-Based Protocol(LBP)是最经典的802.11可靠多播协议之一。近年来基于LBP协议的研究和改进工作在世界各地都有进行,但针对多媒体流进行协议优化的研究工作甚少。本文针
大群体仿真技术是运用计算机虚拟现实技术、人工智能技术和计算机图形技术,对具有大量个体的群体行为、运动等进行仿真模拟的技术。群体仿真技术在多个领域均有应用,具有较强
随着Internet和Web技术的迅速发展,传统的分布式计算技术已不能满足Web应用环境,Web服务应运而生并成为一个被广泛接受的面向服务计算的范例。从电子商务的应用角度看,Web服
随着云计算、无线网络和电子商务等基于互联网的应用迅速发展,在网络中留下大量的数据。然而,这些数据的收集者可能分别属于不同机构,数据的集成综合分析需要将这些数据公开
内容管理系统是当前计算机领域的一个重要应用,是对各种数字资源进行全面管理的有效途径,并将成为管理信息系统架构的核心,所以完整的管理信息系统的底层整合机制,不仅包括应
三维激光线扫描仪能够快速测量产品原型和各种模具,方便快捷地建立三维物体的CAD模型,在数字化设计与制造,如汽车制造、运动器材、家具、文物古董和工艺品的复制、三维动画、
随着计算机科学技术和物联网不断的发展壮大,越来越多的数据以短文本的形式出现在互联网上例如新闻标题、贴吧言论、微博消息等。对短文本数据运用分类、聚类的技术,从中挖掘