论文部分内容阅读
基因表达数据分析是生物信息学领域中的一个非常重要的研究方向。基因表达数据不仅包含了非常多基因活跃性的信息,还反映了细胞目前生理状态。寻找基因表达之间的关联关系可以发掘基因间的共同功能、交互关系和协同调控模式等。目前已有许多双聚类算法被提出并应用于挖掘基因表达数据的关联信息。然而还存在不足的地方。第一,它们中很少有重视负关联信息的算法。而负关联信息非常重要,它含有许多隐藏的基因信息。基因表达数据中两个正相关的基因的生物学意义有,两个基因在特定条件下功能相同。而两个负相关的基因的生物学意义有,两个基因在特定条件下两者其中一个起促进作用,而另一个在同一条件下起抑制作用。正关联信息与负关联信息都对生物信息的研究富有意义。第二,领域中缺乏可以对解的质量进行约束,挖掘满足具有一定尺寸的,包含负关联信息的,且具有较强关联性的要求的双聚类解的算法。第三,随着生物信息大数据时代的到来,对双聚类算法的复杂度要求越来越高,而现有算法优化不足。本文针对这些不足的地方提出了用于挖掘基因表达数据的基于多目标的双聚类算法(Multi-objective-based Bi-clustering Algorithm, MOBA),并且将MOBA进行多线程优化。主要研究工作如下:(1)本文提出了MOBA,其设计思想如下:第一步,为了消除数据间的偏差,需要将数据进行预处理,具体做法是将数据进行定性处理并划分为上调、无作用和下调三类;第二步,在计算各个基因的最近邻域之后,将各基因及其最近邻域根据种子(用种子称呼解)结构的设计合并构建初始种子,在构建种子时需根据两个基因的条件的吻合数判定两个基因是负相关还是正相关,初始种子构成初始解集;第三步,计算各种子的最近邻域,将其与其最近邻域合并用以增加双聚类的尺寸(种子扩展),迭代循环第三步直到没有种子需要扩展为止;第四步,通过计算得到的种子的多目标评价函数值筛选最终解。多目标评价函数包含三个子目标:第一个子目标用于最大化双聚类的尺寸;第二个是基于峰谷差的平均平方残基,用以增加负关联信息;第三个是皮尔森相关性系数,用以加强关联性。(2) MOBA算法结构设计的最基本的框架为各个解尺寸的扩展,即种子扩展。该框架非常适合改造为多线程模式。可以通过利用该框架的这种特性,将种子分布到各线程独立运行对MOBA进行多线程化设计。这大大降低了时间复杂度。通过对酵母菌细胞周期数据集的实验可以证明MOBA运行较为稳定可靠,条件聚类较好。MOBA可以发现基因表达数据中显著性较强的基因关联信息,并且同时包含正、负关联信息。