论文部分内容阅读
随着信息技术的发展,大数据时代的到来,日常生活中的各个领域产生了无尽的数据。如何从这些无尽的数据中寻找出对我们有价值的信息促使了数据挖掘技术的繁荣与发展。现如今,这个曾经处于边缘的学科已经广泛应用于各个领域。其中一些经典的如生物基因学研究中用数据挖掘技术对DNA进行分析;电子商务领域中用数据挖掘技术对客户消费行为等分析;金融领域利用该技术对股票或经济形势进行深度挖掘等。数据挖掘涉及到的学科很多,可使用的分析方法也不计其数,本文着重介绍了最近几年兴起的双聚类算法并着重研究了双聚类算法在生物基因学中的应用,其中主要研究OPSM(保序子矩阵)与连续列一致表达演化型双聚类。 因数据往往具有较高的维度和高水平的噪声,而且在基因学中被共同调控的基因不一定要具有相同的绝对表达水平,因此比较不同基因在不同的实验下的相对表达水平比比较它们的绝对值更有意义,表达水平在不同实验中表现出同升同降效果的基因能够揭示有趣的生物信息,OPSM模型能很好的挖掘出基因数据中的此种模式。本文一方面首先把OPSM问题转化为序列模式挖掘问题,然后提出一个基于频繁公共子序列挖掘OPSM的精确性算法。它可以在一个矩阵中找出所有满足行列阈值的OPSM,尤其是能找到所有那些行少列多的Deep OPSM。最后,在基因数据集上的实验表明我们的方法可以找到全部的OPSM,包括Deep OPSM,生物显著性分析表明所发现的OPSM具有显著的生物意义。而且本方法在模拟数据集上进行实验,在不同的噪声水平和重叠水平下都能高效地挖掘出其中嵌入的OPSM。 另一方面,细胞都是随着时间的推移而发生一系列变化的,因此研究基因在时间序列下对细胞生长、病变、药物疗效的过程是很有意义的。虽然大量的双聚类算法已经提出,但它们大多数不适合用于分析时序基因表达数据,因为它们都忽略了该类数据的一些重要特性。本文提出一种新的应用在时序基因表达数据上的考虑了时间连续性的双聚类算法,可以找到所有满足行、列阈值的在连续列上具有一致表达的双聚类,同时能找出具有互补关系与时延关系的双聚类。最后,用真实的基因数据与外汇数据对算法进行实验,结果显示,可以找到统计显著、关系互补,关系时延的双聚类。