双聚类算法在数据挖掘领域中的研究与应用

来源 :华南师范大学 | 被引量 : 0次 | 上传用户:smashnj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,大数据时代的到来,日常生活中的各个领域产生了无尽的数据。如何从这些无尽的数据中寻找出对我们有价值的信息促使了数据挖掘技术的繁荣与发展。现如今,这个曾经处于边缘的学科已经广泛应用于各个领域。其中一些经典的如生物基因学研究中用数据挖掘技术对DNA进行分析;电子商务领域中用数据挖掘技术对客户消费行为等分析;金融领域利用该技术对股票或经济形势进行深度挖掘等。数据挖掘涉及到的学科很多,可使用的分析方法也不计其数,本文着重介绍了最近几年兴起的双聚类算法并着重研究了双聚类算法在生物基因学中的应用,其中主要研究OPSM(保序子矩阵)与连续列一致表达演化型双聚类。  因数据往往具有较高的维度和高水平的噪声,而且在基因学中被共同调控的基因不一定要具有相同的绝对表达水平,因此比较不同基因在不同的实验下的相对表达水平比比较它们的绝对值更有意义,表达水平在不同实验中表现出同升同降效果的基因能够揭示有趣的生物信息,OPSM模型能很好的挖掘出基因数据中的此种模式。本文一方面首先把OPSM问题转化为序列模式挖掘问题,然后提出一个基于频繁公共子序列挖掘OPSM的精确性算法。它可以在一个矩阵中找出所有满足行列阈值的OPSM,尤其是能找到所有那些行少列多的Deep OPSM。最后,在基因数据集上的实验表明我们的方法可以找到全部的OPSM,包括Deep OPSM,生物显著性分析表明所发现的OPSM具有显著的生物意义。而且本方法在模拟数据集上进行实验,在不同的噪声水平和重叠水平下都能高效地挖掘出其中嵌入的OPSM。  另一方面,细胞都是随着时间的推移而发生一系列变化的,因此研究基因在时间序列下对细胞生长、病变、药物疗效的过程是很有意义的。虽然大量的双聚类算法已经提出,但它们大多数不适合用于分析时序基因表达数据,因为它们都忽略了该类数据的一些重要特性。本文提出一种新的应用在时序基因表达数据上的考虑了时间连续性的双聚类算法,可以找到所有满足行、列阈值的在连续列上具有一致表达的双聚类,同时能找出具有互补关系与时延关系的双聚类。最后,用真实的基因数据与外汇数据对算法进行实验,结果显示,可以找到统计显著、关系互补,关系时延的双聚类。
其他文献
随着社会的快速发展,科技的不断进步,机器人在工业自动化领域中扮演的角色越来越重要,机器人的研究和运用也越来越广泛。机器人学科作为目前智能化控制的热点,它涉及的领域十分宽
天冬酰胺内肽酶(AEP)主要存在于溶酶体,参与溶酶体内容物的活化和降解,在细胞自噬过程中有重要作用。病理状态下,AEP表达上调、活化增加且能够移出溶酶体,与肿瘤、阿兹海默等多种
在光学镜头中引入光纤元件辅助校正场曲和畸变,可实现大视场的光学镜头设计,而结构却显得简单紧凑,将有着广泛的应用前景。文章从分析光纤传像元件的结构和图像传输特点出发,重点
随着微波技术的发展,用户剧增使微波频谱出现拥挤。而毫米波具有极宽带宽、波束窄、全天候工作、容易小型化的优点,从而促使了毫米波频率的利用。毫米波低噪声放大器是所有毫米
对一款8位MCU TLS5201的数字电路进行设计,该款MCU适用于电子消费类产品市场,如汽车电子产品、USB2.0的U盘控制设备及其它显示、监控设备(如温度计、多功能手表)等等。对8位MCU的
电子显微镜是研究微观物质结构的重要工具,在集成电路、纳米技术、材料科学、生命科学、医学等发挥重要作用。Scherzer早指出,旋转对称、无空间电荷的静电磁透镜具有正的球差和
微纳结构因其较高的表面积与体积比、可控的尺寸与形状及在科学技术方面的多用途,近年来受到众多研究者的广泛关注。硅材料作为一种重要的半导体材料,因其良好的光学、电学性质
高压脉冲电场(HPEF)具有能耗低、传递均匀、作用时间短、无污染等特点,利用HPEF可以有效抑制甚至致死害虫和病菌。论文介绍了电穿孔理论与介电击穿理论,并简单描述了利用一台自
糖蛋白的寡糖链参与了肽链的折叠和缔合,糖蛋白的转运和分泌,以及分子识别和细胞识别等多种生物学功能。一旦不能正确合成糖链,就会减低或丧失糖蛋白的生物活性。6—磷酸氨基葡
减数分裂是生物体进行世代传递的一种重要方式,其在真核生物生命活动中居于核心地位,长久以来减数分裂机制研究一直是生命科学领域研究的焦点。近年来人们对减数分裂分子机制有