基于极大闭模式的序列投影聚类技术研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:nnljn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
投影聚类作为一种重要的高维聚类分析技术,不同于子空间聚类,投影聚类要求得到一组互斥的对象划分,不允许不同聚类共享相同的对象。由于投影聚类的结果具有良好的区分特性,使得该方法开始被应用于基因表达数据分析中,用来区分样本的具体表型。而已存在的大多数投影聚类方法基于迭代调整框架而导致鸡-蛋问题。这常常带来许多缺陷:(1)敏感的调整顺序(2)不合理的基因独立假设(3)过多地挑选低识别能力的基因。本文中提出了一种新的算法框架,基于极大闭模式的序列投影聚类算法MCPC避免了这些问题。不同于之前的研究,此方法的搜索框架不是基于迭代的,并且利用了基因中的序关系。因此,不需要担心调整顺序的敏感性问题并且不受基因独立性假设的约定。进一步的,由于利用了之前研究忽略的许多有效信息,它提高了类型区别的准确性并且仅用更少的基因。该算法是基于投影散度和(k,l)有效性的概念计算代表区分子序列的能力,然后根据最能区分样本的子序列对样本进行聚类,同时能找到诊断基因。主要包括下面三个部分:(1)把微阵列数据转化为g*-sequence模型,并且利用位置矩阵进行保存。(2)基于模版驱动的模板方式进行子序列枚举,将问题转化为极大闭模式挖掘问题,为每个样本找到最大区分能力的子序列,在搜索过程中利用了有效的削减策略。(3)根据每个样本的最大区分能力子序列划分块,最后把这些块聚成K类,同时发现诊断基因模式。大量的实验证明,MCPC比现有的研究方法更有效的提高了表型划分的准确度和效率并能够发现诊断基因模式,这个结果在生物学和统计学是非常有意义的。
其他文献
随着计算机及网络技术的飞速发展,数字作品传播和拷贝变得越来越方便,同时也使得数字作品的信息安全和版权保护成为迫切需要解决的实际问题。数字水印是近年来在信息安全领域兴
数据安全历来为国家重要部门的所重视,对于公安系统和军队等国家保密部门尤为重要。如果没有可靠的数据保护措施,一切数据资料都会瞬间变得毫无价值,以往的信息资料都无法加以分
随着物联网的快速发展,很多实际应用中均需部署大量的感知设备来进行数据的采集及处理,从而对物理世界进行高质量监测,但由于这些硬件设备固有的限制以及所处环境等因素的影
在高性能计算领域,由普通PC机或工作站构建的集群逐渐成为设计可扩展性服务器的主要的和经济划算的方式。高速的互联网络是构建高性能集群的关键技术,它直接影响着集群系统整
列岛信息网络系统是列岛远程炮兵信息化指挥系统的重要组成部分,它是一个多元化的网络应用系统,用以支持组群系统正常运作和实现其长远目标。信息传输系统主要包括数据、语音、
随着计算机应用技术的不断发展,计算机视觉技术与理论的研究也在不断完善,尤其在视觉检测、视觉导航与自动化装配领域中被广泛地应用。通常情况下,视觉传感器(摄像机)由于具
网格能够提供大量的分布式服务,从而极大地满足了用户对计算和资源的需求,同时又对网格服务的安全性提出了更高的要求。基于网格服务的安全通信和访问控制系统从通信和访问控
与传统的会议形式相比,视频会议作为一种现代化的多媒体通信工具,它使不同的人可以在不同的地点参加同一会议,从效果上来说,视频会议完全等价于传统的现场会议,而其先进的技术,强大
计算机信息系统不断增长的复杂性对系统实现技术不断提出新的要求,分布式对象技术作为将面向对象技术和分布式计算技术的结合成为目前用以构建大型分布式系统的主要手段。本
网站自动生成系统为企业或团体建设网站提供了一种简便的、快速的、低成本的解决方案。Internet上已经出现了为数不少的这类提供自助建站的门户。然而综观这些门户,一般是通过