面向基因表达数据快速聚类的算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ellen719420908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种重要的知识发现与数据分析技术,聚类分析已经被成功地应用到了许多领域之中,在生物信息学中也起着举足轻重的作用。聚类分析在分析微阵列数据方面已经成为了一种重要的技术手段。由于人类目前只了解少量基因的功能,而基因表达数据中基因数量往往达到上万的级别,全体数据空间的分布不能通过训练模型来预测,因此分类方法不适合去预测未知基因的功能。而聚类可以通过把表达性相似的基因聚类来分析基因的功能而无需先验知识的干预。研究人员需要根据大量基因中发现显著的富集通路的效果来调整聚类结果,因此需要高性能的聚类算法来支撑这种迭代的分析过程。作为大规模数据挖掘常用的数据规约的方法,采样技术几乎伴随着所有的高性能聚类算法,采样方法只能保证少部分样本获得聚类结果,无法保证可以根据少量样本获取全部基因的聚类结果,因此已有的高性能聚类算法并不适用基因表达数据的聚类问题。本课题针对基因表达数据聚类问题提出数据压缩算法,从簇边缘点发现入手,将原始大规模数据压缩为小规模数据,从而使得多次聚类过程在单次压缩后的小数据集上完成,从根源上解决了聚类的性能问题。由于现有的簇边缘检测算法性能均不是很理想,本文借助降维并在子空间划分网格的方法,把簇边缘点的检测问题转化为边缘网格的识别问题,并借助密度有偏采样的方法来计算压缩率,从而根据该压缩率将每个网格内的原始数据通过加权插值的方法压缩为小规模的数据。从而聚类的对象由原始的基因变成了每个网格的压缩表示,该方法可以根据插值的权重将压缩后的数据映射为原始数据,从而更有效的确保原始数据的聚类精度。实验结果显示,该方法流程中纯粹的聚类时间占2%左右,在k值较大时相比原始K-Means具有2~4倍的加速,在运行50次以上的聚类过程时,其加速比可以达到12倍以上。相比于目前流行的Minibatch-Kmeans算法,在针对基因表达数据需要多次快速聚类的场景中,本文的方法保证了聚类精度的损失更少,效率更高,可以为后续分析的流程奠定良好的基础,大大地减少实验人员对基因进行分析的迭代周期。
其他文献
本课题提出了发展我国未来消费信贷的"一体两翼"策略。一体,就是保持个人住房贷款的主体地位,防范住房贷款的过度发展;两翼,就是要重点推动信用卡透支和汽车消费贷款的发展,
文章通过对某造船企业的经验总结和理论提升,论述从工艺专业化转向中间产品专业化的生产方式变革驱动的综合创新战略。在流程创新上,与基于消除"瓶颈"因素的解除约束不同,提
贫困是影响人类社会发展的世界性难题,消除贫困是世界各国共同的责任。我国目前正处于“十三五”建设的重要时期,在全面建设小康社会的进程中,扶贫问题一直以来都是中国政府工作的一项重要内容和攻坚难点。十八大以来,习近平总书记从人民利益和幸福出发,提出了“精准扶贫”的战略思想;党的十九大报告中进一步明确指出要坚决打赢攻坚脱贫战,到2020年确保农村贫困人口实现脱贫,确保贫困县实现脱帽摘帽。精准扶贫是当前我国
<正>近来,滥用地名的乱象引起了我国高层领导的关注,要求各地纠正地名"大""洋""古""怪""重(复)"等庸俗现象,中央电视台《焦点访谈》栏目在2015年11月29日就此做了。期专题节
<正>一氧化碳(NO)是目前公认的生理活性物质,具有重要的生理功能,同时也参与多种疾病的病理过程,已成为目前生命科学领域的研究热点之一。NO在哺乳动物体内的作用最
Nd-Fe-B材料是目前磁性能最强的永磁材料,其大规模应用使得资源稀缺的Pr、Nd、Dy、Tb元素消耗迅速,而高丰度、价格低廉的La、Ce元素却大量堆积。用价格便宜的稀土元素Ce部分
从生物安全的角度概括了国内外转基因抗虫棉的研究进展,包括转基因棉对寄主植物的影响、对植食性昆虫的影响、对天敌的影响、对昆虫群落结构及多样性的影响、转基因棉的抗性
期刊
近年来,新型纳米多孔材料在众多方向上都取得了诸多进展,特别是金属-有机骨架材料(MOFs)和共价有机骨架材料(COFs),因其具有种类繁多、功能优异、稳定以及孔尺寸可调等特点,
本文主要基于传染病从传染源以常数波速向周围空间传播的过程,根据不同传染病的症状,建立了三类具有不同扩散能力的SI传染病模型,研究了这三类模型行波解的存在性条件,并且得