论文部分内容阅读
作为一种重要的知识发现与数据分析技术,聚类分析已经被成功地应用到了许多领域之中,在生物信息学中也起着举足轻重的作用。聚类分析在分析微阵列数据方面已经成为了一种重要的技术手段。由于人类目前只了解少量基因的功能,而基因表达数据中基因数量往往达到上万的级别,全体数据空间的分布不能通过训练模型来预测,因此分类方法不适合去预测未知基因的功能。而聚类可以通过把表达性相似的基因聚类来分析基因的功能而无需先验知识的干预。研究人员需要根据大量基因中发现显著的富集通路的效果来调整聚类结果,因此需要高性能的聚类算法来支撑这种迭代的分析过程。作为大规模数据挖掘常用的数据规约的方法,采样技术几乎伴随着所有的高性能聚类算法,采样方法只能保证少部分样本获得聚类结果,无法保证可以根据少量样本获取全部基因的聚类结果,因此已有的高性能聚类算法并不适用基因表达数据的聚类问题。本课题针对基因表达数据聚类问题提出数据压缩算法,从簇边缘点发现入手,将原始大规模数据压缩为小规模数据,从而使得多次聚类过程在单次压缩后的小数据集上完成,从根源上解决了聚类的性能问题。由于现有的簇边缘检测算法性能均不是很理想,本文借助降维并在子空间划分网格的方法,把簇边缘点的检测问题转化为边缘网格的识别问题,并借助密度有偏采样的方法来计算压缩率,从而根据该压缩率将每个网格内的原始数据通过加权插值的方法压缩为小规模的数据。从而聚类的对象由原始的基因变成了每个网格的压缩表示,该方法可以根据插值的权重将压缩后的数据映射为原始数据,从而更有效的确保原始数据的聚类精度。实验结果显示,该方法流程中纯粹的聚类时间占2%左右,在k值较大时相比原始K-Means具有2~4倍的加速,在运行50次以上的聚类过程时,其加速比可以达到12倍以上。相比于目前流行的Minibatch-Kmeans算法,在针对基因表达数据需要多次快速聚类的场景中,本文的方法保证了聚类精度的损失更少,效率更高,可以为后续分析的流程奠定良好的基础,大大地减少实验人员对基因进行分析的迭代周期。