论文部分内容阅读
数据挖掘技术运用各种方法从数据库中提取有用户感兴趣的知识,它是知识发现过程的核心步骤,其中一个主要任务就是进行聚类分析。聚类分析是指将是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。它是人们认识和探索事物之间内在联系的有效手段。目前,对聚类分析的研究十分活跃,提出了许多聚类算法,但是都是基于电子计算机的求解。随着电子计算技术的快速发展,电子计算机的计算能力已接近极限。数据挖掘中的聚类分析问题受制与电子计算机的计算能力,在大规模数据的处理上显得力不从心。DNA计算是一种新型的计算方式,具有大量、快速、并行计算的优点,可以弥补电子计算机计算能力不足的问题。因此如果将DNA计算应用于聚类分析,可以满足聚类分析的计算要求,还能够加快聚类的速度,增大数据的规模,并降低聚类的复杂度。DNA计算基本原理是利用DNA分子的双螺旋结构和WC碱基互补配对原则进行信息编码,将实际问题映射成DNA分子链.借助生物酶的作用进行可行性生物学操作,生成全部数据池,再遵循特定的规则将抽象问题的数据运算并行地映射成DNA分子链的可控的生化反应过程,最后,利用分子生物技术(如亲和层析、聚合链反应PCR克隆、磁珠分离、诱变、电泳、分子纯化等),检测出可行的运算结果。本文提出将DNA计算应用于聚类分析,主要思路分为两个方向:一个是直接将DNA计算的超强计算能力应用于聚类分析问题上,将聚类问题映射为DNA分子的生物操作问题;第二个是利用DNA计算优化现有的聚类分析方法,降低现有聚类方法的计算量,提高聚类速度。本文首先通过巧妙的DNA编码设计将聚类问题转化为DNA计算问题,通过利用粘贴模型在试管中完成聚类的过程。然后又将DNA计算引入现有的谱聚类分析以及CLIQUE算法中,在不失现有聚类算法优点的前提下,降低了复杂度,提高了聚类速度。在通过matlab编程对给定的数据集进行仿真试验后,得到的数据显示这两个思路在理论上都是有效的。同时,与一般方法相比较,本分方法由于基于DNA计算,在并行速度上的优势是无法比拟的。当然,在现有的生物操作水平下,进行DNA计算还是相对复杂,但随着生物技术水平的不断成熟,DNA计算的优势会越来越明显的体现出来。本文的不足之处是:第一,受各种条件所限,未能在生物实验室中对提出的算法进行实际的验证;第二,DNA计算在对现有聚类算法的优化中,优化的程度还不够明显,未能充分的展示出DNA计算的优越性。本文提出了DNA计算在聚类分析中的应用,通过仿真实验证明了方法的可行性,为今后DNA计算在数据挖掘、聚类分析领域的研究应用提供了一定的帮助,打下了一定基础。