论文部分内容阅读
聚类分析是研究数据聚簇模式的技术.由于它始终是数据挖掘研究的重要内容、手段和工具,因此,聚类分析又是一个被不断探索并充满创新的研究主题.离群点检测是研究包含在数据中的少数异常而新颖的数据分布模式的技术.随着数据挖掘研究的不断深入并拓展到风险检测等众多特殊应用领域,面向这一新兴课题的研究方兴未艾.近年来,网络和数据库技术高速发展,由此引发的数据爆炸使面向大规模海量数据集的数据挖掘研究成为关键.探索并构造具有高性能、高效率的新算法是解决大规模数据挖掘问题的有效途径,也是本文开展聚类分析和离群点检测问题研究的着眼点和出发点.本文将数据空间网格划分技术与数据集密度函数构造技术紧密结合在一起,形成了基于网格上近似密度函数模型的算法构造思想.数据空间网格划分技术不仅被有效地运用于数据组织,使其发挥数据存储和索引上的高效率,而且被运用于分箱核密度估计,成为简化密度函数计算中的有效机制.在密度函数构造上,通过采用简便高效的分箱核估计避免传统核密度估计方法的繁复计算.为了提高分箱核估计的计算精度,本文提出了基于网格数据重心的分箱核近似方法,从理论上证明了其在误差阶上的改进结果的正确性.进一步地,本文就常用的高斯核估计提出并论证了用于进一步提高近似核估计精度的带修正的近似核函数计算方法.这种方法在不改变分箱近似核估计计算复杂度的同时,可以十分精确地逼近传统的核密度函数.将上述基于网格上近似密度函数计算的思想运用于聚类分析和离群点检测算法构造,提出了用于改进DENCLUE算法的DENCLUE-M聚类算法和离群点检测算法GridOF,GROFC.其中,DENCLUE-M算法和GridOF算法深入揭示了聚类分析与离群点检测之间的内在联系,GROFC算法则从离群数据与聚类数据在个别属性上的差异性的角度,在Chebyshev距离意义下讨论了离群点检测问题.所构造的几类算法均源自于严格的数学理论,具有相对于原始数据集线性的时间复杂度和优良的空间效率,能够在有限的内存空间中处理任意规模的数据集并支持增量聚类,且对数据维数具有良好的适应性.此外,DENCLUE-M聚类算法还具有发现任意形状聚类且不受噪声数据干扰的优点.在研究过程中,针对所提出的近似密度模型和所构造的各种算法进行了大量的实验验证,实验结果证明了这一思想的合理性和有效性,所提出的算法在综合性能上均明显优于现有的相应算法.基于所提出的近似密度函数构造的思想,开展了图象特征提取与噪声过滤的实验研究.其处理图象象素数据的方法新颖,所取得的实验研究结果进一步证明了这一方法的优越性.