论文部分内容阅读
随着数据挖掘技术的快速发展,聚类分析技术的应用越来越受到人们的广泛关注。聚类分析是无监督学习的过程,根据数据对象的相似性聚集成簇,从而发现数据集中数据的分布规律和发展趋势。现实数据集中存在不可靠、错误、不确定、噪声等属性对聚类分析的结果造成严重的影响,因此,对不确定数据的聚类进行研究具有很高的实用价值,可以使聚类分析结果更加趋于真实化。 本文研究的不确定数据主要是数值型和信息型的属性不确定数据,在对不确定数据的聚类研究中,处理障碍不确定数据和高维不确定数据的聚类是两个无可避免的问题,同时也是两个巨大的挑战。针对以上研究中遇到的问题,本文内容结构如下: 首先,对于传统不确定聚类算法无法有效解决障碍不确定数据的问题,本文对现有的障碍不确定聚类算法进行优化,提出一种基于Voronoi图的障碍空间中密度聚类算法。该方法引入Dev模糊集中的三角模糊数来解决数据的不确定性问题,同时引入R树进行剪枝,降低算法计算量,产生相对精准的数据集。然后根据障碍约束分情况进行分析,提高算法的效率,最后运用基于Voronoi图的密度聚类进行聚类分析,得到更真实准确的聚类结果。 其次,为了对高维不确定数据进行有效聚类,本文利用投影子空间技术进行降维,通过对高维不确定数据进行子空间投影,有效降低无关或冗余属性对高维聚类的影响,并且减少了计算量。同时利用近似骨架理论给出聚类算法的初始解,弥补投影子空间易陷入局部解的问题,避免聚类结果出现局部极值;此外,基于直觉模糊集和相对熵技术提出不确定模糊聚类算法,通过改进的相对熵来有效衡量不确定数据样本间的差异度,保证算法聚类结果的稳定性、全面性、精确性。 通过上述对不确定数据聚类问题的研究,本文最后对论文进行系统的总结,并对论文的研究方向进行展望,为接下来的学术研究定下目标,进行进一步的学习与研究。