论文部分内容阅读
数据挖掘是从统计学、机器学习、最优化方法等学科中发展起来的一门新兴交叉学科,目前已被广泛应用到电子商务、医学、科学研究以及工程技术等领域中,它具有重要的理论与应用价值。当前,海量数据和混合属性数据集的数据挖掘应用越来越多,面对如此复杂的数据挖掘类型,现有的许多数据挖掘算法力不从心。如何充分利用优化方法来提高数据挖掘算法的效率,改善挖掘的结果,是众多研究者关心的热点。
本文将优化方法与数据挖掘结合起来研究,分析了数据挖掘的两个重要分支--聚类和分类,将特征权重优化与聚类和分类联系起来并进行相互融合,形成一条贯穿全文的主线。从多个角度研究将特征加权嵌入到混合属性数据集的聚类和分类中,以期优化后的特征权重能有助于构造出更简洁、更精确的分类器。
本文的创新点主要表现在以下六个方面:
(1)为克服k-means聚类算法对初始化过于敏感的缺点,提出了一种具有单纯形思想的k-中心点轮换法。仿真实验及分析表明,该方法在应用于那些具有一定聚类结构、各个簇大小相差不太大的数据点集时,具有良好、稳定的(对初始中心点集的选取不敏感)聚类效果,但其缺点是时间复杂度较高。从仿真实验结果中还归纳出一个具有直观性的实验结论。为在聚类质量与时间复杂度之间取得良好均衡,提出了一种基于近似类抽样的组合聚类算法。仿真实验表明,该方法效果良好,并具有一定的实用性。
(2)将求解单点优化解的Rosenbrock搜索法应用到具有k-代表点优化解特征的聚类分析中,给出了一种适合于数值型数据集的新的聚类分析算法。
(3)为使特征加权后的数据点集具有更好的聚类分布性质,提出了一个可体现“聚类之内的数据点最大限度的相近,聚类之间的数据点最大限度的相离”(相近相离原则)的混合目标函数。为求解该混合目标函数,提出了一种基于负投影梯度的特征权重的自适应优化方法。仿真实验表明,该方法在优化连续有序数据集的特征权重时是有效的。
(4)利用核映射将原始样本空间中的分类问题与特征空间中的聚类问题联系起来,提出了一个可体现核空间中数据点像集相近相离原则的带线性约束条件的非线性混合目标函数。为解决该非线性优化问题,提出了一种基于核映射的属性权重的自适应优化方法。仿真实验表明,该方法在属性选择、确定属性权重方面是有效的。
(5)参照Joshua Zhexue Huang等将k-means聚类算法与特征权重优化相结合的方法,推导出FCM聚类算法与特征权重优化相结合的优化迭代公式,形成加权FCM算法。将加权FCM算法中计算聚类均值项的公式代入到计算隶属度的更新公式和特征权重的更新公式中,得到加权FCM扩展算法。由于这个扩展算法消去了均值项,它对于有序属性和无序类别属性的隶属度和特征权重的更新公式具有统一的形式,因此可以很方便地应用到混合属性数据集的加权聚类分析中来。该算法的收敛性分析与FCM类似,算法迭代结束后能给出一组优化的特征权重值。仿真实验结果与WKMeans算法的结果基本一致,说明该方法在优化混合属性数据集的特征权重时是有效的。
(6)应用决策树方法来获取混合属性数据集的“规则聚类区域”,利用“异类子聚类相离,同类子聚类相近”的原则来交替优化有序属性和无序类别属性的权重,提出了基于决策树划分的特征权重优化方法。该方法在一定程度上解决了有效获取数据子集的子聚类问题和混合属性数据集的特征权重优化难题。仿真实验表明,该方法在优化混合属性数据集的特征权重时是有效的。
最后,列出了一些与本文相关的可行研究方向。