聚类与分类中的优化方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:luming123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从统计学、机器学习、最优化方法等学科中发展起来的一门新兴交叉学科,目前已被广泛应用到电子商务、医学、科学研究以及工程技术等领域中,它具有重要的理论与应用价值。当前,海量数据和混合属性数据集的数据挖掘应用越来越多,面对如此复杂的数据挖掘类型,现有的许多数据挖掘算法力不从心。如何充分利用优化方法来提高数据挖掘算法的效率,改善挖掘的结果,是众多研究者关心的热点。 本文将优化方法与数据挖掘结合起来研究,分析了数据挖掘的两个重要分支--聚类和分类,将特征权重优化与聚类和分类联系起来并进行相互融合,形成一条贯穿全文的主线。从多个角度研究将特征加权嵌入到混合属性数据集的聚类和分类中,以期优化后的特征权重能有助于构造出更简洁、更精确的分类器。 本文的创新点主要表现在以下六个方面: (1)为克服k-means聚类算法对初始化过于敏感的缺点,提出了一种具有单纯形思想的k-中心点轮换法。仿真实验及分析表明,该方法在应用于那些具有一定聚类结构、各个簇大小相差不太大的数据点集时,具有良好、稳定的(对初始中心点集的选取不敏感)聚类效果,但其缺点是时间复杂度较高。从仿真实验结果中还归纳出一个具有直观性的实验结论。为在聚类质量与时间复杂度之间取得良好均衡,提出了一种基于近似类抽样的组合聚类算法。仿真实验表明,该方法效果良好,并具有一定的实用性。 (2)将求解单点优化解的Rosenbrock搜索法应用到具有k-代表点优化解特征的聚类分析中,给出了一种适合于数值型数据集的新的聚类分析算法。 (3)为使特征加权后的数据点集具有更好的聚类分布性质,提出了一个可体现“聚类之内的数据点最大限度的相近,聚类之间的数据点最大限度的相离”(相近相离原则)的混合目标函数。为求解该混合目标函数,提出了一种基于负投影梯度的特征权重的自适应优化方法。仿真实验表明,该方法在优化连续有序数据集的特征权重时是有效的。 (4)利用核映射将原始样本空间中的分类问题与特征空间中的聚类问题联系起来,提出了一个可体现核空间中数据点像集相近相离原则的带线性约束条件的非线性混合目标函数。为解决该非线性优化问题,提出了一种基于核映射的属性权重的自适应优化方法。仿真实验表明,该方法在属性选择、确定属性权重方面是有效的。 (5)参照Joshua Zhexue Huang等将k-means聚类算法与特征权重优化相结合的方法,推导出FCM聚类算法与特征权重优化相结合的优化迭代公式,形成加权FCM算法。将加权FCM算法中计算聚类均值项的公式代入到计算隶属度的更新公式和特征权重的更新公式中,得到加权FCM扩展算法。由于这个扩展算法消去了均值项,它对于有序属性和无序类别属性的隶属度和特征权重的更新公式具有统一的形式,因此可以很方便地应用到混合属性数据集的加权聚类分析中来。该算法的收敛性分析与FCM类似,算法迭代结束后能给出一组优化的特征权重值。仿真实验结果与WKMeans算法的结果基本一致,说明该方法在优化混合属性数据集的特征权重时是有效的。 (6)应用决策树方法来获取混合属性数据集的“规则聚类区域”,利用“异类子聚类相离,同类子聚类相近”的原则来交替优化有序属性和无序类别属性的权重,提出了基于决策树划分的特征权重优化方法。该方法在一定程度上解决了有效获取数据子集的子聚类问题和混合属性数据集的特征权重优化难题。仿真实验表明,该方法在优化混合属性数据集的特征权重时是有效的。 最后,列出了一些与本文相关的可行研究方向。
其他文献
随着网络与人们生活的联系日益紧密,网络服务的质量越发引起运营商和普通用户的关注。网络测试是发现网络潜在故障、检查网络安全性、验证网络性能的有效手段。网络流量生成系
随着移动通信技术和设备的革新,以及移动互联业务应用需求的增加,移动通信网络中的用户对无线传输速率的要求也在不断提高,从而导致基站的覆盖范围越来越小,需要部署高密度的基站
在计算机技术日益普及的现代社会中,软件系统中流程比比皆是,形式覆盖程序流程、办公工作流、业务流程以及服务集成等。随着建设流程的组件数量的快速增长和流程逻辑复杂性的提
WEB信息的快速增长,给信息检索带来严峻的挑战.一方面大量的信息使得检索系统很难在极短的时间内(通常50毫秒)给大量的用户并发请求返回检索结果.另一方面返回的大量检索结果
情绪作为脑的一项高级功能,在人类的生存与生活中扮演着极其重要的角色,它和认知一起构成了我们精神生活的主要基础。近年来,情绪脑机制的研究已经成为一个热点。过去对情绪加工
拒绝服务(DoS)攻击对网络安全和主机资源造成了巨大威胁,近年来随着网络带宽逐步加大,DoS攻击和随后发展的分布式拒绝服务(DDoS)攻击对主机资源的占用,成为防御DoS攻击要解决的
即时通讯是目前互联网上最重要的通讯方式之一,实时性和低成本是它最大的特点.然而,作为一种新兴的网络通讯方式,它不像电子邮件这种成熟的网络应用,还没有形成统一的标准规
生物免疫系统是一种高度并行的自适应信息学习系统,它能自适应地识别和排除侵入机体的抗原性异物,并且具有学习、记忆和自适应调节能力,能够维护机体内环境的稳定。近年来,人们逐
学位
随着集成电路进入SoC时代,功耗问题对芯片设计提出了严峻的挑战.功耗限制了移动计算设备的电池使用时间,消耗了巨大的电能,增加了芯片和系统的设计与维护成本,极大地影响了芯