数据挖掘中聚类集成与半监督聚类研究

被引量 : 0次 | 上传用户:die0410
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域,聚类分析作为一种重要的方法,能够发现数据对象自然的分布结构。通过一种事先给定的相似性测度方式,所有的数据对象被分割成若干不连续的组,并保证同一组数据的相似性更大,不同组数据的相似性更小。传统的聚类算法是一种无监督方法,它按照不同的优化准则对数据进行分割,没有考虑用户或真实世界提供的任何先验知识。尽管目前许多新型或改进的算法被提出,但仍然难以找到一种单一的算法可以探索各种数据对象分布结构。为了提高无监督聚类算法的性能,聚类集成技术和半监督聚类技术应运而生。受分类集成技术的启示,聚类集成作为当今的研究热点已被证明能有效地提高传统聚类算法的性能。它综合多种不同聚类算法或不同初始参数的同一聚类算法产生的划分,可获得比单一聚类算法更好的聚类结果。共识函数的设计是聚类集成最关键的问题,也是目前研究的重点。本文提出一种基于自组织特征映射(SOM)的聚类集成算法。该算法首先利用多个具有差异性的聚类成员,将原始数据集转换成一个新的特征空间矩阵,然后计算各个聚类成员的聚类综合质量,并将其作为新特征空间矩阵的属性权重,最后利用SOM神经网络进行集成,产生最终的共识聚类结果。实验结果表明,与集成前的基聚类算法和其他聚类集成算法的结果相比较,该算法能够有效提高聚类质量。半监督聚类利用诸如种子集或成对约束等先验知识获得更好的聚类结果。相比于无监督聚类分析,半监督聚类利用提供的少量监督信息协助指导聚类过程。成对约束是先验知识中最普遍的,目前许多半监督聚类算法都基于此类约束形式。本文对基于成对约束的Cop-Kmeans算法进行了详细地介绍,并提出了一种改进的Cop-Kmeans算法,用以解决Cop-Kmeans算法的约束违反问题。针对目前许多半监督聚类算法对数据样本分配顺序的敏感性,给出了一种根据样本确定度的大小产生样本分配顺序的方法。另外,本文将成对约束融入SOM算法,给出了一种基于成对约束的半监督SOM算法,并将其作为共识函数尝试对多个半监督聚类划分结果进行集成。最后,通过实验验证上述方法的有效性。
其他文献
目前在对外汉语教学领域,任务型语言教学成为对外汉语教师及科研人员(包括教材编写人员)关注的一个焦点,如何客观理智地对待这一"新"的理论。本文从理论溯源、"任务"理解、教
道家思想在西汉时期的不同阶段具有不同的特征,这在汉赋中有鲜明的表现。西汉前期,以黄老思想为主,受其影响,作家中含有对世事的关注;西汉中后期,道家思想退隐出政治舞台,玄
财力均等化是中央转移支付的最基本目标,是落后地区实现公共服务均等化的基础。本文选取了尽量能反映区域特点的13个指标,对我国的省级行政辖区做了发达地区、中等发达地区和
在激烈竞争的市场经济条件下,产品质量固然重要,产品的外观也是不可忽缺的一个重要方面。产品设计的理念是降低成本,增加视觉效果。色彩的魅力在设计中占有举足轻重的地位。
陶瓷人力资源供应链,是以满足市场需求为导向,将产业界和学术界的各种资源加以整合,通过信息和资源共享形成人才培养创新链,为陶瓷企业提供高效运营所必需的知识和人才的过程
陀思妥耶夫斯基的复调艺术有着基于俄罗斯文化及正教理念的深刻背景 ,其主要制约因素是“聚合性”。“聚合性”的核心内容是“多样性中的自由统一” ,因此 ,在陀思妥耶夫斯基
负债业务是现代商业银行的基础业务,在我国商业银行目前以利差为主的盈利模式下,负债管理不仅决定了商业银行的资产规模,而且在很大程度上决定了商业银行的盈利。本文从我国
抛光砖防污问题一直是研究的热点。本文通过复配制得抛光砖水性打底剂和水性防护液,并利用光泽度计和扫描电镜对抛光砖表面光泽度分布和显微结构进行了研究。结果表明,添加了
自闭症是以社会交往障碍、言语发展障碍、兴趣范围狭窄及刻板行为为典型症状的广泛性发展障碍。由于病因不明,现在仍没有有效的治疗药物和治疗方法,因此,自闭症儿童的早期康
本文旨在系统性地探究异质性企业贸易理论的起源与发展过程。首先对促使该理论诞生的实证挑战从企业的选择性出口、市场进入成本、资源再分配三个方面进行了综述;然后指出该