改进的支持向量聚类算法及其应用研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:coldbee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是知识经济时代,知识发现已受到日益广泛的关注。聚类分析是知识发现中一个极为重要的分支,几乎可用于社会生活的各个方面。而核聚类算法由于具有许多经典聚类算法无法比拟的优势,逐渐成为聚类算法研究领域的一大热点。本文主要研究的支持向量聚类(Support Vector Clustering, SVC)算法就是一种典型的核聚类算法。与其他聚类算法相比,SVC算法具有两大显著优势:一是不需要事先确定簇的数目,且能产生任意形状的簇边界;二是能分析噪声数据点且能分离相互交错的簇。SVC算法分为两个阶段:SVC训练阶段和聚类分配阶段。这两个阶段分别需要计算Lagrange乘子和邻接矩阵,而这两个计算问题可能导致算法具有较高的时间复杂性。正是针对这两个问题,本文提出一种改进的SVC (Improved SVC, ISVC)算法。在SVC训练阶段,提出一种基于熵的最小闭包球(Minimal Enclosing Sphere, MES)算法。可以证明,这种方法能有效减少计算Lagrange乘子的时间。在聚类分配阶段,首先利用核矩阵提供的信息对数据点进行初始分类,然后用计算初始类的中心点集上的邻接矩阵代替经典SVC算法中计算整个数据集上的邻接矩阵。这种方法能有效减少邻接矩阵的规模,从而提高邻接矩阵的计算效率。因此,ISVC算法对经典SVC算法的两个瓶颈问题都进行了改进。数值实验表明,ISVC算法不仅显著改善了经典SVC算法的时间性能,在聚类精度上也有一定程度的提高。之后将ISVC算法应用于文本聚类。选择复旦大学整理的小规模语料库中的100篇文本进行实验。首先对实验文本集进行预处理,依次为:切分文本集;利用向量空间模型(Vector Space Model, VSM)将切分后的文本集表示成矩阵形式;利用主成分分析(Principal Component Analysis, PCA)技术对文本集进行降维。然后利用ISVC算法将预处理后的文本数据聚类,并对聚类结果进行描述。最后对比了ISVC、k-均值和层次聚类中的凝聚算法(DHCA)三种算法在实验文本集上的聚类结果,发现ISVC算法具有较高的精度。这说明本文的ISVC算法在一定程度上提高了文本聚类的效率。
其他文献
天然油脂是全世界关注的绿色可再生性资源,除了供人类食用外,大批油脂都被作为化工原料利用,广泛地应用于各个不同的工业领域,如医药、食品、涂料、工业表面活性剂等。本文主
为探究喷施2,4-表油菜素内酯(EBR)在水稻开花期缓解高温胁迫的作用,研究分析了在高温胁迫下喷施EBR对水稻产量构成因素、花粉活力、抗氧化酶活性以及内源激素的影响。结果表
当前在我国流行的“价值”定义主要是主客体相互作用论,基本观点就是从客体满足主体需要这一角度出发来理解哲学“价值”范畴,把“价值”定义为“作为主体的人同满足其某种需
政务信息化作为国家实施全面信息化的基础和龙头,越来越受到各级政府的高度重视。各级政府希望全面地运用现代信息技术进行办公、管理和为社会提供公众服务。鉴于目前大部分
为提升我国互联网金融企业数据资产价值,深入挖掘其在促进企业发展中的潜在作用,本文基于互联网金融企业实际运行特性,利用层次分析法构建了我国互联网金融企业数据资产影响
胡同文化、四合院影响了北京人的生活,反过来也可以说北京人的文化造就了胡同和四合院。曾经是北京城市重要象征的胡同、四合院,狭窄、拥挤,已经不能适应现代化大都市的生活,
本文在存量更新背景下,针对历史街区普遍存在的要素零散化、生活零度化问题,反思当前街区整体更新模式的不可持续性,提出"路径式"介入的微改造策略,作为历史街区保护更新的一
从《俄狄浦斯王》到《俄狄浦斯在科罗诺斯》,俄狄浦斯的命运呈现了理性对抗虔敬、理性向虔敬转化的轨迹。索福克勒斯正是借助俄狄浦斯的故事告诫城邦的统治者,必须同时面对并
《莱茵报》时期是马克思思想发展的关键时期。这一时期他开始参与现实的政治生活,初次遇到了要对物质利益问题发表意见的"难事",并取得了关涉物质利益难题的系列重要理论成果
随着全球人口老龄化的到来,世界各国对合格专业的护理人员需求越来越多。这种形势之下,中国的护理人才到国外就业发展也成为了一种趋势。但雅思考试始终是她们要面对的巨大难