基于k-means算法的文本聚类研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:a568420740
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我们生活在一个信息化的时代,各种信息急剧膨胀,“数据丰富,知识贫乏”成为人们越来越关注的问题。为了有效利用这些信息,数据挖掘和知识发现技术应运而生,并显示出强大的生命力。聚类是数据挖掘领域中重要的技术之一,用于发现数据中未知的分类。聚类分析已有很长的历史,其重要性越来越受到人们的肯定。聚类算法是机器学习、数据挖掘和模式识别等领域的重要研究方向之一,在识别数据对象的内在关系方面,具有极其重要的作用,而作为数据挖掘技术手段之一的文本聚类有着非常广泛的应用前景。   文本聚类首先需要对文本进行预处理,通过分词、特征选择等过程将文本转化成计算机可处理的格式化数据如文本向量,然后使用聚类算法进行聚类。K-means算法由于操作简单、容易实现且时间效率高等优点而成为一种最常见的经典的文本聚类算法。而且,对初始值的依赖性和对噪声数据的敏感性等不足使得k-means算法的研究改进具有很大的发展空间。   本文针对k-means算法的优缺点提出了两种不同的改进算法。一种是基于不同相似度计算公式的k-means算法组合模式,即通过一种用于优化聚类结果的局部搜索算法将两种分别采用不同相似度计算公式的k-means算法组合起来,使得先运行的k-means算法和局部搜索算法尽可能为后运行的k-means算法提供较好的初始划分结果,取长补短;另一种是基于相对簇距离的k-means算法改进,即通过定义一种距离公式用于计算数据对象与聚类中心的相对距离,在划分过程中动态调整聚类中心,降低了算法对初始值的依赖性和对噪声数据的敏感性,改善了聚类效果。
其他文献
本文主要研究了支持向量机(Support Vector Machine,简称SVM)的在线学习算法。支持向量机是建立在统计学习理论基础上的新型机器学习方法。支持向量机有效克服了神经网络方法收
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
三山岛金矿使用HLX5型凿岩机,由于井下水文情况复杂,涌水量较大,且水中所含的氯离子浓度较高,其推进梁导轨和凿岩机小车的铝制滑块座腐蚀严重,使用寿命短。为此,笔者着手对滑
本文就一类重要的非线性偏微分方程——Cahn-Hilliard方程的差分格式的收敛性和稳定性研究展开了讨论.   Cahn-Hilliard方程在物理、化学领域起着重要作用,许多物理、化学现
闽经贸能源[2012]543号三明市经贸委、物价局、省电力有限公司:根据省物价局、省经贸委、省环保厅和省财政厅《关于对落后产能企业实行差别电价的通知》(闽价商[2012]57号)精
本文考虑了一类三维和四维系统的周期轨道的分支问题.众所周知,关于平面系统的极限环的分支的研究已经较为成熟,人们已建立起来研究其分支的基本理论与方法,但对于高维系统的分支
本文基于卵巢癌真实数据集,构建了预后因素评价和生存率预测方法。根据协变量为多水平分类变量的特点,我们运用了回归分类树(CART)和Cox模型相结合的CART-COX方法,并且将这种方
自从1973年5月,Black& Schloes两人合作在《政治经济学杂志》(Journal of Political Economy)上发表了论文《期权和公司负债的定价》(The Pricing of Options and Corporate Liab
自由曲面的生成和重构,一直是CAD/CAM研究的重要课题,在汽车、轮船、飞机、塑料等许多制造业中,有着广泛的应用背景。因为在这些行业中常常会遇到很多逆向工程(Reverse engineeri
贝叶斯网络是一系列变量的联合概率分布的图形表示。它具有强大的概率推理能力、自然清晰的表达方式、易于理解等优点,是目前不确定知识表示和推理的重要工具之一,也是近些年人