基于划分与层次的文本聚类研究

被引量 : 0次 | 上传用户：RRR6670

【摘要】

：

目前以文本形式存在的有用信息越来越多，因此怎样快速并高效的聚类与分类这些大规模的文本信息变得越发重要。针对这一问题，文本的自动聚类和自动分类技术应运而生。文本聚类技

【作者】

：

刘一鸣

【发表日期】

：

2012年期

【关键词】

：

可变阈值 K - Means 初始聚类中心信息增益层次聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前以文本形式存在的有用信息越来越多，因此怎样快速并高效的聚类与分类这些大规模的文本信息变得越发重要。针对这一问题，文本的自动聚类和自动分类技术应运而生。文本聚类技术是将文本划分到不同的类别中去，是在结合了机器学习和统计方法的理论基础上的，已经得到了较为广泛的实际应用，并且已经能够较好的解决海量文本信息归类的问题。目前在文本聚类研究领域中，主要有文本的表示以及聚类器算法两个研究热点。针对于文本表示方面，文本数据经过预处理通常会获得具有较大稀疏性以及高维性的文本表示空间，并会导致文本聚类质量的下降和效率的降低。在聚类器的算法中，文本聚类器主要有K-Means算法、K-Medoids算法、CURE算法、BIRCH算法、DBSCAN算法等，如何将这些算法进行改良，使得它们更适合于提高文本聚类的质量和效率，也是现在研究的热点问题。本文首先在绪论部分对文本聚类的产生背景、基础理论和研究进展情况进行了简要介绍，随后详细介绍了在文本聚类技术中常用聚类算法的基本信息，主要包括有算法思想、种类以及它们的理论依据等，以及文本聚类算法的常用公认数据集以及文本聚类算法的结果评价标准，并详细介绍了文本聚类流程中所使用到的关键技术。其中本文在深入研究和分析文本聚类的研究现状以及目前针对文本聚类的研究中所彰显的问题的基础上，将研究重点放在了两个问题上：一是如何设法对文本聚类的算法进行优化，从而使文本聚类中的聚类器性能得到提升；二是通过充分的对比实验来对本文提出改进方法是否具有预期的有效性进行验证。本文开展完成了以下工作：(1) K-Means算法作为最为常用的文本聚类算法之一，具有算法复杂度相对比较低，并且算法实现简单等优点，但它也有较明显的缺点：算法在聚类初始中心的选择上过于敏感，原始算法中所使用的随机选择初始聚类中心点的方法，会导致聚类器性能不稳定，针对于K-Means算法的这个缺点，本文提出了基于可变阈值的K-Means聚类初始中心选择方法，在选择初始聚类中心点时，会依次选择距离已有初始中心点的距离大于一个不定阈值的样例作为下一个新的初始聚类中心点，并根据满足条件的初始聚类中心点的个数对该不定阈值进行适当调整，直至获得满足条件的阈值以及初始聚类中心点，再进行聚类操作。在10个UCI数据集和4个文本数据集上的实验结果显示，该算法性能明显优于原K-Means算法。(2)层次聚类分析作为数据挖掘和模式识别领域中非常重要的研究课题之一，同样具有非常广阔的应用前景。受启发于决策树学习中对最佳分类属性的选择，本文提出了一种新的引入信息增益的层次聚类算法，该算法通过引入的信息增益方法对样例的的属性进行加权操作，进而对原始层次聚类算法进行指导，由此来提高聚类结果的质量。在10个UCI数据集和4个文本数据集上的实验结果显示，该算法性能明显更优于原层次聚类算法。

其他文献

品牌价值的影响因素研究

全球金融危机导致全球市场萎靡不振,我国许多缺乏强势品牌的企业受到严重冲击。另外,“全球最佳100品牌排行榜”,我国品牌榜上无名,与我国全球经济地位极不相称。可见,我国品

学位

品牌品牌价值品牌塑造品牌提升

晚唐五代时期的沙陀

<正> 在晚唐五代的政治舞台上,沙陀人扮演了十分活跃的角色。他们不但在晚唐时期西北边疆民族的战争中,在河北等地藩镇的混战中,以及在对庞勋、黄巢领导的农民起义的围剿中,

期刊

晚唐五代唐王朝唐五代时期

寻找路内停车泊位产生的车辆巡游

为寻找路内停车泊位在道路上巡游的车辆是造成交通拥堵的原因之一。首先指出路内停车低价与路外停车高价共同刺激驾驶人选择巡游而非使用路外停车场(库)。其次针对洛杉矶的巡

期刊

停车管理路内停车车辆巡游停车价格收益管理

推进公共财政建设之我见

公共财政建设是我国社会主义市场经济发展到一定阶段的必然产物,是完善社会主义市场经济体制的迫切要求,推进公共财政建设是一项艰难的改革,在改革过程中必然要打破以前习以

期刊

公共财政建设难题破解思考

图示法——联通净现值与内含报酬率的新纽带

净现值和内含报酬率是项目投资决策的两大财务评价指标,本文运用图示法直观形象的展现了两者的关系,有效解决了两者的互判性问题,创造了联通净现值与内含报酬率的新纽带。

期刊

净现值内含报酬率图示法

徽州对景德镇瓷业经济发展的贡献

景德镇与徽州由于地缘相近，水缘相亲，而形成了一种山水相依、文化互通、经济互惠的奇特关系。徽州的商人与艺人以其独有的方式融入到景德镇地方经济中，对窑火的传承与创新付出了

期刊

景德镇徽州陶瓷

建筑施工项目团队建设与管理研究

随着改革开放的不断深入建筑施工市场竞争更为激烈,如何在这样激烈的竞争环境中成长和发展成为了各个建筑施工企业所考虑的核心问题。企业的竞争可以表现在多种方式中,但归根

学位

建筑施工项目高效团队项目团队建设项目团队管理

网络传播中新闻图片造假的分析及对策研究

随着人类社会进入读图时代，网络新闻图片在信息传播方面占得比重越来越大。网络新闻图片在迅速发展的同时也面临着一系列的问题。新闻图片造假目前已成为网络新闻图片在传播过

学位

网络新闻图片新闻图片造假造假手段造假危害防治策略

建构主义背景下对外汉语教材的创造性使用

课堂教学要素主要包含教材、教师、学生三个要素,其中教材发挥了重要的桥梁作用,让教师和学生紧密连接在一起。尽管理论上教材的编制遵循科学性、系统性、趣味性等原则,对教

学位

建构主义创造性使用教材转化5E模式

血府逐瘀汤联合西药治疗原发性高血压40例

目的:观察血府逐瘀汤联合西药治疗原发性高血压的临床疗效。方法:选取本院收治的80例原发性高血压患者作为研究对象,随机分为治疗组与对照组各40例,对照组给予坎地沙坦8 mg口

期刊

原发性高血压血府逐瘀汤坎地沙坦内皮功能

基于划分与层次的文本聚类研究

其他学术论文