一种用于文本聚类的改进k-means算法

来源 :山东大学学报(理学版) | 被引量 : 0次 | 上传用户：nikig

【摘要】

：

k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标

【作者】

：

索红光王玉伟

【机构】

：

北京理工大学计算机科学技术学院,中国石油大学计算机与通信工程学院

【出处】

：

山东大学学报(理学版)

【发表日期】

：

2008年01期

【关键词】

：

文本聚类 k-means 向量空间模型局部迭代

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

k-means是目前常用的文本聚类算法,针对其最终搜索的局部极值与全局最优解偏差较大的缺点,采用一种基于局部搜索优化的思想来改进算法,并推导出目标函数的变化公式。根据目标函数值的改变对聚类结果作再次划分后,继续k-means迭代,拓展其搜索范围。理论分析和实验结果表明修改后的算法能有效地提高聚类的质量,且计算复杂度仍与数据集文本总数呈线性变化。

其他文献

糖尿病眼病的防治要重视综合治疗

正确认识全身因素如高血糖、高血压和高血脂等对糖尿病视网膜病变的影响和糖尿病不同部位眼病的发生机制,才能正确处理糖尿病眼病,维护好糖尿病患者的视功能。当糖尿病视网膜

期刊

糖尿病糖尿病视网膜病变/治疗

论澄江县旅游城市形象定位与营销策略

随着云南旅游"二次创业"的兴起,塑造澄江旅游城市形象是当前澄江旅游发展工作中的重点之一,有利于提高城市知名度和景区点吸引力。笔者通过对澄江旅游资源的评析,并采用问卷

期刊

澄江县旅游城市形象营销策略

简易宫腔扩张联合透明质酸钠凝胶对预防中重度宫腔粘连复发的疗效

目的观察中重度宫腔粘连分离术（TCRA）后采用简易Foley球囊定期扩张宫腔同时注入透明质酸钠凝胶对预防中重度宫腔粘连复发的疗效。方法回顾性分析2014年4月至2015年4月安徽医

期刊

宫腔粘连宫腔扩张透明质酸钠凝胶宫腔粘连松解术

事业单位绩效考核的信息化管理

国家2014年颁布的《事业单位人事管理条例》对事业单位人事的管理进行了规范,并对岗位职责、竞聘上岗、绩效考核等做出了规定。针对《条例》中的规定,各省市也相应出台了本地

期刊

事业单位人事管理绩效考核系统

基于市场细分理论的我国老龄产品开发和设计研究

21世纪将是世界人口老龄化的一个世纪。人口老龄化造成的一个根本性社会问题就是老人特殊需求的满足问题。依据我国社会发展现状，我国在面对人口老龄化的问题时，既是挑战也是机

学位

市场细分老年人老龄产品

韩国留学生错别字语料库的建立和基于语料库的错别字考察

本文主要分为两个部分:第一部分是建立韩国留学生错别字语料库。叙述了语料库的建立构想、建立方法,语料筛选、入库;错别字筛选的标准和目前语料库的完成情况以及不足。第二

学位

错别字语料库错字别字教学策略

从气机升降论治眩晕

眩晕为临床常见病,常危害人体健康。气机升降理论是中医基本理论之一,有维持机体新陈代谢和生命活动的基本作用,而脾胃是气机升降枢纽。本文试从气机的升降运动论述眩晕的病

期刊

眩晕气机升降升清降浊法

龙游硫铁矿区农田土壤重金属污染的空间变异及在水稻中的积累

为了解浙江龙游硫铁矿区农田重金属污染状况,采集矿区265件农田土壤样品,分析8种重金属Cu、As、Hg、Zn、Cd、Ni、Pb、Cr元素全量,利用地统计学软件GS＋9.0对研究区土壤各元素指

期刊

龙游黄铁矿重金属污染空间分布变异函数健康风险

《繁花》之为繁花

<正>《繁花》是一个文学编辑沉寂二十年厚积薄发之作,也是无心插柳的一部长篇。长篇在2012年甫一出版就大获好评,获得了中国小说学会"小说排行榜"榜首、华语文学传媒大奖"年

期刊

金宇澄《繁花》

中国跨文化传播研究三十年探讨(1978-2008)

从学理的角度来看,中国的跨文化传播研究,包括传播研究本身,还远未有足够的积累让研究者认真回味并传递薪火。但无论是国际还是国内跨文化传播(交流)实践层面的探索和推动,却

期刊

文化传播研究文化传播学传播学研究三十年

一种用于文本聚类的改进k-means算法

与本文相关的学术论文