最大距离法选取初始簇中心的K-means文本聚类算法的研究

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:guanjianjun1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于初始簇中心的随机选择,K-means算法在聚类时容易出现聚类结果局部最优、聚类结果不稳定、总迭代次数较多等问题。为了解决K-means算法所存在的以上问题,提出了最大距离法选取初始簇中心的K-means文本聚类算法。该算法基于这样的事实:距离最远的样本点最不可能分到同一个簇中。为使该算法能应用于文本聚类,构造了一种将文本相似度转换为文本距离的方法,同时也重新构造了迭代中的簇中心计算公式和测度函数。在实例验证中,对分属于五个类别的1 500篇文本组成的文本集进行了文本聚类分析,其结果表明,与原始的K-m
其他文献
1 案例1.1 案例1简要案情:田某,男,28岁,因“头晕、头痛、胸闷、全身无力”到某一药业连锁店分店就诊.药店店员李某(无执业医师资格)为田某开药并静脉滴注,所用药品:生理盐水
在新的社会经济环境下,现代企业如果想获得更高的社会效益以及经济效益,对企业政工进行有效的管理和创新是十分必要的,具有十分重要的现实意义。本文重点探讨现代企业政工管理模
电力企业是技术含量高、资金资本密集的技术性企业。在社会主义市场经济体制下,激烈的市场竞争向我国电力行业的政工管理体系发起挑战,管理好企业员工的政治思想政治教育工作,切
维护职工合法权益是工会的基本职责,肩负着供电企业开展思想政治工作的任务。在当前不断发展变化的新形势下,各级工会要切实组织职工、引导服务职工、维护职工合法权益,在作风建
电力企业在我国国民生产中占有重要地位,对我国经济的发展具有不可替代的作用。但电力企业在发展的过程中与其他国民生产企业之间产生了各种各样的矛盾和问题,这些问题一般是通
为具体落实新课程倡导的自主、合作、探究的学习方式,培养问题意识是推行“探究”的中心环节.问题意识主要从以问题为中心的课堂、分析问题、辨析问题、比较问题几方面着手践
当前,学校必须做好减负增效的工作已成为广大教育工作者的共识。那么,如何向课堂45分钟要质量,如何构建高效的课堂教学模式,是摆在我们每位教师面前刻不容缓的重要课题。本文
提升试验场站创新能力主要有两个方面,一是硬件条件,二是人力资源.目前相对滞后的绩效管理水平已成为束缚试验站发展的桎梏.通过调研分析和访谈表明:试验场站的绩效管理体系
放油阀式特高频(ultra-high-frequency,UHF)检测方法适用于变压器内部局部放电故障的带电检测。UHF 检测装置的工作频带和安装位置是影响其检测灵敏度的关键因素。依据圆波导
旅游客流量具有明显的非线性和季节性特征,所以采取季节调整方法对样本数据进行预处理,消除季节性的影响,可以提高客流量预测的准确性。同时SVR(支持向量回归机)是一种良好的机器