基于语义特征选取与改进k均值算法的文本聚类研究

来源 :第十二届中国Rough集与软计算学术会议、第六届中国Web智能学术研讨会及第六届中国粒计算学术研讨会联合学术会议 | 被引量 : 0次 | 上传用户：haixinkp

【摘要】

：

　　针对传统的k-means算法存在容易陷入局部最优以及对初始聚类中心的高度依赖性等缺陷，提出了一种改进初始中心选取的新的k-means算法。由于词空间的文本聚类方法很难处理文

【作者】

：

HE Xiao-liang 何晓亮 SONG Wei 宋威 LIANG Jiu-zhen 梁久祯

【机构】

：

SchoolofInternetofThingsEngineering,JiangnanUniversity,Wuxi214122,China江南大学物联网工程学院无锡214122

【出处】

：

第十二届中国Rough集与软计算学术会议、第六届中国Web智能学术研讨会及第六届中国粒计算学术研讨会联合学术会议

【发表日期】

：

2012年10期

【关键词】

：

文本聚类语义特征选取改进k均值算法效果评估

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　针对传统的k-means算法存在容易陷入局部最优以及对初始聚类中心的高度依赖性等缺陷，提出了一种改进初始中心选取的新的k-means算法。由于词空间的文本聚类方法很难处理文本的高维特性和复杂语义性，因此通过采用语义特征选取的方法从高维特征空间中提取文本向量的主要成分，从而实现文本输入空间的降维和语义特征空间的抽取。实验结果表明：语义特征选取处理不仅可实现降维，大幅减少文本聚类的时间，而且能有效提高聚类系统的准确性。另外，改进的k-means算法对整个聚类的效果也有明显的改善。将两者结合之后，聚类效果更加显著。

其他文献

核壳结构纳米粒子生长动力学行为的研究

　　本文通过非离子表面活性剂/正己醇/环己烷/有机金属染料联钌吡啶水溶液组成的反相微乳液体系，研究了微乳液动力学特性及其对染料包埋纳米二氧化硅核壳结构的动态生长过程

会议

纳米粒子二氧化硅核壳结构生长动力学

基于TENA的分布交互仿真程序设计

　　试验与训练使能体系结构(TENA)作为一种新兴的体系结构，在靶场试验与训练领域具有传统的分布仿真技术所无法比拟的优势，具有广阔的应用前景。对TENA元模型进行了概述，介绍了

会议

靶场试验体系结构分布交互仿真程序设计

一种面向分布式应用的灰色信任预测模型的设计

　　为解决分布式开放系统中具有不确定性、不对称性、部分传递性和时空衰减性等一系列复杂的动态属性的信任关系定量表示和预测问题，基于灰聚类理论构建了8等级信任评价模型，

会议

软件工程分布式开放系统信任预测模型动态分析

基于部分网络编码的移动自组网实时多播协议研究

　　传统网络编码可以减少数据包的转发次数,但会造成数据包较大的延时,且容易造成网络的拥塞.本文提出一种基于部分网络编码的实时多播协议——PNCRM.该协议将部分网络编码

会议

移动自组网网络编码多播协议性能分析

CPU和GPU混合集群的负载均衡策略

　　为了充分利用GPU集群(Cluster)中各节点的资源，提高GPU集群(Cluster)整体的计算效率。本文以3G网络中海量视频质量分析为研究背景，提出了一种面向CPU和GPU集群的负载均衡策

会议

计算资源功能匹配负载均衡动态调整

入侵检测中的混合特征选择算法研究

　　在开放式网络中，高维混合特征的冗余或不相容属性会降低网络入侵检测的效率。为提高入侵检测系统的响应性能，提出一种混合特征选择方法，利用粗糙集形式化描述入侵检测的特征

会议

计算机网络安全管理入侵检测技术聚类算法粗糙集信息熵

一种无线传感器网络中DV-Hop定位的改进算法

　　针对DV-Hop算法中存在的误差问题，提出了一种基于平均每跳距离的改进方案。该算法利用误差修正值δ对估算的平均每跳距离值进行修正，以便减少估算的平均每跳距离与实际平均

会议

无线传感器网络优化算法节点定位平均每跳距离误差修正值

基于多核PC的人工蜂群并行算法的研究与实现

　　针对人工蜂群算法搜索时间长、收敛速度缓慢、搜索后期极易陷入局部最优等问题，提出了一种人工蜂群并行算法(PRP-ABC)。首先引入随机摄动因子和全局最优解两个策略得到串

会议

并行算法人工蜂群随机摄动因子多核系统

海量语义数据处理的最新技术和进展

语义技术(Semantic Technology)正在成为现代信息系统的主要技术之一.本报告将系统地介绍海量语义数据处理的最新技术和进展,特别是通过系统地介绍欧盟第七框架重大语义万维

会议

主题模型在视频异常行为检测中的应用

　　主题模型能够挖掘数据背后潜在的主题，从而将数据进行聚类，因此可以将其应用到视频分析中，挖掘其中的行为。主题模型在时序文本流和图像分割问题上分别加入了时间因素和空间

会议

视频异常行为检测技术数据挖掘主题模型

基于语义特征选取与改进k均值算法的文本聚类研究

与本文相关的学术论文