基于语义特征选取与改进k均值算法的文本聚类研究

来源 :第十二届中国Rough集与软计算学术会议、第六届中国Web智能学术研讨会及第六届中国粒计算学术研讨会联合学术会议 | 被引量 : 0次 | 上传用户:haixinkp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  针对传统的k-means算法存在容易陷入局部最优以及对初始聚类中心的高度依赖性等缺陷,提出了一种改进初始中心选取的新的k-means算法。由于词空间的文本聚类方法很难处理文本的高维特性和复杂语义性,因此通过采用语义特征选取的方法从高维特征空间中提取文本向量的主要成分,从而实现文本输入空间的降维和语义特征空间的抽取。实验结果表明:语义特征选取处理不仅可实现降维,大幅减少文本聚类的时间,而且能有效提高聚类系统的准确性。另外,改进的k-means算法对整个聚类的效果也有明显的改善。将两者结合之后,聚类效果更加显著。
其他文献
  本文通过非离子表面活性剂/正己醇/环己烷/有机金属染料联钌吡啶水溶液组成的反相微乳液体系,研究了微乳液动力学特性及其对染料包埋纳米二氧化硅核壳结构的动态生长过程
  试验与训练使能体系结构(TENA)作为一种新兴的体系结构,在靶场试验与训练领域具有传统的分布仿真技术所无法比拟的优势,具有广阔的应用前景。对TENA元模型进行了概述,介绍了
  为解决分布式开放系统中具有不确定性、不对称性、部分传递性和时空衰减性等一系列复杂的动态属性的信任关系定量表示和预测问题,基于灰聚类理论构建了8等级信任评价模型,
  传统网络编码可以减少数据包的转发次数,但会造成数据包较大的延时,且容易造成网络的拥塞.本文提出一种基于部分网络编码的实时多播协议——PNCRM.该协议将部分网络编码
  为了充分利用GPU集群(Cluster)中各节点的资源,提高GPU集群(Cluster)整体的计算效率。本文以3G网络中海量视频质量分析为研究背景,提出了一种面向CPU和GPU集群的负载均衡策
  在开放式网络中,高维混合特征的冗余或不相容属性会降低网络入侵检测的效率。为提高入侵检测系统的响应性能,提出一种混合特征选择方法,利用粗糙集形式化描述入侵检测的特征
  针对DV-Hop算法中存在的误差问题,提出了一种基于平均每跳距离的改进方案。该算法利用误差修正值δ对估算的平均每跳距离值进行修正,以便减少估算的平均每跳距离与实际平均
  针对人工蜂群算法搜索时间长、收敛速度缓慢、搜索后期极易陷入局部最优等问题,提出了一种人工蜂群并行算法(PRP-ABC)。首先引入随机摄动因子和全局最优解两个策略得到串
语义技术(Semantic Technology)正在成为现代信息系统的主要技术之一.本报告将系统地介绍海量语义数据处理的最新技术和进展,特别是通过系统地介绍欧盟第七框架重大语义万维
会议
  主题模型能够挖掘数据背后潜在的主题,从而将数据进行聚类,因此可以将其应用到视频分析中,挖掘其中的行为。主题模型在时序文本流和图像分割问题上分别加入了时间因素和空间