聚类模式下一种优化的K-means文本特征选择

来源 :计算机科学 | 被引量 : 0次 | 上传用户:taicangliliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本特征降维是文本自动分类的核心技术。K-means方法是一种常用的基于划分的方法。针对该算法对类中心初始值及孤立点过于敏感的问题,提出了一种改进的K-means算法用于文本特征选择。通过优化初始类中心的选择模式及对孤立点的剔除,改善了文本特征聚类的效果。随后的文本分类试验表明,提出的改进K-means算法具有较好的特征选择能力,文本分类的效率较高。
其他文献
该文内容系根据英国CDSINC公司提供的英文资料,经翻译、重新编辑而成,题目与原文一致。本文章所介绍的CDS养护系统,将间歇式养护窑改为连续式养护窑,使用“气幕密闭”技术减
介绍了文本聚类中基于划分的方法,针对该算法对孤立点的过于敏感问题,提出了一种用于特征选择的算法改进模型,通过对特征集童孤立点的剔除改善了特征聚类效果.随后的文本分类试验
自清乾隆(1736-1795年)以来,中国人口成倍增长.据有关资料统计,到1928年已达到4.7479亿人.①人口问题成了越来越严重的社会问题,它直接制约了中国国家和民族的发展.中国政府
新能源汽车的产业化现已成为国家战略,是国家层面实现“弯道超车”,解决在传统汽车行业被人“卡脖子”现状的关键。而作为新能源汽车的核心部件——电动机,需要具有高效率及
微流控芯片技术自出现后即以它分析速度快、高通量、消耗少、廉价、安全等特点迅速成为研究热点。用于放大特定的DNA片段PCR的技术可以在短时间里完成扩增,极大提高了检测灵
甜竹笋甘甜、清脆,营养丰富,不仅是我国传统的上等蔬菜,而且是肠胃保健的理想食品,是一种纯天然的有机食品.本文介绍了甜竹笋即食笋丝加工试验,具有较高的实用性.
通过1998年6月对广东省红海湾海水养殖水域环境因子的调查,阐述了海水中溶解氧、盐度、pH值和营养盐的分布特征及其变化规律并讨论了它们之间的相互关系,结果表明,溶解氧及海
1植物名称小水榕(anubias barteri).2材料类别茎尖、茎段.3培养条件诱导培养基:(1)MS+6-BA 5.0 mg·L-1(单位下同)+KT 5.0;增殖培养基:(2)MS+6-BA1.0,(3)MS+6-BA 2.0,(4)
目的:为优质丹参新品种选育研究提供依据。方法:采用HPLC测定来自不同居群丹参根的丹参酮ⅡA、隐丹参酮、丹参素和丹酚酸B的含量,采用分光光度法测定根的总丹参酮与总丹酚酸的含
叔本华哲学的影响及其当代价值没有得到足够的重视。作为存在主义的先驱,叔本华使哲学的关注点回归了生命本身;作为心理学家,他提出了不少现代心理学的基本观念;作为预言家,