一种高效的用于文本聚类的无监督特征选择算法

来源 :计算机研究与发展 | 被引量 : 0次 | 上传用户:chiale
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
特征选择虽然非常成功地应用于文本分类,但却很少用于文本聚类,这是因为那些高效的特征选择方法通常都是有监督的特征选择算法,它们因为需要类信息而无法直接应用于文本聚类.为了能将这些方法应用到文本聚类上,提出了一种新的无监督特征选择算法:基于K-Means的特征选择算法(KFS).这个算法通过在不同K-Means聚类结果上使用有监督特征选择的方法,成功地选择出了最为重要的一小部分特征,使文本聚类的性能提高了近15%.
其他文献
随着经济的发展,市场竞争的加剧,优胜劣汰是大势所趋,适者生存是必然规律。如何绕开激流险滩,走向成功的彼岸,已经成为每个企业追求的目标。而财务风险贯穿了企业财务活动过程的始
商业地产类公司,在完成繁重的开发任务之后,将迎来经营租赁的收入回收期,为了使租赁业务健康发展、租赁收入稳步增长,对房产租赁实施合理有效的管控措施显得尤为重要,虽然租
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语
用采自安徽、浙江、湖南和广东的4种红壤和1种赤红壤,通过室内培养实验研究了添加生物质灰对酸性土壤的改良效果。结果表明,添加生物质灰提高了土壤pH,降低了土壤交换性铝含量,且
乔后盐矿建设硐建于1958年,集旱采、硐室水采和钻井水采子一体,脉内开采中部厚矿段,已基本采空。采区地质构造复杂,采空区沉降崩落,卤水生产困难,安全问题严重。但深部尚有资源可以开采
通过液相还原法制备花生壳生物炭负载纳米零价铁材料(nZVI/BC),并采用元素分析、比表面积和扫描电镜等多种表征方法以获得其结构性质,研究了nZVI/BC材料对3种常见的氯代有机
随着互联网及新媒体技术在中国的发展,各种社会化媒体先后出现,带来了全新的传播模式。纸媒在顺应媒介大环境、进行上市融资和全媒体打造、资本化运作和数字化生存的同时,区
近年来,南昌会展业取得了可喜成绩,但仍未步入良性发展轨道,文章认为其原因是会展资源未能优化配置,并提出了思考。 In recent years, Nanchang Convention and Exhibition
三农的发展离不开大量资金的支持,而农业现代化进程的加快使资金问题更加凸显,有效解决农村经济发展过程中面临的融资难问题已成为政府需要考虑的重点。在农业发展的过程中,政策性与商业性银行或多或少地已有悖于农村金融的本质,因此探寻更加适合农村金融发展的融资模式就成为发展现代农业、解决融资困境的必然选择。“农业价值链+互联网金融”是基于农业价值链开展的互联网金融业务创新,能够将农户、金融机构、乡村本土中介、
近年来众多中国企业赴成熟发达的境外资本市场上市。国内外许多学者对企业赴境外上市现象进行了研究,包括上市动机、融资成本的比较、是否存在估值溢价和改善公司长期绩效等