基于频繁词集聚类的海量短文分类方法

来源 :计算机工程与设计 | 被引量 : 0次 | 上传用户:fzx0126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。针对这个问题提出了一个新颖的基于频繁词集聚类的短文分类算法。该算法使用频繁词集聚类来压缩数据,并使用语义信息进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。
其他文献
CFB锅炉是一种新型洁净煤燃烧技术。在了解运行过程的基础上,发现了CFB锅炉存在的,诸如冷渣器故障,J阀旋风分离器、给煤系统故障、CFB锅炉的磨损和浇注料脱落、CFB锅炉的膨胀问
文章以太钢集团能动总厂厂级监控系统(sis系统)建设为背景,扼要介绍了能动总厂热电生产现状及调度管理中遇到的问题。结合生产实际阐述了SIS系统总体设计思路、网络架构、EDNA实
我国属于农业大国,我国的农业生产要满足十三亿人口的需求,在我国的农业作物中,水稻是重要的农业作物之一。近年来,随着人们生活水平的提升,对无公害优质水稻的需求量不断增
本文介绍了Delphi技术的基本概念、主要特性和标准对象,并结合本馆自建数据库实例,简要分析了Delphi编程的基本步骤,从而论述了Delphi技术在图书馆工作中的广泛应用。
说话人识别是目前身份认证及人工智能领域研究的一个热点,解决说话人识别问题具有重要的理论价值和深远的实用意义。基于语音鲜明个性特征和显著的性别差异,提出了一种考虑性别差异的说话人识别方法,并采用SVM分类器进行训练和测试。先对SVM分类器分别进行性别识别训练和同性集合内个体识别的分类训练,建立起相应的支持向量集合,以此为基础,先后进行说话人的性别识别测试和个体识别测试。实验结果表明,该方法可以有效提
永磁直线同步电动机驱动的垂直运输系统将会广泛地应用于高层建筑电梯和矿井提升系统.本文介绍了垂直运动永磁同步直线电动机的原理、结构、特点及其垂直运输系统存在的一些问
1水稻节水灌溉栽培技术的意义与作用我国种植水稻的历史悠久,水稻最早种植于长江流域,后来随着经济的发展和社会的变迁,逐渐扩散到全国。水稻是我国人民重要的主食来源,为人
基于蚁群算法建立了一个多用户检测问题的模型,在这个模型中,蚁群算法得到了简化并且更加利于并行计算。随后将基于优化排序的蚂蚁系统用于多用户检测,并通过分析算法的缺陷提出
差异演化算法是一种基于群体差异的演化算法,群体中每个向量代表问题的一个候选解,该算法利用向量之间的差异扰动整个种群,求解问题的最优解。综述了差异演化算法的基本原理、常