一种基于MinHash的改进新闻文本聚类算法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户:hongguoboy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息技术的不断发展,带来的是网络上新闻文本的快速增长,面对大量的新闻文本,对其进行有效聚类就显得十分重要。基于上述需求,提出一种基于MinHash的DBSCAN聚类算法。针对传统向量空间模型文本聚类存在的数据维度高、计算复杂度大、资源消耗多的问题,该算法使用Min Hash对所有文本的文本特征词集合进行降维,从而有效减少了资源的浪费。对新得到的特征矩阵中的数据任意两两计算Jaccard系数,将每一个结果与DBSCAN聚类中给定的邻域半径Eps进行比较并计算所有距离大于邻域半径Eps的点的周围节点数目是否大于等于形成一个簇所需要的最小点数MinPts,由此可以判断该文本是否为核心点,是否可以形成簇。实验结果表明,该方法对于新闻文本聚类有着很好的效果,可以对网络上错综复杂的新闻文本进行有效的聚类。
其他文献
近年来,伴随国内经济不断发展,人们生活水平逐渐提高,对园林绿化提出了更高要求。但受传统观念的影响,在园林绿化中缺少对养护管理的规范,影响了园林绿化效果。本文阐述了园
目的 探讨对高热患儿行水合氯醛保留灌肠是否可以降低惊厥发生的概率。方法 在2013年5月~2018年5月我院门急诊就诊的高热患儿中选取210例,随机分组,各105例。对参照组行常规
采用声发射技术监测了受循环剪切载荷作用的钢腹板桁架疲劳过程三阶段的声发射特性曲线。基于断裂力学和实验结果提出了一个裂纹稳定扩展期间的振铃计数率和裂纹生长率之间的
<正> 当前,我国在经济建设中面临的一个问题是财政困难,资金不足。解决这个问题的根本出路,在于采取正确的政策,调动全体职工、所有企业和各个地方的积极性,努力增加生产,厉