一种基于MinHash的改进新闻文本聚类算法

来源 :计算机技术与发展 | 被引量 : 0次 | 上传用户：hongguoboy

【摘要】

：

信息技术的不断发展,带来的是网络上新闻文本的快速增长,面对大量的新闻文本,对其进行有效聚类就显得十分重要。基于上述需求,提出一种基于MinHash的DBSCAN聚类算法。针对传

【作者】

：

王安瑾

【机构】

：

东华大学计算机科学与技术学院

【出处】

：

计算机技术与发展

【发表日期】

：

2019年02期

【关键词】

：

Min Hash Jaccard系数 DBSCAN 文本聚类

【基金项目】

：

国家自然科学基金(61472075)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

信息技术的不断发展,带来的是网络上新闻文本的快速增长,面对大量的新闻文本,对其进行有效聚类就显得十分重要。基于上述需求,提出一种基于MinHash的DBSCAN聚类算法。针对传统向量空间模型文本聚类存在的数据维度高、计算复杂度大、资源消耗多的问题,该算法使用Min Hash对所有文本的文本特征词集合进行降维,从而有效减少了资源的浪费。对新得到的特征矩阵中的数据任意两两计算Jaccard系数,将每一个结果与DBSCAN聚类中给定的邻域半径Eps进行比较并计算所有距离大于邻域半径Eps的点的周围节点数目是否大于等于形成一个簇所需要的最小点数MinPts,由此可以判断该文本是否为核心点,是否可以形成簇。实验结果表明,该方法对于新闻文本聚类有着很好的效果,可以对网络上错综复杂的新闻文本进行有效的聚类。

其他文献

浅析园林绿化养护技术的要点及养护管理措施

近年来,伴随国内经济不断发展,人们生活水平逐渐提高,对园林绿化提出了更高要求。但受传统观念的影响,在园林绿化中缺少对养护管理的规范,影响了园林绿化效果。本文阐述了园

期刊

园林绿化养护技术养护管理措施

水合氯醛保留灌肠降低小儿高热致惊厥的概率观察

目的探讨对高热患儿行水合氯醛保留灌肠是否可以降低惊厥发生的概率。方法在2013年5月~2018年5月我院门急诊就诊的高热患儿中选取210例,随机分组,各105例。对参照组行常规

期刊

小儿高热惊厥水合氯醛保留灌肠

钢板桁架疲劳裂纹生长模型和声发射特征的研究

采用声发射技术监测了受循环剪切载荷作用的钢腹板桁架疲劳过程三阶段的声发射特性曲线。基于断裂力学和实验结果提出了一个裂纹稳定扩展期间的振铃计数率和裂纹生长率之间的

期刊

钢板桁架疲劳裂纹声发射steelslenderwebgirder fatigue crack acousticemission

关于工业产值统计之我见

<正> 当前,我国在经济建设中面临的一个问题是财政困难,资金不足。解决这个问题的根本出路,在于采取正确的政策,调动全体职工、所有企业和各个地方的积极性,努力增加生产,厉

期刊

工业净产值生产法工业总产值工业产值生产资料分配法之我见

一种基于MinHash的改进新闻文本聚类算法

其他学术论文