基于标题特征词密度聚类以及相似度计算的热点发现研究

被引量 : 7次 | 上传用户:quchaolove
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络媒体已经成为人们获取信息的重要来源,网络舆情信息的导向作用越来越大,同时,网络舆情已经成为社会情报的一种重要表现形式。网络信息庞杂多样,虽然对社会的发展起了积极的作用,但是网络舆情发生的范围广、传播的速度快。因此,随之而来的也有着信息安全问题的存在,反动、淫秽、迷信等有害信息在网络中的传播,严重危害了国家的安全和社会的稳定。如何准确又实时的发现网络舆情热点的研究已经成为目前国内外的一个研究热点。对网络舆情热点发现问题中的相关技术进行优化和改进,可以更加准确的把握网络舆情热点,提高热点发现的效率和准确率。网络舆情热点发现问题主要是考虑其中的特征提取和聚类算法技术,快速高质量的文本聚类技术可以将海量的文本信息分成有意义的若干簇。近年来人们致力于聚类算法的研究,如ARHP算法、PDDP算法、K-means算法、PAM算法、DBSCAN算法、OPTICS算法等,这些算法可以很好的对文本进行聚类,但是在进行热点发现时都有局限性,如需要热点词汇的提取、相似度的计算等。本文将热点发现问题描述成基于特征词提取与聚类算法相结合以及文档相似度计算问题,同时对特征词提取和相似度计算这两个方面进行改进。本文在研究热点发现方法的基础上,针对现有的特征词提取方法仍存在的一些问题,以及文档相似度计算方面可以做出的改进,设计了从标题提取特征词和改进文档相似度计算公式,并结合相关聚类算法来实现网络舆情热点发现的算法,致力于提高网络舆情热点发现的准确率。本文主要研究工作包括:(1)关键词质量的高低和文章的各个要点的内容是息息相关的。因此要有效的提取关键词,就要全面理解文章的内容和文中各词语的确切词义。为了提高热点词汇的提取质量,提出从标题中提取特征词来得到质量较高的热点词汇。(2)在进行热点发现时,无论是使用分类算法还是聚类算法都要先分析两个向量之间的相似程度(即相似度),为了更能反映文章真实的相似性。根据给出的相似度计算公式,将特征项的权重考虑进去,提出将特征项的权重值融入相似度公式中综合考虑的方案。(3)在上述工作的基础上,以结合标题特征词提取方法和改进的相似度计算公式方法,本文在基于密度的聚类算法基础上提出基于标题特征词和相似度计算与DBSCAN密度聚类算法相结合的热点发现算法。最后通过将标题特征词集与密度聚类算法相结合得到的热点聚类,以及结合了改进的相似度指标所生成的热点聚类,和一般特征词提取方法与密度聚类算法相结合得到的热点聚类结果进行对比实验分析,本文算法显示出了较高的准确率。
其他文献
茶起源于中国,饮茶品茶很久以来就是中国人日常生活里的重要组成部分,中国人的饮茶历史可谓源远流长。饮茶品茶离不开对茶具的使用,而茶盏自古以来就是最重要的饮茶器具之一
目的了解辉县市乡镇卫生院死因监测工作现状,找出影响死因监测质量的有关因素,为制定干预措施及相关政策提供理论依据。方法采用问卷调查方法,对乡镇卫生院死因监测人员及村
缔约过失责任是指在合同订立过程中,缔约人因故意或过失违反了根据诚实信用原则产生的先合同义务,致对方因信赖产生损失而应依法承担的民事责任。我国《合同法》确立了缔约过
介绍了一种具有自主知识产权的新型开关控制型半主动控制系统——主动变刚度·阻尼(AVS·D)系统的减振控制机理,建立了AVS·D结构振动控制体系的运动方程。为了合理
准确测算劳动收入份额是揭示中国国民收入功能分配格局的必要前提.本文基于广泛存在的未被观测经济视角,提出了一种测算劳动收入份额的新方法——“两系统平行测算法”.基于
研究了陕西省铜川煤矿矿区的重金属污染状况以及不同程度的重金属污染对土壤微生物代谢、微生物群落功能以及土壤酶活性的影响.结果表明:铜川矿区土壤中重金属Cu、Zn、Cd、Pb
在当今信息化飞速发展的时代,互联网也随之不断的扩展,由于互联网信息量越来越大,拓扑结构也越来越复杂,因而其所遗留下来的网络漏洞也就越来越多。这给网络黑客和互联网非法用户
为寻求节能环保的硬质阳极氧化工艺,以硫酸为基础液外加草酸和酒石酸对2024—1'3铝合金进行硬质氧化。研究了供电方式、电解液组分及氧化工艺(温度、电流密度及时间)对2024一T3铝
随着我国从计划经济体制向市场经济体制转轨,财政管理也发生了深刻的变革。自20世纪90年代以来,在构建公共财政体制的大背景下,我国的财政管理制度经历了一系列的改革,部门预