一种基于词聚类信息熵的新闻提取方法

来源 :软件导刊 | 被引量 : 0次 | 上传用户:dingdang19822003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的飞速发展为大众带来便利的同时也产生了大量冗余信息,利用自然语言处理技术对新话题文章进行提取,控制新话题中虚假新闻传播,可为舆情控制提供有效支持。提出一种基于词聚类信息熵的新闻提取方法,并对“一带一路”相关新闻语料进行实验。实验通过网络爬虫的方式获取相关报道,利用Pkuseg工具分词进行一系列预处理后训练生成Word2vec词向量,然后利用词频统计筛选出历史高频词进行K-means聚类,将聚类后的词簇作为随机变量计算当前文章的信息熵。若文章的信息熵高于设定阈值,则为新话题文章,需要重点关注。结果表明
其他文献
微纳机电系统(M/NEMS)技术的快速发展促进了对原子级摩擦力的研究。作为M/NEMS基础的摩擦学问题使人们渴望对摩擦机理有更加深入的了解并尝试去控制这些设备的摩擦特性。本文
随着我国社会经济的不断发展,在科技领域要加强创新力度,提高我国科学技术的水平。在实际工作的过程中,要具备一定的知识储备,并且使这些知识储备得到广泛运用,所以加强科技
本文研究了共轭曲面原理的奇点共轭理论,并在此理论指导下对新型奇点共轭传动-0°渐开线包络蜗杆传动进行了系统的理论分析与实验研究。 文中将共轭的界限归结于共轭的奇异
<正>颈神经后支属于混合性神经,穿行于椎板和上下关节突关节形成的骨性纤维管内,出管后行走于颈部诸肌及固有筋膜内。由于上颈段活动度大,特别是附于C2横突处的诸肌肉容易劳
本文介绍了水平叶滤机构的过滤特性,建立了水平叶滤机在恒速下基本过滤方程式,提出了其主要性能参数计算公式及其最佳化,为设计和选用提供了理论依据和计算方法。
电力是流淌在社会网络中的能源“血液”,电力作为现代社会最基础的能源之一在各个行业中发挥着极为重要的作用。现代社会对于电力的需求是逐年上涨的,保质保量的做好电力供应
歇后语表层的字面意义和深层的蕴含意义,分别指示着不同语言交际现象的外延和内涵。在做汉英翻译时,歇后语的意义诠释需要兼顾表里,结合翻译中的语境、语体和语用因素,综合权衡,区
本文概述了(K-12)生产工艺特点,将原来的煤气或液化气)直接发生热空气改作为间接式RH型高工热风发生器后成功地应用于K-12的喷雾干燥系统。经过二年来的实际生产运行证明RH型高温燃煤 生器不
【正】 报载,四川省金堂县官仓镇今年在司法部门的支持下,对农民负担进行了公证。公证之后,负担收取方即镇政府不能随意增加农民负担,农民也必须按时足额上缴负担额,不能无故
美国Amylin制药公司和日本最大的制药公司武田声称:他们选用普兰林肽(pramlintide)(I)和metreleptin(II)复方制剂进入III期临床试验,前者是糊精类似物,后者是瘦蛋白类似物。