面向公安要闻的关键词提取方法研究

来源 :北京交通大学 | 被引量 : 1次 | 上传用户:firelord128
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键词提取旨在从文本中提取出一组与文本主题相关的词语,是一项基本的自然语言处理任务。随着互联网信息时代的到来,公安领域产生了相当规模的非结构化数据,尤其出现了大量以公安要闻为代表的文本数据。面对如此繁多的文本数据,提取其中的关键词不仅可以帮助公安机关对这些数据进行归档分类,还能够提高公安工作的信息化水平,具有很高的研究意义和应用价值。现有的关键词提取方法大多是面向社交媒体和科技论文等类型的文本提取关键词,很少有基于公安要闻的关键词提取方法研究的成果公布。本文主要研究面向公安要闻的关键词提取方法,研究工作具体如下:(1)提出了一种基于位置特征的关键词提取方法。针对公安要闻中的关键词经常出现在接近文本开头的位置这一特点,该方法认为出现位置较早的候选词更重要,利用候选词的位置信息设计了候选词的权重,采用改进的Text Rank算法提取关键词。实验结果表明,与本文提出的多种基于位置特征的变形算法和现有的无监督关键词提取方法相比,本方法能够产生更好的关键词提取结果。(2)提出了一种基于词嵌入向量的关键词提取方法。该方法能够准确地阐述公安要闻所表达的主题信息,认为候选词与目标文档的语义越相近,候选词就越重要。首先使用Word2Vec基于公安要闻数据集学习词向量,然后基于候选词与目标文档的语义相似度,使用sigmod函数计算候选词的权重,最后利用改进的Text Rank算法提取关键词。实验结果表明,相比于现有的无监督关键词提取算法,本方法使用词向量特征提升了面向公安要闻的关键词提取效果。(3)构建了公安要闻数据集。本文设计了基于Java的公安要闻采集系统,该系统通过网络爬虫的方式构建了首个公安要闻数据集。数据集涵盖警情、会议、活动和通知公告等不同类型的文档。综上,本文所提的两种关键词提取方法能够有效提取公安要闻中的关键词。面向公安要闻的关键词提取方法极大地便利了公安人员对相关数据的检索,有效提升了警务人员的工作效率。
其他文献
机场地铁的输电线路电力系统给机场输油管道造成严重杂散电流干扰,导致管道阴极保护系统不能正常运行,机坪管道存在严重的腐蚀问题。以往的研究多集中于杂散电流对管道本身的
中国机构投资者的规模越来越庞大,已然逐渐成为资本市场的中坚力量。同时,机构投资者是促进创新还是阻碍创新也一直是学术界关注的焦点问题。本文选取沪深A股2007-2016年的上市公司作为研究样本,对机构投资者持股、高管薪酬与企业创新的关系进行探讨,并以康缘药业为例,深度挖掘机构投资者持股对创新的具体影响。通过实证研究发现,机构投资者持股比例与企业创新负相关,且.存在单向因果关系,即机构投资者持股比例越
随着网络通信技术的不断发展,网络信息传输的数据量也越来越大。传统的时间触发控制方法由于是在等间隔的离散点上周期性地传输并更新控制信号,这样将会导致大量不必要的网络
美国在阿富汗的战争已经持续了 18年之久,而美国在推翻塔利班政权后在阿富汗战场采取的“轻脚印战略”时常被视为是导致战争拖延至今的原因之一,然而却少有人探究美国政府当年为何决定在阿富汗采用该战略。事实上,后者是个很值得研究的问题。即使这一战略与战争现状无关,仅仅作为美国在后塔利班时代在阿富汗战场最早期的战略性决策,其成因也值得探究。通过理解这一战略性决策的形成,能更好地了解布什政府内部关于阿富汗战争
Hankel算子已被许多学者研究,并且取得了一些非常重要的结果.本文研究了限制在加权调和Bergman空间上的Hankel型算子,得到了 Hankel型算子的一些性质.主要结果和创新点如下:1
杏白灵是杏鲍菇与白灵菇进行种间杂交得到的新菌株,该菌株遗传了白灵菇与杏鲍菇的遗传特性。本实验室前期已经对白灵菇与杏鲍菇种间杂交育种进行了研究,并得到了一些杏白灵菌
草莓(Fragaria×ananassa.Duch.)是一种重要的经济作物,且光对草莓的生长发育及果实品质有着极其重要的影响。类黄酮化合物如花青素对草莓果实品质的提升具有举足轻重的作用
以‘红早酥’(Pyrus bretschneideri Rehd)为实验材料,从中克隆得到了一个可能与花色素苷合成相关的Pb MYB109基因。在此基础上,采用Real-Time PCR技术对Pb MYB109在‘红早酥
目的:观察SWIM技术治疗后循环大血管急性闭塞的安全性及有效性,并探讨影响患者临床预后的相关因素。材料与方法:回顾性分析2017年2月-2018年11月于大连市中心医院神经介入科用SWIM技术治疗的后循环大血管闭塞所致的急性缺血性卒中的35例患者的临床资料。通过电话回访的方式评估患者的预后情况,根据患者90d临床预后情况将他们分为预后良好组(m Rs评分≤2分)和预后不良组(m Rs评分≥3分)。
背景及目的急性心肌梗死(AMI)是冠心病中发病率和死亡率较高的疾病之一,严重的危害着人民的健康和生活。早期诊断对AMI的临床治疗和预后起到至关重要的作用,目前,临床上普遍根据临床症状、心电图以及心肌损伤标记物的动态演变作为主要的诊断依据,但是这两种检测手段有一定的局限性,近些年,国内外对于micro RNA的关注度越来越高,多项研究表明micro RNA有可能成为诊断AMI的新型生物标志物。美国心