基于TextRank与词项相似性的中文关键词自动提取研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:watersss1111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入二十一世纪以来,由于信息技术的发展与移动终端的普及,互联网每分每秒都在产生海量数据,与此同时用户面临的信息过载的困扰也日益凸显出来。尤其是大量非结构化文本数据的提取、过滤问题向学者、工程师们提出了重大挑战。关键词自动提取技术是一项针对文本数据进行提取、过滤的高效解决方案,目前已经广泛应用于信息检索、搜索引擎、自然语言处理等领域中,是实现用户与信息精确匹配的重要抓手。TextRank算法是完成关键词自动提取任务的常用技术之一,其本质是一个有向无权的图模型。由于其轻量级的体型以及良好的效果,TextRank算法备受推崇。传统的TextRank算法利用文本词项的共现特征构建图的拓扑结构,其模型效果仍具有提升空间。已有学者通过加入更加复杂的高级特征或引入更多的文本信息来提升TextRank算法的性能。本文提出的Sim-TextRank算法在TextRank算法的基础上进一步加入了使用词向量Word2Vec构建的词汇语义相似度、主题模型LDA构建的主题相似度的信息,通过在新闻报道语料、科学论文摘要语料上的实验结果表明加入来自主题以及语义相似度的信息有助于提升TextRank算法捕捉关键词的精度。同时本文通过实际数据给出一套Sim-TextRank算法超参数建议值,对比了词项语义相似度与主题相似度之间的区别与联系。
其他文献
迅速发展的网红彩妆品牌,在传播方式、营销手段等方面与传统彩妆品牌形成了巨大差异。品牌个性是品牌具有的独特差异点,在社交媒体极大发展的当下,品牌主积极塑造和传播品牌个性。与此同时,消费者产生海量的用户生产内容,则是用户对品牌个性感知的重要反馈。那么品牌自我展示的个性与用户感知是否一致?不同类型的品牌自我展示的个性和用户感知是否一致?针对这些问题,本文聚焦彩妆领域,分别选取了微博平台的10个网红彩妆品
学位
近些年,公关对话理论不断发展,目前的研究大多沿用肯特和泰勒早在1990年代末期开发的针对网站的内容分析编码表来进行不同媒介情境的应用性研究,研究视角也大多以单一主体(以企业、政府部门或非盈利组织等)为主.本研究尝试从对话理论中一个基础性的概念——卷入(engagement)出发,对这一重要却界定模糊的概念进行梳理,并结合社交媒介的功能属性,尝试从组织-公众两端,通过勾连卷入理论、对话理论、组织-公
学位
媒体报道新闻事件的过程实际上也是构建框架的过程,所构建的框架固然与媒体立场有关,同时也取决于新闻事件的变化发展。2020年1月在武汉暴发了新冠肺炎疫情,这次疫情作为突发重大公共卫生事件,其影响之广而且持续之久,都极其罕见,这为研究揭示媒体报道框架与新闻事件本身变化之间的互动关系提供了一个典型的对象。媒体怎样报道新冠肺炎疫情,随着疫情从暴发、蔓延、缓和、到逐步抑制,其报道框架呈现了怎样的变化?与疫情
学位
根据解释信息处理过程的“动机机遇能力理论”(Motivation-Opportunity-Ability,简称 MOA 理论),特定行为的发生不仅受到外部机会的影响,而且有内部的动机和能力因素,且根据MOA理论的一般形式,动机是影响行为发生的直接因素,能力和机会对该行为起到调节修正的作用。然而在假新闻传播的现有研究中,学者主要将假新闻传播的原因归为受众在事实模糊情况下的误以为真,进而就如何提高受众
学位
现实交往中的诸多限制与高速化的现代生活导致个体缺乏充足的社会接触,易产生孤独焦虑的情绪,网络直播技术因其强大的娱乐性和实时互动性使其具备娱乐、社交等功能,与此同时,社交网络的使用与虚拟互动的产生给用户心理带来的影响也逐渐受到重视,因此本研究想要探讨受众在接触直播媒介时,其孤独感是否会受直播间社交关系建立强度的影响,以及又受到何种因素的调节。主要的研究内容是探讨直播间中受众与主播之间的弱关系对受众孤
学位
随着人工智能技术的发展,新闻机构越来越多地使用算法收集、组织、理解、创造和传播新闻。然而,新闻算法作为计算机行业与新闻业的跨界融合,伴随其封装性而来的是普通公众乃至传统监管部门对其难以问责。这造成公众对算法潜在的伦理问题始终心存疑虑。从古希腊希波克拉底誓词以来,职业共同体的伦理规范就作为旨在消除社会疑虑、提高社会信任而订立的社会契约。尤其到19世纪末各个行业的专业主义兴起,职业伦理规范甚至成为职业
学位
高速网络和手机的出现改变了广告行业,原生广告逐渐获得用户青睐。微信公众号原生广告是微信广告系统的重要产品,由于其出现时间较晚,相关研究数量较少,具有一定研究价值。本研究采用文献研究和问卷调查的研究方法,以微信公众号原生广告为研究对象,研究影响微信公众号原生广告回避的因素。本研究基于文献梳理和微信公众号原生广告特点,提取了个人相关性、感知侵扰和感知目标障碍三个影响因素,参考了广告回避经典量表,选择了
学位
本文主要研究基于人工特征提取和传统机器学习方法的浮游生物原位图像分类,并在特征提取、特征降维和分类模型上做了创新性的应用。在特征提取上,本文不仅使用了常用的灰度特征,还引入了多种含有彩色信息的特征,包括颜色直方图、颜色聚合向量、颜色相关图和两种含有彩色信息的梯度等。为了缓解含有彩色信息的特征存在维度维度过高的情况,同时为了解决非结构数据无法在分类器中训练的问题,本文改进了 K-means颜色量化方
学位
氮化镓(GaN)基蓝光LED(发光半导体)被广泛应用于照明、背光和全彩显示等市场领域。由于GaN禁带带宽大、正负电极在芯片同侧且间距小、n-GaN有源层较薄、Al2O3衬底不导电或电阻率大等原因,LED芯片在使用过程中经常会受到静电破坏,导致PN结失效,使用寿命降低。随着芯片尺寸的不断缩小,其抗静电能力相应的会减弱,设计更优的抗静电芯片成为研究热点。本论文通过芯片工艺流程设计提升LED的抗静电能力
学位
2019年末,我国爆发新型冠状病毒肺炎(以下简称“新冠肺炎”)疫情,并在短时间内扩散至全国,成为我国历史上“传播速度最快、感染范围最广、防控难度最大”的一次重大突发公共卫生事件。以《人民日报》为代表的主流媒体有责任在第一时间通过新闻叙事传播消息,整合社会。为了研究《人民日报》新冠肺炎疫情报道的新闻叙事特征,本文运用内容分析方法,对新闻叙事的叙事主题、叙事主体、叙事视角、叙事聚焦、叙事结构与叙事修辞
学位