【摘 要】
:
【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank模型,改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据,生成词向量模型,对TextRank词
【机 构】
:
中国人民大学数据工程与知识工程教育部重点实验室; 中国人民大学信息资源管理学院;
【基金项目】
:
国家社会科学基金项目一般项目“我国数据新闻的理念、实践及其人才培养模式研究”(项目编号:16BXW018);北京高等学校青年英才计划项目“基于链接和主题分析的微博社区挖掘研究”(项目编号:YETP0215)的研究成果之一
论文部分内容阅读
【目的】将维基百科蕴涵的世界知识以词向量方式融入TextRank模型,改进单文档关键词抽取效果。【方法】利用Word2Vec模型基于维基百科中文数据,生成词向量模型,对TextRank词图节点的词向量进行聚类以调整簇内节点的投票重要性,结合节点的覆盖和位置因素,计算节点之间的随机跳转概率,生成转移矩阵,最终通过迭代计算获得节点的重要性得分,选取前TopN个词语生成关键词。【结果】当TopN≤7时,词向量聚类加权方法均优于对比方法;TopN=3时,F值取得最大值,比先前最优结果增量提升了3.374%;TopN>7时,结果与位置加权法相似。【局限】聚类分析使得计算开销变高。【结论】词向量聚类加权能够改善关键词抽取效果。
其他文献
随着一带一路的展开,我国对越南的关注度开始提高,新闻作为信息传播的载体,是人们获取信息的重要途径。然而越南语是小语种,掌握的人非常少,且网络新闻几乎不会提供关键词,使
目的系统评价盐皮质激素受体拮抗剂(MRAS)治疗保留左心室射血分数的心力衰竭患者(HF-PEF和MIPEF)的疗效。方法计算机检索结合手工筛选,纳入符合标准的文献,对数据进行Meta分
<正> 分辨力念最早表示二个相距很近的光点距离多远才能区分,是在1895年研究望远镜时提出来的。瑞利的研究提出了无象差光学系统所能分辨的两光点中心距为r=1.22λ(f/d),λ是
旅游公示语显示出一个城市的风貌和接纳游客的态度,但旅游公示语的汉日翻译和研究都尚在起步阶段。本文简要介绍了无锡旅游景点日译公示语的使用现状,并对其中出现的问题进行
<正>【导语】我省鲜明正确选人用人导向,强调从事业发展需要选干部,始终遵循"以事择人、依岗选人、人岗相适"的要求,使脱贫攻坚工作在优秀干部推动下兴旺发达,让干部在推动事
幼儿游戏教学的主要目的就是让儿童在游戏活动当中发挥自身的主体性, 形成幼儿的主体人格特征.因此幼儿游戏教学应该具备交往性和形象性以及生成性等特征.本文主要提出了幼儿
<正>畜产品是城市重要的"菜篮子"产品,发展都市型现代畜牧业对保障城市畜产品有效供应,维护城市运行安全意义重大。"十一五"以来,在市委、市政府的正确领导和政策扶持下,上海
典型蛛网膜下腔出血(SAH)具有剧烈头痛、脑膜刺激征、血性脑脊液(CSF)三联征,诊断并不困难,但不典型SAH临床表现复杂多样,容易误诊,为提高对SAH的确诊率,现报告临床工作中遇到的32例不典型SAH,分析如下:
新媒体时代社会网络化和网络社会化的发展态势,不可避免地拓展至大学生的心灵,对他们的思想产生撼动,给高校的思想政治教育工作带来挑战。以媒介生态的视觉深入分析媒介环境