【摘 要】
:
传统的无监督关键词抽取算法往往无法反应词汇语义信息,而通过词频等方式来衡量一个词的重要性使其在面对短文本时准确率较低.为能兼顾词间语义关系、词位置关系及词频,结合w
【机 构】
:
浙江工业大学计算机科学与技术学院;
【基金项目】
:
水利部公益性科研专项(201401044)资助
论文部分内容阅读
传统的无监督关键词抽取算法往往无法反应词汇语义信息,而通过词频等方式来衡量一个词的重要性使其在面对短文本时准确率较低.为能兼顾词间语义关系、词位置关系及词频,结合word2vec提出了一种词间的文本局部相似度公式,并通过词间关系建立了不确定图模型,在提出顶点密度概念及候选关键词评价指标DEN的基础上,提出了基于不确定图的候选关键词抽取算法,并结合IDF提出了关键词评价的优化标准DEN-IDF.这种关键词抽取的新方法不依赖于外部人工标注数据,能够实现全程无监督.通过大量文本实验仿真发现,DEN-IDF的准确率比TF-IDF提高了8%左右,比TextRank提高了12%左右.
其他文献
化学烛一门具有实践性的学科,必须重视实验教学。因此,笔者在文中讨论了如何创新实验方法,进行演示性实验教学,开展实验操作。
本文借助回译,通过对比伊沛霞的The Cambridge Illustrated History of China和其中译本《剑桥插图中国史》,探讨了汉学论著翻译的回译现象及翻译质量问题。研究结果表明,此
房价变化莫测,涨跌难以预料。什么时候买房不会赔钱,这是个探讨了许久却最终没有答案的问题。这个问题使得众多专家之间都产生了诸多分歧。有的认为,房价只可能会一味的上涨,
随着低碳经济的盛行,世界各国不断推出碳税、碳汇、碳关税、碳金融、碳交易和CDM项目。中国也于2008年开始试点建立碳交易市场,在各试点城市基础上将于2017年建立全国碳市场
疫病在我国早有记载,早期非医学著作中对疫病的概念进行了最初的定义,此后,中医的早期经典著作《黄帝内经》、《伤寒杂病论》、《难经》、《诸病源候论》等分别对"疫病"进行了
对于小学毕业班的学生来说,他们面临着升学的压力。因此,在数学教学中,教师应该带领学生进行有计划和有技巧的复习,提高学生的复习效率。本文首先分析了小学毕业班数学复习的
适宜山丘区分散供水的消毒技术模式尚未系统建立。为进一步保障分散式供水水质,按照前置净水与紫外线消毒相结合的原则开发桶式紫外线消毒装置。桶式紫外线消毒装置以低压高
档案管理在公共管理中具有双重角色,它既是公共管理的特定对象,也是公共管理的实践者;而公共管理是否高效运作一直是判断一个公共管理体系是否优良的标准,也是判断政府是否负
评估和诊断严重急性呼吸道综合征(SARS)疑似患者的新指南概括了最初普查的推荐步骤,描述了新的实验室检测试验,同时还就试验本身为何需要检验进行了解释。该指南是由美国疾病控
内容一般认为,农村社区公共服务因为地方政府与中央政府的目标不一致而处于供给不足的状态,同时私人购买公共服务受搭便车行为的影响而同样不足。新型城镇化导致的熟人圈破裂使