学术文本词汇功能识别r——在关键词自动抽取中的应用

来源 :情报学报 | 被引量 : 0次 | 上传用户:hyp88_down
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的关键词自动抽取常以候选词的出现频次、位置等非语义信息构建特征,并未考虑关键词在学术文献中承担的特定语义角色,即词汇功能.通过对现有数据统计,本文发现作者标注关键词中约有67.99%是研究问题或研究方法词.因此,本文将关键词的词汇功能分为三类:“研究问题”“研究方法”和“其他”,在传统的词频特征以及位置特征基础上,融合词汇功能特征,使用计算机领域的学术文献基于分类和排序两种思想进行关键词抽取实验.实验结果表明,融合词汇功能后,关键词抽取效果得到明显提升.相较于基准实验,二分类模型的准确率Acc和F值分别相对提升24.63%和25.19%,达到了0.840和0.666;排序模型的MAP、NDCG@5和P@5分别相对提升168.32%、189.50%和148.30%,提升至0.813、0.828和0.447,证明了学术文献词汇功能特征在关键词自动抽取中具有重要作用.
其他文献
<正>申宝忠教授主任医师;医学博士,龙江学者特聘教授,卫生部有突出贡献中青年专家、享受国务院特殊津贴专家。国家科技部、国家自然基金委主要评审专家;黑龙江省影像医学与核