基于语义词向量的文本分类多文档自动摘要

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:zw975526
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多文档自动摘要技术是自然语言处理领域的重要研究课题,其旨在通过对多篇文本文档利用相关信息抽取技术得到压缩的文本信息,解决信息碎片化和信息冗余问题,从而在海量的信息中为用户获得简洁可读的高效文本信息,有效降低用户的信息负载,提高用户读取信息的效率。传统的多文档自动摘要技术多采用抽取与文档相关性较高的重要句子作为摘要候选句,但在生成摘要过程中,对于词语之间的语义判断缺失,并且在满足用户个性化需求方面,目前的研究基于给定的小规模文档,而且不能够自动识别用户输入主题词、短语或者句子的语义关联。随着新技术的兴起,学者开始研究结合新技术应用在自动摘要领域,针对于此,本课题将传统的摘要生成技术与深度学习技术相结合,建立面向用户查询的系统,提出本文基于语义的文档匹配方法,实现基于用户查询在大规模语料库中进行相关文档匹配,并结合词向量模型针对匹配文档提出一种改进的基于语义的自动摘要生成方法,解决传统的语义缺失问题,满足用户的个性化需求,使得最终得到的摘要语义相关性更强冗余性更低,主要研究工作如下:1)建立面向用户查询的摘要生成系统,将文档检索与普通的抽取式摘要系统相结合,提出基于语义关键词的文档匹配方法,在实现过程中提出一种改进的基于语义词向量的关键词提取方法,解决关键词提取过程中的语义缺失问题。2)研究面向用户查询进行文档语义匹配的方法,提出本文基于语义向量包的文档匹配算法。3)研究基于词向量的自动摘要生成方法,基于Word2vec的句向量包提出一种改进的基于句向量包的聚类方法完成聚类,基于用户主题和句子权重对句子子集提取基于中心主题句的摘要句,并研究通过句子向量包对句子进行去冗余。4)研究摘要句抽取结果的评测方法,通过随机选择全网新闻语料库的测试文档对抽取的摘要句进行评测,并与其他摘要提取方法进行对比,分析本系统的评测效果。
其他文献
文化自信是对中华优秀传统文化、革命文化和社会主义先进文化的自信,是更基础、更广泛、更深厚的自信。坚定文化自信,对高校思想政治教育具有重要意义,可以巩固马克思主义意
20世纪中国文学中反复出现的寻找民族文化之根的创作现象,是作家陷入个人遭遇和社会前途双重困境下而出现的极为重要的精神现象,也是作家长期思考的一个创作母题。1930年代的
资金是企业生存和发展的血液,企业集团能否实现其规模效应和协同效应与资金管理效率息息相关。通过资金集中管理,依托现代化网络信息技术,可实现资金的统一调配和监管,从而达到资
本文分析、比较了国外著名科学资助机构近年来有关高风险探索性项目的典型评议机制,在借鉴其经验的基础上,结合我国科学基金的实际,提出了一种互动启发式评议机制。该机制依
<正>内瘘反复穿刺损伤可导致动脉瘤,探讨如何减轻内瘘穿刺损伤,对延长内瘘使用寿命具有重要意义。材料与方法1材料2月龄体质量15 kg幼猪的离体胸主动脉共20支,长20 cm,直径0.
<正> 从汽车驶上京通高速公路,到位于通州区徐辛庄镇大约用了40分钟,一路上,但凡交叉路口我们都会寻找“通顺赛马场”的指示牌,但到了徐辛庄镇,基本就不用留心指示牌了,许多
期刊
<正> 1974年6月11日,国际足联选举了一位新的主席,他不是别人,就是巴西著名体育界人士若奥·阿维兰热。国际足联自1904年成立之日到阿维兰热当选之前的七十年里,一共有英国、
目的:探讨血清抗氧化低密度脂蛋白抗体(抗oxLDL抗体)水平与糖尿病肾病进展和其微炎症状态的关系。方法:符合入选标准的健康人(NC组)21例,IgA肾病患者(IgAN组)18例,2型糖尿病
人事经济学是最近不到20年在经济学和人力资源管理的交接地带兴起的一个新领域,它将经济学用于考察企业内部组织和人力资源管理问题,对现代人力资源管理产生了深远影响。本文对
社会经济在高速发展,城镇化进程在加快,生活节奏在不断提高,人们出行需要更方便,更快捷,而现在的城区,由于旧有的城市规划、建设滞后,随着车流、人流的持续增加,道路交通管理形势越来