论文部分内容阅读
多文档自动摘要技术是自然语言处理领域的重要研究课题,其旨在通过对多篇文本文档利用相关信息抽取技术得到压缩的文本信息,解决信息碎片化和信息冗余问题,从而在海量的信息中为用户获得简洁可读的高效文本信息,有效降低用户的信息负载,提高用户读取信息的效率。传统的多文档自动摘要技术多采用抽取与文档相关性较高的重要句子作为摘要候选句,但在生成摘要过程中,对于词语之间的语义判断缺失,并且在满足用户个性化需求方面,目前的研究基于给定的小规模文档,而且不能够自动识别用户输入主题词、短语或者句子的语义关联。随着新技术的兴起,学者开始研究结合新技术应用在自动摘要领域,针对于此,本课题将传统的摘要生成技术与深度学习技术相结合,建立面向用户查询的系统,提出本文基于语义的文档匹配方法,实现基于用户查询在大规模语料库中进行相关文档匹配,并结合词向量模型针对匹配文档提出一种改进的基于语义的自动摘要生成方法,解决传统的语义缺失问题,满足用户的个性化需求,使得最终得到的摘要语义相关性更强冗余性更低,主要研究工作如下:1)建立面向用户查询的摘要生成系统,将文档检索与普通的抽取式摘要系统相结合,提出基于语义关键词的文档匹配方法,在实现过程中提出一种改进的基于语义词向量的关键词提取方法,解决关键词提取过程中的语义缺失问题。2)研究面向用户查询进行文档语义匹配的方法,提出本文基于语义向量包的文档匹配算法。3)研究基于词向量的自动摘要生成方法,基于Word2vec的句向量包提出一种改进的基于句向量包的聚类方法完成聚类,基于用户主题和句子权重对句子子集提取基于中心主题句的摘要句,并研究通过句子向量包对句子进行去冗余。4)研究摘要句抽取结果的评测方法,通过随机选择全网新闻语料库的测试文档对抽取的摘要句进行评测,并与其他摘要提取方法进行对比,分析本系统的评测效果。