论文部分内容阅读
现有的生成式文本摘要方法存在一些局限,包括难以产生可靠的源文本表示,产生的摘要句与源文本的语义相似度较低,存在集外词问题等。对此提出一种混合神经网络编码器结构,对源文本的长距依赖和上下文信息进行捕捉,得到高质量的文本表示;提出一种基于关键短语的重排序机制,利用源文本中抽取的关键短语对集束搜索生成的候选序列进行重新排序,以减小其与源文本语义上的距离;对文本进行子词单元提取,利用更细粒度的单元对文本进行表示。该方法在不同长度的摘要数据集上进行实验,均取得了良好的效果。