论文部分内容阅读
随着互联网技术的高速发展,网络媒体逐渐走进大众的日常生活,为人们获取新闻、开拓视野提供极大的便利。新媒体时代下,网络新闻呈现出碎片化、海量化等特点,造成内容分散、信息冗余等问题。新闻聚合首先对海量多源新闻信息进行精简提炼,并在话题等层面实现新闻的关联整合,然后对内在关联的新闻进行统一组织与高效呈现,实现新闻的有序治理。为了达到上述目的,主要面临以下三个挑战:第一,新闻标题是新闻内容的精简概述,然而网络新闻标题信息量不足且存在虚假诱导现象,难以准确涵盖单篇新闻的关键内容;第二,对于同一话题下多篇关注重点不同、内容差异明显的新闻报道,难以进行有效的内容关联与精确的信息概括;第三,缺乏统一结构对多源异构的海量新闻数据进行有序的组织,聚合新闻结构分散、内容混乱。针对上述挑战,本文提出基于关键信息的单文档摘要算法KI-SSUM与基于子主题表示的多文档摘要算法STHT-MSUM,并结合所提出的两种算法设计一种基于统一内容标签(Unifrom Content Label,UCL)的层次化新闻聚合方法。本文的主要工作如下:(1)为了准确全面地概括单篇新闻的内容要点,本文提出一种基于关键信息的单文档摘要算法KI-SSUM。首先,设计一种关键信息提取网络,抽取文档的主题信息与要素信息,并联合两者作为关键信息;然后,结合注意力机制,将关键信息融入解码过程,指导摘要生成;最后,为了提高主题信息与文档主题的相关性,设计一种多任务联合训练方法,通过文档与摘要的主题一致性约束,实现主题抽取与摘要生成的同时训练。(2)为了完整清楚地描述多篇新闻的话题信息,本文提出一种基于子主题表示的多文档摘要算法STHT-MSUM。首先,提出一种基于主题融合注意力的文档表示方法,利用Transformer与Bi LSTM提取文档子主题表示,构建出文档集合的中心主题表示,并结合注意力机制生成更具主题关联性的文档向量;然后,设计一种信息门控机制,利用子主题表示过滤词汇信息,得到特征更为显著的词汇向量;最后提出一种层次化注意力机制,进行文档与词汇两个层次的信息整合,为摘要生成提供丰富的层次语义信息。(3)为了统一有序地组织、呈现多源异构新闻,本文提出一种基于UCL的层次化新闻聚合方法。首先对采集的新闻网页进行UCL标引,形成UCL新闻池;然后,利用KI-SSUM为UCL新闻池中的单篇文档生成新闻摘要与文档主题表示,并根据文档主题表示进行话题聚类;接着,利用STHT-MSUM提炼UCL新闻池中同一话题下新闻集合的主要信息,生成话题摘要;最后结合KI-SSUM生成的新闻摘要与STHT-MSUM生成的话题摘要,通过UCL进行新闻与话题的多层标引、关联,生成层次清晰、内容明确的聚合新闻UCL标签,实现UCL新闻池中不同话题下新闻的高度结构化。(4)基于上述研究,本文设计了基于自动文摘的新闻聚合原型系统,并通过实验对所提出的KI-SSUM算法、STHT-MSUM算法以及新闻聚合方法进行验证。实验结果表明,相较于传统的单文档摘要生成算法,KI-SSUM算法在各项评价指标上均有较高程度的提升;STHT-MSUM算法在多文档摘要任务上的性能优于传统方法;通过将上述算法应用到新闻聚合方法中,可以有效实现面向新闻的信息聚合与内容治理,为用户查阅新闻提供便利。