基于自动文摘的新闻聚合关键技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:yang97yang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,网络媒体逐渐走进大众的日常生活,为人们获取新闻、开拓视野提供极大的便利。新媒体时代下,网络新闻呈现出碎片化、海量化等特点,造成内容分散、信息冗余等问题。新闻聚合首先对海量多源新闻信息进行精简提炼,并在话题等层面实现新闻的关联整合,然后对内在关联的新闻进行统一组织与高效呈现,实现新闻的有序治理。为了达到上述目的,主要面临以下三个挑战:第一,新闻标题是新闻内容的精简概述,然而网络新闻标题信息量不足且存在虚假诱导现象,难以准确涵盖单篇新闻的关键内容;第二,对于同一话题下多篇关注重点不同、内容差异明显的新闻报道,难以进行有效的内容关联与精确的信息概括;第三,缺乏统一结构对多源异构的海量新闻数据进行有序的组织,聚合新闻结构分散、内容混乱。针对上述挑战,本文提出基于关键信息的单文档摘要算法KI-SSUM与基于子主题表示的多文档摘要算法STHT-MSUM,并结合所提出的两种算法设计一种基于统一内容标签(Unifrom Content Label,UCL)的层次化新闻聚合方法。本文的主要工作如下:(1)为了准确全面地概括单篇新闻的内容要点,本文提出一种基于关键信息的单文档摘要算法KI-SSUM。首先,设计一种关键信息提取网络,抽取文档的主题信息与要素信息,并联合两者作为关键信息;然后,结合注意力机制,将关键信息融入解码过程,指导摘要生成;最后,为了提高主题信息与文档主题的相关性,设计一种多任务联合训练方法,通过文档与摘要的主题一致性约束,实现主题抽取与摘要生成的同时训练。(2)为了完整清楚地描述多篇新闻的话题信息,本文提出一种基于子主题表示的多文档摘要算法STHT-MSUM。首先,提出一种基于主题融合注意力的文档表示方法,利用Transformer与Bi LSTM提取文档子主题表示,构建出文档集合的中心主题表示,并结合注意力机制生成更具主题关联性的文档向量;然后,设计一种信息门控机制,利用子主题表示过滤词汇信息,得到特征更为显著的词汇向量;最后提出一种层次化注意力机制,进行文档与词汇两个层次的信息整合,为摘要生成提供丰富的层次语义信息。(3)为了统一有序地组织、呈现多源异构新闻,本文提出一种基于UCL的层次化新闻聚合方法。首先对采集的新闻网页进行UCL标引,形成UCL新闻池;然后,利用KI-SSUM为UCL新闻池中的单篇文档生成新闻摘要与文档主题表示,并根据文档主题表示进行话题聚类;接着,利用STHT-MSUM提炼UCL新闻池中同一话题下新闻集合的主要信息,生成话题摘要;最后结合KI-SSUM生成的新闻摘要与STHT-MSUM生成的话题摘要,通过UCL进行新闻与话题的多层标引、关联,生成层次清晰、内容明确的聚合新闻UCL标签,实现UCL新闻池中不同话题下新闻的高度结构化。(4)基于上述研究,本文设计了基于自动文摘的新闻聚合原型系统,并通过实验对所提出的KI-SSUM算法、STHT-MSUM算法以及新闻聚合方法进行验证。实验结果表明,相较于传统的单文档摘要生成算法,KI-SSUM算法在各项评价指标上均有较高程度的提升;STHT-MSUM算法在多文档摘要任务上的性能优于传统方法;通过将上述算法应用到新闻聚合方法中,可以有效实现面向新闻的信息聚合与内容治理,为用户查阅新闻提供便利。
其他文献
学位
学位
学位
学位
近年来,IEEE 802.11 WLAN技术快速发展并广泛部署于家庭、校园、企业园区、机场等诸多场景,为用户终端设备提供高速率的无线连接。随着终端设备数量的爆炸式增长以及互联网应用的日益丰富,大多公共场所的WLAN网络呈现出用户密集的态势。在用户密集环境下,由于频谱信道资源有限,增量部署AP并不能有效提升网络容量,且用户间的信道争用更为激烈,传统的关联控制机制使得终端选择信号强度最高的AP进行接入
学位
核方法是人工智能领域中卓有成效的统计学习技术,是改善学习器解决非线性问题能力的关键方法。但近年来,随着机器学习快速发展,经典核已难满足愈加苛刻的拟合和泛化性能需求,甚至无法有效利用。已有理论和实验研究表明其核心瓶颈在于局部性限制与计算效能低下。而新兴的谱核与深度核分别从映射性质与复合架构两方面,各自尝试突破局部性和计算效能的问题,对核方法的进一步发展提供启发性思考。然而,目前业界对谱核和深度核的研
学位
学位
近年来,随着社交网络传媒的飞速发展,越来越多的人习惯使用如微博,twitter,Facabook以及各大论坛作为针对各类事件发表看法、态度和言论的窗口与平台。在不同的平台上,每分每秒都有数以亿计的文本信息发布,各类突发事件及热点新闻在这些平台上的传播速度大大快过传统媒体,那么,如何能够快速对这些文本进行挖掘分析,实时地从中找出当前热点,成为了一个十分有价值的研究方向。本文主要针对社交网络传媒中用户