论文部分内容阅读
多文档自动文摘是自然语言理解领域中的一个重要的研究方向。多文档文摘可以将多篇同一主题的文档进行汇总,提供给人们简洁,全面的信息,将人们从繁琐、冗余的信息中解脱出来。基于查询的多文档自动文摘(Query-basedMulti-document Summarization)可以根据需要或者用户的兴趣提供相应的有侧重点的文摘。它能够把焦点放在用户关心的部分,考虑了用户的兴趣,是实现用户个性化文摘必不可少的技术。
本文围绕基于查询的多文档自动文摘系统,针对其关键技术展开研究,本文的主要工作和特色如下:
(1)采用了基于隐马尔可夫模型(Hidden Markov Model)的实体识别技术,将实体信息引入文本的分析过程,便于更好地理解文本的主要信息。
(2)深入研究了主题划分技术,并把这种技术引入到基于查询的多文档文摘系统中,预先对文档集进行主题划分,减少用户查询的响应时间。
(3)结合自动问答的特性,对用户提交的问题进行分析,其中包括命名实体识别和隐实体识别,以更好地理解用户查询请求。在问句分析的基础上,根据文档集预先主题划分的结果,提出了一种缩减摘要范围的计算方式;并提出了一种融合多种特征计算句子重要性的方法。
(4)在参考ROUGE评价系统的基础上,设计了一种针对中文自动文摘的评测系统《中文ROLIGE评测数据包》。