论文部分内容阅读
信息社会的快速发展在改变人们获取信息的规模和方式的同时,也对信息检索领域的相关研究提出了新的要求。作为互联网上最流行的在线交流和信息发布平台,Web论坛在研究领域所受关注日益增加。由于Web论坛具有数据量大、信息重复度高、噪声信息多等特点,如何快速准确的获取其主要内容成为许多基于Web论坛应用面临的首要问题,而自动文档摘要的研究为解决这个问题提供了一种途径。在自动文摘领域,通用文摘方法多以学术或者新闻文章作为研究对象,并基于各种通用特征构建。在处理Web论坛文章时,由于该类方法没有考虑论坛文章的特殊性,在内容理解和结构分析上有一定偏差,摘要效果有待提高。而在专用文摘方法领域也缺少处理Web论坛文章的相应方法。本文根据论坛文章的特点,如以帖子为基本组成结构、噪声回复多、同义词专用词常现、存在大量评论关系等,对面向Web论坛的自动文摘方法进行研究,提出了相应的专用文摘方法,并通过实验证明了其有效性。总结本文主要贡献如下:1.根据文章内容连贯性标准,提出了基于上下文相关性的噪声回复过滤算法。根据论坛文章同义词专用词多的特点,在相似度计算中引入了论坛专用词汇词典。通过实验证明,该方法在过滤噪声回复时有较高的准确率和正确率,而论坛词典能够有效提高语义相似度计算的准确性。2.提出多种特征用以描述论坛文章的特点。根据讨论式文体的特点,本文提出了提及和引用两种特征。其中提及特征描述用户间的关系,而引用特征描述帖子间的关系。基于这些特征使用了多特征的句子权重计算方法。在相关实验中,本文提出的特征能有效提高摘要方法的效果,其中提及和引用特征的效果是所有特征中最明显的。3.提出了基于k-Means和基于LDA模型的子主题识别方法。在LDA方法中,通过LDA模型对文档集合建模,获得文章的潜在子主题,并计算出子主题和句子的重要度。通过实验证明,基于LDA模型的方法在描述子主题时效果优于基于k-Means的方法。4.基于以上几项改进,本文提出了一个面向Web论坛的自动文摘方法。该方法包括预处理、噪声过滤、句子权值计算和文摘生成等步骤。在“新华网论坛”和“苹果论坛”数据集上进行的实验证明,本方法在传统的ROUGE和本文给出的观点覆盖率等评价标准上的结果均优于已有方法。