面向Web论坛的自动文摘方法的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:tangguorong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息社会的快速发展在改变人们获取信息的规模和方式的同时,也对信息检索领域的相关研究提出了新的要求。作为互联网上最流行的在线交流和信息发布平台,Web论坛在研究领域所受关注日益增加。由于Web论坛具有数据量大、信息重复度高、噪声信息多等特点,如何快速准确的获取其主要内容成为许多基于Web论坛应用面临的首要问题,而自动文档摘要的研究为解决这个问题提供了一种途径。在自动文摘领域,通用文摘方法多以学术或者新闻文章作为研究对象,并基于各种通用特征构建。在处理Web论坛文章时,由于该类方法没有考虑论坛文章的特殊性,在内容理解和结构分析上有一定偏差,摘要效果有待提高。而在专用文摘方法领域也缺少处理Web论坛文章的相应方法。本文根据论坛文章的特点,如以帖子为基本组成结构、噪声回复多、同义词专用词常现、存在大量评论关系等,对面向Web论坛的自动文摘方法进行研究,提出了相应的专用文摘方法,并通过实验证明了其有效性。总结本文主要贡献如下:1.根据文章内容连贯性标准,提出了基于上下文相关性的噪声回复过滤算法。根据论坛文章同义词专用词多的特点,在相似度计算中引入了论坛专用词汇词典。通过实验证明,该方法在过滤噪声回复时有较高的准确率和正确率,而论坛词典能够有效提高语义相似度计算的准确性。2.提出多种特征用以描述论坛文章的特点。根据讨论式文体的特点,本文提出了提及和引用两种特征。其中提及特征描述用户间的关系,而引用特征描述帖子间的关系。基于这些特征使用了多特征的句子权重计算方法。在相关实验中,本文提出的特征能有效提高摘要方法的效果,其中提及和引用特征的效果是所有特征中最明显的。3.提出了基于k-Means和基于LDA模型的子主题识别方法。在LDA方法中,通过LDA模型对文档集合建模,获得文章的潜在子主题,并计算出子主题和句子的重要度。通过实验证明,基于LDA模型的方法在描述子主题时效果优于基于k-Means的方法。4.基于以上几项改进,本文提出了一个面向Web论坛的自动文摘方法。该方法包括预处理、噪声过滤、句子权值计算和文摘生成等步骤。在“新华网论坛”和“苹果论坛”数据集上进行的实验证明,本方法在传统的ROUGE和本文给出的观点覆盖率等评价标准上的结果均优于已有方法。
其他文献
在数字医学图像研究中,人们经常希望根据医学断层图像恢复出真实三维物体图像,建立虚拟的人体器官和组织,以便进行医学、诊断和放射治疗计划中三维剂量场的计算。然而,由于在
随着信息技术的高速发展,计算机系统已经被广泛的应用于日常生活中的各个方面,比如电话通讯系统、银行系统等。这些系统大部分都需要后台运行的分布式算法来完成一些基本目标
在智能化的背景下,手机、电脑、电视的功能趋于多元,如何充分利用各种智能终端的优势,实现智能终端间的互通互联与资源共享,正成为未来家庭娱乐发展的目标。多屏互动技术正是
随着近年来计算机技术的迅速发展和其在生活中的普遍应用,使得网络中存储了大量的数据。集值数据的典型来源有:超市的购物记录、web查询记录、患者医疗数据等。发布收集到的数
随着多媒体技术的迅速发展,互联网上每天都有大量的图像和视频在传播和分享。图像和视频的出现使我们的生活变得丰富多彩,但同时也带来了一系列的问题。例如,人们越来越喜欢
随着Internet的不断发展,作为半结构化语言的XML逐渐成为重要的数据载体,诸多应用和服务都采用XML作为数据传输对象,因此XML数据的安全性变得非常重要。在这种情况下,针对XML
随着信息管理技术的发展,现代社会已步入信息社会,信息量与日俱增。而与此相矛盾的是,在某一方面,信息量又显得非常匮乏,所掌握的信息也同时存在不完确定性和不完全性。为了
XML已经逐渐成为Internet上数据的表示标准和交换工具,但其较大数据冗余造成了存储空间的大量浪费,增加了搜索处理的的时间。目前,压缩是减小XML文档大小的一种行之有效的方
纹理合成是当前计算机视觉、计算机图形学、图像处理等多个领域的研究热点之一。目前纹理合成主要有过程纹理合成和基于样图的纹理合成,其中基于样图的纹理合成技术是近几年迅
学位
网格是一个动态开放的分布式计算环境,它将网络上的高性能计算机、大型数据库、远程设备、实验仪器设备等各种资源结合成一个巨大的计算平台实现资源共享和并行计算。网格环