面向微博的自动文摘研究

被引量 : 0次 | 上传用户:hogutan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在新生代的今天,微博的出现,打通了手机沟通的平台,越来越多的资源被上传到网络上可供用户进行交流,信息量的急剧增长,加快促进了用户之间的交流与沟通,微博不仅联通了移动通信网与互联网的桥梁,更方便用户消息的传递与沟通,为社会进步做出了巨大的贡献。微博数据是庞大的,人们想找到自己所需要的信息也很困难,并且在发表微博的时候评论过多,无从看起,这样就给自动文摘技术在微博领域中带来新的挑战。本论文针对新浪微博真实数据和自动文摘技术进行研究之后,在计算句子权重方法考虑了八类特征主题,并结合k-means聚类方法和FarthestFirst主题模型对子主题进行深入探讨,设计并实现了一个面向微博形式的自动文摘原型系统BMS(Based MicroBlog Summarization)该系统分为文档预处理、噪声过滤、子主题划分、特征选择、句子抽取、文摘句重排序六大功能模块。本论文主要工作有(1)以K-means聚类方法,FarthestFirst聚类方法,进行对比试验,最后采用K-means聚类算法对子主题进行划分。(2)对于噪声处理,本论文提出了小概率事件去除法,我们对微博评论字数做了统计,统计评论字数与主题相关度比较,发现评论字数小于5时,内容相关度几乎为0,所以针对这一点我们过滤掉字数小于5的评论再结合上下文相关性回复过滤算法,来处理噪声。(3)在句子权重计算时,文章利用传统的计算方法,在结合微博的特点,综合计算句子的权值。特征选择过程主要考虑到子主题、标题、关注、分享数与评论数,粉丝,评论句长,位置,标签等特征,来进行权重计算。在相关实验中,本论文提出的特征能够有效提高摘要质量。(4)在系统评测部分,通过对比实验数据表明,本论文系统较其它系统在召回率、准确率和F-measure值上都有所提高,生成的文摘有较高的质量。最后,在以上工作后,得出八个特征对面向微博自动文摘的质量有所提高。
其他文献
文章从系统功能语言学语域的视角对编辑思维过程进行分析,提出两个语域视角的编辑模式:编辑选稿模式和编辑组稿模式或策划模式;提出了编辑的本质是意义,编辑就是编辑意义的论
面对日益激烈的高考竞争,学美术渐渐成为高中学生迈向大学的另一“捷径”,这在我国农村地区的中学表现得尤为突出,一方面,农村教育条件差,水平低,学生文化素质相对较低,而学
Internet技术的发展为人们提供了方便快捷的信息获取手段 ,然而要从如此庞大且瞬息万变的 Internet上检索信息 ,需要快速准确的信息检索工具的协助 .提出了一种利用多智能主
多元化文化趋势发展下,中国传统民族唱法与西洋美声唱法也在互相借鉴与融合。本文以两种唱法的借鉴与融合为主要研究内容,分析探究了两种唱法的特点、融合的必要性、融合表现
随着改革开放的深入,我国的综合国力逐步提升,并逐渐成为世界政治、经济、文化舞台上的一颗明星,由此,我国的对外交流也在不断扩大。英语作为世界上使用最广泛的语言之一,成
本文从系统功能语言学内的加的夫语法角度对现代汉语介词词组的组成及其在句法中所填充的成分作了详细的描述,重点讨论了特殊句式"介词-X-方位词"、"把字句"、"被字句"等的语
核心提示职员透支信用卡几千甚至数万元不还。为了追讨欠款,交通银行北京分行将出具收入证明的十余家单位告到法院,要求他们为其"出证"行为承担责任。法院作出裁决,14起案件
贝多芬的《升c小调第十四钢琴奏鸣曲》,又称《月光奏鸣曲》,是人们最为熟知的一部作品。贝多芬作为维也纳古典乐派的代表音乐家,在面对残酷现实的考验时创作了这首奏鸣曲。它
九年免费义务教育的普及,使教育质量成为教育改革的重点,我国教育改革也随之进入了全面发展的新时期。在此新时期,农村教育的发展也进入关键的历史性时期,对于农村学生主体性
高校辅导员思想政治教育工作是我国大学生思想政治教育工作的重要组成部分。高校辅导员思想政治教育工作实效性是检验大学生思想政治教育工作成功与否的重要指标。笔者在借鉴