论文部分内容阅读
在新生代的今天,微博的出现,打通了手机沟通的平台,越来越多的资源被上传到网络上可供用户进行交流,信息量的急剧增长,加快促进了用户之间的交流与沟通,微博不仅联通了移动通信网与互联网的桥梁,更方便用户消息的传递与沟通,为社会进步做出了巨大的贡献。微博数据是庞大的,人们想找到自己所需要的信息也很困难,并且在发表微博的时候评论过多,无从看起,这样就给自动文摘技术在微博领域中带来新的挑战。本论文针对新浪微博真实数据和自动文摘技术进行研究之后,在计算句子权重方法考虑了八类特征主题,并结合k-means聚类方法和FarthestFirst主题模型对子主题进行深入探讨,设计并实现了一个面向微博形式的自动文摘原型系统BMS(Based MicroBlog Summarization)该系统分为文档预处理、噪声过滤、子主题划分、特征选择、句子抽取、文摘句重排序六大功能模块。本论文主要工作有(1)以K-means聚类方法,FarthestFirst聚类方法,进行对比试验,最后采用K-means聚类算法对子主题进行划分。(2)对于噪声处理,本论文提出了小概率事件去除法,我们对微博评论字数做了统计,统计评论字数与主题相关度比较,发现评论字数小于5时,内容相关度几乎为0,所以针对这一点我们过滤掉字数小于5的评论再结合上下文相关性回复过滤算法,来处理噪声。(3)在句子权重计算时,文章利用传统的计算方法,在结合微博的特点,综合计算句子的权值。特征选择过程主要考虑到子主题、标题、关注、分享数与评论数,粉丝,评论句长,位置,标签等特征,来进行权重计算。在相关实验中,本论文提出的特征能够有效提高摘要质量。(4)在系统评测部分,通过对比实验数据表明,本论文系统较其它系统在召回率、准确率和F-measure值上都有所提高,生成的文摘有较高的质量。最后,在以上工作后,得出八个特征对面向微博自动文摘的质量有所提高。