论文部分内容阅读
自2007年以来,微博这种通讯形式风靡全球。微博具有上手门槛低、交流及时、发布便捷等优势,在全球得以普及和发展。近年来微博的发展态势强劲,已成为人们生活中不可或缺的一部分。在国内,网民的微博用户数量激增,每日发布的博文条数多达上亿条,产生了大量的微博数据。大多数的微博内容随意,评论较多且口语化严重。如何在浩如烟海各型各色的微博数据中找到符合个人兴趣并能够提供有效信息的微博数据,成为了伴随着微博发展带来的一个巨大的问题。本文以新浪微博为数据来源,以个人微博一个历史时间段内所发表的所有微博数据为单位进行研究。经过对自动文摘技术与微博数据特点的研究,并且结合文本表示、聚类算法等主题进行了探讨,设计且实现了一个从获取数据到数据处理到最终自动摘要形成的完整系统。这个过程中主要经历了以下步骤:获取数据、对数据进行预处理、文本表示、特征选择、相似度计算改进、聚类算法改进及算法实现和形成综合自动摘要。本论文主要工作有:首先,通过新浪微博开放平台获取微博原始数据。其次,对微博数据进行分析研究,结合私人微博文本特点把微博数据与评论内容合并成伪文档进行分词等一系列预处理工作。接下来,将分词后的文本转化成数据格式。文本模型把数据从文本形式转化成了数学的表示,反映了数据之间的关系,并在此基础上采用文本相似度的计算方法。然后,聚类算法采用了K-means聚类算法。K值的指定一直都是K-means聚类算法的最大的问题,通常需要通过经验进行判断。中心点的选取也是一个较大的问题,通常中心点最好具有代表性,选取不同中心点的位置对算法结果的准确性也有较大影响。我们对此进行了改进,使得改进后的算法能够自适应地获取K的值,并选取中心点。最后,根据微博的内容时效性和流行度,确定聚类簇中各个微博的权重,先得到每个聚类中的摘要,最终结合各个聚类簇形成最终针对私人微博的摘要。论文的最后通过实验验证,对论文提出的聚类算法改进进行了分析和实验。相比于原先的算法准确率和适用性有所提高。通过整个系统开发实现了私人微博摘要的形成。