针对私人微博的自动摘要形成研究

被引量 : 0次 | 上传用户:a103582412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2007年以来,微博这种通讯形式风靡全球。微博具有上手门槛低、交流及时、发布便捷等优势,在全球得以普及和发展。近年来微博的发展态势强劲,已成为人们生活中不可或缺的一部分。在国内,网民的微博用户数量激增,每日发布的博文条数多达上亿条,产生了大量的微博数据。大多数的微博内容随意,评论较多且口语化严重。如何在浩如烟海各型各色的微博数据中找到符合个人兴趣并能够提供有效信息的微博数据,成为了伴随着微博发展带来的一个巨大的问题。本文以新浪微博为数据来源,以个人微博一个历史时间段内所发表的所有微博数据为单位进行研究。经过对自动文摘技术与微博数据特点的研究,并且结合文本表示、聚类算法等主题进行了探讨,设计且实现了一个从获取数据到数据处理到最终自动摘要形成的完整系统。这个过程中主要经历了以下步骤:获取数据、对数据进行预处理、文本表示、特征选择、相似度计算改进、聚类算法改进及算法实现和形成综合自动摘要。本论文主要工作有:首先,通过新浪微博开放平台获取微博原始数据。其次,对微博数据进行分析研究,结合私人微博文本特点把微博数据与评论内容合并成伪文档进行分词等一系列预处理工作。接下来,将分词后的文本转化成数据格式。文本模型把数据从文本形式转化成了数学的表示,反映了数据之间的关系,并在此基础上采用文本相似度的计算方法。然后,聚类算法采用了K-means聚类算法。K值的指定一直都是K-means聚类算法的最大的问题,通常需要通过经验进行判断。中心点的选取也是一个较大的问题,通常中心点最好具有代表性,选取不同中心点的位置对算法结果的准确性也有较大影响。我们对此进行了改进,使得改进后的算法能够自适应地获取K的值,并选取中心点。最后,根据微博的内容时效性和流行度,确定聚类簇中各个微博的权重,先得到每个聚类中的摘要,最终结合各个聚类簇形成最终针对私人微博的摘要。论文的最后通过实验验证,对论文提出的聚类算法改进进行了分析和实验。相比于原先的算法准确率和适用性有所提高。通过整个系统开发实现了私人微博摘要的形成。
其他文献
<正>中国人对历史的文字记录从来就非常重视,因而不仅从古至今的历史文献最丰富,最庞大,而且也最连续,甚至从远古留传下来的绝大多数的文献,几乎都可以说是历史,
对近十年来国内外脂肪肝定性及定量诊断方法文献进行分析和归纳,借以评价超声诊断技术在脂肪肝定性及定量诊断中的价值。研究发现超声诊断技术在脂肪肝定性及定量诊断中具有
目的回顾性分析住院患者血清地高辛浓度监测情况,为临床合理用药提供参考。方法根据纳入及排除标准收集住院患者2 064例的血清地高辛浓度。地高辛的血药浓度测定采用化学发光
随着我国电视剧的发展,电视剧悬念出现了越来越明显的异化现象。本文尝试把“悬念”相关理论与“异化”相关理论结合,对我国电视剧中的悬念发展状况进行分析。通过对电视剧整体
目前,饮用葡萄酒的习惯尚未在我国广泛盛行,其市场仍然处于一个开拓及成长期。伴随着我国经济的快速发展,以及人民群众的生活水平的不断提高,尤其是达到小康水平家庭的数目快速增
目的:1.构建手部烧伤患者康复护理干预模式。2.通过临床对照实验,验证手部烧伤康复护理干预模式的临床效果。方法:本研究分为两部分研究:第一部分:手部烧伤康复护理干预模式的构建
近年来,细菌对抗菌药物产生耐药性已成为一个国际性难题,由此导致的感染患者高死亡率需引起我们高度关注。世界卫生组织(WHO)提议,通过建立细菌耐药监测体系,从国家层面对细菌耐
在新的经济环境下,部门间的沟通将比以往更受关注,沟通是联结企业各组织部门管理职能的纽带,文章认为,现在种种观念、经济和技术上的变化不仅给部门间沟通提供了发展动力,也
文章提出规范和加强企业统计基础工作是确保源头数据质量的需要,并通过对企业统计工作的现状、存在的问题、统计基础工作薄弱的原因进行分析,提出了加强和改进企业统计工作的
近年来石油天然气等资源性商品价格不断攀升,新兴市场国家持续贸易双顺差,不少国家因此积累了巨额财政盈余和外汇储备,为了确保国家财富的保值增值,各国纷纷开始设立主权财富基金