基于微博topic摘要的话题跟踪算法

来源 :安徽理工大学 | 被引量 : 0次 | 上传用户:missyouangle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博由于其自身的庞大的用户群体、随时随地的参与讨论方式以及随意的表达方式使其信息突显出碎片性以及时效性等特点。因此,用户无法快速地从庞杂的微博信息中获取当前话题的主要内容、成因以及发展结果。为了解决这一问题,本文提出了基于微博topic摘要的话题跟踪算法。该算法主要结合微博文本的特征以及用户的需求对话题跟踪的传统流程(预处理、构建文本模型、相似度分析以及话题漂移检测)分别进行改进。首先提出了基于传统统计量和N元增量算法的新登陆词提取算法使预处理的中文分词更加精确;然后提出了微博topic的构建以及优化算法使文本模型更加详细;最后通过相似度分析实现了微博话题的自适应跟踪以及话题漂移检测。本文主要研究内容如下。(1)提出了基于传统统计量和N元增量算法的新登陆词提取算法,从而弥补仅用传统统计量无法有效地提取新登陆词的缺点。首先通过分析微博文本中词语的左右熵将微博文本中的频繁常用词并入传统的停用词,形成类停用词表。然后,通过改进的统计量在寻找频繁字串的同时过滤文本垃圾串。(2)提出了微博topic摘要的构建以及优化算法。首先通过对词语的TF-IDF值和词信息(词项信息,词间信息)进行统计分析提取微博关键词。然后,通过置信度阈值对微博topic摘要进行缩减规模,通过子话题的连通性考量微博topic摘要的表述完整性,并且通过对规模以及表述完整性的权衡,找出微博topic摘要的最优值。(3)实现了微博话题的自适应跟踪以及话题漂移检测。首先引入时间窗口将微博文本划分为n等份时间文本,进而n等份时间文本放入训练集和测试集。然后,将对训练集和测试集中的等时间文本构建对应的微博topic摘要(查询摘要和反馈摘要)。然后,对查询摘要和反馈摘要进行相似度分析,并且通过相似度等级的不同对查询摘要进行对应的更新。实验结果表明,基于微博topic摘要的话题跟踪算法不仅能够精确地提取新登陆词,而且还可以快速构建完整而简洁的微博topic摘要。最终实现精确而持续对微博话题进行跟踪,从而帮助微博用户能够快速地理解当前话题的成因以及发展结果以及未来趋势。本文根据微博文本的特征以及传统算法的缺憾对传统算法进行改进,使在超短“碎片化”文本中能够精确地提取新登陆词以及快速的构建微博topic摘要。而且本文创新地以微博topic摘要的形式进行话题跟踪,使用户能够高效率地获取话题的更为详细的内容。图[11]表[8]参[64]
其他文献
互联网学习实践过程中,由于没有重建线上学习情境,单纯的线上学习没有能够取得预期的效果。线上线下的学习有各自的优点,融合两种学习方式优点的混合式学习将会更好地促进互
从中学化学实验室的现状和功能出发,对如何建设与管理新型中学化学实验室进行初步探讨。
建筑市场发展迅速竞争激烈,规模持续扩大,投资额也随之增加。那么如何对建筑资金进行有效控制、高效利用,这就对工程项目概预算阶段提出了更高的要求。该文阐明不但项目初期
当前我国节能形势日趋重要,入世后的市场竞争使企业降低成本的压力日趋增大,这为节能降耗提出更高的要求。达钢集团炼钢厂紧邻达州市区,城市环保形势的日趋严峻,使得节能、环
为了保障粮食安全生产,进一步发展现代农业,需要加快农业科技创新和成果转化。转化和应用农业科技成果,需要尝试转变农业生产经营方式、农业产业结构以及农业装备水平的能力,
在明清时期以经营商业发家或名世的商业世家,为保持家业兴旺,大都会走上文化转型之路,这是江南商业世家文化转型所遵循的基本历史逻辑。文化转型由多种要素综合促成,概括而言
背景:有研究结果表明,正常的细胞组织在体外培养时可以正常生长和分裂。但经过一段时间后,细胞就会失去生长和分裂的能力,最后走向衰老死亡,这样的现象便限制了对细胞的研究
目的了解孕期保健对高龄产妇并发症的作用及妊娠结局的影响。方法选择我院100例2019年1月~2019年12月高龄产妇。随机分组,常规检查组采取常规检查,常规检查联合孕期保健组则
【正】 秘书学课程自1997年开始使用新编教材《普通秘书学》,与之配套的《普通秘书学参考资料》和《普通秘书学学习指导书》一并投入使用。现将新编教材的内容做一概括的介绍
金融保险业的发展始终伴随着科技的应用,金融行业通过科技进步,科技为金融行业服务,从这个角度来说,金融科技或保险科技并不算是新鲜事物。但事实上,金融科技(FinTech)或保险科技(Ins
报纸