论文部分内容阅读
微博由于其自身的庞大的用户群体、随时随地的参与讨论方式以及随意的表达方式使其信息突显出碎片性以及时效性等特点。因此,用户无法快速地从庞杂的微博信息中获取当前话题的主要内容、成因以及发展结果。为了解决这一问题,本文提出了基于微博topic摘要的话题跟踪算法。该算法主要结合微博文本的特征以及用户的需求对话题跟踪的传统流程(预处理、构建文本模型、相似度分析以及话题漂移检测)分别进行改进。首先提出了基于传统统计量和N元增量算法的新登陆词提取算法使预处理的中文分词更加精确;然后提出了微博topic的构建以及优化算法使文本模型更加详细;最后通过相似度分析实现了微博话题的自适应跟踪以及话题漂移检测。本文主要研究内容如下。(1)提出了基于传统统计量和N元增量算法的新登陆词提取算法,从而弥补仅用传统统计量无法有效地提取新登陆词的缺点。首先通过分析微博文本中词语的左右熵将微博文本中的频繁常用词并入传统的停用词,形成类停用词表。然后,通过改进的统计量在寻找频繁字串的同时过滤文本垃圾串。(2)提出了微博topic摘要的构建以及优化算法。首先通过对词语的TF-IDF值和词信息(词项信息,词间信息)进行统计分析提取微博关键词。然后,通过置信度阈值对微博topic摘要进行缩减规模,通过子话题的连通性考量微博topic摘要的表述完整性,并且通过对规模以及表述完整性的权衡,找出微博topic摘要的最优值。(3)实现了微博话题的自适应跟踪以及话题漂移检测。首先引入时间窗口将微博文本划分为n等份时间文本,进而n等份时间文本放入训练集和测试集。然后,将对训练集和测试集中的等时间文本构建对应的微博topic摘要(查询摘要和反馈摘要)。然后,对查询摘要和反馈摘要进行相似度分析,并且通过相似度等级的不同对查询摘要进行对应的更新。实验结果表明,基于微博topic摘要的话题跟踪算法不仅能够精确地提取新登陆词,而且还可以快速构建完整而简洁的微博topic摘要。最终实现精确而持续对微博话题进行跟踪,从而帮助微博用户能够快速地理解当前话题的成因以及发展结果以及未来趋势。本文根据微博文本的特征以及传统算法的缺憾对传统算法进行改进,使在超短“碎片化”文本中能够精确地提取新登陆词以及快速的构建微博topic摘要。而且本文创新地以微博topic摘要的形式进行话题跟踪,使用户能够高效率地获取话题的更为详细的内容。图[11]表[8]参[64]