论文部分内容阅读
随着Web2.0技术的发展,互联网用户不再只是简单的信息获取者,而同时成为信息制造者。社交媒体的快速发展,加速了用户的这种身份转变,并形成了自媒体社交群体。由于社交媒体方便、实时的特点,用户制造的信息以短文本为主,并且其数量达到了十亿级以上。随着信息的急剧增长,用户的需求从最初的获取大量信息,变成对信息进行有效的筛选和整合。针对此需求,本文研究并实现了一个短文本话题挖掘系统,首先,在对网络短文本进行预处理的基础上,利用聚类分析技术将相似话题的文本聚类到一个话题簇中。然后,基于提出的话题挖掘模型,实现了网络短文本热点话题发现和趋势预测。经过对网络短文本的聚类分析和话题挖掘,复杂无序的文本整合为完整的话题描述呈现给用户。本文主要工作和创新点如下:首先,研究并实现了一种短文本语义距离计算方法。该方法考虑到短文本的词语和词语结构对文本的语义表达的影响,将语义距离看作是单元语义距离和形式距离的综合。首先,以词为单位,利用《同义词词林扩展版》进行语义扩展,计算短文本的形式距离。其次,基于短文本中的实义单元和非实义单元的不同作用,利用改进的编辑距离算法计算短文本的单元语义距离。最后,利用加权的方法将形式距离和单元语义距离综合为语义距离,并将其应用于网络短文本聚类分析。实验结果表明,改进算法优于传统方法,聚类性能显著提升。其次,本文提出了一种基于文本实义词长度的短文本距离惩罚算法。利用实义词长度对文本距离进行惩罚,以缓解短文本长度差异所造成的计算误差。并根据Zipf s La’w和Heaps Law的对价关系,给出了一种文本中实义词长度的估计方法,提炼出对文本长度进行惩罚的量化依据。实验结果证明,基于实义词长度的短文本距离惩罚算法要优于基于短文本词语长度的惩罚算法。最后,对聚类分析得到的话题簇进行话题挖掘,话题挖掘包括话题发现和趋势预测。话题发现通过分析话题簇中的短文本,得到话题簇的话题描述;趋势预测是基于话题发现得到的话题描述,分析话题的发展趋势,对话题的发展进行预测。本文分析了用户的话题关注模式,建立用户关注模型,发现用户的话题关注模型对话题的发展趋势具有一定的预测能力。此外,本文基于TREC2011微博检索任务提供的Tweets2011语料集,整理tweet信息,并建立了Tweets2011数据库。首先保存了原语料集中每个字段的原始信息,然后根据tweet中的话题标签将语料集进行分类,得到了可以用于短文本分类语料集。最后根据tweet中存在的用户间信息流动关系,建立了可以用于社交网络研究的tweet信息流动表。通过提供公开的数据库,可为相关领域的研究者提供格式规范、信息丰富的研究数据,提高了其研究效率。