论文部分内容阅读
伴随着Web2.0技术与移动通信技术的快速发展,微博开始兴起,并发展成为用户发布、分享个人信息,以及获取他人信息的主要平台。微博平台简单、便捷的使用功能,引吸了越来越多的网民成为微博用户;而且微博信息裂变式的传播特点也导致众多文本信息出现在微博平台中,以致人们陷入了信息过载的困境。研究针对中文微博文本(本文提到的微博均指中文微博)的话题发现技术,对微博文本数据进行组织、归类,有助于应对信息过载,使用户快速了解整个微博空间中所存在的话题信息;对微博热点话题发现与跟踪等奠定坚实的基础,也为用户制定合理的决策提供依据,可及时发现网络谣言并采取措施遏制其迅速传播、扩散,以正确引导网络舆论、净化网络环境,促进微博平台健康地发展。微博话题发现主要涉及到微博数据获取、文本预处理、文本特征词选择、文本相似性度量及文本聚类等方面的技术,本文主要研究了其中的特征词选择与文本相似性度量这两个关键技术,针对其所存在的问题,提出了相应的改进算法。其一,在特征词选择方面,针对微博文本内容长度短、信息量少,以致有效特征稀疏、难以提取的问题,提出一种基于统计与语义信息相结合的微博文本特征词选择算法。该算法依次根据词性组合匹配规则、基于词项多因子(TF-IDF、词性与词长)构造的综合评估函数以及词项与文本内容语义相关度对微博文本进行特征词选取,并与朴素贝叶斯分类算法结合以对微博分类语料集进行实验,结果表明,相较于传统的特征词选择算法,该算法提取出来的特征词,能够更准确地表示微博文本内容主题。其二,在文本相似性度量方面,针对微博文本的特征稀疏性阻碍了文本相似性的精确度量,且传统的文本相似性度量算法未能很好地考虑词与词之间的语义关联性、微博文本的结构化信息的问题,提出了基于语义、时间与社会化关系的微博文本相似性度量算法。该算法先扩展了公共块的定义,并构建基于公共块序列的语义相似度;然后利用微博文本发布时间、转发与评论信息修正该语义相似度,以此来度量微博文本之间的相似性;最后将该算法融入Single-pass聚类算法中以实现微博话题发现,实验结果表明,相较于传统的文本相似度算法,该算法更为准确地度量了微博文本间的相似性。最后,融合这两种改进的算法,提出了基于特征词选择与相似度融合的微博话题发现方法。通过对中文微博进行实验,结果表明,相较于基于文本相似度算法的微博话题发现方法,本方法能更有效地提高微博话题发现的质量。