论文部分内容阅读
随着互联网和各类社交网站以及电子商务的快速兴起,以文本信息为代表的非结构化信息大量涌现,从中挖掘出有价值的信息变得越来越重要,但同时复杂的语义也使得信息价值的提取变得越来越困难。尤其是短文本信息,其稀疏性和不完整性也给文本挖掘带来了新的巨大挑战。因此,对于文本信息挖掘的研究逐步转向了对于短文本信息挖掘的研究。BTM是一个针对短文本的主题挖掘模型,在处理短文本的稀疏性和不完整性问题上相对于其它主题模型有很大的优势。但包括BTM模型在内的现有文本挖掘模型,模型中都没有特殊的参数设置等对其进行处理,只是在数据预处理时加载停用词表对其进行删除操作。而不同的语料选择会有差异性,千篇一律的使用同样的停用词表并不具有科学性。因此,对于不同的语料集,应该找出可以反映其文本特征的停用词。基于对上述短文本特点和停用词处理的考虑,以差异系数作为权重模型,表示文本中词语的权重,然后将其作为BTM模型的一个参数形成最终的W-BTM模型,从而消除短文本和停用词对文本主题挖掘的影响。模型中使用吉布斯抽样对参数进行估计,从潜在变量的先验分布中抽样,对后验参数进行估计。最后将模型应用于当当网图书简介数据,使用支持向量机对W-BTM模型产生的结果矩阵进行分类,并对比不同模型的分类结果,证明W-BTM模型的优越性。W-BTM模型在整个语料集中寻找“词对”的前提是“词对”中每个词在整个文档中的权重即差异系数已知。在这种情况下,“词对”有了更深层次的含义,它不再只是单一的表示文档中同时出现的两个词语,而且还代表着词语本身的性质,即是否为停用词。这就可以消除停用词的不恰当选择对于文本信息挖掘准确性的影响。为了验证W-BTM的有效性和科学性,以LDA模型和BTM模型做对比进行文本分类实验和应用,从主题挖掘和文本分类两个角度对整个的实验结果进行评价,最终证明了W-BTM模型的分类效果优于LDA模型和BTM模型。本文的创新之处如下:(1)对于停用词的处理,抛弃传统的选择停用词表并将停用词直接去除的方法,而是使用权重模型取而代之,使得文本挖掘的结果更加科学和准确。(2)将权重模型与BTM模型相结合,形成新的主题模型W-BTM,既可以用于短文本的分类,解决短文本的稀疏性问题,也弥补了数据预处理时停用词处理的漏洞。(3)将W-BTM模型应用于当当网图书简介分类,赋予模型更加实际的现实意义。通过对数据不平衡性的处理、W-BTM模型的使用以及支持向量机对于文本-主题矩阵的分类,最终验证了W-BTM模型的有效性。针对分类结果,将W-BTM模型与LDA模型和BTM模型进行对比,验证了W-BTM模型的优越性。