论文部分内容阅读
随着信息技术的迅猛发展,网络上涌现出大量的文本数据。为了对文本数据进行更精确、更深层的主题理解和语义分析,本文利用数据挖掘方法和深度学习方法改进了现有主题模型,得到更明确的主题表达形式和更丰富的主题语义信息,该方法对文本主题的表示及学习具有重要的意义。本文围绕改进文本主题表示和主题学习方法进行了深入研究,具体工作如下:1.针对现有主题模型在表示文本主题方面很难揭示词之间的语义和语法相关关系,主题可解释性较差等问题,提出了一种融合先验元数据和关联规则的半监督主题表示方法。通过在传统关联规则挖掘算法中加入词在每个主题中的权重值的方法,得到加权关联规则算法,在主题模型的基础上挖掘出词之间的关联关系,使用三元组(词项1,关系,词项2)形式表达主题语义,不仅减少了冗余主题的数量,还增加了词之间的语义关系信息,最终得到了语义更细化、形式更明确的主题表示。实验结果表明,与其它文本主题语义表示方法相比,本文所提方法增加了词之间的语义和语法相关关系,信息更丰富,从而提升了主题可解释性。2.针对现有主题模型在学习文本主题方面存在主题语义准确性较差、颗粒度较粗,并且很难从语义层面上计算主题相似度等问题,构建了一种融合深度学习的Topic2Vec模型。将主题学习和分布式词向量的神经网络学习相结合,在学习分布式词向量表示的同时,学习主题的分布式向量表示,不仅提升了主题语义学习的准确性,还细化了主题语义学习的颗粒度,并且更容易从语义层面上计算主题相似度。实验结果表明,本文所提方法在主题抽取准确性、颗粒度、主题区分度和主题语义相似度计算等方面均优于传统方法,充分验证了所提方法的有效性。