论文部分内容阅读
随着工业和信息技术的进步,人类对自然环境的影响逐渐增大,环境变化同时影响人类社会的活动。了解人们对环境变化的想法可以在相关工作中更准确快速地发现亟待解决的问题。而在自媒体的时代,人们可以在各种平台发表自己的观点,这些观点对其他人具有参考价值。由于非常多的观点以文本的形式发表,且数量较多,涉及的领域各不相同,用计算机对这些文本进行自动处理已经成为研究的热点。这类任务被称为倾向分析任务,它可以分为对整篇文档进行分析的粗粒度倾向分析,以及对句子和词语进行分析的细粒度倾向分析。对于处理人类的自然语言的任务,文本表示一直是非常关键的环节。特征提取和特征加权方法采用词袋模型,存在缺少语义信息、高维度和高稀疏性的问题。本文将特征加权、词嵌入方法Word2Vec与话题模型相结合,在粗细粒度上均提出新的文本表示方法,新方法的模型维度低且涵盖更多语义信息。对篇章级的文档表示,本文提出一种无监督的基于特征概率嵌入向量的文本表示方法。它有三个模型,分别是FTW、FTC和FT2,主要用于短文本。本文的方法从词语的角度增加语义信息,从空间的角度增加向量空间模型的表达能力,极大地降低了文档向量的维度,可以很好地解决词袋模型在文本表示中存在的问题。为了验证方法的有效性,本文将提出的方法在两个中英文数据集测试。对词语级的倾向分析,本文提出一种基于频率交叉熵和模糊词模型的词向量表示方法,通过对不同领域的语料库中的词做聚类,将相似的词整合在一起,得到的词簇可以在构建领域知识库时作为不同领域的词库使用。频率交叉熵用于寻找通用的词汇。模糊词模型支持从多个维度描述同一个词,它基于词嵌入技术。本文将这两种算法组合,得到一种新的词向量表示方法,适用于词聚类任务,实验可以验证方法的有效性。词语级倾向分析中的另一个重要需求是提取文本中的关键信息。传统的特征提取方法和各种话题模型都可以用于此类寻找关键信息的任务。本文基于词向量进行特征加权,然后将特征加权的结果与LDA话题模型结合,提出一种基于相似特征频率的文本表示方法,它适用于话题抽取。实验表明这种方法能够将语义更相关的词放在同一个话题下。