基于词向量的文本倾向分析的向量表示方法研究

来源 :东北师范大学 | 被引量 : 5次 | 上传用户:saintjob
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着工业和信息技术的进步,人类对自然环境的影响逐渐增大,环境变化同时影响人类社会的活动。了解人们对环境变化的想法可以在相关工作中更准确快速地发现亟待解决的问题。而在自媒体的时代,人们可以在各种平台发表自己的观点,这些观点对其他人具有参考价值。由于非常多的观点以文本的形式发表,且数量较多,涉及的领域各不相同,用计算机对这些文本进行自动处理已经成为研究的热点。这类任务被称为倾向分析任务,它可以分为对整篇文档进行分析的粗粒度倾向分析,以及对句子和词语进行分析的细粒度倾向分析。对于处理人类的自然语言的任务,文本表示一直是非常关键的环节。特征提取和特征加权方法采用词袋模型,存在缺少语义信息、高维度和高稀疏性的问题。本文将特征加权、词嵌入方法Word2Vec与话题模型相结合,在粗细粒度上均提出新的文本表示方法,新方法的模型维度低且涵盖更多语义信息。对篇章级的文档表示,本文提出一种无监督的基于特征概率嵌入向量的文本表示方法。它有三个模型,分别是FTW、FTC和FT2,主要用于短文本。本文的方法从词语的角度增加语义信息,从空间的角度增加向量空间模型的表达能力,极大地降低了文档向量的维度,可以很好地解决词袋模型在文本表示中存在的问题。为了验证方法的有效性,本文将提出的方法在两个中英文数据集测试。对词语级的倾向分析,本文提出一种基于频率交叉熵和模糊词模型的词向量表示方法,通过对不同领域的语料库中的词做聚类,将相似的词整合在一起,得到的词簇可以在构建领域知识库时作为不同领域的词库使用。频率交叉熵用于寻找通用的词汇。模糊词模型支持从多个维度描述同一个词,它基于词嵌入技术。本文将这两种算法组合,得到一种新的词向量表示方法,适用于词聚类任务,实验可以验证方法的有效性。词语级倾向分析中的另一个重要需求是提取文本中的关键信息。传统的特征提取方法和各种话题模型都可以用于此类寻找关键信息的任务。本文基于词向量进行特征加权,然后将特征加权的结果与LDA话题模型结合,提出一种基于相似特征频率的文本表示方法,它适用于话题抽取。实验表明这种方法能够将语义更相关的词放在同一个话题下。
其他文献
光微流控主要是将光学器件集成到微流控芯片中,同时可以提高微流控分析系统的便携性和功能集成度。光微流激光是采用溶于液体的有机染料作为增益介质、采用光学微腔作为激光
阿里云与中科院旗下国盾量子10月14日上午联合发布了量子加密通信产品。这也是量子安全通信产品首次落地公共云,标志着互联网迈入量子时代。$$ 中国科学院院士潘建伟介绍,量子
报纸
<正>一、问题的提出法学家哈特认为法律定义作为一种文字上的启示,是对一个独立的词进行语言上的界说,进而使一种事物区别于其他事物的问题。如何定义"劳动者"一词,是劳动法
为加快公共事业投资建设,提升运营水平,我国采用PPP(Public-Private Partnerships,政府和社会资本合作)模式引入民间社会资本,对行业发展和运营绩效产生了深远影响。本文基于
进入21世纪,混凝土市场的竞争日益激烈,随着环保形势的日益严峻,原材料的价格逐渐上涨,混凝土企业的利润空间日益缩小,混凝土企业的粗犷式管理已经不适应时代发展的要求。因此,如何减少浪费,提升管理水平,降低混凝土企业的生产成本是企业存活的关键。精益思想是一种先进的管理思想,它提出了企业管理应该从流程管理向精益生产、精益管理的转变,从生产源头开始精益生产过程。混凝土企业当前需要运用精益思想提升自身的成本
随着我国经济体制和政治体制改革的深化,公民权利意识逐渐增强,对建设阳光政府的要求越来越高,而阳光政府的实现是要通过政府信息公开的途径来实现。因此,公安机关执法也面临
位于中亚造山带的一系列与镁铁-超镁铁岩有关的岩浆型铜镍矿床与产于稳定克拉通上的张裂带或陆内裂谷的岩浆型铜镍矿床在很多方面有明显差异。本文选取东天山造山带中的黄山
<正>(一)可持续发展能力分析存在的问题1.管理者轻视财务分析工作。从战略管理角度来看,企业拥有的核心能力才是企业可持续发展的关键因素,只有建立在核心能力基础上的企业竞
随着电网建设的迅速推进,变电站数量和规模的迅猛增长。在运行值班员数量增长与变电站数量的增长不成正比,甚至相差悬殊的情况下,工作量激增与人手相对不足的矛盾就逐步凸显