基于词向量的情感分类关键问题研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:dabing_12130
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本情感分析是指通过挖掘和分析互联网文本中表达的内容,识别出情感信息,使我们能高效率地了解用户对某产品的观点,进而为商家和其他用户提供决策支持。然而当今互联网的文本特点使情感分析技术面临着巨大的挑战:首先,互联网文本数量爆炸式增长,大多都是无标注的文本数据;而且文本的情感表达形式更加简洁随意,这使传统的词袋特征面临严重的稀疏性问题;此外,人工抽取特征耗时费力,系统适用性较差,难以适应快速更新的文本分析需求。近年来研究者着手研究基于词向量的方法来自动抽取文本特征。词向量,即词的分布式特征表示,可以通过无监督的训练方法得到,有效地利用大量未经标注的数据。相似的单词学到相似的词向量,将其作为特征可以起到平滑的作用,有效缓解稀疏性问题。但传统的词向量学习模型自身存在一些问题:它是根据上下文学习得到,虽然捕获了文本的语法信息和语义信息,但却忽略了情感信息,不能有效地应用于情感分析任务。并且,在句子、文档级别的情感分类任务中,基于词向量的文本特征表示没有考虑句子中词与词之间的顺序问题,这也会在一定程度上影响情感分类的效果。为了解决情感分类任务中存在的若干问题,本文主要研究内容如下:为了将情感信息融入到词向量的学习过程当中,本文提出了基于Glove模型的情感词向量学习框架,在训练词向量的同时融入单词的情感信息。并且根据向量间距离度量方式的不同,本文使用两种不同的情感信息融合方式来构建词向量学习模型。为了验证学到的词向量确实捕获了文本的语义信息和情感信息,本文在中文和英文数据集下进行了大量定性和定量的比较实验。实验结果表明,我们的词向量学习模型能够有效地改善词向量的质量,进而提高情感分类的准确性。为了消除文本中词序信息对情感分类任务的影响,本文提出了将情感词向量与卷积神经网络相结合的文本情感分类模型。首先利用学到的词向量构建文本的输入矩阵,然后通过卷积层不同大小的卷积核来提取粒度不同的文本局部特征,最后通过最大池化方法获得文本的等长特征,进行文本情感分类。本文在中英文数据集上进行了不同粒度(词语级别、文档级别)的情感分类对比实验,结果表明,本文提出的词向量学习模型能有效提取文本的情感信息和语义信息,因而在解决情感分析任务时表现更为出色,并且该模型具有较好的泛化性。
其他文献
目的调查在南通大学附属医院就诊的类风湿关节炎(Rheumatoid Arthritis,RA)患者生活质量现状及其影响因素,进而探讨其潜在预测因素,为今后对此类患者采取有针对性的干预措施
俄罗斯的反恐体系建立在严密的法律体系基础上,以立法确保反恐的合法性。俄罗斯在20余年的反恐历程中不断总结经验教训,使这一法律体系逐渐完善起来,具有很强的现实应用性。
在借鉴西方国家个人信用制度的基础上,对高校大学生信用管理模式的运作机制进行了探讨,阐述了大学生信用管理的基石--"七表"制的具体内容,并针对大学生信用管理模式的网络化
学术交流在科学创新中有独特作用.它不仅是检验科研成果的舞台.更是启迪思维、掌握新知、纠正谬误、提高学术水平的最佳方式。本文结合科研管理工作实践.提出应通过在思想上
简介变压吸附气体分离与提纯技术的发展和技术特点,以及变压吸附技术在氢气分离提纯、变换气脱碳、CO分离提纯、CO2分离提纯、空分制氧气氮气等多种领域的应用。介绍了20 000
采用手持式光谱彩色照度计设备,在暗室环境中参照实验室分布式光度计测量原理,测试了轨道定向照明灯具空间分布点的光色参数,实现对LED灯具色差大小的评价。我们用较少的测试