基于深度神经网络的中文评论情感分析研究

来源 :东北石油大学 | 被引量 : 0次 | 上传用户:huanle986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,互联网的发展给了众多用户在网络上发表自己言论的机会,而为个人碎片化倾诉与沟通提供新空间的微博(Weibo.com)在社会各类人群中有着极大的影响力。本文以微博的公开数据为实验依据,针对微博评论文本情感倾向复杂的特点,本文提出了基于深度学习模型的情感分析研究。这一研究课题对于挖掘情感具有重要作用。从文本中挖掘出来的情感信息可以反映发布者当时的情感状态,在个性化推荐、舆情控制、基于社会调查的政策制定等方面蕴含着极大的应用价值。首先,本文选择以微博评论数据进行研究,利用Python语言进行了网络爬取数据,针对微博数据集的不足和可用数据的标注混乱现象,搜集、整理了网络公开可使用的微博评论数据集。同时,针对微博评论的语义表达隐秘的特点,设计了基于隐马尔科夫模型及维特比算法的分词技术。利用综合状态之间的转移概率和前一个状态的概率情况,计算出概率最大的状态转移路径,回溯并记录概率最大路径,找到最可能正确的分词方案。其次,针对传统的词向量化独热编码的的方法存在的数据稀疏性问题,本文提出使用一种词向量文本特征提取工具的改进方法,利用了FastText中Sub-word子词嵌入技术获得更具有语义和语法关系的词向量,以及其表征类别的树形结构,在其输出端使用H-softmax多层分类器方法,同时与传统Word2Vec的跳字模型进行文本特征的提取方法对比,证明了方法的有效性,提升了模型的计算效率和训练速度。最后,本文设计了在模型中引入注意力机制,通过对编码器所有时间步的隐藏状态做加权求和来得到背景变量。能够直观的解释各个句子和词语对分类类别的贡献程度和重要性。将注意力机制连接在LSTM模型和输出层中间,表现了输出目标句子的某个词和输入句子中的每个词的对应关系,使加入注意力机制后模型在微博评论情感分类上的效果得到了提升。
其他文献
本文从加快安徽经济发展的角度,立足安徽煤炭资源储量、分布、产量及消费情况,论述了加快煤电发展对促进安徽地域经济平衡发展,特别是皖北地区经济发展的积极作用。在合理预
从社会学的视角分析思想政治教育学科,它应是一门“软”度特点明显、“硬”度特点较淡的多范式的软学科;是一门“趋同”度较小而“分野”度较大的学科;是一门“城市化”程度
随着现代法制的发展,宪法基本权效力向私法渗透,私法人格权日益膨胀而在民法典中有独立之势,在二者的张力中人格权的定位成为重要课题。罗马法上的人格不等于现代公民人格,人
本文主要以柯九思《晚香高节》图为例,探讨元末竹题材绘画在两个民族间的赠受关系,及其所反映的问题。有元时代,竹题材绘画异常繁荣,尤其在文人间极其流行,文人们取“竹有节
社区参与不足表明居民拥有了不参与的权利,不参与权利具有维护社区建设总体目标之积极功能。这种社会条件下,政府为了提升自身的合法性,就必须走向社区开放权力系统之路。
本文阐述了钢筋混凝土切割技术、拆除方法的切割拆除主要关键点、混凝土机械切割特点及设备选择、施工工序及工艺流程以及安全施工要求及措施,该新工艺施工作业速度快、噪音
本文用价值哲学的观点分析马克思教育哲学与马克思关于类的个体的概念和人类发展的价值观之间的联系;用实践哲学的观点阐述了马克思教育哲学意蕴与当代的时代精神、时代文化
开发民族地区传统体育对于丰富民族文化,了解少数民族传统体育项目的起源、兴盛或衰落的历史缘由及规律,促进民族地区经济发展有重要的现实意义。运用文献资料、调查访问等研
反诉制度具有合并解决相关纠纷的功能优势。如何充分发挥反诉制度的这一功能优势以最大限度地解决与本诉相关之纠纷,两大法系各有不同态度。英美法系积极扩张反诉制度之功能,
<正> (一) 禅宗的真正初但是慧能。从达摩到弘忍,这五代法裔相传的过程是禅宗的预备阶段;由于他们主要依持《楞伽经》,所以我们把这一时期的禅学史称之为楞伽师承时期。在楞