主题发现和情感分类的联合分析研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ellydyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体和移动设备的日益普及,越来越多的人在社交平台对热点事件或特定商品发表自己的观点看法,随之而来的是带有情感信息的爆炸式增长。如何从海量的信息中挖掘出关键性主题和文本所表达的情感信息变得尤为重要。现有的基于深度学习的主题发现和情感分类方法可以取得较好的效果,但也存在明显不足。主要表现在主题模型往往从全局文本进行建模,但缺乏对局部情感极性的挖掘;而情感分类模型只利用文档的词语信息,却忽略了潜在的主题信息。针对上述问题,本文对主题发现和情感分类进行联合分析。本文首先研究结合对抗策略的主题情感联合模型。该方法将变分自编码器用于主题发现的建模,将层级注意力网络用于情感分类的建模,进而设计对抗训练的策略,最大化每个词语对应的主题向量与注意力向量的相似度,以达到利用主题向量指导情感注意力信号的计算和利用情感注意力信号指导主题向量的学习的目的,实现两个任务的互相促进。在公开英文评论数据集Yelp2013和IMDB(Internet Movie Database)上的实验显示,结合对抗训练策略的主题情感联合模型,在主题发现任务的主题一致性值提升了1.5%和1.5%,同时情感分类任务的准确率分别提升了1.2%和5.2%,显示了结合对抗训练策略的主题情感联合分析方法的有效性。基于变分自编码器的主题模型的优化目标是最小化重构原始文档的误差,而不是提高生成主题词的质量,因此存在不易判断主题词质量的不足。为此,本文进一步研究结合强化学习的主题情感联合分析模型。该模型借助强化学习的思想,应用主题一致性衡量指标和主题重叠率作为奖励函数以提高主题模型的建模能力,进而融入到主题情感联合模型的学习中。在Yelp2013和IMDB数据集上的实验显示,结合强化学习的主题情感联合模型生成的主题一致性值进一步分别提升了5.4%和3.2%,同时情感分类任务的准确率进一步分别提升了0.4%和0.3%。这一结果显示了结合强化学习的主题情感联合模型可以有效提高主题发现和情感分类的性能。
其他文献
清末,晚清政府在内忧外患中全面开禁东北。清廷通过开禁放荒,招民移垦,垦荒济饷等措施有力地抵御了边疆危机,同时也加速了东北地区的农业开发。民初,中央与地方各省均面临严
随着互联网的发展,越来越多的企业开始通过互联网为用户提供服务,随着用户数量的增加,企业对于在线客服人员的需求也越来越大,但是客服人员难以提供全天候的服务,而且用户的
随着区域经济一体化的发展与现代技术的进步,企业之间的竞争逐渐转变为供应链、产业集群之间的竞争。客户需求多样化和个性化程度不断增加,产业集群所形成的集群式供应链作为
文本匹配是自然语言理解中的一个核心问题,在现实世界中的搜索、广告、推荐和智能客服系统等领域都有具体应用。自然语言理解中的许多任务,比如本文研究的释义识别、重复问题
活跃在热河地区的抗日义勇军是东北抗日义勇军的重要组成部分之一,其抗日斗争活动贯穿十四年抗战的始终。热河地区的东北抗日义勇军以热河抗战为时间节点可分为三个阶段。可
原子、分子和固体中的电子量子态所参与的过程是在皮秒-飞秒-亚飞秒超快时间尺度上演化。飞秒激光与气相原子、分子相互作用产生高次谐波(high order harmonic-HHG)是一种高度
“自治指导部”是1931年九一八事变日本关东军在武装占领中国东北后统辖关东军占领区辽宁各市县伪政权的机构,主要为达到伪造、控制民意的目的,为其制造东北脱离中国,扶植伪
低温影响植物生长并使农作物产量大量降低,因此研究植物低温响应基因功能和反应机理具有理论意义和经济效益。目前对于具有很强抗低温能力遗传背景的植物研究的很少。高山离
云水法作为中国山水绘画重要技法之一,表现形式主要有勾法、染法、勾染法以及留让法,通过对米友仁留存发现的绘画作品研究,他的画面中对云水的表现主要采用了勾染法和留让法,
随着时代不断地进步,社会蓬勃地发展,知识的竞夺是当今世界各国之间博弈的重要一环,是国家提升核心竞争力的重要砝码。因此,知识产权在国家的发展中变得格外重要,对知识产权