面向网络文本的细粒度情感分析和反讽检测研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:xiaochouya87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,网络文本数量呈现爆炸式增长。这些网络文本对电商、政府部门和潜在用户而言具有重要的参考价值。一方面,只分析文本的整体情感倾向已经无法满足这些群体的需求,需要更细粒度的分析;另一方面,反语和讽刺内容的存在,会翻转句子的情感极性,导致误判,极大地影响了情感分析的准确性。因此,对网络文本进行细粒度情感分析和反讽检测具有重要意义。现有方法通常把细粒度情感分析视为文本分类任务,用LSTM进行文本分类,但LSTM无法捕获局部特征,且容易忽略对隐式评价对象的情感抽取。另外,已有的反讽检测方法主要依赖句中相互矛盾的词汇,当这种语义线索存在时,反讽检测可以实现不错的准确率。但是,当这些提示不存在时,反讽检测就会缺少判别依据,无法有效地识别反讽。本文针对细粒度情感分析和反讽检测展开研究,主要研究工作如下:(1)针对细粒度情感分析问题,本文提出了基于注意力机制的LSTM-CNN词嵌入细粒度情感分析模型。首先,文本的方法将LSTM与CNN结合,利用CNN弥补LSTM无法捕获局部特征的不足,同时利用LSTM学习连续序列特征的能力和CNN捕获局部特征的能力。然后,通过注意力机制分配权重值的方式,给重要的信息赋予较大的权值,突出与指定方面相关的内容,对隐式评价对象进行情感抽取。本文的方法在中文餐馆评论和英文Sem Eval2014数据集上进行实验,验证了本文的方法在细粒度情感分析任务中的有效性。(2)针对反讽检测的研究,本文提出了一个基于句内词对关系和上下文用户特征的反讽检测模型。首先,本文的方法通过自注意力机制计算词与词之间的相似性,挖掘词对的矛盾关系,对句子内部的矛盾性进行建模表示,既解决了现有方法依靠LSTM序列建模不能捕获远距离依赖的问题,又能突出句子的不协调性。然后,用预训练的CNN性格检测模型判断用户的性格特征,用Paragraph Vector学习用户的书写风格特征,将二者融合得到更综合的用户特征。在面对隐式反讽的文本时,上下文用户特征可以为模型提供判别依据,从而提高反讽检测的准确率。本文方法在Reddit和Internet Argument Corpus的四个基准数据集进行了大量实验,相比于其他四种方法,具有更好的预测效果。
其他文献
消除贫困,实现共同富裕,是社会主义的本质要求,为全面实现今年(2020年)全面建成小康社会的奋斗目标,必须帮助集中连片特困地区贫困人口精准脱贫,真正对准深度特困区这块最难啃的硬骨头。我国划定14个集中连片特困区作为新时期扶贫攻坚的主战场,这些片区贫困人口数量多、贫困程度深、贫困发生率高和返贫率高,加上地理环境、资源禀赋、人口素质、基础设施等各有不同,扶贫攻坚任务重、难度大。“一带一路”建设在我国直
第三次科技革命尤其是二十世纪九十年代以来,随着互联网的逐渐发展,社会生产力和经济效率迅速提高,经过十几年的普及和推广,“互联网+”日益深入人心。与此同时,公益也不再局限于传统的依靠慈善机构来进行单一募捐,公益事业乘着“互联网+”的春风也走进了互联网,因为互联网的大众性以及高效性,公益募捐的效率大为提高,这种新型的网络公益众筹模式给急需获得帮助的人带来了巨大的便利,这些人可以通过互联网的渠道避免大量
2017年11月18日06时23分,西藏自治区林芝市米林县雅鲁藏布江大拐弯附近发生了Ms6.9级地震,此次地震发生在人口稀少区,地震虽没有造成大的人员伤亡和财产损失,但触发了大量同震滑坡,导致雅鲁藏布江多处被堵塞。此次地震同震滑坡主要分布于无人区,国内外学者鲜有对其进行研究。本文利用地震前后高分辨率卫星影像,对此次地震同震滑坡进行了详细编目,系统分析了该次地震同震滑坡的主要特征和空间分布规律;在此
自有历史记载以来,慈善一直与人类和谐共生,也一直与社会进步相伴。随着社会的不断发展进步,人们的慈善意识也在逐步觉醒和提高,这种积德行善的慈善思想,也成为了中华优秀传统文化中最生动的内容之一。诞生于先秦时期的《管子》慈善思想是我国慈善思想中必不可少的一部分。对其进行研究,努力探寻其中所蕴含的思想和文化价值,能够帮助我们进一步了解中华优秀传统文化的发展进程,并提高对中华优秀传统文化的认同感和归属感。将
随着我国人口年龄结构趋于老年化,人们对生命健康保障的要求提高,对于医疗服务的需求也持续增长,药品地位举足轻重,受到的关注越来越多。目前我国正处于推进深化医疗体制改革的阶段,由于药品的特殊性,传统的药品库存管理模式出现与政策推进不匹配,医院库存水平过高,库存控制不合理,没有精确的计划、组织与调节库存,药品存放、管理基础设施落后等问题,造成管理成本居高不下。此形势下,传统药品库存模式亟需转型改革。第三
互联网上以指数级方式产生海量的高维数据,目前主要对这些数据进行降维、聚类、近邻搜索等研究与应用。针对海量的这些数据,提高语义搜索精度和速度是非常有意义的。本文主要研究基于萤火虫算法的近邻传播聚类算法以及在Spark平台上的分布式实现,并在此基础上开展科技领域语义搜索引擎的开发应用。本文主要研究工作如下:(1)研究一种基于萤火虫算法的近邻传播聚类算法,优化近邻传播聚类算法不能自适应调整偏向参数而引起
中小企业在市场经济发展中扮演着主要角色,在缓解就业压力、确保经济稳定增长、优化经济结构等方面发挥了巨大作用。在现代国民经济中,最为主要的一个组成部分就是中小企业,中小企业数量较多,较为广泛,经营需要银行贷款来补充其流动资金贷款,缺少金融机构的支持,中小企业发展动力明显不足,但融资难、融资贵一直限制我国中小企业发展,资金筹集渠道相对比较狭窄,在经营发展的过程中资金明显不足,造成这一现象的主要原因是中
进入21世纪后,随着社会的高速发展,信息的功能和内涵已经包括对生产过程进行远程自动化控制,对社会安全、金融贸易进行处理等。对社会信息的需求量、信息传递速率有了更高的要求,然而,电学回路的阻容(Resistance-capacitance RC)延迟效应导致电子技术无法突破纳秒(10-9s)级别,难以再满足人们的需求。人们将目光投向不带电的光子,光子在传输过程中不受电场和RC延迟效应的影响,始终以光
随着现代传媒技术的迅猛更新,电视作为传统传媒企业正在不断遭受冲击,数据显示,2014年以来对中国电视播出与收视市场份额解析表明,播收份额齐跌,多个地方台连续出现收视率负
金属-有机框架由于其特殊的物理、化学性质而被应用于吸波材料研究方面,继而以金属离子及有机配体作为前驱体的复合材料也被证实具有良好的吸波性能。现有的金属-有机配体大多具有良好的磁损耗能力,为了增强材料吸收电磁波的能力,多使其与具有优秀介电损耗能力的介电材料相结合。基于此,本文以水热法合成金属-有机框架作为前驱体,在此基础之上与氧化石墨烯复合来制备较高性能的吸波材料。主要研究内容如下:(1)合成以钴离