词级对话文本情感分类的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:nextronnpf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅猛发展,智能客服和社交平台上产生和积累了大量的用户对话文本信息,通过有效的分析和处理这些对话文本,企业和商家可以为用户提供更优质的服务,具有极大的商业和学术价值。目前有关对话文本的研究工作相对较少并且具有较多难点。本文通过分析对话文本的文本特点,设计适用于对话文本的文本预处理流程,并详细介绍了文本预处理中各个阶段的方法,以及文本经过该阶段处理前后的变化,另外,本文也分析情感多分类中常见的评价指标,选择适用于对话文本情感多分类的评价指标。在模型的词嵌入层中,通过融合单词的两种或多种不同的词嵌入表示的方式,让模型获得单词不同方面的表征信息。在模型的句子编码层中,使用循环神经网络对句子中的单词进行编码,并将得到的结果与句子的DeepMoji非线性编码进行拼接,作为句子的最终编码。在模型的对话编码层中,通过对比分析两种不同对话文本的输入方式的实验结果,最终选择三个句子分开输入到模型的方式,并基于循环神经网络,构建对话文本的情感表示,最后通过注意力机制预测对话文本的情感极性。本课题提出了基于循环神经网络的层次化情感分类模型(Hierarchical LSTM Sentiment Analysis With DeepMoj i)。该模型不仅考虑对话文本中的语义,语法信息和表情符号编码信息,而且引入句子表情符号编码以及对话上下文信息。通过将计算机视觉中的Focal Loss应用于对话文本情感分类中,有效的减少训练过程中样本不均衡问题。本课题基于Flask+python框架,并设计数据库资源管理和用户管理机制,添加有注意力可视化模块、表情符号抽取和句子情感符号编码模块,最终搭建了一个完整的系统。
其他文献
视频监控作为平安城市、天网工程的重要组成部分,是重点区域监测、城市治安防控的主要手段。视频设备及其内容的伪造攻击是分布式视频监控系统面临的主要安全问题。视频内容的原始性和真实性是视频监控系统广泛应用的重要基础。本文依据重要区域视频监控的准确性和可靠性要求,聚焦于视频监控系统的高效视频溯源认证和视频伪造检测。具体工作如下:在视频溯源认证方面,基于光响应非均匀性(Photo Response Non-
随着基础教育教学改革的深入进行,我国基础教育事业取得了巨大的发展,学校教育也跟着不断进步,但是,目前在小学数学教学中,数困生已经成为了老师开展数学课程教学的难题,迫切需要我们引起重视。研究数困生的成因及转化策略,对帮助数困生摆脱数学学习的困难以及帮助他们在数学上得到更好的发展密不可分。本研究具体分为六个部分:第一部分查阅数困生的相关文献资料,梳理国内数困生的研究现状,明确数困生的研究背景及意义以及
随着社会对绿色清洁电力需求的日益增长,越来越多分布式可再生能源接入配电网中,“互联网+”的云技术供了人们参与绿色电力消纳互动可能性,本文基于云平台对分布式可再生能源
磁流变液(Magnetorheological Fluid,MRF)是一种性能可控的新型智能材料,因其独特的磁流变效应和良好的流变性能,在工程应用中被广泛使用。随着磁流变液工程应用研究的深入,
自2005年人民币汇改之后,人民币进入升值通道,同时,加工贸易进出口规模比重与加工贸易顺差也在不断下降。有很多主流观点认为,加工贸易的进口主要是为了出口,从进出口价格来看,人民币升值使得加工贸易进口成本的下降与出口金额的减少相抵消,人民币实际有效汇率的变动不会显著影响加工贸易。但是实际数据显示,人民币汇率对加工贸易进出口确实存在显著影响。人民币汇率是怎样影响加工贸易的?本文选取了2000年1月至2
随着互联网技术和经济的发展,互联网金融业异军突起,衍生出各种消费信贷产品如“京东白条”、“蚂蚁花呗”等,与此同时网络套现行为也随之而来。例如,有套现需求的用户通过套现中介“购买”虚假商品,并在支付页面选择“花呗”代付货款,待中介点“发货”后,用户立即点“确认收货”,此时“蚂蚁花呗”会向网店支付宝账户进行支付,中介在收取一定比例的“手续费”后,将其他款项转到用户的支付宝账户。这类恶意串通套取互联网金
中共十九大报告中将基本公共服务均等化实现分为两个阶段性目标,到2020年争取达到基本公共服务均等化总体实现,2020年到2035年基本公共服务均等化基本实现。今年是对第一阶段工作的验收之年,也是对第二阶段目标的展望之年。在供水服务均等化这一民生保障领域,江西省于2020年5月12日出台了《关于全面推行供水一体化的指导意见》,将供水一体化作为下一阶段供水服务均等化基本实现的政策指引,目的是形成打破区
随着中国互联网的高速发展和普及,信息传递的成本被压缩到有史以来的最低。在当今的互联网时代,信息生成的速度要远远高于过去任何时候,而互联网的便捷又会使得信息可以随意散播,因此在世界范围内,各国政府对于网络舆论的监督和管控都十分重。作为社交网络应用代表的新浪微博,其应用内言论传播的活跃程度,在舆论监管方面具有十分重要的意义。而短文本形式的微博博文,在主题模型的应用中因为文本过于稀疏,常常会导致主题发现
目的:分析肛瘘患者的中医体质分布类型和在性别、年龄、BMI、肛瘘分类、既往史等方面的分布规律,探讨两者相关性,为指导本病的个体调治原则、改善患者体质提供客观而量化的指标,完善本病中医发病机制的理论依据,并从中医体质学角度提供防治肛瘘的新思路。方法:基于《中医体质分类与判定》标准设计体质调查问卷,问卷内容包括饮食偏好、烟酒史、排便情况和中医体质判定,对2018年6月至2019年2月在上海中医药大学附
高等院校体育器材完备、体育场地集中,其主要的体育场馆承担着学生体育活动、体育教学、体育训练和体育比赛等服务,为增强学生体质、体育人才的培养提供了基本设施保障。但是