【摘 要】
:
随着计算机和互联网技术的飞速发展,越来越多的民众选择在社交媒体上撰写评论,表达自己的观点和看法。微博、脸书、推特等互联网平台每天都会产生海量的文本数据,挖掘并分析这些文本数据的潜在情感倾向,对于辅助政府、企业等团体机构进行舆情掌控及决策有着重要的价值。情感分析技术的核心在于情感分类模型的构建,传统方法是以情感词典或机器学习算法为基础来构建模型。基于词典的情感分析方法存在着情感词典构建难度大,泛化能
论文部分内容阅读
随着计算机和互联网技术的飞速发展,越来越多的民众选择在社交媒体上撰写评论,表达自己的观点和看法。微博、脸书、推特等互联网平台每天都会产生海量的文本数据,挖掘并分析这些文本数据的潜在情感倾向,对于辅助政府、企业等团体机构进行舆情掌控及决策有着重要的价值。情感分析技术的核心在于情感分类模型的构建,传统方法是以情感词典或机器学习算法为基础来构建模型。基于词典的情感分析方法存在着情感词典构建难度大,泛化能力差和无法有效处理时效性较强的网络新词等问题;基于机器学习的情感分析方法存在人工构建特征难度大、缺乏高质量标注数据等缺点。对此,伴随着计算机性能的大幅度提升,以深度学习算法为基础的情感分析技术在近些年得到了广泛的研究与重视,其中基于Word2Vec词向量和深度神经网络的情感分类模型相比传统模型在性能上得到了大幅度的提升,但还是存在着无法处理中文一词多义、无法充分提取深层语义特征和模型鲁棒性不强等缺点。近年来,BERT等预训练语言模型在自然语言处理领域内取得了巨大成功,因此受到了国内外研究学者们的广泛关注。本文围绕情感分析任务展开研究,以BERT预训练语言模型为基础,针对静态词向量无法处理中文一词多义及传统神经网络语义特征提取能力不足、深度学习模型在对抗样本攻击下的脆弱性、单一模型的有限性等问题,提出了相应的解决方案,最后为增强情感分类模型的可解释性,完整地实现情感分析功能,设计并实现了一套情感分析系统。本文的主要研究工作包括以下几点:(1)针对传统情感分类模型无法解决中文一词多义和语义特征提取能力不足的问题,本文提出一种基于BERT模型的情感分析方法,在此基础上以BERT模型为核心,优化模型结构,提升模型性能,构建了 BERT-BiLSTM-Att情感分类模型,该模型根据上下文动态生成词向量,通过BERT内部的Transformer编码器提取文本的语义特征,使用BiLSTM网络对语义特征进行二次提取,同时引入注意力机制突出关键情感信息。实验结果表明,相较于传统情感分类模型,BERT-BiLSTM-Att模型能够有效处理中文一词多义带来的情感类别错分,并且可以在有效提取上下文语义信息的同时提取关键情感信息,提升了情感分类模型的综合性能。(2)针对深度学习模型在对抗样本攻击下的脆弱性问题与单一模型泛化能力弱,鲁棒性差的问题,本文首先改进模型训练方式,使用对抗训练算法对模型进行对抗训练以提升模型的鲁棒性与泛化能力,然后采用Stacking算法将多个模型进行集成,得到一个优化后的情感分类模型。有别于在训练前对样本添加干扰的静态数据增强方法,对抗训练在训练过程中向输入嵌入层添加扰动以得到对抗样本,使用混合了对抗样本的输入使模型提前学习适应这种变化,以应对未知对抗样本的攻击,提升模型的鲁棒性与泛化能力。Stacking集成算法框架通过将多个基分类器进行融合,强强联合优势互补,可以得到一个较佳的强分类器,本文选用改进训练方式后的三个情感分类模型作为基分类器,进行模型的融合。实验结果表明,本文改进训练方式后的模型相比原始模型,在整体性能上得到了提升,最后基于Stacking集成算法得到了一个综合性能较好的情感分类模型。(3)基于已完成的研究工作,本文以Stacking算法集成后的情感分类模型为基础,设计并实现了一套情感分析系统。情感分析系统采用B/S架构,总共分为三层,分别为表现层、逻辑层与数据层,其中文本预处理、情感分析等功能模块分别在这三层结构中实现。用户可通过Web浏览器访问该情感分析系统,并进行文本的情感倾向分析。
其他文献
《红楼梦》整本书阅读考查备受关注,总结浙江各地的期末卷命题的得失,探究优秀命题的趋向和策略,譬如聚焦素养,巧设情境;立足整体,寻找联结;敢于质疑,合理批判。为建构"学教评一体"的整本书教学提供测评上的参考,并给予《红楼梦》阅读教学以更好的导向。
随着人们出行的次数不断增加,公共场合安检压力也逐渐变大。而乘客还是按传统的人工过检方式通过安全检查通道,会消耗大量时间。这样的安全检查方式已经不能满足现代安检要求,因此需要研究对运动中的行人进行快速安检的技术。相比已经投入使用的静止物体毫米波安检成像系统,运动目标的毫米波安检成像系统的技术尚未成熟,现有的成像算法仍在实验研究阶段,本文主要研究了行人毫米波安检成像技术及相关成像算法。论文的主要工作和
军事隐身技术是提高作战平台生存能力的重要一环,在现代军事战争中起到十分关键的作用,频率选择表面作为超材料隐身科学中十分重要的角色,国内外学者对此方面已进行了数十年的研究。随着侦测技术的不断提高,现有的简单的飞机涂层式超材料已无法满足军事中对敌方雷达的隐身需求,这使得新型的频率选择表面的设计成为了越来越热门的话题。本文在基于常规的频率选择表面结构,根据实际应用中不同的工作需求,使频率选择表面拥有多功
光学遥感图像云检测可以看作是遥感图像预处理的步骤。由于地球表面大量存在的云,导致遥感影像不够清晰,存在地物被遮挡的情况。同时,在研究自然环境、气象方面,云检测也是一项必不可少的工作。因此,这是一项十分必要并且有价值的研究课题。在该领域目前已经有了大量的研究,包括传统的云检测方法和基于深度学习的方法。相比之下,基于深度学习的方法检测结果更加准确,是目前的主流研究趋势。因此,本文采用了基于深度学习的方
随着水上旅游业的发展,智慧景区建设也迎来高潮,新能源游船作为水上景区主要交通工具,其航行安全问题备受关注。目前,国内水上景区对于新能源游船摄像头监控信息(音频和视频)的存储缺乏容灾手段,当沉船、爆炸等事故发生时会对监控信息造成损坏,给事故原因的调查造成困难。如何对监控信息进行容灾存储,保证存储数据的实时性和完整性是重要的研究方向。存储数据作为调查事故原因、明确事故责任的重要参考依据,如何保证存储数
在“中国制造2025”的推动下,传统的制造业和物联网、大数据等信息技术相互融合,生产制造的智能化成为了大势所趋。与传统的“先故障后维修”或者定期维修的策略相比,预测性维修能够帮助企业规范生产流程,提高设备利用率,降低生产成本,实现生产制造的智能化。设备在运转时发出的声音信号中包含大量运行状态信息,只要能有效地提取到声音事件中包含的信息,那么工厂就可以对生产设备故障进行分类与识别,就可以有效地提升机
随着机场等公共场合的安全检查工作越来越受到人民群众的重视,主动式毫米波安检技术因具备高效率、安全性等优势而获得飞速发展。但毫米波的波长极短,行人移动很小位置会造成回波相位发生较大变化,导致雷达成像模糊、安检图像质量严重下降。为了提高非合作行人的安检图像质量、使成像清晰,需要我们准确的估计出人体表面任意部位的运动参数。本文的主要工作为:(1)研究了一种基于拟合平面的相机外参标定算法求解多相机位姿,以
随着移动互联网的快速发展,云计算为数字经济的发展带来了新的变革。资源受限的企业和个人用户通过将数据外包到云服务器能够降低本地数据存储和管理的负担。然而,数据外包存储模式使得数据的所有权和管理权相分离,这不可避免地带来了新的安全性挑战。为了保护数据隐私,用户需要在数据外包之前对数据进行加密,但传统的数据加密方法使得密文数据上的检索变得很困难。因此,在云环境下实现安全、高效的密文数据检索已成为云计算领
随着信息技术与软件的高速发展,软件漏洞攻击的逐渐增加,给软件漏洞检测技术带来了前所未有的挑战。基于静态分析与动态分析的传统方法都或多或少的存在检测的准确性差,以及依赖专家知识的问题。与依赖统计特征的机器学习检测方法相比,基于深度学习的检测方式由于其不需要人工提取特征的独特优势,逐渐成为研究的热门方向。现有的深度学习的检测方法主要存在以下几个问题:(1)由于代码文件的非结构化特性,需要选取合适数据预
降雨会在视频图像上产生明显的条纹,遮挡图像内容,模糊结构信息,导致视频质量退化,进而影响后续计算机视觉系统的信息处理功能。因此,开发高效的视频雨条纹去除算法对保证后续的视觉系统性能至关重要。目前的视频去雨算法可以分为两类:基于模型驱动的算法和基于数据驱动的算法。基于模型驱动的算法通常侧重于利用雨条纹和干净视频间的合理先验。然而,由于结构本身的局限性,去雨效果往往并不理想并且会造成图像背景信息的模糊