改进BERT的中文评论情感分类模型

来源 :软件导刊 | 被引量 : 0次 | 上传用户:anjo888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了改善现有基于深度学习网络的中文评论情感分类方法,同时提高中文评论情感分类的正确率和效率,基于Tensorflow框架,对传统BERT模型进行改进,以Nlpcc2013和Nlpcc2014公开的微博评论数据集为实验数据,分别从两个数据集中清洗抽取出3949条和14163条情感极性明显的评论,将数据输入改进后的RoBER?Ta模型中,提取语义后利用Sigmoid函数进行情感正负极性分类.实验结果表明,该模型的算法准确率、精确率、召回率和F1值较高,在Nlpcc2013数据集上分别达87.85%、88.36%和89.67%,比传统的BERT模型在各项数据上分别提高了1.52%、0.47%、2.58%、1.52%;在Nlpcc2014数据集上各项指标比BERT模型分别提高了1.30%、0.54%、2.32%、1.44%.研究表明,该模型在中文评论情感分类处理上表现优异,相较以往的深度学习网络模型效果更好.
其他文献
港口大型机械是港口作业的关键设备,一旦出现故障不但造成经济损失,甚至是人员伤亡.随着港口自动化程度的提高,以及无人码头的出现,对设备各工作机构的运行状态监控提出了极高要求.为了保证港口机械运行机构传动链部分的安全稳定运行,势必要实现远程化、无人化和精准化的状态监测,文中提出了一种港机传动链的在线监测方案,通过对传动链进行多通道实时振动数据采集,结合电动机转速、负荷等设备的运行状态参数和设备的详细信息,可有效地发现设备的早期故障及发生部位.并通过轨道式集装箱门式起重机(RTG)和岸边集装箱起重机的实际诊断案
随着遥控技术的发展,在线控手动开关加装遥控装置2种控制方式的起重机越来越普遍.特种设备安全技术规范TSG Q7015-2016《起重机械定期检验规则》和TSG Q7016-2016《起重机械安装改造重大修理监督检验规则》中对2处或多处操作的起重机规定为应符合GB/T6067.1-2010《起重机械安全规程第 1 部分:总则》(以下简称GB/T6067.1)的第9.5条联锁保护的要求 [1,2].GB/T6067.1第9.5.3条要求多种控制方式间应具有联锁保护,只允许在一处操作起重机,防止多处同时能操作
期刊
为保障集装箱码头的安全性与可靠性,需要对岸边集装箱起重机进行故障诊断,发现异常从而保障关键部位功能安全.文中针对目前岸边集装箱起重机故障样本少的现状,提出了一种基于无监督方法的岸边集装箱起重机故障检测方案,能够根据现有数据自动的获得岸边集装箱起重机的健康状态,且不强制要求存在大量的故障数据对该故障检测模型进行训练.在岸边集装箱起重机小车机构、起升机构、俯仰机构的减速器各个位置布置加速度传感器,采集多通道振动信号,从振动信号的时域、频域中提取特征值,对特征值进行预处理与主成分分析降维,使机器学习方法能够全面
苗语作为西南少数民族的主要语种之一,其语音研究存在语言文字缺失、语音语料库不健全、地域差异等问题,因此苗语的语音识别难度较大.针对语音语料库不健全的问题,借助汉语拼音对苗语语音进行标注,构建不同地域的苗语语音语料库.基于拼音媒介传递的思想,设计苗语孤立词汇识别模型,该模型利用卷积神经网络对提取的语音特征进行训练和测试,解决了文字缺失情况下的苗语孤立词语音识别问题.为验证该模型的有效性和稳定性,以自建苗语语音语料库的数据作为实验数据集,分别在同地域、不同地域以及组合地域语音数据集上进行验证实验.实验结果表明
针对利用当前神经网络模型进行中文位置语义解析存在多义词解析效果差、泛化能力差等问题,提出一种基于BERT-BiLSTM-CRF模型的中文位置语义解析方法.首先利用BERT预训练模型对中文位置信息进行预训练,获取所有层中的上下文信息,增强中文位置信息的语义表征能力,然后通过BiLSTM模型提取向量特征信息,最后通过CRF模型进行解码,获取全局最优标注序列.实验结果表明,在不同数量和区域的中文位置信息数据集基础上,BERT-BiLSTM-CRF模型在所有测试集上分词准确率与F1值都优于目前常用的神经网络模型,
针对产品生产制造过程中由于不确定因素导致完工期延误的问题,在考虑高数据维度、广特征空间分布的情况下,提出一种改进深度神经网络的产品生产制造周期预测方法.该算法采用栈式自编码器预训练神经网络的权重和偏置并完成特征提取过程,采用预训练参数初始化深度神经网络进行生产制造预测.为避免模型过拟合,加入L2正则化和dropout.以某制造业某季度产品生产制造数据为例,验证了该预测模型的有效性.与其他预测模型相比,栈式自编码—深度神经网络模型具有较高的预测精度.
现有评论文本推荐方法多使用静态词向量技术获取评论嵌入,但单词多义性会对语义理解产生偏差,且特征拼接策略无法平衡用户和商品特征对推荐结果的影响.为此,提出了基于评论文本的自适应特征提取推荐模型.该模型使用动态词嵌入预训练模型BERT解决多义性问题,结合Bi-GRU与注意力机制的双向特征提取增强特征表达能力,并以自适应特征拼接机制平衡用户和商品特征在交互时的贡献程度.实验结果表明,该模型在6个亚马逊数据集上均方误差值最低为0.678,相比最优基准模型性能平均提高了2.42%,有效改善评论文本中单词多义性问题对
研究基于长短时记忆神经网络模型的优化方法及其在脱轨系数预测中的应用,通过SIMPACK建立列车—轨道仿真场景得到网络训练所需数据集,构建基于长短时记忆神经网络的脱轨系数预测模型,借助动态学习率和Dropout方法针对学习率及网络结构进行优化,并使用优化后的长短时记忆神经网络对脱轨系数进行预测.脱轨系数预测结果表明,经过优化的长短时记忆神经网络预测模型在测试集上的预测误差相较优化前的模型减小23.9%,动态学习率和Dropout方法能高效地优化预测模型,可使模型较准确地预测出脱轨系数变化趋势,可为进一步研究
旅游评价情感分析对了解游客偏好具有重要意义,然而现有的旅游评价情感分析模型较少突出游客情感描述的核心内容.为了更加精确地分析游客评价的情感倾向,提出一种结合词性注意力机制和双向长短期记忆神经网络(Bi-directional Long Short-Term Memory,Bi-LSTM)的旅游评价情感分析模型.该模型采用Bi-LSTM捕获上下文语义信息并充分利用句子中词语的词性与情感极性词之间的关系,无需依赖人工组织的情感领域词典,并使用词性注意力机制关注情感描述内容核心部分.实验结果表明,该旅游评价情感
传统语音情感识别算法模型结构较为简单,需要足够量级的训练数据才能使其具有一定的实用性.然而,在实际应用中可供训练的数据集较少.为解决上述问题,提出了一种语音情感深度迁移识别算法.通过属性分析表构建、特征提取、相关性计算等操作确定源域数据集,并在此基础上训练迁移学习并构建预训练模型,最终构成语音情感分类模型.实验结果表明,该算法可较好解决低资源数据集易陷入局部最优的问题,识别率达到60%以上,相对于BLSTM和CNN模型具有一定优势.