【摘 要】
:
如今,电子商务与人们的日常生活密切相关。电子商务平台提供评论区供用户在线评论,评论数据会长期保存在电商平台上。这些评论对于消费者来说,直接影响到是否选择该商品;对于商家来说,可以了解用户对商品的评价,并及时改进不足。但各个电商平台上的评论区积累的评价内容十分庞大,直接阅读评论十分费力,难以获取有效的信息,不仅降低用户阅读评论的效率,也使得商家难以获取用户反馈的信息,增加改进商品的难度。因此如何在如
论文部分内容阅读
如今,电子商务与人们的日常生活密切相关。电子商务平台提供评论区供用户在线评论,评论数据会长期保存在电商平台上。这些评论对于消费者来说,直接影响到是否选择该商品;对于商家来说,可以了解用户对商品的评价,并及时改进不足。但各个电商平台上的评论区积累的评价内容十分庞大,直接阅读评论十分费力,难以获取有效的信息,不仅降低用户阅读评论的效率,也使得商家难以获取用户反馈的信息,增加改进商品的难度。因此如何在如此庞大的评论数据中高效获取消费者的情感信息,及时获取有价值的评论信息,对于提升用户体验和商家改进产品质量来说具有重要的研究意义和商业价值。本文基于BERT算法,通过对观点的实体和评价主体的识别,评价主体情感分析,来获取用户评论的评价主体和情感极性,实现细粒度的情感分析。主要任务和贡献包括:在词嵌入方式与训练数据的收集和处理中,通过分析使用传统的Word2Vec(Word To Vector)词向量的不足,提出针对中文评论的字向量与词向量相结合的词嵌入方式。提出的词嵌入方式与单独使用字向量和词向量的词嵌入方式相比,分类准确率更高、语义信息保留更加完整、未登录词减少、词嵌入质量提高。通过分析普通数据集的不足,提出高质量标签数据集构建的意义。对比高质量标签数据集与普通数据集下的实验结果,发现高质量标签数据集能提高模型训练的质量,提高预测准确率。在观点的实体和评价主体识别中,为了解决传统Word2Vec模型只能够产生固定化语义的词向量的问题,提出基于改进BERT(Bidirectional Encoder Representations from Transformer)掩藏策略的BERT-BIGRU-CRF模型。该模型根据中文评论中字与字组成的词组联系较为紧密的特点,改进BERT算法的掩藏语言模型,并将其作为词嵌入层的语言模型。在该模型上训练得到的词向量能更好地挖掘词与词之间的语义信息,获得更加完整的语义信息。在特征抽取层中,采用Bi GRU代替传统的Bi LSTM,在提升训练速度的同时保证准确率。提出的模型与常用的命名实体识别模型LSTM-CRF相比,在F1值、召回率和精确率上均有提升。在评价主体情感分析中,针对传统的RCNN(Regions with Convolutional Neural Networks features)模型对于文本情感相关信息的特征提取不够充分,分类不准确的问题,提出字词向量融合的M-BERT-ATT-Res GCNN模型。该模型首先使用预训练BERT语言模型代替Word2Vec语言模型,并针对电商评论数据进行改进,改进模型为M-BERT;然后使用两层Bi GRU来提升其提取特征的能力,并在两层之间使用残差连接的方式进行连接防止出现梯度消失;最后采用注意力机制对关键信息进行提取。将提出的模型与多个常用的情感分析模型进行比较,结果表明,提出的模型在准确率上对比目前较优的RCNN模型提升近一个百分点。
其他文献
在信号处理领域,信号的表示是最基本的问题之一,有效地对信号内容进行表示是信号处理的关键与信号应用的基础.在数字化信息时代,人们每天都在处理着海量的数据信息.寻找数据的有效表示是信号处理领域一直努力的方向,特别是高效地对信号进行稀疏简洁的表示,即稀疏表示.稀疏表示领域的核心思想在于用尽可能少的非零元素对原始数据信号进行表示,即通过稀疏编码用少量的数据来高效表示原始目标信号数据的关键信息,减小了信号的
船舶工业是现代综合性产业,是国家制造业体系中的重要支柱。船舶管件制造具有典型的多品种、变批量、混线生产、工艺复杂等特点,所涉及的加工流程复杂,生产变动因素多,生产节点要求苛刻,给管件的加工带来了很大的困难。现阶段管件加工车间信息化水平较低、多数依靠人为经验的生产管理模式,已无法满足节能减排、节约成本、提高效率的要求,成为车间生产制造的瓶颈。所以,要突破船舶管件制造现状,就需要针对工艺设计、生产过程
近年来,随着我国汽车消费市场的繁荣,汽车厂家、金融机构对以汽车作为载体的消费金融业务愈发重视。随着汽车销售市场竞争的愈发白热化,终端经销商通过零售获取的利润越来越低,甚至不惜亏损销售。恶劣的竞争环境迫使汽车经销商利用车辆零售之外的衍生业务,增加整体利润空间。其中,汽车金融业务作为衍生业务的突破口,不断推出更具竞争力的金融产品,首付一降再降、贷款资料一减再减、审批速度更能实现秒批。若客户选择分期购车
随着经济的发展和汽车的普及,城市或者城郊的交通环境变得更为复杂。而非机动车出行作为日常交通出行的交通工具的补充方式之一,在短距离出行扮演重要角色。中国事故统计数据显示,在近年来在中国交通领域中,与非机动车相关的事故发生率持续上升,中国超过一半的交通事故与非机动车有关。由于非机动车体积小,速度快,其行驶路径容易被其他车辆或者其他事物所阻挡,在行驶的过程中无法及时对非机动车横穿马路的行为进行反应。因此
工业数字时代下产生了大量的数据,如何将数据转化为有价值的知识是值得研究的问题。作为智能制造中的关键技术,工业机器人在整个自动化生产过程中起着重要的影响作用。由于工业机器人的系统结构越来越复杂,一旦发生故障,可能会影响整个生产周期,准确地对工业机器人进行故障诊断,使其处于最佳的工作状态至关重要。随着知识图谱的发展,将有经验有价值的数据转化为知识分析越来越被重视,因此提出了构建工业机器人故障诊断知识图
随着近几年制造业的突飞猛进,玻璃生产业对玻璃的精度要求也越来越高,尤其是应用于精密仪器所生产的玻璃面板。玻璃面板的缺陷检测,在工业生产上处于尤为重要的地位。由于手机玻璃面板本身具有易反光、表面光滑和精巧等特性,目前关于手机玻璃面板缺陷的数据非常稀缺,如果人为制造缺陷不仅会比较困难,还导致材料的浪费,加大了生产成本。另一方面,手机玻璃面板缺陷数据在采集过程中需要到独特的打光方式以及高清的工业相机,更
科技进步日新月异,伴随而来的是国内外各种机器人技术的快速发展,无人机技术发展也瞬息万变起来。无人机技术囊括了诸多理论知识以及工程知识,是一种多学科交叉融合的先进技术,在全世界无人机科研人员的不懈研究下,从飞控底层驱动优化,到控制律改进等等,无不为提升无人机性能提供了良好的基础。与载人飞行器相比,无人机具有体积小、造价低、使用方便、不需要长时间培养操作人员的特点,这些优势使得无人机广泛应用于航拍、电
图像描述子是一种非常常用的表示图像特征信息的方法,其被广泛运用于图像分类、三维重建、稀疏匹配、稠密匹配等热门的机器视觉任务上,是目前机器视觉领域里面的一个研究热点。描述子最重要的两个特性是不变性与可区分性,目前基于深度学习的描述子算法虽然在很多任务上都超越了传统人工设计的描述子算法,但其尺度不变性的表达比较弱,不容易区分不同分辨率的图像。因此本文立足于解决深度学习方法的尺度不变性问题,借鉴其他任务
由于嵌入式系统的特点,嵌入式设备的软硬件往往是按需设计,无法预留满足各种功能的接口。这导致了嵌入式设备在切换工作场景时,其软硬件往往需要重新设计,以满足用户的个性化需求。同时,在通过分析某工程客户“机器人+视觉”的应用,发现该应用需具备多种功能,在项目的应用过程中,往往需要根据跟用场景的不同而频繁调正控制器的软硬件。为了有效解决上述问题,本文针对该工程客户“机器人+视觉”的应用,设计了一个可组态的
牙科树脂以其良好的物理化学性能及容易操作等特点,成功取代了传统的银汞合金成为了目前牙齿修复的首选材料。但树脂修复体的平均寿命仍较大程度落后于银汞合金,其主要原因即材料本身力学性能不足导致的修复体断裂,以及树脂聚合收缩或热膨胀系数不匹配导致的边缘裂隙和二次龋齿等。因此,为了解牙科树脂固化动力学特征,相继诞生了一系列固化监测方法,如差示扫描量热法、动态热机分析法、介电分析法等。但这些方法大多为接触式方