【摘 要】
:
随着互联网和物流系统的高速发展,线上购物方式已经成为消费者购买商品的首要选择。在网络购物规模日益扩大、频率日益增加的背景下,电子商务平台每天都会产生大量的商品评论数据。线上购物中商品评论对消费者购买意愿有较大影响,而动辄数以万计的商品评论需要使用情感分析系统分析。现有的情感分析系统多采用监督学习方法,这种方法需要大量高质量标注数据对模型训练,但标注数据的获取需要昂贵的人工和时间成本,同时无标注数据
论文部分内容阅读
随着互联网和物流系统的高速发展,线上购物方式已经成为消费者购买商品的首要选择。在网络购物规模日益扩大、频率日益增加的背景下,电子商务平台每天都会产生大量的商品评论数据。线上购物中商品评论对消费者购买意愿有较大影响,而动辄数以万计的商品评论需要使用情感分析系统分析。现有的情感分析系统多采用监督学习方法,这种方法需要大量高质量标注数据对模型训练,但标注数据的获取需要昂贵的人工和时间成本,同时无标注数据获取难度小且成本低廉。半监督学习方法能够利用大量的未标注数据,只需要少量标注数据就能完成模型的训练。目前,深度学习研究热度不减,相较于传统机器学习方法,基于深度学习的情感分析方法在泛化能力上拥有更为优异的表现。因此,将深度学习模型更好地融入到半监督学习算法成为关注的热点。半监督学习中自训练算法通过将伪标签加入标注数据集的方法进行迭代训练,算法中分类模型不仅学习到伪标签的知识,其中的噪声会在迭代中不断积累,最后出现模型泛化能力下降的问题。基于以上分析,本文主要工作包括以下几点:(1)针对半监督学习算法中自训练算法因伪标签噪声引起的泛化能力下降问题,本文以BERT(Bidirectional Encoder Representation from Transformers)模型作为基础分类模型提出BERT自训练算法。该算法分别使用伪标签和标注数据集对模型进行两次训练,在获取伪标签知识的同时利用灾难性遗忘现象缓解噪声对泛化能力的影响。同时该算法借鉴知识蒸馏模型采用双模型结构利用含有权重参数的交叉熵损失函数平衡伪标签和标注数据集知识对模型参数的影响。(2)本文对京东商城iphone13系列手机商品评论进行爬取和清洗,之后以知网情感词典和领域新词为依据对原始数据集中3000条评论样本进行手工标注构建实验数据集。最后使用该实验数据集对BERT自训练算法进行超参数调优并通过实验对优化方法的有效性进行验证,相比于传统自训练算法,该算法泛化能力得到提升。(3)本文利用BERT自训练算法实现商品评论情感分析系统的设计与开发,该系统主要包括评论爬取功能、评论极性标注功能、情感极性分析功能和情感极性预测功能。系统采用MVC架构设计,通过前后端分离的方法降低模块间的耦合性。最后本文利用黑盒测试方法对系统功能有效性进行测试。综上所述,本文针对半监督学习算法中自训练算法中的一些问题,提出融合了BERT模型的BERT自训练算法,之后通过商品评论情感分析系统的设计与实现展示该算法在现实应用中的有效性。
其他文献
手势作为人类一种原始的交流方式,其特点是宜表达。无论是在人机交互还是在虚拟现实等领域都有着十分重要的研究价值。近年来随着深度学习的浪潮,各种基于深度学习的图像、视频处理技术的手势识别模型被提出,其中不乏一些在某些具体应用任务中效果显著的模型。相较于传统识别模式,深度学习方法可以自动且高效地提取图像特征,极大地提高了识别的准确率。然而,主流的识别算法为了达到更高的精度,往往有着极为深层的网络结构和极
近年来,科学技术水平飞快提升,越来越多的理论基础应用到实际生活中,而计算机视觉有着广阔的应用场景,例如自动驾驶,安防监控,智慧医疗等。目标跟踪作为计算机视觉中的一个热门研究领域,近年来也受到广泛关注。目前,目标跟踪已在工业生产、医疗、教育及交通管理等方面广泛应用。尽管如此,目标跟踪仍面临跟踪精度和跟踪速度的双重挑战。而孪生网络具有权重共享的特点,保证精度的同时降低了网络参数量。因此,孪生网络在目标
如今,伴随着互联网和智能终端的广泛应用,教学模式也随之发生了巨大的变化,在线教育受到了越来越多人的青睐。在网络学习的环境下,受到网速等因素的影响,学生无法保持老师当面授课那样的专注度。而课堂专注度是评估学习质量的重要指标,代表着学生对知识的接受程度和感兴趣程度。另外,在传统的教学模式下,教师可以时刻观察学生的课堂表现。但是在线教育由于空间的限制,教师无法及时获取到学生的学习情况。所以在线上授课的过
在人工智能技术不断发展的历史大背景下,中国的教育行业也逐步引入人工智能技术来辅助教学。对不熟悉的试题,进行针对性的重复练习是提升学习效果的重要手段。然而,家长往往难以获取试题的原始电子文档。通过图像处理工具对试卷笔迹进行手动擦除成为一种获取原始电子文档的手段,这种方法不仅浪费了大量的人力资源,对于不会操作图像处理工具的家长更是形成了阻碍。本文针对这种应用场景,提出一套试卷图片笔迹自动擦除的技术方案
视觉三维重建可以利用二维图像得到三维点云,还原物体的三维信息,这是许多三维应用中核心的一步。三维重建中,单目视觉法以其设备简单、成本低、使用灵活以及适用场景广泛等优点而深受学界与业界青睐。稀疏重建作为单目视觉法中基础的一步,是提升三维重建性能的方向之一。当前的稀疏重建中,都是单独用一种特征提取算法进行稀疏重建。因为每种特征提取算法所提取的特征有各自的优点,且目前没有任何一种特征提取算法能够很好地应
近年来,随着卡通动漫产业的蓬勃发展,有关卡通类的视频呈现了爆炸式的增加。对卡通类视频智能化理解的首要步骤就是对视频中动漫角色的身份信息正确识别,如何正确识别这些动漫角色是计算机辅助建模、摄影、自动剪辑、广告推荐等众多视觉应用不可或缺的前提条件。因此在卡通动画场景中,如何智能化的实现动漫角色的检测是当下一个亟待解决的问题。深度学习在图像分类领域取得了很大的成果,有效地提高了图像检测和识别的精度,以及
数字高程模型(Digital Elevation Model,DEM)在地质、军事、水文、测绘和灾后应急救援等方面提供了十分重要的数据支持。湖北省的地貌类型多样,山地、平原、丘陵和岗地兼备,地势高低起伏较大,西边神农架的最高峰神农顶海拔可达3105米,而在其它中南部等区域的海拔多在35米以下,因此对湖北省的DEM数据及地形地貌进行研究具有易扩展性。由于单个DEM数据产品具有局限性,而且越来越多的D
肺癌是常见的癌症类型,也是发病率和死亡率均位居前列的疾病。肺癌早期的表现大多是肺部出现小结节,因此肺结节良恶性的早期定性诊断成为临床研究的重点。医生通过CT技术对肺结节进行筛查,降低了肺癌的死亡率,然而,人工观察CT图像进行疾病诊断效率较低且主观性较强。因此,基于CT图像检索的肺结节辅助诊断研究对提高医生的诊断效率具有重要意义。传统的医学图像检索方法存在手工提取病灶区域的局限性,本文基于图像分割的
随着互联网技术的蓬勃发展,电商行业在互联网技术的支持下也取得了高速的进步,由于网络购物的便捷性与高效性,越来越多的人选择在电商平台进行消费。网购过程中会产生大量的数据,而商品评论就是其中非常重要的一部分。普通消费者在选购商品时会重点参考商品的在线评论,然而在线评论往往体量巨大,导致消费者无法高效利用。为了使消费者能够充分地利用在线商品评论进行网购,本文结合相关理论技术实现了一个基于在线评论的商品辅
随着市场对工业产品的要求越来越高,基于传统数字图像处理的自动化表面缺陷检测难以满足实际生产需要。随着基础硬件计算力的提升,人工智能(AI)技术逐渐登上应用舞台,这促使基于深度学习的表面缺陷检测方法成为工业视觉领域中的主流研究方向之一。然而,AI应用开发有着训练数据来源及格式复杂、训练依赖于多类型资源、开发流程繁琐等特性,现今公开的AI解决方案和相关平台存在模型和图像数据管理不统一、数据安全性不高和