【摘 要】
:
近年来我国电子商务发展突飞猛进,网购人数呈指数性增长。随之而来,面对电商平台海量商品信息给网购用户带来的“信息过载”问题,基于用户选择偏好预测的商品推荐系统所蕴含的重要商业价值日益引起社会各界的广泛关注,并逐渐成为这一领域的研究热点。从实践应用来看,亚马逊早在2003年便已投入推荐系统的设计与研发,并在其网站上率先实现了基于协同过滤的商品推荐系统,同时带动了电商平台内推荐系统的广泛应用。从技术角度
论文部分内容阅读
近年来我国电子商务发展突飞猛进,网购人数呈指数性增长。随之而来,面对电商平台海量商品信息给网购用户带来的“信息过载”问题,基于用户选择偏好预测的商品推荐系统所蕴含的重要商业价值日益引起社会各界的广泛关注,并逐渐成为这一领域的研究热点。从实践应用来看,亚马逊早在2003年便已投入推荐系统的设计与研发,并在其网站上率先实现了基于协同过滤的商品推荐系统,同时带动了电商平台内推荐系统的广泛应用。从技术角度分析,如何采集用户选择偏好并加以利用是智能推荐系统研究的核心问题,即精准用户兴趣模型的动态构建是实现智能推荐系统的关键技术。目前,在这一领域,协同过滤算法虽然取得了巨大成功,但其应用常常会受到评分数据稀疏性等问题的限制,同时近年来的大量应用实践表明,仅仅根据用户评分产生的推荐结果并不能完全准确的表达用户的兴趣偏好。为此,研究人员将研究重点逐渐转向语义更加丰富的商品评论分析。相比于信息单一的评分数据,评论文本不仅能够有效缓解评分数据稀疏性问题,而且其中还包含了用户对于商品最为直接真实的反馈与需求信息,因此更有助于准确刻画用户的选择偏好。基于上述背景,本文从网购评论命名实体识别与情感分析入手,围绕基于网购评论的智能商品推荐技术开展了相关研究,主要研究工作和研究成果如下:(1)针对基于用户评论的细粒度情感分析任务中存在的商品特征识别准确率低和传统的词向量无法获取中文字的多义性等问题,提出了一种融合BERT的商品特征提取模型——BERT-Bi GRU-CRF。该模型在深度学习模型Bi GRU-CRF的基础上,采用Bi GRU和CRF集成的体系结构,通过引入BERT预训练语言模型生成字符向量,增强了原有模型的语义消歧能力。实验结果表明,该模型可以进一步提高从网购评论中提取商品特征的效率和准确性。(2)针对网购用户评论中包含对多个属性词不同的情感极性、属性词及其情感对应不准确和无法充分利用上下文信息等问题,提出了一种融合GCN网络和注意力机制的特征(方面)级情感分析模型。通过与TD-LSTM模型、ATAE-LSTM模型、MGAN模型和CDT模型等代表性情感分析模型进行对比实验,实验结果表明该模型通过使用GCN和注意力机制使得上下文信息得到更充分利用,可进一步提高网购评论中关于商品属性情感分析的准确性。(3)针对传统协同过滤推荐算法常常会受到评分数据稀疏性等问题的限制,同时鉴于仅仅根据用户评分产生的推荐结果并不能完全准确的表达用户的兴趣偏好问题,结合论文在商品特征提取及其情感计算方面所提出的模型算法,通过改进传统的商品相似度计算方法,提出了一种基于细粒度商品情感相似度计算的协同过滤推荐算法及其推荐策略,该算法及其推荐策略的有效性通过在仿真系统内开展的多组实验得到了进一步验证。
其他文献
随着太阳能资源利用力度的加大,全球太阳能光伏系统的总量迅猛增加。对光伏系统进行检测计数可以更有效监管和维护光伏板,实现用电区域的合理规划。同时,统计光伏电站已安装光伏组件的数目,可以方便企业进行资产盘点、项目收购、内部考核等,有利于合理规划光伏板组件安装计划,具有实际应用价值。目前,专门针对光伏板快速检测和计数的研究尚不充分,仍然以人工对航拍图像处理为主,耗时耗力,图像目标检测技术可以很好缓解这一
随着信息技术的迅速发展,如何有效地对海量数据进行分类是数据挖掘领域面临的挑战。集成学习是解决该问题的一种重要方法,其通过组合多个基分类器显著提升了模型的预测效果,被广泛应用于网络数据分析、生物信息识别等领域。然而,海量数据中往往包含着大量冗余特征,影响基分类器的性能。另外,集成模型的基分类器数量会对模型的预测性能造成较大的影响。针对上述问题,本文提出了一种新的多粒度进化森林(Multi-Grain
多摄像头下行人运动轨迹追踪是指通过不同摄像头拍摄的场景中行人的穿着、姿势、携带物等外观和身体特征来识别目标行人,从而确定在多个非重叠摄像头视域内的目标行人出现的先后顺序和位置。目前该项技术已经发展成为机器视觉、人工智能领域的重要研究方向之一,同时被逐渐应用于公共安防,成为视频案件分析的重要手段。目前在多摄像头下行人运动轨迹追踪领域,所采用的研究方法已由传统的机器学习方法转向深度学习方法。同时在行人
近年来,基于可持续资源的能源生产变得越来越重要,太阳能作为一种清洁可再生能源,其开发和应用前景广阔,备受各国青睐。在过去的几十年中,光伏组件产量一直稳定增长,并且未来有望成为主流能源利用形式,有着不可估量的发展潜力。随着机器视觉技术在工业检测领域的广泛应用,无人机航拍巡检成为发展的趋势,利用图像处理技术对航拍光伏阵列影像进行处理与分析是航拍巡检的新要求,主要包括图像拼接、缺陷检测、光伏用地检测和太
生物医学领域的研究发展日益迅速,领域文献的数量呈指数增长,如何自动有效地从这些文献中提取有价值的信息变得越来越紧迫。生物医学文本关系抽取主要是对标记的医学实体之间潜在语义关系的展现,例如药物与疾病之间治疗关系、基因之间的突变关系、化学物质和疾病之间诱导关系等。目前,关系抽取任务大多采用深度学习的方法,该方法的主要优点是不仅减少了大量的人工参与而且还能自动捕获特征。然而现有的模型仍存在以下几个问题。
伴随着网络和移动智能终端的不断发展更新,用户信息呈现出一种爆炸性的增长,通过对用户信息进行数据挖掘和数据分析,可以更好的为用户提供服务,但这些数据中涉及大量敏感的个人信息,所以社交网络图在发布之前需要进行严格的隐私保护。差分隐私保护模型不依赖于攻击者所具有的相关背景知识且有严格的数学理论基础,因此在社交网络图的发布中得到了广泛的应用。目前社交网络图的发布算法大多应用了聚类的方法,但由于聚类时没有考
随着用户需求增长,软件开发愈加复杂,设计模式被广泛应用于解决复杂的软件逻辑与结构问题。但软件开发和维护过程中,设计模式作为软件开发中优秀经验的总结,其信息却很难被开发人员直观地提取应用,因此从源码中识别出设计模式的应用实例的方法颇具研究意义。设计模式识别能有效帮助维护人员理解、维护及重构软件程序,也是能实现设计模式可复用性的重要前提。通过总结文献发现,设计模式识别仍有问题有待研究:(1)识别设计模
随着国民经济和对外贸易的快速发展,国际、国内航运事业需求旺盛,中国的航运业已经成为全球市场最具活力、增长力的市场之一。随着航运事业的发展,来往船舶数逐渐增多,航道拥堵问题日益严重,海上交通安全和船舶航行时间长等问题也随之出现。虽然VTS在很多港口已经投入使用并积累了海量的雷达数据,但目前对这些数据的使用却不是很充分,大量的历史数据被遗弃在数据库中,还消耗着存储资源。目前各个港口的VTS基站都只是针
优化问题是一个热门的研究领域。很多现实中复杂的工程和科学问题都可以被抽象为大规模全局优化问题。大规模全局优化问题具有决策变量维度高(一般超过100维)、搜索空间过于广泛以及大量的局部最优性等特点,因此从大量的解决方案中寻找最佳解决方案是研究的重点。进化算法是目前公认的求解大规模全局优化问题的卓有成效的方法。粒子群算法作为一种基于种群协作的全局寻优进化算法,以其实现简单、参数少以及收敛性能好等优点被
现阶段信息数据每天都在以指数级增长,而在海量的信息数据中,文本数据是最为常见的一种。在实际的生活中大部分文本数据集分布都是不平衡的,而原始的文本分类算法大都在平衡的数据集上进行训练,当在实际的数据不平衡的情况下进行应用时,会对模型的分类效果产生较大影响,因此,如何高效的对不平衡文本数据进行分类是一个具有现实意义且急需解决的问题。本文针对不平衡文本数据集(二分类)存在的问题,从类别损失、特征提取两个