【摘 要】
:
信息技术的快速发展,不断促使人们的生活方式由线下转为线上。推荐系统通过用户历史行为记录,进行信息过滤和用户兴趣定位,提升用户的线上体验质量,是机器学习中解决信息过载问题的核心技术,在电子商务、新闻、视频、广告等领域已产生了巨大的经济效益,受到了了学术界和工业界的广泛关注。但是用户的购买、浏览等历史行为数据具有高度的稀疏性和长尾效应,难以准确地捕捉用户的信息需求,辅助信息的有效利用成为了提高推荐系统
论文部分内容阅读
信息技术的快速发展,不断促使人们的生活方式由线下转为线上。推荐系统通过用户历史行为记录,进行信息过滤和用户兴趣定位,提升用户的线上体验质量,是机器学习中解决信息过载问题的核心技术,在电子商务、新闻、视频、广告等领域已产生了巨大的经济效益,受到了了学术界和工业界的广泛关注。但是用户的购买、浏览等历史行为数据具有高度的稀疏性和长尾效应,难以准确地捕捉用户的信息需求,辅助信息的有效利用成为了提高推荐系统精度的关键。一般情况下,推荐系统中,除用户的浏览、购买、收藏等历史记录外,还包含了大量的辅助信息数据,如用户的年龄、地域、标签等,物品的描述文本、图片、评论等,这些辅助信息同样易于收集,并且能够更直观地体现用户行为和用户兴趣之间的关系。在这些辅助信息中,用户的评论文本是一类被广泛用于提高推荐精度的辅助数据。相较于其它的辅助信息,使用评论文本有着如下两个方面的优势。(1)评论文本中包含丰富的语义信息,可以直观地描述用户兴趣点和物品属性、特征等之间的内在关系。(2)评论文本易生成个性化的推荐解释,可提高推荐系统的因果解释能力。本文基于深度学习算法,融合评分数据和评论文本数据,通过挖掘文本中的语义信息,提高推荐结果的准确度以及推荐结果的可解释性,主要工作概括如下:
(1)基于现代自然语言处理技术,本文提出了一个适用于推荐场景的文本特征提取方法,可以有效地提取来自评论文本数据中的语义特征信息,提高推荐的精度。通过引入注意力机制,将文本中不同的词语赋予的不同权重,高亮权重大的词语,作为文本的主要特征描述。同时,还设计大量的实验来验证所提出的文本特征提取模块对于精度提升的有效性。
(2)借助于深度学习的技术,本文实现了一个基于深度学习的融合用户评论文本的推荐算法框架。这个算法框架可以同步学习用户的喜好信息,和用户评论文本数据中的语义信息。实现端到端的训练,方便进行模型的训练、测试和部署。
(3)提出了一种新颖的异质信息特征融合方法,将用户和物品的不同特征进行有效的融合和协同学习。通过在框架内部和多种特征融合方法进行大量的实验对照分析,充分证明了本文所提出方法的有效性和合理性。同时与多种前沿方法相比,也取得了优越的推荐结果。
其他文献
“一带一路”政策的推行掀起了“汉语热”的狂潮,然而,不少把中文作为第二语言的外国学习者都遇到了汉语学习难的问题。如传统汉语学习模式单一,教学资源缺乏以及语言差异等。人类感知交流是一个多感官过程,视听多模态信息可以有效促进语言的理解与学习。智能辅助语言学习,就是通过为学习者提供有关发音器官运动的指导,增强学习者对发音的理解,更准确地掌握发音规律,从而在一定程度上有效解决了汉语学习难的问题。 考虑到
轻度认知障碍(MCI)是阿尔兹海默症(AD)的前驱阶段,对轻度认知障碍所处阶段的精确诊断具有重要意义。本文旨在通过对静息态功能磁共振成像(rs-fMRI)信号进行直接分析建立诊断不同阶段(早期和晚期)的轻度认知障碍的分类框架,并通过总正确率,特异性(晚期MCI的正确率)和敏感性(早期MCI的正确率)评价其分类性能。 通过应用解剖自动标记(AAL)模板,将受试者的所有fMRI图像分割为116个感兴
差分隐私是一种严格的、可证明的隐私保护方法。与其他隐私模型相比,差分隐私可以成功抵御大多数隐私攻击并为数据集中的单条数据提供隐私保护。信息的实时发布使得越来越多的在线系统挖掘和分析个人的信息,讨论并设计更先进的差分隐私在线学习算法具有非常广泛的实践意义。但现有的差分隐私在线学习方法在适用范围上有很大的局限性,且算法的准确性较低。针对该问题,本文提出一种更通用、更准确的差分隐私在线学习方法。主要内容
广告点击率(Click-through Rate, CTR)预估是在线广告推荐中的一项重要研究任务,它旨在预测用户在广告显示中点击广告的可能性。最近,随着神经网络在很多领域都取得了不错的成绩,越来越多的研究人员提出了基于神经网络的模型用于CTR预估任务中。这些基于神经网络的CTR预估模型一般只通过原始特征去学习低阶和高阶特征交互。然而,原始特征通常都是高维稀疏的这使得神经网络模型很难在大量参数下学
进入21世纪以来,地理分布式的公有云平台已成为最为普及的互联网基础设施。在云平台上部署应用服务具有投入低、性能高、可移植性强等优势,目前已成为互联网公司的首选方案。然而,在进行跨数据中心的应用部署时,由于应用实时性要求高,数据中心间流量大,以及同类应用相互竞争等原因,使得跨数据中心应用的资源管理面临着网络传输实时性难以保障,网络传输费用居高不下,以及竞争环境下资源分配方案难以制定的问题。为此,本文
随着互联网和虚拟化等技术的快速发展,云计算的研究和应用发展迅猛,已经成为当前主流计算模型,为互联网服务、企业应用、科学研究等诸多领域提供多用户弹性服务。同时,云计算在应用过程中存在的问题也暴露出来,特别是“同时满足系统资源利用率与用户体验要求”的难题日趋突出,使得如何在保障用户体验的前提下优化系统的资源管理,成为当前亟待解决的重点问题。本文研究面向用户体验的云计算系统资源管理技术,围绕用户体验保障
目标跟踪是指对连续图像序列,通过给定初始帧中目标的初始状态(例如位置和范围),估计目标在后续图像序列中的运动轨迹。目标跟踪是计算机视觉领域的研究热点。由于超高分辨率遥感技术的发展,从卫星视频中跟踪目标已成为可能。然而,卫星视频中的目标通常在整个图像上占比很小,与背景过于相似,因此现有的自然视频目标跟踪算法都无法在卫星视频中具有令人满意的精度。光流法能够计算像素点微小运动的光流矢量,从而提取目标的运
长文本语义匹配任务因其结构复杂、语义多变,难以捕捉实体间的潜藏的依存关系,成为了自然语言处理领域学术界和工业界的研究热点。在处理突发新闻挖掘、信息流推荐等实际场景时,对匹配算法的实时性和准确性也产生了新的要求。目前工业界仍广泛采用基于序列的循环神经网络架构,在应用于长文本任务时,存在训练时间大幅增加、难以捕捉非线性上下文关系等不足。针对这一现象,本文基于Attention机制和图卷积神经网络,从长
近年来,加密货币发展迅速,其市值不断攀升,区块链作为加密货币中最重要的技术,越来越受到学术界和工业界的重视。然而,区块链系统的扩展性差,导致吞吐量极低、交易延迟长。在比特币网络中,交易吞吐量约为7TPS(Transaction Per Second),一个交易的延迟时间约为10分钟,在以太坊网络中吞吐量约为15TPS,交易延迟约为15秒。当前,在解决区块链扩展性问题方面,支付通道网络被认为是一种很
情绪是人类对外界事物感知的反馈,反映了人际交往及决策过程等日常活动中的认知行为与状态。通过研究情绪识别的关键技术方法,能够有助于诸多人机交互系统的发展与应用,如社交机器人、医学治疗、驾驶员疲劳监视等,因此情绪识别已成为人工智能领域的一个重要研究方向。 当前,情绪识别研究主要分为两个方向:基于人脸图像的情绪识别和基于EEG(Electroencephalogram)信号的情绪识别。由于人脸姿势、遮