个性化推荐的可解释性研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:xujuenrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,个性化推荐系统已经逐渐成为各种网络应用中不可缺少的核心功能,并以各种各样的方式影响着人们日常生活的方方面面:电子商务网站中的购物推荐引擎为用户提供可能感兴趣的商品推荐;社交网络中的好友推荐为用户寻找潜在的好友关注;视频网站中的视频推荐为用户提供最可能点击的视频推荐;新闻门户网站中的内容推荐为用户提供最有信息量的新闻——个性化推荐技术已经是支撑互联网智能的基础技术之一。个性化推荐系统已经经过了长达十几年的研究和发展,然而隐变量方法的大量使用使得个性化推荐算法及其推荐结果的可解释性仍然是困扰学术界重要问题之一,并且至今仍然没有在产业应用中得到很好的体现。举例而言,在很多实际推荐系统中,算法只为用户提供一份个性化的推荐列表作为结果,而难以向用户解释为什么要给出这样的推荐。缺乏可解释性的推荐降低了推荐结果的可信度,进而影响推荐系统的实际应用效果。考虑到推荐系统的应用范围之广和影响之大,可解释性推荐的研究具有其重要性和紧迫性。在本文中,我们从数据、模型和经济意义三个方面对推荐系统的可解释性进行研究,主要有贡献如下:1.数据的可解释性:数据输入是个性化推荐系统的第一步,而用户物品评分矩阵是个性化推荐算法,尤其是基于矩阵分解的个性化推荐算法最主要的数据输入形式。本文提出了基于双边块对角矩阵的局部化矩阵分解框架,并将其应用于矩阵分解的并行化。传统的矩阵分解算法将原始矩阵看做一个整体进行分解和预测,而缺乏对矩阵内在结构的理解。在本工作中,我们提出矩阵的双边块对角结构,并在理论上证明该结构与二部图上社区发现算法的数学等价性,从而解释矩阵内在的社区结构和社区关系。在社区结构的基础上,我们进一步提出了局部化的矩阵分解框架,并理论证明了它与传统矩阵分解算法的兼容性,从而为常用的矩阵分解算法提供了一个统一的并行化框架,在提高预测精度的同时大幅提高计算效率。2.模型的可解释性:在用户物品评分矩阵的数据基础上,个性化推荐模型对用户进行偏好建模并给出个性化推荐。本文提出了基于短语级情感分析的显式变量分解模型及其基于时间序列分析的动态化建模。基于矩阵分解的隐变量模型由于其较好的评分预测效果和可扩展性,逐渐成为了个性化推荐的基础算法并在实际系统中得到广泛的应用。然而由于变量本质上的未知性,隐变量模型难以对推荐算法和推荐结果给出直观可理解的解释,进而降低了推荐系统对用户的可信度。在本工作中,我们利用短语级情感分析技术从大规模的用户评论中抽取产品属性词及用户在不同属性上表达的情感,进而引入显式变量并提出基于显式变量分解模型的个性化推荐算法,一方面使得模型的优化过程具备了直观意义,另一方面给出在模型层面可解释的推荐结果和个性化推荐理由。由于用户在不同属性上的偏好具有间周期性,我们利用时间序列分析对用户偏好进行动态建模和预测,从而实现动态时间意义的可解释性推荐。3.推荐的经济学解释。推荐系统在用户行为数据和个性化偏好建模的基础上,以个性化推荐的方式隐式地调节商品在用户中的匹配和购买,从而在最终层面上影响所属系统的经济效益。本文提出基于互联网系统总福利最大化的个性化推荐框架并给出典型应用场景中的具体实现。随着人类传统线下活动的不断线上化,常见的互联网应用均可以形式化为“生产者—服务—消费者”模型,例如在电子商务网站中,网络商家(生产者)提供在线商品(服务),而网络用户(消费者)则在众多的商品中进行选择和购买。基于传统经济学的基本定义,本文首先给出了互联网环境下效用、成本和福利的基本概念与统一形式,并进一步给出了互联网应用中总社会福利的通用计算方法。在此基础上,我们以互联网服务分配为基本问题,提出基于网络福利最大化的个性化推荐框架。进一步,本文在典型的网络应用(电子商务、P2P借贷、在线众包平台)中对该框架进行具体化,并进行个性化的网络服务推荐与评测。实验结果表明,该方法可以在为用户提供高质量服务推荐的同时提升社会总福利,即在提升用户体验的同时又增强了社会效益。
其他文献
埃博拉病毒(EBOV)于1976年在恩扎拉(苏丹)和扎伊尔(现刚果民主共和国)同时暴发的两起疫情中被首次发现,并以后者所在的埃博拉河而得名。EBOV因流行性强和致死率高被认为是目
在农民工政治参与研究中,大部分文献关注农民工的制度环境和工作环境,很少有文献关注作为参与主体的农民工自身的现状。这种强调外部世界的研究路径忽视了对作为政治参与主体
通过对园林植物配置的分析,探讨在环境的影响下园林植物与人的心理发生的作用以及在安全性、实用性、宜人性、私密性、公共性等方面,园林植物与环境的如何合理配置,才能恰到
给出了一种小型飞行器定位误差修正方法。由飞行器运动方程 ,推导出了斜距和飞行状态之间的关系。根据所测得的飞行状态 ,利用 Kalman滤波方法可得斜距估计。根据实测值、最
针对一起电气线路短路引发的出租屋火灾事故的调查,探讨了火灾现场勘验、调查询问、技术鉴定等环节对认定火灾原因的重要性,并阐述了做好火灾善后工作及出租屋消防管理工作的
论文基于云存储概念,首先具体分析了云存储系统构架模式、典型拓扑结构、技术优势及特点,并与传统的存储架构模式进行了对比,然后提出了一种基于云计算的新的存储策略。新的
随着异构数据的快速增长,异构数据间的检索出现效率瓶颈。本文提出引入哈希这种简单的表征形式来加速异构数据间的检索。然而,传统哈希方法无法对异构数据的异构性建模,因此,
蛋白酶活化受体-1(PAR-1)是PARs家族中第一个被发现的成员,也称凝血酶受体。PAR-1被肿瘤微环境中的蛋白酶水解激活后,介导多种肿瘤细胞的生物学行为:促进肿瘤细胞增殖、黏附
模型教学能够使抽象的数学问题变得具体、形象、生动,有助于学生理解知识.基于此,探讨了模型教学在初中几何中的应用.
一个正在走向文明、民主、自由的社会必定需要许多因素的扶植和推动 ,法律作为当今社会最常运用的社会管理工具 ,自然也包括在这些因素之中。一国法律的价值取向将在很大程度