面向稀疏评分数据中用户偏好发现的隐变量模型构建与推理

来源 :云南大学 | 被引量 : 0次 | 上传用户:guyisun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,最能体现互联网智能化发展的是发现用户偏好,即将信息有针对性地推送给用户,体现个性化服务。因此,人们更加关注通过分析用户在互联网上的行为,得到其偏好信息并挖掘其商业价值。例如,电子商务应用中产生了大量商品评分数据,这些数据中富含了大量的用户观点以及偏好信息,但是有些用户购买商品很少或者不进行评分,评分数据具有稀疏性。因此,如何从稀疏商品评分数据中准确地推断发现用户偏好,是个性化服务、精准定向和营销等的重要基础。贝叶斯网(BayesianNetwork,BN)是一种将概率统计应用于复杂领域、进行不确定性表示、推理和分析的工具,本文基于BN来描述评分数据中各属性之间的依赖关系及其不确定性表达。用户偏好客观存在,但往往并不能直接观测得到,可以用隐变量(Latent Variable)来表示用户偏好;由于BN只能描述可观测属性之间的不确定性依赖关系,而隐变量是值缺失的变量,无法利用极大似然估计(Maximum Likelihood Estimation,MLE)法计算其条件概率表(Conditional Probability Table,CPT),使得基于BN的推理无法进行,为此本文引入隐变量模型(Latent Variable Model)来描述含隐变量的属性之间的不确定性,利用期望优化(Expectation Maximization,EM)算法计算隐变量的 CPT。针对以上问题,本文研究主要包括以下三方面的内容:(1)稀疏的商品评分数据中的隐变量模型构建。本文首先用带偏置的矩阵分解(Biased Matrix Factorization,BMF)模型来填补缺失评分值;然后基于互信息的方法构建商品属性贝叶斯网(Commodity BN,CBN);最后基于最大半团和EM算法构建得到含隐变量的商品属性贝叶斯网(CBN with a Latent variable,CBNL)。(2)面向用户偏好发现的CBNL概率推理。针对构建好的CBNL模型,本文利用Gibbs采样给出了基于CBNL模型的近似概率推理算法,通过给定证据变量的取值来计算隐变量可能取值的不确定性,进而高效地发现用户偏好。(3)实验测试。我们使用MovieLens数据集来测试本文所提出方法的正确性和有效性。实验结果表明,本文基于隐变量模型利用Gibbs采样算法来近似推理发现用户偏好的方法具有一定的可行性。
其他文献
本论文首先简要介绍了固态材料表面润湿特性方面的相关基本理论及模型,综述了介电润湿的发展史、研究现状以及目前面临的主要挑战和待改善的问题。基于选用高介电材料来改善
混合交通是我国城市交通流的主要特点,汽车和摩托车、电动轻便摩托车、电动自行车以及自行车之间的相互干扰使得城市道路的拥堵日渐严重,严重影响了交通的顺畅运行。城市路段是
在国家提倡素质教育,大力发展美育的教学思想趋势下,民间美术教育作为一个多元化的教学体系,它的学科不仅跨度大而且操作性强,是一门值得深入研究的课题。其中以中小学阶段的
水乃万物之源,孕育着万物,同样人类的一切生命活动都离不开水。众所周知,喀斯特地区降雨量并不少,但是基于喀斯特地质结构特点,能够存留并且使用的并不多,因此研究喀斯特地区
如今,科学技术高度发达,传感器技术作为信息技术的重要支撑,在科学实验和工业生产实践中起着巨大作用,因此,已有众多学者逐渐投入到传感器的研究中。制作传感器之前,通常要用
巨灾风险管理机制是指在政府的主导下,在全面、动态、系统分析的基础上,将社会各界力量与分散的资金有效协同地汇集起来,共同应对巨灾风险,实现风险管理手段优化组合的整合性
随着可视化技术的逐步发展,医生将医学图像作为病人疾病诊断的重要直观依据,并通过越来越丰富清晰的图像信息来确诊病人的病情以及确定相应的治疗方案。医学图像配准是医学图
改革开放以来,随着经济环境的日益改善,全球一体化程度的加深,我国经济发展取得了巨大成就。其中东部地区经济发展表现尤为突出,究其原因,除东部地区良好的基础设施、政府的
我国女子网球选手在近几年参加的一些网球硬地赛事中取得了不错的成绩,但与世界顶尖球员相比,还存在一些差距。本文运用了录像观察法、文献资料法和数理统计等分析方法,以8位
随着线上线下交易的越发频繁,O2O行业正在以前所未有的速度发展,同时也带来了海量蕴藏着巨大商机的数据。这些数据经过有效处理,可以提取大量用户及产品的相互关联信息,为用