论文部分内容阅读
目前,最能体现互联网智能化发展的是发现用户偏好,即将信息有针对性地推送给用户,体现个性化服务。因此,人们更加关注通过分析用户在互联网上的行为,得到其偏好信息并挖掘其商业价值。例如,电子商务应用中产生了大量商品评分数据,这些数据中富含了大量的用户观点以及偏好信息,但是有些用户购买商品很少或者不进行评分,评分数据具有稀疏性。因此,如何从稀疏商品评分数据中准确地推断发现用户偏好,是个性化服务、精准定向和营销等的重要基础。贝叶斯网(BayesianNetwork,BN)是一种将概率统计应用于复杂领域、进行不确定性表示、推理和分析的工具,本文基于BN来描述评分数据中各属性之间的依赖关系及其不确定性表达。用户偏好客观存在,但往往并不能直接观测得到,可以用隐变量(Latent Variable)来表示用户偏好;由于BN只能描述可观测属性之间的不确定性依赖关系,而隐变量是值缺失的变量,无法利用极大似然估计(Maximum Likelihood Estimation,MLE)法计算其条件概率表(Conditional Probability Table,CPT),使得基于BN的推理无法进行,为此本文引入隐变量模型(Latent Variable Model)来描述含隐变量的属性之间的不确定性,利用期望优化(Expectation Maximization,EM)算法计算隐变量的 CPT。针对以上问题,本文研究主要包括以下三方面的内容:(1)稀疏的商品评分数据中的隐变量模型构建。本文首先用带偏置的矩阵分解(Biased Matrix Factorization,BMF)模型来填补缺失评分值;然后基于互信息的方法构建商品属性贝叶斯网(Commodity BN,CBN);最后基于最大半团和EM算法构建得到含隐变量的商品属性贝叶斯网(CBN with a Latent variable,CBNL)。(2)面向用户偏好发现的CBNL概率推理。针对构建好的CBNL模型,本文利用Gibbs采样给出了基于CBNL模型的近似概率推理算法,通过给定证据变量的取值来计算隐变量可能取值的不确定性,进而高效地发现用户偏好。(3)实验测试。我们使用MovieLens数据集来测试本文所提出方法的正确性和有效性。实验结果表明,本文基于隐变量模型利用Gibbs采样算法来近似推理发现用户偏好的方法具有一定的可行性。