论文部分内容阅读
随着电子商务和社交媒体等Web2.0应用的高速发展,互联网上积累了海量且规模不断激增的用户行为数据。如何通过分析这些海量用户行为数据建立用户偏好模型,进而为个性化服务提供相应的支撑技术已成为当前业界和学术界的研究热点。在线评分数据,代表了用户对事件或产品的综合评价,蕴含了用户的潜在偏好在其中。通过分析评分数据进行偏好建模并估计用户偏好,对个性化推荐、精准营销等个性化服务有重要意义。近年来,机器学习、人工智能等领域的研究人员提出了许多利用评分数据进行偏好建模的方法,但这些方法大多无法客观地表示数据中属性间的依赖关系或模型可解释性较差。隐变量模型能够利用隐变量描述隐含知识,进而简化模型和增强模型的可解释性。含隐变量的贝叶斯网(BayesianNetwork,BN)作为近年来不确定性人工智能领域的研究热点,现已被应用于许多不确定性问题推理领域。本文基于含隐变量的BN这一隐变量模型,利用隐变量表示用户偏好,构建表示评分数据中属性间任意形式依赖关系及不确定性的用户偏好模型。然而,隐变量模型的构建十分困难和复杂,其学习过程涉及迭代计算且每次迭代都包含NP-难的概率推理过程。因此,为了在评分数据上有效地基于隐变量模型进行偏好建模,本文对隐变量模型的数据拟合特性以及评分数据进行分析,提出了一种基于约束的用户偏好建模方法,并基于分布式内存计算框架Spark设计模型构建并行算法。此外,对于模型的应用,本文基于模型推理也给出一种用户偏好估计的方法。综上,本文的主要研究内容概括如下:(1)用隐变量表示用户偏好,定义了描述评分数据中观测属性与潜在用户偏好间的依赖关系及不确定性的用户偏好贝叶斯网(UserPreferenceBN,UPBN)。(2)给出了一种用于保证隐变量模型在利用期望最大化(Expectation Maximization,EM)算法进行参数学习时能够完全拟合数据集的性质。(3)根据上述性质以及评分数据的领域知识设置约束,利用结构EM算法给出了一种基于约束的UPBN构建方法,并基于Spark设计模型构建并行算法。(4)提出了一种基于变量消元法的UPBN模型推理算法,并基于该推理算法,给出了一种用户偏好估计的方法。