基于隐变量模型的评分数据分析与用户偏好建模

来源 :云南大学 | 被引量 : 0次 | 上传用户:zjamoy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子商务和社交媒体等Web2.0应用的高速发展,互联网上积累了海量且规模不断激增的用户行为数据。如何通过分析这些海量用户行为数据建立用户偏好模型,进而为个性化服务提供相应的支撑技术已成为当前业界和学术界的研究热点。在线评分数据,代表了用户对事件或产品的综合评价,蕴含了用户的潜在偏好在其中。通过分析评分数据进行偏好建模并估计用户偏好,对个性化推荐、精准营销等个性化服务有重要意义。近年来,机器学习、人工智能等领域的研究人员提出了许多利用评分数据进行偏好建模的方法,但这些方法大多无法客观地表示数据中属性间的依赖关系或模型可解释性较差。隐变量模型能够利用隐变量描述隐含知识,进而简化模型和增强模型的可解释性。含隐变量的贝叶斯网(BayesianNetwork,BN)作为近年来不确定性人工智能领域的研究热点,现已被应用于许多不确定性问题推理领域。本文基于含隐变量的BN这一隐变量模型,利用隐变量表示用户偏好,构建表示评分数据中属性间任意形式依赖关系及不确定性的用户偏好模型。然而,隐变量模型的构建十分困难和复杂,其学习过程涉及迭代计算且每次迭代都包含NP-难的概率推理过程。因此,为了在评分数据上有效地基于隐变量模型进行偏好建模,本文对隐变量模型的数据拟合特性以及评分数据进行分析,提出了一种基于约束的用户偏好建模方法,并基于分布式内存计算框架Spark设计模型构建并行算法。此外,对于模型的应用,本文基于模型推理也给出一种用户偏好估计的方法。综上,本文的主要研究内容概括如下:(1)用隐变量表示用户偏好,定义了描述评分数据中观测属性与潜在用户偏好间的依赖关系及不确定性的用户偏好贝叶斯网(UserPreferenceBN,UPBN)。(2)给出了一种用于保证隐变量模型在利用期望最大化(Expectation Maximization,EM)算法进行参数学习时能够完全拟合数据集的性质。(3)根据上述性质以及评分数据的领域知识设置约束,利用结构EM算法给出了一种基于约束的UPBN构建方法,并基于Spark设计模型构建并行算法。(4)提出了一种基于变量消元法的UPBN模型推理算法,并基于该推理算法,给出了一种用户偏好估计的方法。
其他文献
粮食仓储安全事故诊断及安全威胁预警技术的研究,对于促进粮食储藏安全具有十分重要的意义。本文在全面分析当前我国粮食安全现状,特别是储粮安全所面临的主要问题和需求的基础
进入到高中阶段,音乐学科内容变得更加的抽象。音乐鉴赏部分是学习的重点,蕴含的内容丰富,涉及到的文化背景十分广阔。高中的音乐教学涉及到的时间减少,教师要想在短的时间内
自主创新能力是衡量一个国家科技水平高低的关键因素,也是一个国家参与国际竞争的重要砝码。在信息全球化的背景下,一个国家的自主创新实力和科技创新水平决定着这个国家的国际
<正>阿尔茨海默病(Alzheirner’s disease,AD)的发病机制复杂,且神经元变性丢失后不具再生能力。尽管目前尚无特效治疗方法,但早期诊断、早期治疗对延缓患者日常生活质量迅速
会议
<正>在现代化社会飞速发展的今天,随着人类社会分工更加专业化与人们经济生活水平的不断提高,对于食品的消费从以往传统由家庭烹饪为主转向专业生产加工为主,逐渐向社会化转
针对断路器低电压分合闸测试中的具体操作,对单一点测试与阶梯测试以及单相测试与三相测试问题进行了比较和探讨,提出更加可靠、安全、合理的低电压分合闸测试方法。
目的探讨血清降钙素原(PCT)检测对恶性肿瘤并发感染患者的临床价值。方法根据资料采用回顾性分析,选取50例恶性肿瘤并发感染的患者为肿瘤感染组,50例肿瘤门诊复诊无发热、无感
从研究食用菌失水规律入手,着重分析了食用菌中的水分性质及其干燥机理、影响干燥作用的因素,并结合研究和生产实际,介绍了几种香菇的干燥方法。
听课的老师和学生都散去了。我关上教师机,开始清理网络教室,也开始整理自己的思路。这节课,是成功还是失败?初次尝试网络教学,得失不能用一句话来概括。回想这段时间的努力,有些东
随着我国市场经济的成熟、知识经济的到来及经济全球化的深入,企业经营管理出现了新的特点。本文从提高企业经营管理水平出发,对提高财务人员综合技能的必要性及其途径进行了阐