基于稀疏学习模型的用户行为挖掘与预测方法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:maclin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的迅猛发展,人们的学习、生活和工作方式正在被许多互联网服务及应用改变着。同时,Web2.0时代的背景下也使得互联网与用户之间的交互方式变得多样化。因此,用户在互联网上的行为数据也变得越来越丰富,比如查询点击数据、社交标签数据和社交信任数据等。然而用户行为数据一般都具有规模巨大、关系稀疏以及含有许多噪音的特点。这些特点使得从互联网用户行为数据中挖掘有用的模式以及预测用户的行为规律成为了一项非常有挑战的工作。  近些年来,稀疏学习模型已经在机器学习和数据挖掘等领域得到了广泛的研究,并且在大量的实际应用中展现出了优异的性能。通过在传统模型中引入稀疏化技术,稀疏学习模型在自动选取关键变量、节约存储空间等方面表现出了显著的优势。在本文中,研究和优化了多种稀疏学习模型,并将它们应用到多种互联网用户行为数据的挖掘和预测任务上,从而帮助相应的互联网服务及应用提升性能和用户体验。  具体而言,本文的主要工作可以总结为如下几个方面:  多侧面搜索已经成为互联网搜索引擎中一种非常流行的交互方式。本文中提出了一种新颖的多侧面图书搜索引擎,它能为用户提供与输入查询词相关的隐含查询意图。我们详细介绍了该多侧面图书搜索引擎的离线处理部分和在线搜索流程。离线处理部分中利用了稀疏隐语义分析模型对搜索日志中用户的查询点击行为进行建模。由于该模型属于非监督的学习方法,因此大量的隐含查询意图可以被自动地发掘出来作为候选侧面。此外,模型学习到的稀疏投影矩阵也能节省大量的计算时间和存储空间,这也极大地提高了该多侧面图书搜索引擎的效率。  模糊和多侧面查询词广泛地存在于学术和商用的搜索引擎中。因此,挖掘查询词的流行子话题对于搜索引擎来说就变得至关重要了。本文中提出了一种新颖的从搜索日志中挖掘查询词流行子话题的方法。为了克服查询词子话题挖掘所面临的众多挑战,该方法很好地结合了减法聚类和非负稀疏隐语义分析模型的优点。此外,该方法也被应用到CADAL数字图书馆中来帮助图书搜索引擎更好的处理模糊和多侧面的查询词,以提升用户在搜索图书时的体验。  社交标签网站上的标签已经成为互联网上非常有价值的一种数据来源。本文中利用非负稀疏隐语义分析模型来发掘多媒体资源和标签关系数据背后的隐含语义空间。基于传统的坐标下降法,模型中的列正交和非负的约束,我们从理论上推导出了一种更为高效的求解该模型算法。此外,我也利用英伟达CUDA架构对该快速求解算法在GPU上进行了并行化的实现,同时提出了一种数据分割机制来解决GPU内存和计算机主存之间的内存交换问题。我们在两个真实的标签数据集上分别进行了标签推荐和图像分类的实验。实验结果表明该GPU加速的求解算法在得到相同效果的前提下,运行效率比原始求解算法要快20至110倍。  随着社交网站的飞速发展,在线用户越来越依赖于社交信任关系来做出相应的决策。本文中从全局最近邻协同过滤的角度提出了一种新颖的面向社交信任预测的结构化稀疏线性模型。该模型将预测问题形式化为一系列相互独立的成对弹性网络正则化的线性回归问题,从而自动地学习某个用户与其最相似邻居之间的组合系数。为了高效处理大规模稀疏的社交信任数据,也提出了一种随机坐标下降法来降低模型训练时的计算开销。
其他文献
学位
随着交通车辆的日剧增多,交通拥堵变得越来越严重,缓解交通拥堵成了目前迫切需要解决的问题。在缓解交通拥堵的过程中,智能交通技术快速地发展了起来。在智能交通技术快速发展的
学位
随着大数据时代的到来,基于大规模知识库的智能应用已逐渐成为工业界和学术界关注的热点。典型的智能应用如专家系统、语义搜索系统和个人智能助手等都利用了大规模知识库,并采
学位
海洋蕴藏了大量的资源和能源,随着陆地资源日益紧缺,人类的可持续发展将越来越多的依靠海洋。具有自主式、低噪声、大范围和长续航能力的水下滑翔机作为海洋环境监测平台逐步得
分布式文件系统是当前热门的文件系统,以其高性能、高可靠性和高可扩展性成为高性能计算集群的文件系统首选,并成功的应用在天气预报、地震监控、物联网以及基因工程等海量数据
大数据时代和多样化数据对Web技术和传统数据库技术提出新的挑战,XML数据作为Internet上数据描述和数据交换的标准之一其灵活的存储结构和高效的查询反应很好的适应了Web数据
野草算法是近年来提出的一种简单有效的基于群体策略的新型数值优化算法。由于野草在侵略殖民化过程中体现出较强的鲁棒性、自适应性和随机性,自其提出以来受到国内外学术界和
近年来,网络空间的争夺日益激烈,面对复杂多变的网络攻击和破坏行为,如何设计更有效的攻防机制已成为网络安全领域的研究热点。传统的网络安全策略主要分为两类,一类是安装被动防