论文部分内容阅读
随着互联网和信息技术的迅猛发展,人们的学习、生活和工作方式正在被许多互联网服务及应用改变着。同时,Web2.0时代的背景下也使得互联网与用户之间的交互方式变得多样化。因此,用户在互联网上的行为数据也变得越来越丰富,比如查询点击数据、社交标签数据和社交信任数据等。然而用户行为数据一般都具有规模巨大、关系稀疏以及含有许多噪音的特点。这些特点使得从互联网用户行为数据中挖掘有用的模式以及预测用户的行为规律成为了一项非常有挑战的工作。 近些年来,稀疏学习模型已经在机器学习和数据挖掘等领域得到了广泛的研究,并且在大量的实际应用中展现出了优异的性能。通过在传统模型中引入稀疏化技术,稀疏学习模型在自动选取关键变量、节约存储空间等方面表现出了显著的优势。在本文中,研究和优化了多种稀疏学习模型,并将它们应用到多种互联网用户行为数据的挖掘和预测任务上,从而帮助相应的互联网服务及应用提升性能和用户体验。 具体而言,本文的主要工作可以总结为如下几个方面: 多侧面搜索已经成为互联网搜索引擎中一种非常流行的交互方式。本文中提出了一种新颖的多侧面图书搜索引擎,它能为用户提供与输入查询词相关的隐含查询意图。我们详细介绍了该多侧面图书搜索引擎的离线处理部分和在线搜索流程。离线处理部分中利用了稀疏隐语义分析模型对搜索日志中用户的查询点击行为进行建模。由于该模型属于非监督的学习方法,因此大量的隐含查询意图可以被自动地发掘出来作为候选侧面。此外,模型学习到的稀疏投影矩阵也能节省大量的计算时间和存储空间,这也极大地提高了该多侧面图书搜索引擎的效率。 模糊和多侧面查询词广泛地存在于学术和商用的搜索引擎中。因此,挖掘查询词的流行子话题对于搜索引擎来说就变得至关重要了。本文中提出了一种新颖的从搜索日志中挖掘查询词流行子话题的方法。为了克服查询词子话题挖掘所面临的众多挑战,该方法很好地结合了减法聚类和非负稀疏隐语义分析模型的优点。此外,该方法也被应用到CADAL数字图书馆中来帮助图书搜索引擎更好的处理模糊和多侧面的查询词,以提升用户在搜索图书时的体验。 社交标签网站上的标签已经成为互联网上非常有价值的一种数据来源。本文中利用非负稀疏隐语义分析模型来发掘多媒体资源和标签关系数据背后的隐含语义空间。基于传统的坐标下降法,模型中的列正交和非负的约束,我们从理论上推导出了一种更为高效的求解该模型算法。此外,我也利用英伟达CUDA架构对该快速求解算法在GPU上进行了并行化的实现,同时提出了一种数据分割机制来解决GPU内存和计算机主存之间的内存交换问题。我们在两个真实的标签数据集上分别进行了标签推荐和图像分类的实验。实验结果表明该GPU加速的求解算法在得到相同效果的前提下,运行效率比原始求解算法要快20至110倍。 随着社交网站的飞速发展,在线用户越来越依赖于社交信任关系来做出相应的决策。本文中从全局最近邻协同过滤的角度提出了一种新颖的面向社交信任预测的结构化稀疏线性模型。该模型将预测问题形式化为一系列相互独立的成对弹性网络正则化的线性回归问题,从而自动地学习某个用户与其最相似邻居之间的组合系数。为了高效处理大规模稀疏的社交信任数据,也提出了一种随机坐标下降法来降低模型训练时的计算开销。