论文部分内容阅读
随着互联网的日益普及,特别是移动互联网的“爆炸式”发展,互联网上的资源日益丰富,主要表现在两个方面:1、数据量呈现指数式的增长;2、数据来源的不断丰富,导致数据的类型日益增多。如何从多样化的海量数据中挖掘有价值的规律和内容变得越来越重要,吸引了众多来自学术界和工业界的学者的浓厚兴趣。随着人工智能的不断发展,尤其是机器学习技术的日益成熟,利用机器学习的方法从这样的海量数据进行挖掘已经变成了非常流行,且行之有效的方法。排序算法和推荐算法是从大数据中挖掘有价值的内容的两种常用的算法类型。本文的排序算法指的是搜索中的排序算法(ranking algorithm),在用户给出查询内容以后,把结果按照与查询内容的相关度排序,然后返回给用户。推荐算法则是根据用户的喜好,预测用户对物品或是信息的打分。排序算法和推荐算法都可以将用户想要获取的信息提供给用户,帮助他们找到所求,正是这样的应用价值,不仅使它们在工业界得到了广泛应用,在学术界的也受到了很大关注。本文的工作是基于异构图的排序和推荐算法研究。这类算法不仅可以利用机器学习的方法从数据中挖掘有价值的信息,而且通过使用异构图,还可以在设计算法时考虑不同来源的数据,使用更加丰富的信息,从而提高方法的效果。主要进行了两方面的研究:1)一种基于异构图的自反馈半监督学习图像重排序算法。基于图的视觉重排序方法由于出色的性能,吸引了很大的关注。在这类方法中,首先构建图,其中图的顶点是图片的视觉特征,边的权重是图片之间的视觉特征的相似度,然后运行一些算法来得到图中各顶点的排序得分。这类基于图的方法通常基于排序得分的一致性假设:相邻的顶点(边之间的权值小)有相近的排序得分。但是对于多媒体检索,例如图片搜索来说,仅仅使用单一模态的数据(例如视觉特征)的效果不是很好。所以本文提出的方法同时使用多种模态特征的图像数据,包括文本特征和视觉特征。基于下面的基本假设来进行建模:图像的视觉特征和文本特征只是图片不同角度的表现,它们在语义上是相似的,也就是说,图像的视觉特征和文本特征只是图像在不同空间的表现,它们的排序得分应该是相近的。基于此,提出了一种基于异构图的自反馈的半监督学习算法来进行图片的重排序,具体来说,首先使用视觉特征和文本特征来构造一个异构图;然后在异构图上运行一个带正则项的自反馈半监督学习算法来传播排序得分;最后根据学习的结果进行图像的重排序。2)一种基于异构图的融合隐式社交关系的混合推荐算法。最近越来越多的工作开始研究如何利用社交关系来提高协同过滤推荐(特别是矩阵分解)算法的性能。由于显式的社交关系并不总是容易获得的,一些作者开始研究在矩阵分解中使用隐式的社交关系。不过相关的工作只是利用了传统的皮尔逊相关系数和余弦相似度函数来挖掘隐式的社交关系,比较简单。本文的方法是首先构建包含数据库中丰富信息(包含用户,物品信息)的异构图,然后使用随机游走的方式来更好的挖掘隐式社交关系。基于使用随机游走方法挖掘的隐式社交关系,再结合基于记忆的推荐和协同过滤算法,提出了一种基于异构图的融合隐式社交关系的混合推荐算法。上面提到的两种算法在公开的数据与经典算法进行对比实验,对算法的有效性进行了验证。此外,排序和推荐算法在互联网行业中有广泛的应用,因此本文的研究内容具有比较好的应用前景。