论文部分内容阅读
随着互联网的飞速发展,人们进入了大数据时代。在大数据时代如何对数据进行理解和检索成为研究人员广泛关注的问题,在推荐系统、人脸识别、图像检索等众多实际问题中有着广泛的应用。但是在大数据时代,关于数据本身,我们还面临着很多挑战。第一点,虽然可以很容易的收集到大量数据,但是由于各方面的原因,真实数据经常可能是缺失的、不完整的、或者被部分被干扰的,所以如何进行数据补全和恢复是一个难题。第二点,数据的分类、识别和理解经常需要依赖大量的标注数据,但是大数据时代,虽然数据总量多,但是大部分数据都是没有标注信息的,而人工标注所有数据耗时耗力,因此如何选择最重要、最有信息含量的那部分数据进行标注,从而降低标注成本,也是一个重要的科研问题。第三点,大数据时代,如何在对数据进行理解的基础上,进行快速准确的数据检索,精确的了解用户意图,并给用户进行实时反馈,也是一大挑战。针对这三方面的问题,本论文开展了以下工作:1.为了更好的进行数据信息恢复,我们提出了一个基于矩阵截断式核范数的矩阵补全算法。本文在传统的基于矩阵核范数的矩阵补全思路启发下,进一步对矩阵核范数进行了精细化的修改,将传统核范数定义中的最大的r的奇异值去掉,由此定义了新的矩阵截断式核范数。通过这种修改,基于矩阵截断式核范数的优化问题能够对矩阵的秩的优化问题进行更好的近似,从而得到更好的低秩解。同时,我们提出了两种高效的矩阵截断式核范数的优化算法,分别对应于硬限制和软限制条件下目标函数的求解。而且,该工作给出了一种一般性的替代矩阵核范数的思路,可以广泛应用到多种采用矩阵核范数的问题中。2.我们称对数据进行自动采样,选择最有信息量的数据进行标注的过程为主动学习。本文在传统主动学习算法基础上,进一步利用核空间理论,将基于距离敏感重构的主动学习算法成功其推广为其非线性形式。传统基于距离敏感重构的主动学习算法只是简单的通过线性重构去表示数据分布,但在很多的实际问题中,数据分布往往非常复杂。而核空间理论表明,可以通过选择适当的核函数,将原始数据点映射到无穷维再生希尔伯特核空间(RKHS)中。而研究表明,在一个充分高维的空间里,数据的复杂非线性结构更可能被展开成简单的几何结构。因此,我们在核空间中对原始算法进行了重新推导,并提出了一种全新的优化算法进行核空间目标函数的快速求解。实验表明,通过引入核空间,我们对数据几何信息的刻画更加准确了,取得了更好的效果。3.为了加速数据检索的速度,提高数据检索的精度,本文提出了一个综合数据结构和哈希算法的近似最近邻检索框架。传统上,基于数据结构的检索算法和基于哈希算法的检索算法是最近邻检索中的两个独立的研究方向。本文提出的框架可以融合多种数据结构(如K-means树,K近邻图等)和任意哈希算法,实现两者的优势互补。一方面,我们将数据结构中使用的传统欧式距离度量改进成汉明距离,大大加速数据结构中每一步搜索的计算速度;另一方面,我们对每个数据点的哈希编码利用数据结构进行了重新组织,因此避免了对哈希编码进行线性暴力搜索,将线性复杂度降低为对数复杂度。还有很重要的一点是,传统哈希算法由于需要线性遍历,往往只能采用较短的哈希编码(比如32或者64),这时哈希编码对真实距离的近似往往精度较低。而在本文的框架中,我们可以支持更长的哈希编码(如512或者1024),因此能够得到更高的检索精度。