基于机器学习的数据补全、标注和检索若干问题研究

被引量 : 0次 | 上传用户:vensen_guo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,人们进入了大数据时代。在大数据时代如何对数据进行理解和检索成为研究人员广泛关注的问题,在推荐系统、人脸识别、图像检索等众多实际问题中有着广泛的应用。但是在大数据时代,关于数据本身,我们还面临着很多挑战。第一点,虽然可以很容易的收集到大量数据,但是由于各方面的原因,真实数据经常可能是缺失的、不完整的、或者被部分被干扰的,所以如何进行数据补全和恢复是一个难题。第二点,数据的分类、识别和理解经常需要依赖大量的标注数据,但是大数据时代,虽然数据总量多,但是大部分数据都是没有标注信息的,而人工标注所有数据耗时耗力,因此如何选择最重要、最有信息含量的那部分数据进行标注,从而降低标注成本,也是一个重要的科研问题。第三点,大数据时代,如何在对数据进行理解的基础上,进行快速准确的数据检索,精确的了解用户意图,并给用户进行实时反馈,也是一大挑战。针对这三方面的问题,本论文开展了以下工作:1.为了更好的进行数据信息恢复,我们提出了一个基于矩阵截断式核范数的矩阵补全算法。本文在传统的基于矩阵核范数的矩阵补全思路启发下,进一步对矩阵核范数进行了精细化的修改,将传统核范数定义中的最大的r的奇异值去掉,由此定义了新的矩阵截断式核范数。通过这种修改,基于矩阵截断式核范数的优化问题能够对矩阵的秩的优化问题进行更好的近似,从而得到更好的低秩解。同时,我们提出了两种高效的矩阵截断式核范数的优化算法,分别对应于硬限制和软限制条件下目标函数的求解。而且,该工作给出了一种一般性的替代矩阵核范数的思路,可以广泛应用到多种采用矩阵核范数的问题中。2.我们称对数据进行自动采样,选择最有信息量的数据进行标注的过程为主动学习。本文在传统主动学习算法基础上,进一步利用核空间理论,将基于距离敏感重构的主动学习算法成功其推广为其非线性形式。传统基于距离敏感重构的主动学习算法只是简单的通过线性重构去表示数据分布,但在很多的实际问题中,数据分布往往非常复杂。而核空间理论表明,可以通过选择适当的核函数,将原始数据点映射到无穷维再生希尔伯特核空间(RKHS)中。而研究表明,在一个充分高维的空间里,数据的复杂非线性结构更可能被展开成简单的几何结构。因此,我们在核空间中对原始算法进行了重新推导,并提出了一种全新的优化算法进行核空间目标函数的快速求解。实验表明,通过引入核空间,我们对数据几何信息的刻画更加准确了,取得了更好的效果。3.为了加速数据检索的速度,提高数据检索的精度,本文提出了一个综合数据结构和哈希算法的近似最近邻检索框架。传统上,基于数据结构的检索算法和基于哈希算法的检索算法是最近邻检索中的两个独立的研究方向。本文提出的框架可以融合多种数据结构(如K-means树,K近邻图等)和任意哈希算法,实现两者的优势互补。一方面,我们将数据结构中使用的传统欧式距离度量改进成汉明距离,大大加速数据结构中每一步搜索的计算速度;另一方面,我们对每个数据点的哈希编码利用数据结构进行了重新组织,因此避免了对哈希编码进行线性暴力搜索,将线性复杂度降低为对数复杂度。还有很重要的一点是,传统哈希算法由于需要线性遍历,往往只能采用较短的哈希编码(比如32或者64),这时哈希编码对真实距离的近似往往精度较低。而在本文的框架中,我们可以支持更长的哈希编码(如512或者1024),因此能够得到更高的检索精度。
其他文献
《纽约外史》通过对纽约历史的诙谐评述,讽刺了小说创作时美国的诸种社会现象和文化心态。小说背后的思想主线是对启蒙思想的讽刺和抨击,包括对进步主义历史观的否定,对自由
房地产市场作为我国的支柱产业,对人民生活有着重大的影响,因此国家历年来都出台了许对针对房地产市场的宏观调控政策,但这些政策没有起其抑制房价的作用,文章通过构建房价与
<正> 中枢神经系统原发性淋巴瘤是一种少见的肿瘤,仅占所有中枢神经系统原发肿瘤的0.3~1.5%。中枢神经系统中,最常受累的部位是脑,而累及脊髓的极为罕见。影像学检查在脑原发
经过半个世纪的努力,甘肃省静宁县已成为我国著名的优质苹果基地和重要的苹果出口基地。苹果产业给当地带来了显著的社会效益、经济效益和生态效益,为农村经济繁荣、农业增效
工业控制系统是一个基于计算机的系统用来控制工业过程的系统,最终目标是确保一个特定工业过程的可操作的、安全的和环境的可兼容性。主要介绍评价工业控制系统安全的评估工
<正>随着我国城市道路里程和路龄的逐年增加,城市道路的养护维修压力日益沉重。不同路病、路况以及环境温度对日常养护设备提出更高的要求,这是目前众多市政道路养护单位所面
从战略角度发展我国文化会展业,首先要清楚其战略目标和战略定位,其次就是要有明确有效的战略思维和战略举措。其战略目标包括服务于国家"文化强国"战略,促进国民经济和文化
目的 探究CYP2C9、CYP2A6和CYP2B6基因多态性对单用丙戊酸(Valproic acid,VPA)治疗的癫痫患儿血药浓度的影响。方法 收集单用VPA治疗的癫痫患儿400例,记录患儿的年龄、性别、体
目的总结以顽固性皮肤瘙痒为首发症状的2型糖尿病的诊疗体会。方法对12例以顽固性皮肤瘙痒为首发症状的老年患者进行常规糖尿病筛查。确诊为糖尿病后给予降糖、硫辛酸治疗或
以大肠杆菌和金黄色葡萄球菌为实验菌,研究了乳源抗菌肽的抑菌活性,以及pH值、温度、热处理时间、胃蛋白酶水解和离子强度等不同因素对乳源抗菌肽抑菌活性的影响.结果表明:乳