机器学习中隐式因子模型及其优化算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:missjiro
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各种数据来源和数据采集方式的逐渐多样化,机器学习和数据挖掘技术的应用场景日益丰富。机器学习研究的本质要解决智能化学习的基础表示和模型两大问题,前者需要对计算机可处理的数据进行特征化表示,这种表示需要具有泛化和可抽象存储等特点;后者需要对学习遇到的数据表示进行统一的建模以实现智能化的理解、预测、推理等功能。传统的有监督学习模型面临着人工特征工程的可扩展性和性能提升困难等瓶颈问题,而传统的无监督学习模型面临着数据隐藏结构模式发现表示的不充分和结果评估的困难等问题。本文主要研究解决机器学习表示和模型问题的一种有效方法—隐式因子模型。隐式因子模型的本质是通过对输入数据进行特征学习从而自动从数据中学习到高阶的抽象表示,从而提高预测模型和数据隐藏结构表示的性能。首先,针对传统有监督学习模型对于大量人工特征工程的依赖以及由此导致的输入数据稀疏性问题,研究了分别针对并向量类数据和更加一般化有监督学习标注数据的因子分解模型,通过将输入特征间关系的隐式因子向量的抽象表示方法,建立以预测精度为优化目标的有监督学习模型,从而可以将特征间的高阶关系作为一种新的抽象表示特征融入模型,这种隐式因子的特征抽象表示具有更强的表达能力,从而可以提高模型的预测精度。这种有监督学习模型中的因子分解技术虽然从一个角度实现了高阶特征的扩展学习,但是还是需要一些人工特征工程的帮助和优化。其次,单层的因子向量或者线性假设模型对数据的表示能力都有限,为了实现对输入数据更具表达能力的抽象表示,本文随后研究了更加强调特征自动学习的层级隐式因子模型,借助于传统的神经网络结构形式,可以实现自底向上的特征逐级学习模型从而实现对数据的表示学习。对于有监督的层级模型,通过优化网络连接结构和共享权重的思想可以将传统训练困难的神经网络扩展到多层从而实现局部特征的有效学习;对于有监督学习模型中可用标注数据的限制,可以采用层级因子模型基于大量可用的未标注实现无监督的自学习得到数据表示模型的结构参数,利用逐层无监督学习得到的这种结构参数可以有效促进标注数据的输入特征抽象表示,从而提高有监督模型的预测精度和泛化能力。
其他文献
随着网络的高速发展和硬件水平的提高,互联网感知技术扮演的角色愈发重要。由于网络应用程序复杂化和个人隐私的重视,流量识别作为最典型的网络感知技术,正在从基于端口和深层数
近年来,Hadoop技术不管是在科研方面还是在应用方面都取得了巨大的发展,作业调度技术作为Hadoop平台的核心技术之一,其目的是调度作业执行的顺序和分配计算资源。作业调度算法的
计算机和互联网是二十世纪最重要的发明,随着计算机和互联网技术的迅速发展和应用,人类迅速跨入了信息时代。人们在互联网上共享和传播的信息随着网络带宽的迅速增长,由最初
学位
图像融合技术能够有效地提高图像信息的利用率、目标探测的准确性及图像的解译能力。目前比较流行的融合方法是基于多尺度几何分析工具的图像融合方法,其中最具代表性的是Shea
互联网信息过载导致人们越来越倚重搜索引擎,面向特定领域或学科的垂直搜索引擎是搜索技术的细化和拓展,它针对特定用户提供垂直搜索。当前在食品安全领域,食品安全信息的获取基
受限于单体锂电池的电压和容量,车用锂电池组常常需要将成百上千个单体锂电池串并联成组使用。但由于生产工艺的不一致性和使用过程环境的不一致性,单体电池间总是存在着无法消
人脸检测是指确定输入图像中是否存在人脸,以及存在的具体位置的过程。随着智能化的发展,人脸检测技术在智能交互、身份核验、移动社交等领域应用越来越广泛。然而非限制条件下,人脸并非总是呈现清晰完整的正面形象,因遮挡、角度、分辨率等各种因素导致的不完备信息的人脸图像,给人脸检测任务带来了巨大的挑战。当前虽然已有许多算法在人脸检测上取得了较好的效果,但在处理不完备信息人脸方面仍然存在不足。本文针对遮挡和小尺
学位
人脸识别因其重要的科学意义和实用价值而成为当前模式识别领域的一个研究热点。在过去几十年中,学者们提出了许多相关的特征提取方法,比如线性鉴别分析(LDA)、主成分分析(PCA)和保
作为传统DoS(Denialof Service)攻击的改进,LDoS(Low-rate DenialofService)攻击具有相当的危害性且更强的隐蔽性。由于LDoS攻击的高隐蔽性特征,传统的DoS攻击检测方法已无法对其进