论文部分内容阅读
随着各种数据来源和数据采集方式的逐渐多样化,机器学习和数据挖掘技术的应用场景日益丰富。机器学习研究的本质要解决智能化学习的基础表示和模型两大问题,前者需要对计算机可处理的数据进行特征化表示,这种表示需要具有泛化和可抽象存储等特点;后者需要对学习遇到的数据表示进行统一的建模以实现智能化的理解、预测、推理等功能。传统的有监督学习模型面临着人工特征工程的可扩展性和性能提升困难等瓶颈问题,而传统的无监督学习模型面临着数据隐藏结构模式发现表示的不充分和结果评估的困难等问题。本文主要研究解决机器学习表示和模型问题的一种有效方法—隐式因子模型。隐式因子模型的本质是通过对输入数据进行特征学习从而自动从数据中学习到高阶的抽象表示,从而提高预测模型和数据隐藏结构表示的性能。首先,针对传统有监督学习模型对于大量人工特征工程的依赖以及由此导致的输入数据稀疏性问题,研究了分别针对并向量类数据和更加一般化有监督学习标注数据的因子分解模型,通过将输入特征间关系的隐式因子向量的抽象表示方法,建立以预测精度为优化目标的有监督学习模型,从而可以将特征间的高阶关系作为一种新的抽象表示特征融入模型,这种隐式因子的特征抽象表示具有更强的表达能力,从而可以提高模型的预测精度。这种有监督学习模型中的因子分解技术虽然从一个角度实现了高阶特征的扩展学习,但是还是需要一些人工特征工程的帮助和优化。其次,单层的因子向量或者线性假设模型对数据的表示能力都有限,为了实现对输入数据更具表达能力的抽象表示,本文随后研究了更加强调特征自动学习的层级隐式因子模型,借助于传统的神经网络结构形式,可以实现自底向上的特征逐级学习模型从而实现对数据的表示学习。对于有监督的层级模型,通过优化网络连接结构和共享权重的思想可以将传统训练困难的神经网络扩展到多层从而实现局部特征的有效学习;对于有监督学习模型中可用标注数据的限制,可以采用层级因子模型基于大量可用的未标注实现无监督的自学习得到数据表示模型的结构参数,利用逐层无监督学习得到的这种结构参数可以有效促进标注数据的输入特征抽象表示,从而提高有监督模型的预测精度和泛化能力。