论文部分内容阅读
以学习理论解决数据分析问题,是近期统计学研究的趋势之一。问题规模与复杂性日增的现实,需要更具效率的学习方法。本篇博士学位论文在统计学习理论的框架下,应用核方法,提出几种新的学习思路,建立起一套简洁、高效的回归学习机,并成功地用于预测实践。与标准学习方法比较,新的设计思路,更具效率,能以低的计算代价取得满意的学习效果。论文围绕学习性能的改进与学习效率的提高两个主题分四个方面展开。文章首先考虑样本集上信息分布纵横两向上的不均匀性,构造了几种简洁的动态参数,并引入多元尺度因子,构造多元核。在统一的框架下考虑参数的改进、优化与特征提取,所得学习机MO-SVR简明、高效,改进了原标准学习机的学习性能,为学习机的优化设计提供了一条新思路,其性能为试验所肯定。减少学习问题规模是提高学习效率的一种直接途径。文章接下来应用局部风险最小化原则,导出了局部学习机的一般形式,并分析其理论收敛界。承MO-SVR的优化思想,利用快速计算的留一误差,由模式搜索PS算法实现参数的自动优化,构造出具体的优化局部学习机。为高效学习特别是大规模的学习问题提供了一条精简的设计思路,其有效性为试验所肯定。随之,文章从另一个角度提出直接简化DS策略,以极低的计算代价将当前先逼近后优化分步走的稀疏思路合二为一,直接在原问题空间上简化。具体开发了Cholesky分解算法与共轭梯度算法,保证DS策略整体上的高效、简洁。DS具有一定的创新性,在大规模学习问题中更具有直接的实践意义,试验肯定了算法性能与理论分析。提高学习效率的另一途径是改变学习方式。论文最后推广当前在线学习,得到更丰富的学习率下降模式,并在此启示下提出约束随机元方法LSMD。LSMD既有SMD的自适应调节能力,同时算法的稳定性能又有理论保证。论文还比较了在线学习的隐式更新与显式更新,导出了隐式更新的更紧的收敛界。将隐式更新技术与SMD结合的自适应算法AILK具有内在的稳定性,是一种极具挖掘潜力的学习方法。自适应在线方法为高效学习开辟了新思路,利用在线学习方式高效率的同时保证了满意的学习性能,其理论分析与算法性能得到实验的充分肯定。以学习理论解决数据分析问题必将给统计学带来新的活力,本论文在此方面做了有益的尝试。所得成果应用并不局限于预测,其构造思路与相关理论技术亦可推广到其他非核方法的学习领域。论文所做工作丰富了数据分析处理的理论方法,对统计实践具有一定的指导意义。