顺序回归问题研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lianjinling27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
顺序回归,是标签含有有序关系的一种特殊多分类问题。许多实际应用问题中标签都呈现这种序结构关系,研究表明利用标签有序信息建模可显著提高模型的预测效果,因此有大量相关模型和算法被提出,相关技术已被成功应用于信息检索、推荐系统、情感分析、信用评级等领域。另外,随着互联网、移动通信等技术的发展,由于人们可以越来越方便地表达自己的观点和情感偏好,大量的顺序回归问题涌现出来,这些新问题与传统的顺序回归问题不同,具有如规模大、高维、高稀疏等特征,如何对这类数据进行有效利用和高效挖掘,受到了越来越多的关注。但目前研究仍然局限于解决传统的小规模数据的顺序回归问题,对于目前广泛存在的大规模高维数据等顺序回归问题,缺乏有针对性的相关研究。  本文针对顺序回归问题,主要做了以下几个方面的工作:  首先,为更好的利用顺序回归问题中标签有序结构信息以及样本分布信息,提出非平行支持向量顺序回归机模型(NPSVOR),其对每类样本分别学习一个超平面,并为其非线性模型设计了交换方向乘子法(ADMM)求解算法。实验表明NPSVOR比其他相关方法具有更好的预测效果,且ADMM算法对数据规模具有很好的扩展性。  其次,针对广泛存在的大规模高维稀疏的顺序回归问题(如文本数据),研究了线性NPSVOR模型,考虑模型的结构基础上设计了高效的对偶坐标下降算法,并给出更加高效的Shrinking准则和算法终止条件。此外,通过NPSVOR学习的超平面构建有序二元分类决策函数,建立以投票形式的预测函数。在收集的实际顺序回归文本数据对模型及其算法进行了分析,与现有的相关算法进行比较,验证了模型及算法的优越性。  最后,鉴于线性NPSVOR的预测函数是通过学习各类超平面构建有序二元分类决策函数集成得到,以及考虑到各二元决策函数之间相互依赖的事实,提出Crammer-Singer顺序回归模型(CSOR),并在此基础上考虑类内数据分布信息,对每类超平面引入不敏感间隔带,得到其扩展模型NPCSOR。并为该模型设计了可处理大规模问题的序列对偶算法,实验验证了模型的泛化效果以及算法的高效性,表明扩展的模型比CSOR能够获得更好的预测准确率及更好的稳定性。
其他文献
在该文中作者作了如下两方面的工作:首先,提出了遗忘进化规划属性均值自组织网方法,作者利用进化算法和属性均值的观点改进Kohonen算法,达到具有较快达到整体最优 的特点,另
该篇论文由四部分组成.第一节简要说明了研究多项式零点定域与计算的意义和进展情况.第二节给出一种新的定域估计方法.第三节讨论了多项式零点上界的计算方法.用Newton法求λ
凝血酶原酶复合物激活凝血酶原的反应是在血小板表面上进行的,开始因子X激活少量的凝血酶,激活的凝血酶再反馈激活因子V和血小板为下一步反应提供辅因子和催化表面,同时激活
血流不止或凝血过度都会产生病理现象,因此了解凝血反应的动态过程,并进而对凝血反应进行控制对临床医学具有非常重要的意义.Xase复合物直接作用于内外途径交汇处的因子X,对
带乘法噪声的密度估计模型在实际应用中具有重要意义,因为人们通常不能直接观测到真实数据,而观测到的数据与真实数据之间往往存在着乘法噪声的关系.现有的大多数研究均假定观
软件可靠性模型研究近年来得到广泛关注,不同研究人员根据不同背景给出各种各样的模型.该论文分析了已有软件可靠性模型Duane模型,给出了基于几何过程的新模型.该论文共分三
近年来,非单调推理和知识库的表示成为日益重要的两个问题.该文第一部分给出了仲裁的两种构造.第二部分在缺省逻辑的基础上构造了一个新系统来模拟人类积累、更新知识的过程.
本文提出了两个基于微分动态系统的填充函数方法,用于求解多极值带约束的全局最优化问题。文章提出了两个新的填充函数,在适当的假设下证明了它的填充性质。在Kennedy and Chua
根据地震剖面上不同的频段和时段有不同的信噪比,以及相邻地震道反射波有效成份(除去噪音的有用信号)在波形和能量上具有较强的相关性的特点,该文提出了应用小波包分解和多项
众所周知,Helmholtz方程是模拟声波散射问题的基本模型.研究求解大波数Helmholtz方程的高效数值算法,是当今科学工程计算领域中的一个重要课题.  本论文主要研究了具有复杂边