论文部分内容阅读
顺序回归,是标签含有有序关系的一种特殊多分类问题。许多实际应用问题中标签都呈现这种序结构关系,研究表明利用标签有序信息建模可显著提高模型的预测效果,因此有大量相关模型和算法被提出,相关技术已被成功应用于信息检索、推荐系统、情感分析、信用评级等领域。另外,随着互联网、移动通信等技术的发展,由于人们可以越来越方便地表达自己的观点和情感偏好,大量的顺序回归问题涌现出来,这些新问题与传统的顺序回归问题不同,具有如规模大、高维、高稀疏等特征,如何对这类数据进行有效利用和高效挖掘,受到了越来越多的关注。但目前研究仍然局限于解决传统的小规模数据的顺序回归问题,对于目前广泛存在的大规模高维数据等顺序回归问题,缺乏有针对性的相关研究。 本文针对顺序回归问题,主要做了以下几个方面的工作: 首先,为更好的利用顺序回归问题中标签有序结构信息以及样本分布信息,提出非平行支持向量顺序回归机模型(NPSVOR),其对每类样本分别学习一个超平面,并为其非线性模型设计了交换方向乘子法(ADMM)求解算法。实验表明NPSVOR比其他相关方法具有更好的预测效果,且ADMM算法对数据规模具有很好的扩展性。 其次,针对广泛存在的大规模高维稀疏的顺序回归问题(如文本数据),研究了线性NPSVOR模型,考虑模型的结构基础上设计了高效的对偶坐标下降算法,并给出更加高效的Shrinking准则和算法终止条件。此外,通过NPSVOR学习的超平面构建有序二元分类决策函数,建立以投票形式的预测函数。在收集的实际顺序回归文本数据对模型及其算法进行了分析,与现有的相关算法进行比较,验证了模型及算法的优越性。 最后,鉴于线性NPSVOR的预测函数是通过学习各类超平面构建有序二元分类决策函数集成得到,以及考虑到各二元决策函数之间相互依赖的事实,提出Crammer-Singer顺序回归模型(CSOR),并在此基础上考虑类内数据分布信息,对每类超平面引入不敏感间隔带,得到其扩展模型NPCSOR。并为该模型设计了可处理大规模问题的序列对偶算法,实验验证了模型的泛化效果以及算法的高效性,表明扩展的模型比CSOR能够获得更好的预测准确率及更好的稳定性。