论文部分内容阅读
伴随着科学技术及互联网的飞速发展,各行各业每天都在产生海量的数据,推动着大数据产业的繁荣.大数据裹挟而来的信息风暴正在深入变革我们的生活、工作和思维.以机器学习算法为代表的大数据分析技术助力于挖掘蕴藏在数据矿山中的知识“黄金”.模式分类是一项基础性的研究热点问题,经常出现在统计学、计算机科学、工程学、经济学、物理学、生物学等领域中.本文主要研究基于角度的统计分类方法,其中包括分类概率估计、稳健型分类器设计、加权学习等,并将其应用在精准医疗领域.本文的主要工作如下: 设计了一种仿决策树的二分类概率估计算法.加权二分类方法的理论性质良好,且易于算法实现.在此基础上,构建了高效的概率决策树.它结构简洁,不会混淆概率估计,有效弱化了正则项带来的收缩效应.数值结果表明,新方法显著提升了概率估计的精度. 提出了一种基于组合平方损失的最小二乘支持向量机.该方法利用了组合平方损失函数的特性,具有Fisher相合性,且能提供各类别的概率估计.新方法能较好地处理高维问题和类别数目较大的场景.此外,设计了高效算法来求解该问题.模拟结果和基因数据的结果表明,新方法的分类效果突出. 提出了两种稳健的统计分类方法,一种是基于截断损失函数,另一种是自适应加权学习.二者的出发点都是为了构造有界的损失函数,以控制异常点的影响.前者是一个典型的非凸优化问题,可采用Difference of Convex Algorithm(DCA)算法求解,但计算开销较大.通过引入适当的权重,后者将原问题的求解纳入到凸优化框架,亦可获得稳健的分类效果.此外,在理论上证明了二者在不动点意义下的算法等价性.数值结果表明,新提出的方法稳健性较高. 在精准医疗领域,多治疗方案的个性化定制规则的估计具有重大的现实意义.它可以归结到疗效加权的分类方法.设计了一族新型损失函数,它光滑有界,能保证对应的分类方法具有稳健性.将该损失函数应用到个性化诊疗规则的定制问题中,以获得稳健估计.基于该损失函数的新估计方法具有Fisher相合性,且能提供不同方案的理论疗效比.设计了DCA算法来求解此问题.数值结果表明,该方法的稳健性能突出,表现优于常规方法.