论文部分内容阅读
在模式识别问题中的分类器设计中,正则化技术被广为使用,并在理论与实际应用上取得了瞩目的成就。但是,正则化技术也面临着如何提高分类器的推广性能、如何更多的融合数据的先验信息、如何协调处理好整体与局部信息等问题。本文基于正则化技术,通过从样本整体和个体两个角度在分类器设计中引入数据先验信息,提高模型分类性能。具体的,本文首先从样本整体的先验信息角度提出了一种三层多核分类学习模型(Three-fold Structural Multiple Empirical Kernel Learning,TSMEKL);其次,从样本个体的先验信息角度提出了一种双边权向量分类器(Double MHKS,DMHKS)。本文的主要贡献在于:第一,在现在流行的多核学习算法框架之中,正则化型的分类器设计一般是集中于样本信息在特征空间下的分类信息,而较少关注在特征空间下样本相互之间的联系信息。对于同一样本在多个特征空间下所表达出的不同特征信息也鲜有集成起来用于分类器的设计。因此,本文从样本自身分类信息、样本相互间的结构、特征空间下的全局信息下的三个层次出发,设计了TSMEKL模型。TSMEKL采用经验核映射,避免了隐性核映射计算慢、复杂度较高的缺点。所设计的三个层次从整体的高度依次挖掘出原始样本结构、样本间簇结构和特征空间结构的先验信息。TSMEKL中各项相互平衡,共同促进分类器的性能优化。其后,通过大量的实验验证了该算法的有效性与适用性,并且对于TEMSKL’性能有影响的相关因素,进行了详细的实验研究和比较分析。最后在理论上和实验上验证了该模型有着较小的风险边界,具有良好的推广性能。第二,传统的正则化型分类器大多是面向向量型数据。数据在向量化的过程中,或多或少丢失了一些样本原始的结构信息。因此,为了有效利用数据自身的先验信息,本文提出了一个可以直接处理矩阵型数据的双边权向量分类器DMHKSo在设计过程中,DMHKS采用了一个双边权向量代替了一般的两个单边权向量的模式,能够有效简化计算复杂度和避免维度灾难。其后,通过实验比较发现,DMHKS与同级别线性分类器相比有着相当或者较优的性能,但是在分类器的训练时间上是远远领先于其他分类器。可见DMHKS具有的令人满意的分类性能的同时还具有领先的计算速度优势。最后,对影响DMHKS分类性能的相关因素做了讨论分析,给未来的进一步研究提供了一些思路。第三,本文分别从样本整体先验信息和样本个体先验信息出发,立足点都是挖掘利用更多结构信息来设计正则化型分类器。TSMEKL所采用的三层结构,可以在每个层次上结合相关技术进一步做深入研究,因此实际上它是一个行之有效的分类学习框架,有着较大的兼容性和扩展性。DMHKS采用分类器设计思路,可以用于现有矩阵型线性分类模型的优化与改进,具有较大的启发性和拓展性。