论文部分内容阅读
本文从支持向量技术的理论研究及算法设计出发,在支持向量的几何性质、支持向量机分界面函数信息等方面进行了深入研究,提出了若干聚类分类思想及算法。主要工作如下。1)简约支持向量聚类研究。针对传统支持向量聚类的高耗费和低性能问题,提出了简约策略和新的簇划分方法,形成简约支持向量聚类模型。简约策略以薛定谔方程为基础,提取对模型生成有意义的数据。提出并证明了支持向量在特征空间的几何性质,并基于此设计了新的簇划分方法,以简洁有效的方式进行数据簇的辨认。理论分析和实验结果表明,算法能够克服传统支持向量聚类的弊端,具有比同类算法更高的性能和效率。2)基于支持向量的融合式聚类研究。以支持向量方法为基础生成了球状网格,作为合并操作的起点,缩短了聚类谱系图的路径长度。以支持向量的性质为基础设计了聚类结果的选择方法,为聚类过程添加了的控制能力。定义了网格间的距离公式,给出了网格合并步骤。设计了矩形的初始网格,以应对大规模数据集。实验表明,球状网格及其聚类结果选择方法性能良好,优于传统融合式聚类算法;矩形网格及其聚类结果的选择方法性能中等,但是效率较高。3)支持向量机分界面函数研究及双层分类思想。深入挖掘了支持向量机分界面函数蕴含的信息,并基于此定义了支持向量机决策的信用度和面向分类任务的新型测度。提出了将全局和局部分类器结合起来的双层分类思想,以及两种实现算法。两种算法均使用支持向量机作为全局分类器,分别使用最近邻分类器和模糊分类器作为局部分类器。前者工作于面向分类任务的测度生成的空间中,后者工作于基于最短路径的测度生成的空间中。实验表明,两种测度的效果达到预期目标,两个实现算法在不同的场合表现出比单一分类器更佳的性能。由此说明,对分界面函数的信息的研究具有意义。4)支持向量技术研究和新的多分类方案。理论上,阐述了三种支持向量方法的相通之处和相互转化的过程。算法设计上,提出了新的多分类算法。该算法的基本分类器在高质量的数据代表上训练得到,具有三分功能。设计了类别对儿排序原则,来规定基本分类器的生成顺序。设计了树形决策框架组织基本分类器,辅以半径原则和拒绝域处理办法完成分类认为。实验说明,所设计的算法以较少的基本分类器数目和灵活的类别识别过程,在同类算法表现出更高的性价比。5)基于支持向量的关系数据核函数定义研究。提出了关系数据环境下核函数的定义思想,并在此基础上提出了一种具体核函数定义和一个核函数框架。给出了核函数框架在半监督环境和监督环境下的参数化方案。第二种情形下的参数化方案利用了分类模型的风险评估机制,在同一迭代过程中同时找到最优的分类模型和核函数参数。分类模型采用支持向量机,为此特别为其设计了折衷式的风险评估机制,及其实施参数化的迭代算法。实验表明,具体的核函数定义优于同类定义,核函数框架经参数化后,在应用环境中给出了良好的表现。其中的折衷式的风险评估,能够帮助算法找到优秀的分类模型以及核函数参数,是有效且更有实践指导能力的风险评估。