论文部分内容阅读
机器学习是人工智能的核心内容之一,机器学习利用训练数据发现隐含模式或者机制,机器学习应用在分类问题上可以利用发现的模式或者机制对未知数据进行分类。随着人工智能领域的发展,机器学习方法已经被广泛的应用到各领域的预测建模中,形成了系统的分析方法和众多的学习机模型。支持向量机(SVM)模型由于其具有非常好的模型稀疏性和坚实的理论基础,使其在各个领域中的应用得到了人们的广泛认可。SVM学习的关键在于距离度量模型的选择,该模型决定了样本数据映射到的高维特征空间。在实际问题中核函数作为度量模型(例如高斯核函数等)在SVM中度量两个实例之间的距离。但是,在选定高斯核函数作为度量方法来进行SVM学习后,确定核函数的参数σ(高斯径向基函数的宽度)将成为一个关键问题,σ对分类器的性能影响很大。确定高斯核参数σ比较典型的方法有梯度下降法与交叉验证法等。一个共性的问题是这些优化方法的计算量复杂度较高,当样本达到一定规模时无法应用。梯度下降法与交叉验证法等都是关注于分析核函数与训练误差之间的数学关系,这些方法将训练误差最小化作为参数选择的优化指标。在本文中我们将提出一种新颖的方法,即从核函数的性质出发来选择适当的优化指标,用来指导核函数参数的确定。核函数的性质是把低维空间的线性不可分数据映射到高维空间中,使之在高维空间上线性可分。核函数隐式的定义了一种非线性映射函数Φ(x),我们希望样本通过Φ(x)映射到高维特征空间中能够具有更好的可分性。这种可分性表现为同一类别的样本实例之间的相似度较高,不同类别的样本实例之间的相似度较低。我们从几何距离上来衡量样本实例间的相似度:我们希望同一类别的样本实例之间的几何距离尽可能小,不同类别的样本实例之间的几何距离尽可能大。根据这一原则,我们定义了目标函数,从而把参数σ的选择问题转化为目标函数的优化问题。我们利用高斯函数的麦克劳林展开式使得目标函数转化为二次函数,从而简单地实现了对σ的求解。实验仿真结果表明:在分类正确率上,本文提出的方法和交叉验证法相差不大;在训练时间上,本文的方法要比交叉验证法小很多。在保证分类正确率的基础上,本文的方法可以有效地降低高斯核SVM在参数选择上的时耗,而且本文的方法只需要常数级的空间开销。基于本文提出的参数选择和高斯核SVM的分类方法,我们根据人体经络值对人体健康状态进行预测建模。最终模型的AUC (the area under the curve)值达到了0.9416。综合实验结果,预测模型展示了较好的预测效果,可以根据人体经络能量值来对人体健康状态进行预测。限于人体生理经络的复杂性、受测人群的地域和年龄覆盖范围等因素,预测结果具有一定的参考价值。