论文部分内容阅读
机器学习算法的研究已经取得了很大的进展,并且得到了广泛的应用,但多数机器学习算法只能给出“是”或“不是”、“属于”或“不属于”这类简单的判断,缺少一种置信度机制来说明这种判断的可信度或可靠性有多大。置信机器就是这种带有置信度机制的机器学习方法。置信机器是许多机器学习方法的进一步延伸,它不仅可以像许多机器学习方法做出性能的预测,还可以对预测结果中的定量的质量度量,给出可信性(Credibility)和置信度(Confidence)。目前的置信机器学习算法的研究,往往理论基础深奥,算法复杂,可替代计算的函数很少,且不容易理解与使用。本论文主要对基于可控的置信机器学习方法进行研究,以便找出更简单、更高效、更可靠、更实用的可控置信机器学习方法,主要的研究内容如下:首先对置信机器问题的提出、置信度等问题进行了论述。将置信度机制分为采用整体平均置信度学习方法的置信度机制、贝叶斯学习方法的置信度机制、直推式学习方法的置信度机制、带有拒绝选项学习方法的置信度机制。本学位论文的所有研究就是基于第四种置信度机制,即带有拒绝选项学习方法的置信度机制来实现的。针对二元置信分类问题,提出了一种基于一类分类器的二元置信分类(Tow Class Confidence Classification Based on One Class Classifier,TCCC-OCC)算法。该算法通过对识别样本进行两次学习的结果进行计算与分析,实现了接受域和拒绝域的划分,从而省略了在传统的置信机器学习中必须为每个未知样例进行具体置信度的计算,也省略了设置拒绝域阈值,减少了计算量。同时运用集成学习的方法,对学习结果进行多层学习,进一步提升了识别率。对可控率的置信问题进行了研究,提出了一种基于二元分类器的可控置信分类(Controllable Confidence Classification Based on Tow Class Classification,CCC-TCC)算法。该算法利用支持向量机(SVM)对样本进行学习,然后将学习结果从空间值转化为一维空间的Output Score值。由于SVM输出值Output Score的大小顺序保持了 SVM分类时距离超平面的远近距离顺序,所以可以通过设置阈值来控制置信度和错误率。CCC-TCC算法包括设置总的错分率进行可控置信分类算法、分别设置正负例错分率进行可控置信分类算法、从Score设置输出转换值的百分比进行可控置信分类算法、从错分的Score设置输出转换值的百分比进行可控置信分类算法共4个子算法,并在心脏病和糖尿病等5个数据集上对它们进行了实验验证。对置信回归问题的可控性进行了研究,提出了基于KNN的置信回归(Confidence Regressin Based on k-Nearest Neighbor,CR-KNN)算法。该算法以 KNN算法为工具,将回归学习的结果进行误差判断,实现接受域与拒绝域的划分,从而实现置信回归,并通过设置具体的误差数值的改变,实现了置信回归的可控。最后运用UCI等数据集中的数据进行了验证研究,选取了 Heart、Australian、Colon-Cancer、Pima Indians Diabetes、Liver-Disorders、Bodyfat、Housing、Pyrim、Triazines、Cpusmall等十余个数据集进行了实验研究,与其它相关的算法在相关方面的研究进行了比较。本学位论文提出的TCCC-OCC算法和CCC-TCC算法,以及CR-KNN算法对问题的研究,取得了满意的效果,达到了预期的目的。