论文部分内容阅读
现实应用中数据的不确定性广泛存在,如位置信息服务,传感器网络和医疗诊断。产生不确定数据的原因包括了测量不准确、网络延迟、过时数据、错误样本和隐私保护。完成传统的分类工作需要来自所有类别的样本,但是在很多现实生活应用中,收集所有类别的已标注样本成本非常高,有时甚至是不可能的,但是大量存在的未标注样本相对容易获得。在一些二分类问题中,一部分已标注的正例样本(我们关注的类别的样本)和大量未标注样本是可以获得的。PU学习(Positive Unlabeled Learning)是指从只包含少量已标注的正例样本和未标注类别的样本的训练集上学习,而且在现实生产生活中普遍存在,例如文本分类和金融诈骗检测。PU学习近年来获得了研究人员的广泛关注,但是大多数局限于确定数据。目前在只有正例未标注样本的场景下针对不确定数据分类算法只有UPNB(Uncertain Positive na?ve Bayes)算法(He et al.2010)。该算法利用的朴素贝叶斯算法包含了强大的条件独立假设,由于该假设在现实应用中很难成立,所以它限制了UPNB算法的分类效果。针对这样的研究现状,本文讨论在正例和未标注样本学习场景下针对含有不确定信息的数据的贝叶斯网分类问题。本文主要研究与成果:(1)研究在PU学习场景下不确定数据属性间的条件互信息的计算问题,提出不确定条件互信息(Uncertain Conditional Mutual Information,UCMI)来处理该问题。传统的TAN(Tree Augmented Na?ve Bayes)贝叶斯网分类算法中的条件互信息只能从全标注的确定数据中学习TAN树形网络结构。本研究借助概率势(Probability Cardinality,PC)的概念,针对PU学习场景改进条件互信息的计算方法提出不确定条件互信息概念来衡量不确定每对属性间的依赖关系,从而确定各属性在TAN模型中的双亲属性,即贝叶斯网结构。(2)研究利用贝叶斯网解决在正例未标注样本场景下不确定数据的分类问题,提出UPTAN贝叶斯网分类算法解决该问题,并在分类效果上超过目前该领域最先进的基于朴素贝叶斯的UPNB算法。在贝叶斯网结构学习部分,UPTAN利用不确定条件互信息计算不确定属性间的依赖关系,从而可以在PU学习场景下从不确定数据中学习得到TAN贝叶斯网络结构。在贝叶斯网分类器的参数学习部分,UPTAN通过计算概率势来代替统计频数从而扩展PU学习算法PTAN(Positive Tree Augmented Na?ve Bayes)的条件概率表(Conditional Probability Tables,CPTs)参数学习方法,使之可以处理PU学习场景和不确定数据。(3)针对UPTAN的分类效果和不确定属性对UPTAN分类效果的影响,本研究在20个UCI数据集上开展实验。实验结果证明UPTAN算法的分类性能超过目前该领域最先进的UPNB算法3.37%(以F1为性能指标)和不确定属性越具有代表性,不确定性越大,UPTAN算法分类效果下降越多。