论文部分内容阅读
在实际应用领域,如:自动问答、岩爆预测、油气勘探等,许多任务都能够转化成这样一个问题:给定观测数据,假设空间中最有可能的假设是什么。作为一种基于概率推理的方法,贝叶斯学习主要研究根据某种先验分布与观测数据进行推理,为许多实际应用问题提供最优的决策。由于实际生产中存在诸多复杂的问题,如基于代价敏感的不平衡分类问题、多噪声标记数据等。目前,贝叶斯算法的实践应用仍是一项困难的工作。朴素贝叶斯是基于贝叶斯学习与属性条件独立假设的分类算法。然而,该假设在实际应用中难以满足。为此,许多学者研究释放朴素贝叶斯分类算法的属性条件独立假设以提高分类性能,并提出了许多改进方法,概括起来主要有三类:结构扩展、实例加权、局部学习;而变分贝叶斯是贝叶斯框架下求解后验概率的近似推断算法。相比于简单的朴素贝叶斯,变分贝叶斯具有更为精准的近似估计结果。变分自编码器是基于变分贝叶斯推断的网络结构,目前被广泛应用于自动问答、知识图谱等领域。由于实际应用中问题的复杂多样性,基于贝叶斯算法的推断决策,仍然面临着许多的挑战。主要包括:1)不同的评估指标。现有的朴素贝叶斯改进算法主要提升算法的分类精度,然而,更多的评估指标,特别是准确的类概率估测,对实际生产更具有指导意义;2)基于代价敏感的不平衡分类问题。传统的朴素贝叶斯分类算法假定数据的类分布平衡或者假定不同类的误分类代价相同。而这一假设在大多数实际应用中是不现实的。这就导致现有算法求解基于代价敏感的不平衡分类问题时,达不到理想的效果;3)多噪声标记数据。由于从专家获取观测数据的类标记昂贵且费时,众包技术从大众收集了大量的多噪声标记数据。然而,多噪声标记数据难以直接用于朴素贝叶斯分类算法;4)更多复杂应用场景的变分贝叶斯应用,如知识库问答。针对以上四个问题,本文从朴素贝叶斯求解标准分类问题开始研究,逐步释放朴素贝叶斯分类算法的假设条件,探究朴素贝叶斯分类算法在实际应用问题中的性能。提出了基于条件似然对数的朴素贝叶斯分类算法、差分进化的朴素贝叶斯实例加权算法、和差分进化的朴素贝叶斯多噪声标记质量估测算法。进一步分析变分贝叶斯在估计精准后验分布,处理复杂应用场景的优势。最后,将变分自编码器应用于知识库问答的关系抽取任务,提出了基于变分自编码器的关系抽取算法。本文的主要贡献包括:(1)给出了在朴素贝叶斯分类算法中类概率估测的评价方法,简述超父亲树扩展的朴素贝叶斯分类算法及其在类概率估测的性能,提出了基于条件似然对数的朴素贝叶斯分类算法(Conditional Log Likelihood-based Super Parent,CLL-SP)。CLL-SP将基于条件似然对数的评估方式用来替换原有的分类精度的评估方式,选择具有最大化条件似然对数的超父亲结点和最佳子结点扩展朴素贝叶斯分类器的结构。(2)给出了代价敏感学习的相关概述,简述了差分进化算法框架,提出了差分进化的朴素贝叶斯实例加权算法(Differential Evolution-based Instance Weighted Naive Bayes,DEIWNB)。DEIWNB将差分进化算法和朴素贝叶斯分类算法相结合,调整多数类实例的权重,学习一个最优的多数类实例子集,能有效降低误分类总代价。(3)给出了多噪声标记集成方法的相关概述,提出了差分进化的朴素贝叶斯多噪声标记质量估测算法(Differential Evolution-based Naive Bayes for Estimating Labeler Quality,DEELQ)。DEELQ对多噪声标记数据进行推断,构建差分进化的朴素贝叶斯分类器,以推断不同标注者的标记质量和实例的集成标记。(4)综述了知识库问答的研究方法,给出了知识库问答中关系抽取任务的问题描述,提出了基于变分自编码器的关系抽取算法(Variational Autoencoder-based Relation Detection,VRD)。VRD将关系抽取任务转为这样一个问题:学习一个给定问句时,对应知识库中谓语关系的条件分布。将深度学习中的表示学习与变分自编码器结合,引入变分自编码器中的隐变量构建问句与谓语共同性的条件分布。实验结果表明,VRD算法能有效抽取谓语关系,并具有较高的关系抽取准确率。