论文部分内容阅读
日新月异的互联网使得文本类数据与日俱增,过载的文本信息增加了检索、归类等任务的难度。传统的文本分类已难满足人类的需求,自动文本分类技术弥补了传统文本分类的不足,其能够自动完成文本分类任务,使得信息检索、分类等任务变得更加简洁高效。
机器学习作为一种数据挖掘技术,能够从大量数据中通过学习而获得人们所需要的信息。朴素贝叶斯算法作为机器学习中一种重要的分类技术,因结构简单、理论扎实及高效准确的特点,被广泛应用于文本分类。但是,其特征独立性假设、理论上的概率分布要求在实际中很难满足,以及自身属于浅层学习器的局限性均会引起分类效果欠佳的问题。因此,本文从以下两个角度改进朴素贝叶斯算法:
针对朴素贝叶斯算法属于浅层学习器的问题,提出一种深度集成朴素贝叶斯算法;该算法受深度森林中集成思想的启发,将伯努利朴素贝叶斯(BNB)、高斯朴素贝叶斯(GNB)及多项式朴素贝叶斯(MNB)3种浅层基分类器集成为具有深层学习结构的朴素贝叶斯。结果表明,深度集成朴素贝叶斯算法克服了浅层学习特征表达能力不足的问题;通过体育文章分类、公司类型分类和垃圾邮件过滤三个经典数据集的实验,证明了深度集成朴素贝叶斯算法的精确率、召回率及F1值显著增大,算法性能良好。
针对朴素贝叶斯算法对输入数据要求满足严格概率分布以及独立性假设的问题,本文以二分类任务为例,提出一种基于编码改进的伯努利朴素贝叶斯算法;该算法首先通过树的集成对原始输入编码,再利用伯努利朴素贝叶斯算法训练和测试编码后的数据。结果表明,编码方式满足了伯努利朴素贝叶斯算法对输入数据的概率分布要求,且用于编码的树之间具备差异性,一定程度上保证了编码后特征之间的独立性;通过体育文章分类的实验,表明了基于编码改进的伯努利朴素贝叶斯算法具有良好的分类准确率,验证了编码方式改进的有效性。
机器学习作为一种数据挖掘技术,能够从大量数据中通过学习而获得人们所需要的信息。朴素贝叶斯算法作为机器学习中一种重要的分类技术,因结构简单、理论扎实及高效准确的特点,被广泛应用于文本分类。但是,其特征独立性假设、理论上的概率分布要求在实际中很难满足,以及自身属于浅层学习器的局限性均会引起分类效果欠佳的问题。因此,本文从以下两个角度改进朴素贝叶斯算法:
针对朴素贝叶斯算法属于浅层学习器的问题,提出一种深度集成朴素贝叶斯算法;该算法受深度森林中集成思想的启发,将伯努利朴素贝叶斯(BNB)、高斯朴素贝叶斯(GNB)及多项式朴素贝叶斯(MNB)3种浅层基分类器集成为具有深层学习结构的朴素贝叶斯。结果表明,深度集成朴素贝叶斯算法克服了浅层学习特征表达能力不足的问题;通过体育文章分类、公司类型分类和垃圾邮件过滤三个经典数据集的实验,证明了深度集成朴素贝叶斯算法的精确率、召回率及F1值显著增大,算法性能良好。
针对朴素贝叶斯算法对输入数据要求满足严格概率分布以及独立性假设的问题,本文以二分类任务为例,提出一种基于编码改进的伯努利朴素贝叶斯算法;该算法首先通过树的集成对原始输入编码,再利用伯努利朴素贝叶斯算法训练和测试编码后的数据。结果表明,编码方式满足了伯努利朴素贝叶斯算法对输入数据的概率分布要求,且用于编码的树之间具备差异性,一定程度上保证了编码后特征之间的独立性;通过体育文章分类的实验,表明了基于编码改进的伯努利朴素贝叶斯算法具有良好的分类准确率,验证了编码方式改进的有效性。