朴素贝叶斯算法的改进及其在文本分类中的应用

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:minini
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
日新月异的互联网使得文本类数据与日俱增,过载的文本信息增加了检索、归类等任务的难度。传统的文本分类已难满足人类的需求,自动文本分类技术弥补了传统文本分类的不足,其能够自动完成文本分类任务,使得信息检索、分类等任务变得更加简洁高效。
  机器学习作为一种数据挖掘技术,能够从大量数据中通过学习而获得人们所需要的信息。朴素贝叶斯算法作为机器学习中一种重要的分类技术,因结构简单、理论扎实及高效准确的特点,被广泛应用于文本分类。但是,其特征独立性假设、理论上的概率分布要求在实际中很难满足,以及自身属于浅层学习器的局限性均会引起分类效果欠佳的问题。因此,本文从以下两个角度改进朴素贝叶斯算法:
  针对朴素贝叶斯算法属于浅层学习器的问题,提出一种深度集成朴素贝叶斯算法;该算法受深度森林中集成思想的启发,将伯努利朴素贝叶斯(BNB)、高斯朴素贝叶斯(GNB)及多项式朴素贝叶斯(MNB)3种浅层基分类器集成为具有深层学习结构的朴素贝叶斯。结果表明,深度集成朴素贝叶斯算法克服了浅层学习特征表达能力不足的问题;通过体育文章分类、公司类型分类和垃圾邮件过滤三个经典数据集的实验,证明了深度集成朴素贝叶斯算法的精确率、召回率及F1值显著增大,算法性能良好。
  针对朴素贝叶斯算法对输入数据要求满足严格概率分布以及独立性假设的问题,本文以二分类任务为例,提出一种基于编码改进的伯努利朴素贝叶斯算法;该算法首先通过树的集成对原始输入编码,再利用伯努利朴素贝叶斯算法训练和测试编码后的数据。结果表明,编码方式满足了伯努利朴素贝叶斯算法对输入数据的概率分布要求,且用于编码的树之间具备差异性,一定程度上保证了编码后特征之间的独立性;通过体育文章分类的实验,表明了基于编码改进的伯努利朴素贝叶斯算法具有良好的分类准确率,验证了编码方式改进的有效性。
其他文献
本论文旨在研究巴基斯坦政治区制的改变对石油价格波动和生产者价格指数的影响。本文基于考察期内巴基斯坦19年的相关数据,首先运用相关分析和回归分析等统计手段分析了变量之间存在的数量关系和特征,进一步使用GARCH模型进行了相关预测。结论证实了国际政治对石油价格波动具有非常关键的影响,油价波动对宏观经济变量,如工资,CPI指数,购买意愿和实际支付,预算赤字和经济拉动,通货膨胀率以及其他宏观经济因素都有显
学位
改革开放40余年,非国有企业吸纳农业劳动力,推动着我国二元经济结构转化,使我国城市化率由1978年的17.98%提高到2019年的60.6%。但我国农业与非农业部门仍存在较大生产率差距,且相对于所处的经济发展阶段,农业劳动力比重偏高,在迈向高收入国家行列的过程中,仍需继续转移农业劳动力、推动二元经济结构向现代一元经济转化,但非国有企业出现了用工难、劳动者积极性不高、质量意识与工匠精神缺乏,生产的产
家庭等值规模是将不同人口结构的家庭实际人口规模转换为以一定参照家庭为基准的标准化家庭人口规模。家庭等值规模充分考虑不同家庭成员的消费异质性和家庭规模经济效应,赋予不同类型的家庭成员以不同的标准化值,是用来解释不同类型的家庭成员为达到相同的消费水平所需的相对金额的预算平减指数。家庭等值规模在国际上被广泛用于不平等、贫困以及家庭福利的测度研究中,包括OECD成员国以及欧盟成员国的多数发达国家将家庭等值
当前中国农业劳动力转移面临的主要问题是,工资这一单一因素吸引其转移的难度越来越大,转移的农业劳动力永久性迁移意愿较低。其主要原因是伴随农业劳动力数量的逐渐减少以及转移过程中呈现出的新特点,农业劳动力所关注的因素已经从单一工资维度转向了就业质量维度,低质量就业问题成为农业劳动力不愿进行乡城转移及永久性迁移的重要原因,只有提高就业质量才能实现农业劳动力的持续、高质量转移。这是新形势下人民日益增长的美好
不平衡数据的分类问题在实际的很多领域中经常出现,对于该类不平衡的数据集,由于类别间样本分布的非均衡性,经常导致模型在训练过程中不能学习到有效信息,致使模型的分类预测效果往往并不理想,且通常会偏向于多数类样本,对少数类样本难以识别。除了类别间的不平衡率,不平衡数据集复杂的结构特征也是影响模型分类效果的关键因素,例如类别重叠导致决策边界的难以确定、稀有样本与噪音样本的识别,以及类内不平衡等问题,尤其是
古典经济学将自由竞争的市场视为“看不见的手”,支配着社会经济活动,认为通过分工与交换可以实现资源的自由流动与配置,最终促进经济的发展。但对市场的过度强调导致其忽视了资源的组织过程,忽略了生产经营、组织交换、管理决策的重要性,没有重视企业家在微观经济发展中的积极作用。正如德鲁克所言,这些研究致力于经济变量均衡点的寻找,忽略了经济实践中均衡点的实现过程。实质上,经济发展循环的启动过程,以及社会进步的升
2008年国际金融危机席卷全球,世界各国金融业受到重创,实体经济严重受损。危机促进了金融监管的反思和变革,2010年巴塞尔委员会修订形成了《巴塞尔协议Ⅲ》,其中重要的一项改进就是引入商业银行杠杆率监管,以此来有效弥补单一资本充足率监管指标的不足。受金融危机影响,中国同样也面临了经济衰退和金融风险的严峻考验。2011年中国银监会出台《商业银行杠杆率管理办法》,将商业银行杠杆率监管作为重要的逆周期宏观
学位
经济新常态时期,中国经济正在由低成本驱动转向创新驱动,而高技术产业是科技创新活动密度最高的产业,引领国家走向科技创新发展前沿。高技术产业在创新研发、技术成果转化、产品生产各个阶段均需要金融业为其提供大量资金支持其发展,金融业也不断通过高技术产业的科技创新提高自身产品和服务的质量。因此,金融业与高技术产业协调发展对于中国经济高质量发展具有重要意义,需要深入研究目前金融业与高技术产业发展的互动效应和耦
学位
城市群作为区域的一个重要单元,对社会经济的发展起着关键性的作用。目前中国正处于改革创新、促进城市群一体化发展的重要阶段。作为中国综合实力领先、工业化进程较快的城市群,长三角在其发展建设过程中,科技创新发展不平衡的问题也日益凸显。因此,破解长三角城市群创新发展的不均衡现象,将对于其制定合理长远的科技发展战略、促进城市群协调发展具有一定的指导意义,使得长三角城市群真正成为引领区域经济发展的标杆,同时,
作为世界上最大的发展中国家,改革开放四十年以来,中国经济发展取得了举世瞩目的成就,工业化和新型城镇化进程日益加快。与此同时,资源消费日益加大,资源需求压力巨大。资源的安全已经成为事关中国全局性的重大战略问题。然而,在中国资源型地区,经济发展往往比较缓慢并有下降的趋势。虽然中国资源储备较为丰富,但却并未将资源优势转变为经济发展优势。资源开发与生态环境问题,往上追溯都是经济发展模式问题——即对物质资源