一种改进的朴素贝叶斯不平衡数据集分类算法

来源 :黑龙江大学自然科学学报 | 被引量 : 0次 | 上传用户:wubo123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当训练集中各个类别的样本分布不均匀且存在数据稀疏问题时,朴素贝叶斯算法分类不够准确。针对此问题,提出了一种基于数据平滑与加权补集的朴素贝叶斯文本分类算法,该算法引入数据平滑算法计算贝叶斯模型中缺失特征的补偿概率,克服数据稀疏问题;利用当前类别补集的特征来表示当前类别的特征,解决训练集中各个类别的样本分布不均匀时,分类器容易倾向于大类别而忽略小类别的问题。实验结果表明,在样本集分布不均衡时,该算法比传统的朴素贝叶斯分类算法分类效果更好。
其他文献
过高的外语学习焦虑会影响学生在外语课堂中的表现,不利于活跃课堂学习气氛.为了营造一种轻松、活跃的课堂气氛,提高学生英语学习的兴趣,帮助学生克服英语学习的焦虑感是非常重要
东北三省是中国最大的粳稻生产区,分析预测其未来产能及外供能力,对及早谋划全国粳稻生产布局规划、满足日益提高的粳稻消费需求具有重要现实意义。在对东北三省粳稻生产现状、
煤矿瓦斯涌出量与其影响因素之间存在着高度的非线性关系,因输入自变量(即影响因素)较多,用神经网络建模容易出现过拟合现象,导致所建模型精度低、建模时间长。针对这些问题,提出用
<正> 由天津生产的池塘自动投饵机近来成为我国农机市场的新宠。天津汉沽区农机局农机厂生产这一产品已有多年历史,1998年,该厂产品年产达3 000余台,产品销往全国14个省、市
小说介绍“洪律师探案集”侦探推理小说系列共五本:冤狱悬疑小说《血之罪》、情爱悬疑小说《性之罪》、惊悚悬疑小说《龙眼石之谜》、反腐悬疑小说《古画之谜》、旅游悬疑小
汪菊渊院士是我国著名的园林学家,一生致力于园林学理论和历史研究工作,是我国园林学科的第一位中国工程院院士.几十年来为创办园林专业、确立园林学学科理论体系,研究和总结
针对建筑外墙瓷砖污垢产生的原因及物理化学性质 ,介绍了一种化学清洗该污垢的方法。由非离子与两性表面活性剂复配作渗透剂 ,再辅以特殊无机助洗剂而配制的粉状清洗剂 ,清洗
为研究含有双侧分支结构受限空间内油气泄压爆炸超压和火焰演变特性,进行了不同初始油气体积分数工况下含有双侧分支结构受限空间和长直受限空间内的对比实验。研究结果表明:(1
以抗旱性弱的青稞品种‘大麻青稞’为材料,研究不同质量分数(5%~30%)聚乙二醇(PEG)预处理对其种子萌发、幼苗生长和抗旱性的影响。结果表明,1)随着PEG预处理质量分数的增加,
本研究以黄金茶工夫红茶为研究对象,量化评价了茶汤甜味强度,检测了主要滋味物质含量,并分析了两者相关关系。结果表明:不同厂家的黄金茶工夫红茶甜味强度差异明显;糖类甜味物质中