非平衡数据集中的特征选择方法和三支分类算法研究

来源 :河南科技学院学报:自然科学版 | 被引量 : 0次 | 上传用户:fanrongcheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对传统的特征选择方法在非平衡数据集中分类效果不理想的问题,提出了一种适合非平衡数据分类的改进特征选择方法.该方法将集中度和分散度相结合,同时考虑到在文本长短不一时词频对文本分类的作用,得到一种新的词频归一化方法,实现了对传统特征提取方法的改进.另一方面,将三支决策思想引入到朴素贝叶斯算法,得到了NB-三支决策分类算法,并将该算法应用到非平衡数据集的分类.通过两组实验对比结果表明:改进特征选择方法较CHI和IG方法,处理非平衡度高的数据集分类效果较好;选取相同的特征选择方法和数据集,NB-三支分类器比NB
其他文献
电子制造业正大规模向亚太地区,特别是中国转移,全球的半导体分销业务规模扩张的重要手段之一也随之向亚洲倾斜.这一趋势也让许多分销商都在削减在北美的业务成本,转而扩大在
利用基于测定距离和基本参照物两种算法对小麦叶片图像进行分析,并计算图像中叶片面积,采用Matlab实现相应算法,并完成对小麦叶片面积的估算,经过调试与测试,达到预期效果.