一种基于区分能力的多类不平衡文本分类特征选择方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:xuxing22223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类中的不平衡数据问题在现实应用中比较普遍。传统的特征选择方法在不平衡问题上倾向于多数类而忽略稀有类。针对这种倾向性该文提出了一种主导性分析量化方法,并基于对该方法的优化提出了一种基于类别区分能力的特征选择方法,即DA(Discriminative Ability)方法,该方法使用文档概率的最小绝对值差作为评分标准,一定程度上保证了特征选择在稀有类与多数类上的公平性。实验表明,DA优于CHI、IG、DFICF,尤其在F1宏平均指标上,DA在不平衡问题上能够取得更好的降维效果。
其他文献
在跨文化交流过程中,博物馆的地位十分重要。博物馆可说是传递某种文化传统的主要渠道之一,同时也是一个社会怎样看待自己的一种表示。在任何一个博物馆展览中,文物的选择、定位
针对汉越双语新闻事件线索分析,提出了基于全局/局部共现词对分布的汉越双语事件线索生成方法。该方法首先将新闻话题词语分布作为全局词语表征全局事件,然后用一定时间粒度下新闻片段特有的时间、人物、地点等事件元素作为局部词语,分析新闻片段中全局词语和局部词语的共现关系,将全局/局部词语的共现规律作为监督信息,结合RCRP算法和汉越双语新闻的对齐语料,构建有监督话题生成主题模型,获得相应时间跨度下代表事件发
本文以安徽省"新型农民培训民生工程"管理工作中具体需求为着眼点,在需求分析的基础上,介绍了系统的设计思路、设计目标等。
利用溶剂热法构筑了Fe_(3)O_(4)@MOF-808吸附剂,将其用于大米中除草醚(NIT)、乙氧氟草醚(OXY)和甲羧除草醚(BIF)3种二苯醚类除草剂的富集,结合高效液相色谱法,建立了大米中该
现代社会迅猛发展的过程中,逐渐对人才提出了更高的要求,不仅要学生掌握较多的理论知识,而且还要具备较高的专业技能水平。所以,中高职类院校对机械产品设计类专业学生培养时
为保证安全回采3301工作面,精确探明工作面内部陷落柱发育位置,避免给煤矿生产衔接和安全回采造成严重问题,对该工作面进行了无线电波透视探测,并对重点异常区域进行了槽波地
幼儿时期天性爱玩,根据幼儿爱玩特性进行自主游戏教学非常重要,能够帮助幼儿智力发育,教师在幼儿自主游戏中要适时介入,帮助幼儿在游戏中与同伴交流,愉快玩耍,从而健康成长。
信息化的到来,触动教育者的思维,引发学习者的探索,注入无形的力量,以突出课堂教学的特色,拓展教学空间,促使学生的学习效果得以不断的提升。本文就高中生物课堂中运用信息技
1月19日,国家发展改革委、生态环境部、工业和信息化部联合印发《再生橡胶行业清洁生产评价指标体系》(发改环资规〔2020〕1983号),指导和推动再生橡胶企业依法实施清洁生产,
随着现在技术不断的发展,微课开始逐渐进入到高中语文的教学过程中,微课的运用给教师的教学以及学生的学习带来了极大的便利,能够有效的融合学生的个性特点来让学生掌握知识