【摘 要】
:
本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不
【基金项目】
:
国家自然科学基金资助项目 ( 6 0 0 0 30 14,6 0 1710 37)
论文部分内容阅读
本文介绍和比较了八种用于文本分类的特征选择方法 ,其中把应用于二元分类器中的优势率改造成适用于多类问题的形式 ,并提出了一种新的类别区分词的特征选择方法 ,结合两种不同的分类方法 :文本相似度方法和Na veBayes方法 ,在两个不同的数据集上分别作了训练和测试 ,结果表明 ,在这八种文本特征选择方法中 ,多类优势率和类别区分词方法取得了最好的选择效果。其中 ,当用Na veBayes分类方法对各类分布严重不均的 13890样本集作训练和测试时 ,当特征维数大于 80 0 0以后 ,用类别区分词作特征选择得到的宏F1值比用IG作特征选择得到的宏F1值高出 3%~ 5 %左右。
其他文献
随着十八大的召开,新一轮的国企国资改革正在紧锣密鼓的进行,国企薪酬作为其中重要的一环,也已进入改革"攻坚期",如何化解矛盾进一步推进,本文将通过分析目前国企薪酬制度在
通过构建数理模型分析推导以及采用2003—2011年中国31个省市自治区的面板数据实证分析了区域内外绿色技术知识存量以及非绿色技术知识存量对技术创新的影响,同时进一步分析
嵌入式高确保系统(如综合化航空电子系统等)对于不同安全级别的信息的跨平台、多用户处理和共享提出了更高的安全性要求。针对这一要求,学术界提出了多重独立等级安全(Multiple
<正> 一、实行水务一体化管理体制以来所做的工作 仪征市水务局充分发挥水务一体化优势,在完善水务良性运行机制、建立多元化水务投入机制、大力推进城乡水务建设等方面进行
微博、微信以其方便、灵活、传播广泛等特点,一经推出就以迅雷不及掩耳之势获得了众多追随者,给社会发展带来巨大影响。本文通过对微博、微信发展现状的比较分析,探讨了两者
随着近年来的扩招,高职教育也受到了社会各界的广泛关注。然而高职语文教育作为近年来高职教育改革的重点,并没有取得应有的成效。本文就现阶段高职语文教学改革中存在的一系
<正>因为有了互联网,世界越来越像麦克卢汉预言的"地球村"。网络媒体是互联网时代的一个突出产物。它实现了传统媒体的电子融合,涵盖了传统的文字、图片、影像和声音传播的特
随着"营改增"政策的深入推行,企业的税收负担、财务活动、经营行为也会随之改变,特别是改革前处于营业税制下的企业。本文首先分析了增值税的特点,然后介绍了"营改增"政策下
本文阐明了近年来我国中小企业财务风险的现状和存在的主要问题,对目前企业财务风险的原因进行了多方面的分析,有针对性地提出合理防范财务风险的措施,这些措施有研究分析外
本文提出在新媒体的冲击下,传统媒体公信力建构的重要性和紧迫性,论述了传统媒体公信力面临的困境主要源于新媒体的影响和传统媒体自身发展中存在的弊端两方面。提出重建传统