文本分类中卡方统计特征选择算法的改进

来源 :有线电视技术 | 被引量 : 0次 | 上传用户:zqfhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对传统CHI特征选择算法存在的缺陷,引入了频度因子、类内分布均匀因子以及修正因子进行改进,兼顾词频因素以及数据集不平衡情况,筛选出在指定类中出现频率大且分布均匀的特征词项。实验结果表明,结合SVM方法,相比于传统卡方统计特征提取的分类效果,改进后卡方统计方法提取的特征值能够有效地提高文本分类的准确度,证明了改进后卡方统计算法的可行性。
其他文献
叶赛宁和戴望舒虽属不同的民族,所处的时代环境也不尽相同,但他们的诗却具有相似的忧郁哀怨基调。高尔基称叶赛宁是“大自然专门为了写诗,为了表达绵绵不绝的‘田野的哀愁’,
为解决轮叶党参栽培过程中种子出苗率低而造成的播种量多、成本高的问题,对轮叶党参休眠特性及休眠的打破进行了试验.试验结果表明:轮叶党参种子具有休眠特性.低温及赤霉素处
采用常见的芳香二酸(对苯二甲酸和1,4-萘二甲酸)与1,4-二(2-乙烯氧基乙氧基)苯(1,4-DVEB)聚合,得到了2种新型的芳香酯缩醛聚合物,这些聚合物在各种常用溶剂如丙二醇甲醚醋酸酯(PG-ME
对钢厂液压系统常见的气穴和漏油故障展开了研讨,在描述钢厂液压系统常见故障种类的基础上,对钢厂液压系统常见故障的判断和成因进行了分析,提供了钢厂液压系统常见故障预防
1995年至2000年笔者用自拟益肾洗方治疗老年单纯性阴痒50例,效果满意.现报告如下.
以石油醚为溶剂,无水氯化锌为催化剂,以多聚甲醛、联苯和氯化氢气体为原料,在相转移催化剂存在下进行氯甲基化反应合成了4,4′-双(氯甲基)联苯.最佳反应条件为:n(联苯):n(无
结合国内外的研究进展,概述了基因治疗的策略、途径、载体及其在遗传病、恶性肿瘤等疾病治疗中的应用。
非活性干酵母(IDY)制剂在葡萄酒生产广泛应用,在白葡萄酒中,富集谷胱甘肽(GSH)的IDY(g-IDY)制剂具有抗氧化的能力,可以保持白葡萄酒的香气和颜色。然而对于酒精发酵(AF)过程中IDYs制
为了探讨氧化苦参碱对免疫细胞Toll-like receptor 7(TLR7)mRNA表达的影响,使用CCK-8试剂盒检测氧化苦参碱对RAW264.7细胞的生长抑制作用。应用荧光定量PCR方法检测氧化苦参