【摘 要】
:
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN
【基金项目】
:
国家自然科学基金资助项目 (6 0 2 72 0 88)
论文部分内容阅读
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。
其他文献
产权制度对经济增长的贡献是巨大的,中国社会主义市场经济的发展需要不断建立完善的产权制度。出于构建和谐社会,实现社会公平正义的要求,对产权正义、实质正义进行分析,为我
电子政务在中国已经蓬勃开展多年,其成果十分显著。电子政务建设专业性强,审计又具有难度,政府审计人员到目前为止还没有形成完整的电子政务审计概念,这是审计人员开展电子政
<正>(接上期)(2)压电喷油器的工作原理西门子(Siemens)压电共轨喷油器(图5-8)的工作原理与博世(Bosch)电磁阀式共轨喷油器的原理基本相同,唯一的差别在于西门子的电液式伺服
从复杂彩色文本图像中提取和识别字符已经成为一个既困难又有趣的问题。本文给出了一个具有创新性和实用性的区域生长算法用于彩色图像的分割:彩色图像游程邻接算法CRAG(colo
结合古今文献记载,从方剂组成、功效主治、服用方法等方面入手,探讨四神煎的临床使用特点。并结合治疗膝关节肿痛的3则验案,阐述本方的适应证及临证心得。
民办高校经过三十多年的发展,已成为国家高等教育体系中一支不可或缺的力量。民办高校的校园文化也是在适应市场经济的发展要求下的企业文化和教育文化相融合的一种产物。然
我国新疆地区使用的维吾尔文借用阿拉伯文字母书写。因为阿拉伯文字母自身书写的特点,造成维文文本的切割和识别极其困难。本文在连通体分类的基础上,结合水平投影和连通体分
本文将群体发展(GroupDevelopment)变量引入群体思维(Groupthink)理论模型中,重点研究了在群体发展过程的不同阶段中,群体凝聚力、领导风格以及决策程序三种群体思维的前提条
目前有关唐宋时期扬州城市经济研究的主要研究成果大多集中在唐代,涉及宋代的研究成果较少。本文致力于从人口、交通条件、政策等方面分析扬州在宋代城市发展与衰退,对扬州的
大学排行在批评中发展,大学排行对于大学的发展既有积极作用,也有消极作用。中国的大学发展需要大学排行,但是大学排行有待科学与完善。在比较理想的大学排行出现以前,各大学