基于χ~2统计量的kNN文本分类算法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:cebianwo670
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于χ2统计量能很好地体现词和类别之间的相关性,因此成为特征选择中常用的评估函数.本文分析了χ2统计量在特征选择和分类决策阶段的性质,提出了一种新的基于χ2统计量的相似度定义,并结合基于两次类别判定的快速搜索算法,改进了传统的kNN算法.实验结果显示基于χ2统计量的改进kNN文本分类算法能大大减少kNN算法的分类时间,并提高了kNN算法的准确率和召回率.
其他文献
将意大利作家卡尔维诺与中国作家王小波放在比较文学的研究视角下,从卡尔维诺在世界范围内的广泛传播、中国接受土壤的形成、王小波和卡尔维诺间的特殊通道这三方面进行较为
现代书籍设计作为一种特殊的审美对象,具备多种维度的美。本文从美学的角度出发,对书籍的文质、技艺、时空、互动、生态、气韵、意境之美进行了深入的分析,从而使我们能够从
<正> 族 谱 苏曼殊,名戬,号子栽(一作“子谷”),小字三郎。 《沥溪苏氏族谱》:“十八世祖:名戬,号子,字曼殊。”。苏维(马录)1928年12月18日自溪沥复柳亚子信:苏曼殊“乳名戬
建材产业是我国国民经济的支柱产业,2018年建材工业主营业务收入达到4.8万亿元。我国是全球建材生产和消费大国,但长期以来,建材产业发展方式仍较为粗放,难以满足建筑节能、
“十三五”期间,湖南省公路管理局党委坚持以人民为中心的发展思想,贯彻落实中央发展要求,立足行业发展实际,将“当‘两学一做’模范、办人民满意公路”确立为全省公路事业的发展
目的 研究塞来昔布对压力性尿失禁模型大鼠的干预效果及作用机制。方法 建立压力性尿失禁大鼠模型后分为模型组和塞来昔布组各18只,正常组10只。塞来昔布组大鼠采用塞来昔布
<正>中国彩妆行业发展历程面对中国这个潜力巨大的化妆品市场,无论是跨国集团还是本土企业都无法割舍,尽管中国日化发展到今天已经形成了宝洁、欧莱雅、资生堂等跨国企业群雄
随着网络带宽的不断增长,网络安全系统(如网络入侵检测系统——NIDS)对网络数据包捕获能力要求越来越高,为了提高网络数据包的捕获能力以适应当今高速网络环境,本文在分析传