基于聚类改进的KNN文本分类算法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:missingmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法。但是KNN算法在处理文本分类的过程中需要不断地计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进χ~2统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好地进行文本分类。
其他文献
目的:观察不同剂量甲泼尼龙治疗小儿重症过敏性紫癜的效果。方法:2015~2017年度我院收入并治疗小儿重症过敏性紫癜患者24例,以双盲分组法分为两组,参照组实施甲泼尼龙冲击治疗
<正>为了解肌钙蛋白、肌红蛋白、肌酸激酶同工酶在急性心肌梗死(AMI)中的变化规律,收集我院2008年8月至2009年6月在我院住院的49例AMI患者比较,比较它们在AMI诊断中的应用价
以土壤风蚀的随机理论为基础 ,建立了土壤风蚀的一类随机过程模型。并求出了在任意时刻任一类可风蚀物质的随机概率分布、数学期望 (平均风蚀量 )以及平均风蚀量的方差。与前
马达加斯加岛处于非洲板块与印度洋板块的结合部,根据构造位置及岩性特征,其前寒武纪结晶基底可划分为九个地质构造单元。
在现代企业发展中,降低物流成本成为继降低生产成本和提高劳动生产率之后的"第三利润源泉"。城市物流园区是城市物流基础设施的重要组成部分之一,是物流业发展的重要支撑和载
通过对保险费率和保险金额进行线性回归得出两个命题:保险需求与保险产品的价格负相关;保险产品缺乏价格需求弹性。这两个命题的适应条件分别是:保险产品是正常商品和相对封
根据中国家文化的思想对相关文献进行分析,社群成员对在线品牌社群会产生泛家意识,该意识包含安全感和情感归属两项内容。以手机品牌社群为研究对象,采用结构方程方法研究泛
本文对利用小波能谱分析识别流体性质进行了理论及实际处理研究。在理论的基础上,通过实际资料的处理分析,结果显示该方法理论与实际效果相吻合,小波能谱能够有效地提取储层
<正>肝脏移植术已经成为治疗终末期肝病最有效的方法。而肝移植术后血管并发症的发生仍是导致移植失败、再次移植、患者死亡的主要原因之一。早期诊断并及时治疗肝移植术后血
基于我国对外直接投资统计制度的特殊性,省级对外直接投资数据可反映我国地方企业的直接投资状况。2003至2012年省级数据显示,我国分别由央企及地方企业主导的对外直接投资存