基于聚类改进的KNN文本分类算法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户：missingmm

【摘要】

：

传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法。但是KNN算法在处理文本分类的过程中需要不断地计算待测文本与样本的相似度,当文

【作者】

：

周庆平谭长庚王宏君湛淼湘

【机构】

：

中南大学软件学院

【出处】

：

计算机应用研究

【发表日期】

：

2016年11期

【关键词】

：

文本分类 KNN 聚类化训练集

【基金项目】

：

国家自然科学基金资助项目(61379057,61309001,61379110,61103202,61301136);国家教育部博士点基金优先发展领域课题(20120162130008)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的KNN文本分类算法是一种无监督的、无参数的、简单的、较流行的且容易实现的分类算法。但是KNN算法在处理文本分类的过程中需要不断地计算待测文本与样本的相似度,当文本数量更大时,算法的效率就会更差。为了提高传统KNN算法在文本分类中的效率,提出一种基于聚类的改进KNN算法。算法开始之前采用改进χ~2统计量方法进行文本特征提取,再依据聚类方法将文本集聚类成几个簇,最后利用改进的KNN方法对簇类进行文本分类。实验对比与分析结果表明,该方法可以较好地进行文本分类。

其他文献

不同剂量甲泼尼龙治疗小儿重症过敏性紫癜的效果观察

目的:观察不同剂量甲泼尼龙治疗小儿重症过敏性紫癜的效果。方法:2015～2017年度我院收入并治疗小儿重症过敏性紫癜患者24例,以双盲分组法分为两组,参照组实施甲泼尼龙冲击治疗

期刊

甲泼尼龙小儿重症过敏性紫癜效果

肌酸激酶同工酶肌钙蛋白Ⅰ和肌红蛋白对于急性心肌梗死早期诊断的意义

<正>为了解肌钙蛋白、肌红蛋白、肌酸激酶同工酶在急性心肌梗死(AMI)中的变化规律,收集我院2008年8月至2009年6月在我院住院的49例AMI患者比较,比较它们在AMI诊断中的应用价

期刊

肌红蛋白肌钙蛋白急性心肌梗死肌酸激酶同工酶早期诊断

土壤风蚀过程的一类随机模型

以土壤风蚀的随机理论为基础 ,建立了土壤风蚀的一类随机过程模型。并求出了在任意时刻任一类可风蚀物质的随机概率分布、数学期望 (平均风蚀量 )以及平均风蚀量的方差。与前

期刊

风蚀概率分布期望随机模型

马达加斯加前寒武纪地质构造单元划分

马达加斯加岛处于非洲板块与印度洋板块的结合部,根据构造位置及岩性特征,其前寒武纪结晶基底可划分为九个地质构造单元。

期刊

前寒武纪地质构造单元

浅谈城市物流园区的规划设计

在现代企业发展中,降低物流成本成为继降低生产成本和提高劳动生产率之后的"第三利润源泉"。城市物流园区是城市物流基础设施的重要组成部分之一,是物流业发展的重要支撑和载

期刊

城市物流园区规划设计必要性设计原则

保险需求价格弹性与保险监管政策选择

通过对保险费率和保险金额进行线性回归得出两个命题:保险需求与保险产品的价格负相关;保险产品缺乏价格需求弹性。这两个命题的适应条件分别是:保险产品是正常商品和相对封

期刊

保险需求需求价格弹性保险监管

在线品牌社群中的泛家意识以及前因和后效研究

根据中国家文化的思想对相关文献进行分析,社群成员对在线品牌社群会产生泛家意识,该意识包含安全感和情感归属两项内容。以手机品牌社群为研究对象,采用结构方程方法研究泛

期刊

社群成员互动网络中心性泛家意识品牌社群质量忠诚

应用小波多尺度能谱分析法识别储层流体性质

本文对利用小波能谱分析识别流体性质进行了理论及实际处理研究。在理论的基础上,通过实际资料的处理分析,结果显示该方法理论与实际效果相吻合,小波能谱能够有效地提取储层

期刊

小波变换流体识别

超声及超声造影在肝移植术中及术后血管评价中的应用及进展

<正>肝脏移植术已经成为治疗终末期肝病最有效的方法。而肝移植术后血管并发症的发生仍是导致移植失败、再次移植、患者死亡的主要原因之一。早期诊断并及时治疗肝移植术后血

期刊

肝动脉血栓流动力学肝动脉血流肝血管肝移植术后血管并发症肝移植术

主体二元化背景下地方企业对外直接投资动因研究——基于省际面板数据的实证检验

基于我国对外直接投资统计制度的特殊性,省级对外直接投资数据可反映我国地方企业的直接投资状况。2003至2012年省级数据显示,我国分别由央企及地方企业主导的对外直接投资存

期刊

对外直接投资主体二元化投资动因

基于聚类改进的KNN文本分类算法

其他学术论文