文本分类中基于训练样本空间分布的K近邻改进算法

来源 :情报学报 | 被引量 : 0次 | 上传用户：kong26

【摘要】

：

KNN算法是文本分类中广泛应用的算法。作为一种基于实例的算法，训练样本的数量和分布位置影响KNN分类器分类性能。合理的样本剪裁以及样本赋权方法可以提高分类器的效率。提出

【作者】

：

刘海峰刘守生姚泽清

【机构】

：

解放军理工大学理学院

【出处】

：

情报学报

【发表日期】

：

2013年1期

【关键词】

：

K最近邻类偏斜样本剪裁文本分类 K-nearest neighbor category deflection sample reducing tex

【基金项目】

：

国家自然科学基金资助项目（直觉模糊聚类理论及其应用,编号：71071161）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

KNN算法是文本分类中广泛应用的算法。作为一种基于实例的算法，训练样本的数量和分布位置影响KNN分类器分类性能。合理的样本剪裁以及样本赋权方法可以提高分类器的效率。提出了一种基于样本分布状况的KNN改进模型。首先基于样本位置对训练集进行删减以节约计算开销，然后针对类偏斜现象对分类器的赋权方式进行优化，改善k近邻选择时大类别、高密度训练样本的占优现象。试验结果表明，本文提出的改进KNN文本分类算法提高了KNN的分类效率。

其他文献

女性的失措与悲歌——以女性主义论电影《嘉年华》

20世纪70年代开始,女性主义电影批评从主流电影思潮出发,吸收精神分析学、意识形态分析学和符号学等思想,以性别研究为角度批判电影中的男性主义霸权政治,重新思考女性形象及

期刊

女性主义女性阉割男性凝视象征符号《嘉年华》

王明建:数字化运维,疫后企业转型新方向

这是坏的时代,新冠肺炎疫情蔓延与全球经济衰退共同交织的当下,稍有不慎,企业就会陷入万劫不复的境地。尽管物业管理行业一向以轻资产、抗周期以及充裕现金流著称,但面对新冠

期刊

物业服务企业企业转型经营思维轻资产现金流疫情防控智慧化全球经济衰退

补肾养血汤治疗晚期育龄期妇女卵巢储备能力明显下降前不孕症患者的临床疗效

目的分析晚期育龄期妇女卵巢储备能力明显下降前应用补肾养血汤治疗不孕症的重要临床价值。方法选取我院于2016年4月~2017年12月期间收治的晚期育龄期妇女卵巢储备能力明显下

期刊

晚期育龄期卵巢储备能力补肾养血汤妊娠率性激素Advanced childbearing stageOvarian reserve capacityBu

基于本体与规则的语义推理研究

为解决本体相关概念的共享和信息集成，发现本体间的语义关联，提出了本体与规则整合下的语义推理模型ORRM，构建了家庭本体FO。将推理集中在两个不同层次，第一层的推理使用Racer推

期刊

领域本体描述逻辑SWRLJess语义推理domain ontology description logic SWRL Jess semantic

智者不会浪费任何一场危机——“疫情带给物业服务企业的思考”线上对话

丘吉尔曾说过,永远不要浪费一次危机,而当前我们正历经一场全球性危机。面对肆虐的新冠肺炎疫情,大家也做出了不同选择。尽管疫情残酷冰冷的一面让大多数人陷入彷徨,但疫情背

期刊

物业服务企业企业的发展物业管理全球性危机丘吉尔疫情线上带给

影响高血压药物治疗依从性多因素分析及护理对策

近年来高血压在药物治疗方面已取得较大进步，治疗方案明确有效，但调查结果显示高血压的控制率为6.1％，其原因是服药依从性差。本文对高血压药物的治疗情况进行调查，分析影响治疗依从性的因素，并探讨护理干预对策，现报道如下。本文为全文原貌未安装PDF浏览器用户请

期刊

高血压药物治疗依从性影响因素护理对策

中学生态“三生”课堂特征探析

教育是直面生命的本真事业。中学思品生态＂三生＂课堂要以＂生命态＂大教育观为旨归,关注学生生命在场现实诉求,重构自然之教＂三生＂本真模本,浸润＂三生＂课堂生活旅程,拓展学生适应社会生

期刊

思想品德生态课堂“三生”课堂“三生教育”

基于2-模网络的科研单位和关键词共现分析方法

文献特征共现分析可以揭示文献的内容关联和特征项隐含的寓意。基于2-模网络模型探讨不同特征共现的分析方法，有利于挖掘不同特征共现网络的深层次结构关系。通过构建2-模网络

期刊

共现分析2-模网络结构关系测度指标科研单位关键词co-occurrence analysis 2-mode network structural

基于语义标记树的XML文档聚类研究

近年来XML凭借其自身的简单性、半结构化、可扩展性、自描述性等特点,逐渐成为了互联网数据表示和数据交换的标准.XML文档聚类是数据挖掘研究中热点一个,为网络信息资源的搜

期刊

XML聚类语义标记树WORDNETXML clustering semantic tag-tree WordNet

ICU护理风险事件分析及对策

目的探讨ICU护理风险事件的原因及提出相应对策。方法回顾性分析我院2006年1月～2009年12月收治的1496例ICU患者的护理资料，对护理风险事件进行分析和提出相应的解决策略。结果

期刊

ICU护理风险对策ICU Nursing risk Strategy

文本分类中基于训练样本空间分布的K近邻改进算法

与本文相关的学术论文