一种基于κ-最近邻的无监督文本分类算法

来源 :情报学报 | 被引量 : 0次 | 上传用户：jijipanji

【摘要】

：

κ-最近邻分类（KNN）是一种广泛使用的文本分类方法，但是该方法并不适用分布不均匀的数据集，同时对κ值也比较敏感。本文分析了传统KNN方法的不足及产生这些不足的根本原因，并提出

【作者】

：

余小鹏马费成

【机构】

：

武汉大学信息管理学院,武汉工程大学经济管理学院

【出处】

：

情报学报

【发表日期】

：

2008年4期

【关键词】

：

κ-最近邻核密度估计误差平方和准则文本分类 κ-nearest neighbor kernel density estimation sum-of-s

【基金项目】

：

基金项目：教育部攻关项目数字信息资源的规划、管理与利用研究（NO.JZD20050024）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

κ-最近邻分类（KNN）是一种广泛使用的文本分类方法，但是该方法并不适用分布不均匀的数据集，同时对κ值也比较敏感。本文分析了传统KNN方法的不足及产生这些不足的根本原因，并提出一种无监督的KNN文本分类算法（UKNNC）。该方法先采用误差平方和准则自适应地从κ个最近邻居所包含的各类别中挑选与输入文档于同一簇的部分邻居作为参照，然后根据输入文档对各类参照邻居核密度的扰动程度进行分类。实验证明该方法具有更高的分类质量，能够有效适用于分布复杂的数据集，同时分类结果对κ值不敏感。

其他文献

《一粒种子》教学纪实、评析

期刊

《一粒种子》评析小学语文教学案例朗读训练

由区块链技术的兴起所联想到的

习近平总书记在中央政治局第十八次集体学习时的重要讲话,深刻阐明了区块链技术在新的技术革新和产业变革中的重要作用,对推动区块链技术和产业发展提出明确要求,具有很强战

期刊

产业变革精准脱贫区块链技术集体学习商品防伪食品安全医疗健康现实针对性

算法多样化的困惑与对策

期刊

算法多样化对策课程改革计算教学课程标准创新思维小学

基于著者同被引分析的知识领域可视化——以中国杂交水稻研究为例

知识领域可视化（Knowledge Domain Visualization）在分析学科结构、揭示知识领域、识别学科前沿等方面由于其客观、高效而备受相关学者的关注。著者同被引分析是对知识领域进行

期刊

知识领域可视化著者同被引分析寻径网络杂交水稻研究knowledge domain visualization author co-citation a

传承与发展当代湖湘钢琴音乐文化的思考

钢琴音乐文化作为一门新兴的交叉学科研究方向,在我国钢琴音乐研究领域尚处于起步阶段。文章从国内外"区域性"钢琴音乐文化和湖湘钢琴音乐文化的现状着手,探寻湖湘钢琴音乐文

期刊

湖湘文化钢琴音乐文化区域性传承交叉学科

例析国际生物学奥林匹克竞赛试题对核心素养的培养

本文以一道国际生物学奥林匹克竞赛遗传题为例,分析该试题如何考查学生能力,对我国编制基于核心素养的试题试卷提供启示。

期刊

核心素养国际生物学奥林匹克竞赛试题例析

医院物业调研报告:疫情下的服务创新与价值再造

一、前言医院后勤是医院管理的重要组成部分,后勤服务社会化是经济和社会发展的客观要求,也是后勤改革与发展的必然趋势。近年来,医院物业服务从传统的“四保”,延伸至中央运

期刊

经济和社会发展创新与价值医疗废弃物后勤服务社会化医院物业医院后勤调研报告信息化

闵行区卫计委与申能能服公司签约共建“绿色医院”

2018年12月28日,上海市闵行区卫生和计划生育委员会与上海申能能源服务有限公司签署战略合作协议。当天,区中心医院和申能能源服务有限公司也同步签署了分布式项目能源管理合

期刊

上海市闵行区绿色医院能源服务合作协议医疗卫生计划生育管理合同既有建筑

基于语义的多Agent网构软件模型

以动态开放环境下的网构软件需求为切入点，基于多Agent体系架构的原理和方法，提出了一个动态、自适应的多Agent网构软件模型。利用本体语义来描述和表示网构软件需求和软件实体

期刊

语义网构软件多AGENT系统本体semantics intemetware multi-agent system ontology

再制造闭环供应链产品回收合作模式研究

研究了闭环供应链纵向合作回收的模式选择问题。构建了制造商成本分担和任务分担两种合作回收下的供应链博弈模型。分别求解得到非合作模式、成本分担以及任务分担三种模式下

期刊

闭环供应链再制造合作回收成本分担任务分担

一种基于κ-最近邻的无监督文本分类算法

与本文相关的学术论文